中国发展大数据产业需要拓展国际视野,借鉴国际经验, 他山之石,可以攻玉。
2012 年被认为是大数据元年。在这一年,美国奥 巴马政府推出了《大数据研究和发展计划》,启动了美国国家大数据战略;用户日志管理公司 Splunk 成功上市,成为大数据第一股。在随后的几 年中,大数据风潮席卷全球,技术、资本、人才趋 之若鹜,大数据产业出现了一波脉冲式的发展。从 全球经验来看,企业是大数据应用创新的主要力量, 政府为大数据产业发展提供了巨大支撑,开源社区 则为大数据技术进步营造了广阔空间。但是,与此 同时,鼓励数据价值发现之“鱼”和保护个人隐私 之“熊掌”两者不可兼得的法规矛盾变得越来越突出。
经 济 层 面
创造价值是大数据应用创新的源动力
利用大数据资源和技术创造更多价值,成为企业 开展大数据应用创新的源动力。围绕既有的资源禀赋 和竞争优势,企业进行着各种大数据产业创新,探索 出大数据背景下适合企业自身发展的路径。
一方面,传统 IT 硬件厂商积极向大数据基础设 施和大数据技术平台服务提供商转型。根据美国专 业分析机构 Wikibon 发布的报告,IBM 公司 2013 年从大数据相关产品及服务中获得了 13.68 亿美元收 益。其具体产品包括服务器与存储硬件、数据库软件、 分析应用程序以及相关服务,还有 DB2、Informix、 InfoSphere 数据库平台,Cognos 与 SPSS 等大数据 分析应用类产品。惠普公司在 2013 年获得的大数据营业收入总值为 8.69 亿美元,它还提供与之相关 的硬件、软件以及服务,其中最为知名的方案当数 Vertica 分析平台。
另一方面,诸多新型互联网企业成为数据资源的 集聚方,通过创新形成大量的数据产品服务于各类应 用场景。比如,eBay 公司用数据驱动商业,其所有的 数据产品都是针对业务而生,数据部门需要对不断变 化的用户需求找到解决之法,也就是从客户的行为数 据中寻找更多新价值。eBay 公司针对卖家工具提供的 Seller Hub,可以对每一位卖家进行深入分析,使卖 家了解哪些商品更畅销,产品如何标价才能具备竞争 优势等。再比如,Salesforce 公司是一家专注于 CRM
(用户关系管理)的公司,通过对用户数据分析挖掘 形成新的价值,是大数据在精准营销领域的典型应用。 Salesforce 公司在 2015 年的营业收入超过 50 亿美元。
据大数据行业分析师估计,到 2020 年,Salesforce公司有望成为一家市值达 1000 亿美元的公司。
技 术 层 面
开源社区是大数据技术进步的大生态
开源模式成为大数据技术创新的主要途径。从 大数据技术的发展历程上可以看出,大数据核心技术如分布式存储、云端分布式及网格计算均依赖于开源模式,即通过开放式的平台,吸引全球开发者通过开源社区进行代码的开发、维护和完善,从而集全球智 慧推动大数据技术的不断进步。当前,全球各大企业 加大了对开源社区的赞助和智力投入,开源社区在大 数据技术进步中占据核心地位。
一方面,由第三方打造的大数据技术开源平台 发挥了积极作用。Apache 软件基金会(ASF)是推动 大数据技术发展的全球顶级开源社区。ASF 正式创建 于 1999 年,至今已经成功孵化了众多大数据相关的 开源项目。ASF 大数据开源社区的创建过程是全球 大数据技术公司的集体智慧。其中,Apache Hadoop 技术的发展就是非常典型的例子。谷歌公司在 2003 年发布的关于谷歌文件系统(Google GFS)的论文 和 2004 年发布的关于编程模型 MapReduce 的论文是 Hadoop 的技术雏形。2005 年, 雅虎公司启动了 Nutch 项目,提供了一个专门的团队和资源将 Hadoop 发展成一个可在网络上运行的系统。到 2008 年 1 月, Hadoop 已成为 Apache 的顶级项目,并成为大数据发 展的技术标准。
另一方面,大数据领先企业也在围绕自身生态 打造技术开源社区。这些企业通过开源项目的方式推 动技术创新,并将创新成果通过开源方式向全社会辐 射,引导和推动大数据技术的发展,在国际上逐渐形 成了一套高效运转的研发产业化体系。开源提供了一 种高效生产软件的方法,降低了企业进入大数据应用 服务市场的壁垒,催生更多技术和服务应用的创新。 比如,Facebook 公司于 2013 年 11 月开源了 Presto 技术,该技术是新型分布式 SQL 引擎,它能够对各 种大小(从 GB 级至 PB 级)的数据源进行交互式的 分析查询。2015 年,Presto 社区的代码提交数量提 高了 48%, 而 fork 的数量则提高了 99%。Airbnb、 Dropbox、Netflix 等各大公司都开始使用 Presto 作 为交互式查询引擎。
Presto 在全球范围内的接受度也在逐步提高,包括来自日本的社交媒体游戏开发公 司 Gree,以及来自中国的电子商务公司京东都在使 用该技术。
政 策 层 面
政府战略是推动大数据产业发展的重要保障
完善的政策是当前大数据先行国家推广大数据应用的重要保障。在政府大数据战略部署和政策推动下, 发达国家的政府部门、企业、高校及研究机构都开始 积极探索大数据的应用。美国政府和欧盟成员国家都 对大数据发展持积极态度,但具体策略有所不同。
美国的大数据战略重在“以点带面”,通过公布重要部门的大数据项目规划,扶持重要领域的大数据技术研发,带动其他部门和社会各界对大数据技术的研发投入和推广应用。2009 年,美国国家科学技术委员会(NSTC)发布了《开发数字数据的威力》报告, 初步提出了发展大数据的框架、建议和目标。2012 年 3 月,奥巴马政府宣布启动《大数据研究和发展计划》,投入 2 亿美元进行大数据相关技术的研发。2013 年 5 月,奥巴马政府发布行政命令,加大政府 数据开放力度,以便更加有效地利用宝贵的公共数据 资源。2014 年 5 月,白宫行政办公室与总统科技顾 问委员会(PGAST)联合发布报告《大数据:抓住机遇, 保护价值》,从政策角度分析了大数据技术的发展对 社会带来的巨大影响。2016 年 5 月,白宫又发布了《联 邦大数据研发战略计划》报告,在已有基础上提出美国下一步的大数据发展战略。通过一系列的政策措施,美国大数据战略形成了跨部门协同工作的机制。 具体工作由 NSTC下设的“网络与信息技术研发计划”(NTTRD)分委员会负责,并专门设立跨部门高级别 协调工作组,参与部门多达 15 个,2016 年的工作预 算达到近 3 亿美元。
欧盟则强调政府“铺路打基础”的作用,突出政府在人才培养、基础设施建设、资金扶持、项目规划、合作环境搭建中的基础保障作用。2012年9月,欧盟进一步公布了《释放欧洲云计算服务潜力》战略方案,并向欧盟委员会和欧洲议会提交了《云计算发展战略及三大关键行动》建议。该战略计划通过两年时间,把欧盟打造成云计算服务的领先经济体,为 2014—2020年欧盟“云起飞”创造基础,让大数据技术革命渗透到经济社会的各个领域。到 2020 年,大数据技术为欧盟创造的GDP将达到9570 亿欧元, 增加就业人数 380 万。2015 年以来,欧盟力推的《数 据价值链战略计划》旨在用大数据改造传统治理模 式,大幅降低公共部门成本,并促进经济和就业增长。这一计划的重点是培育一个连贯的欧洲数据生态系 统,促进围绕数据的研究和创新工作,采用数据服务 及产品,采取具体行动,改善数据价值提取的框架条 件,包括基础能力、基础设备、标准以及有利的政策 和法规环境。目前,欧盟正在制定一系列重点行动计 划,解决数据价值链中与价值创造相关的大量交叉 问题。数据价值链战略计划包括开放数据、云计算、 高性能计算和科学知识开放获取四大战略。
法 规 层 面
隐私保护是大数据产业发展的难掩之伤
当前,各国对大数据产业创新给予支持的同时, 未能形成明确的监管法律来确定个人隐私在大数据 时代的法律边界,这造成了大数据行业发展的法律 监管“灰色地带”。一方面,以数据驱动的经济发展 模式是各国所向往的新经济形态,鼓励数据开放是 “鱼”;另一方面,数据价值挖掘背后是对个人隐私 权不同程度的侵犯,呼吁保护隐私是“熊掌”。但是, “鱼”和“熊掌”不可兼得。因此,我们经常看到, 各国政府在制定和实施隐私保护法规的时候,往往会 出现时紧时松、左右摇摆的现象。
美国是非常尊重个人隐私的国家,最早提出隐 私权概念,同时也是世界上互联网络技术最为发达 的国家,大力倡导网络信息自由。1966 年颁布的《信息自由法案》要求充分实现信息公开和开放,让公民 有足够的知情权;1986 年通过的处理网络隐私权保 护问题的重要法案《联邦电子通讯隐私权法案》强调 对个人隐私的保护。多种法律法规对行为主体的适用性会出现不一致的情况,所以美国政府砸保护网络隐私方面更偏重于采用行业自律的模式。在“9•11”事件之后,尤其是“棱镜门”事件之后,美国政府加强了对网络信息的管控,直到大数据产业兴起,网络数据管控才有所放松。随着以数据驱动的新经济模式的发展,个人数据隐私被侵犯的问题变得越来越严重。奥巴马政府时期,联邦通信委员会(FCC)颁布了《网络用户个人隐私保护法案》,不允许网络服务提供商(ISP)在未经用户同意的情况下买卖用户的个人数 据信息。但是,2017 年 3 月 28 日,美国众议院票决 宣布废除《网络用户个人隐私保护法案》。这标志着美国互联网政策将发生急剧变化,政策摇摆现象展现得淋漓尽致。不过,也有人将此解读为商业巨头的博弈,因为此次联合决议授权 ISP 进入原来由谷歌公司 和 Facebook 公司占据主导地位的在线广告市场。
欧盟在隐私保护方面更为保守,倾向于制定和 执行较为严格的隐私保护法规。 欧盟 1995 年通过了《数据保护指令》,为欧盟成员国立法保护个人 数据设立了最低标准。其后,2002 年颁布的《隐私与电子通信指令》要求网站告知用户启用 Cookie 及如何删除或作废 Cookie。2009 年颁布 的《欧洲 Cookie 指令》则要求网站在用户初始使用时必须关闭 Cookie,直到用户明确同意启用 Cookie 时才能 开启此功能。2015 年 12 月,欧盟执委会(European Commission)通过了《一般数据保护条例》(GDPR), 以欧盟法规的形式确定了对个人数据的保护原则和 监管方式。值得一提的是,《一般数据保护条例》还 提出了“被遗忘权”(Right to Be Forgotten), 即个人可以要求搜索引擎从包含“不相关”或者“过 期”个人信息的结果里移除链接。这种法律拘束性判 决现在不仅是欧盟法律的一部分,还延伸到覆盖各种 类型的个人数据。比如,个人可以要求 Facebook 公 司删除个人账户以及所有自己的活动相关的数据。
纵观全球大数据产业,当前尚处于初级阶段。 对于中国大数据产业来说,政府的战略支持和企业创 新能力都已经具备,但还没有形成成熟的大数据技术 开源社区。此外,为了保障大数据产业的有序规范发 展,相应的法律法规也是必不可少的。
本文作者:马慧民,上海大数据联盟常务副秘书长,经济学博士