大数据开放的价值与隐忧
2012-07-10   作者:石剑峰  来源:东方早报
 
【字号

  涂子沛,知名专栏作家、信息管理专家,毕业于华中科技大学。赴美留学前,曾做过职业程序员,担任过公安边防巡逻艇的指挥官,也从事过政府统计工作,现居美国匹兹堡,是美国某软件公司数据中心的主任。

    ■ 《大数据》作者涂子沛谈不可阻挡的大数据浪潮
  小数据时代,可以研究个体但不能研究群体,因为只有关于个人的数据。而在大数据时代,人的行为都以数据形式存在,这里面就有很多商机。

  从中国的边防警到美国的软件公司数据中心主任,20年来,涂子沛的工作一直跟数据处理有关。他在最近由广西师范大学出版的《大数据:正在到来的数据革命》(下称《大数据》)一书中,以美国半个多世纪以来的信息开放、技术创新历史为例,谈在这个大数据时代,政府该如何推动信息公开,企业在其中有何商机,数据创新给民众、政府、社会带来的种种挑战和变革。昨晚,涂子沛在上海以“不可阻挡的大数据浪潮”为题与读者见面,并接受了专访。
  大数据是与云计算同时兴起的一个商业概念,从谷歌到腾讯,过去一年他们都在谈大数据能带来的商机。何为大数据?涂子沛有过一个简单的描述:“什么叫大数据,简单理解就是超大量的数据。到底多大才算大呢?我们一般认为按π为单位的数据就是大数据。π下面的单位就是G,一部电影大约一个G,一π就等于1024个G。你乘上π,1000多部电影那就算大数据了。我们再举个形象的例子,现在美国国会图书馆是比较大的图书馆,所有的印刷品如果输入电脑的话,它才是几十个π,基本上人类的知识要是全部放在电脑里,也就是按π为单位。”
  在这本《大数据》里,涂子沛要讨论的是,大数据时代能够帮助我们走向更自由的社会。因为信息社会最重要的资产是信息,信息的产生、信息的使用、信息的整合,这都是信息社会最重要的生产活动。

    用数据说话,别用数据说谎

  问:在全世界,哪个公司或哪个机构拥有最多的数据?
  涂子沛:
我在书中有一个图表,是2009年美国各行业数据存储量对比,其中排在第一位的是制造业企业,第二位的就是政府。我们说数据帝国的兴起,美国联邦政府首先就是一个数据帝国,它拥有前所未有的数据。当然Google、Facebook也有大量数据,但只是其中一个公司。我们有一个错觉,仅仅把互联网数据当作数据,这是不全的。

  问:所以这本书最重要的主题是,推动政府开放数据?
  涂子沛:
数据开放运动为什么在政府部门开启?技术的开放是一步步的,最早的开放是代码开放,形成了1990年代的开源运动。这在当时有很大的争议,比尔·盖茨就曾反对代码开放,但最后代码开放都被接受了,大家也都在用开源软件。软件由两部分组成,一部分是代码,一部分是数据,开放完了代码,接下来就是开放数据。开放代码发生在私营企业中,开放数据则要看谁拥有最多数据,当然是政府。那么政府开放数据,首先开放什么?当然是公共财政支出的数据。这种情况已经在英、美出现。
  相比商业企业,为什么政府要推动大数据开放,因为企业的数据是零散的、案例性质的。大数据从三个层面发生影响:商业、政府和个人生活。因为政府拥有最多数据,应该首先开放。奥巴马在美国推行数据开放运动,在全世界掀起一个数据开放浪潮。大数据要发挥作用,不仅是收集、挖掘,目前最重要的是开放。大数据可以从很多角度去谈,我也谈到了大数据怎么起源的,但我最关注的是,大数据真正要发挥作用是要开放,否则就不会产生价值。开放谁来推动?那就是政府。

  问:政府拥有那么多数据,但很多是不能开放的。如何界定哪些数据可以开放?
  涂子沛:
这里有两条标准,首先是这些数据不能侵犯国家安全,其次是不能侵犯个人隐私。比如最先开放的内容之一,有政府福利项目支出数据,但开放时上面的名字都会抹掉。

  问:如何让我们相信数据?
  涂子沛:
我之前有个讲演,就是用数据说话,别用数据说谎。很多报告里都有数据,但通常的情况是,这些数据常常成为说谎的工具,成为任人打扮的小姑娘。现在经常会出现的情况是,孤立地解释数据。合理地来说,我们不仅仅是要公布一个数据,还要公布数据的来龙去脉,一个数据可以复制才是站得住脚的。只公布一个数据是不够的,还要求数据背后的数据公布。一个公布的数据是很难判对错的,数据之间要互证才可以避免伪造。这就是数据开放的价值。不只是要公布一个孤立的GDP,更要开放整个数据,可以让所有人自己去算这个GDP数据怎么来的。

    用数据提高生产力

  问:大数据开放的商机在哪里?
  涂子沛:
我们讲到数据开放,首先想到的是知情权和政府透明,但这只是一方面。现在推进数据开放,不再只是政府监督方面,而是要看是否有商业价值,如何用这些数据推进生产?大数据时代标志着人类向知识时代的迈进。美国的数据开放运动,从数据中整合、发现新的知识,成为经济发展的动力。比如沃尔玛,在数据挖掘中发现,一来飓风某些产品就会脱销,那么他们就去看飓风按照哪些线路走,沿着飓风路线的那些沃尔玛超市,就会把相应的商品调高仓储量。
  在这个时代,因为大数据的存在,人的行为是可以研究的。以前,小数据时代,可以研究个体但不能研究群体,因为只有关于个人的数据。而在大数据时代,人的行为都以数据形式存在。这里面就有很多商机。通过研究消费者习惯,可以找到很多市场商机。就算在企业运营中,优化才能提高效率,减少成本,优化就要基于数据。产品也离不开数据,产品质量控制就是以数据为支持的。大数据最根本的,就是促进经济的发展,知识时代的特点就是信息和数据的整合产生新的价值。

  问:为什么直到现在,大家才开始谈数据的商机?
  涂子沛:
因为直到现在才有那么多数据可供研究。以前,保存数据很贵,现在很便宜;第二,以前收集不到那么多数据,现在每个人在互联网上的行为都可以记录下来。现在数据库就是资产,如果有数据,就能掌握我的用户。所以麦肯锡说,大数据是下一个创新、竞争、生产力提高的前沿。数据就是一种生产资料。

  问:我们在互联网上留下那么多踪迹和数据,谁是数据的拥有者呢?
  涂子沛:
在数据开放运动中,英国提出了一个数据权问题。个人的数据该由个人做主。你在超市购物,你会在那里留下大量消费记录。英国的做法是,每个消费者登录网站是可以看到自己的消费记录的。谷歌在英国也签了协议,要开放相关的数据。谷歌已经开放了一部分。你的数据是你的,你是有权利看的。那政府的数据更有义务去看了,因为你的数据是拿着纳税人的钱去收集的。这些是公共数据,本来就是公共资产。
  数据开放之后,是面向社会大众的开放。任何人都可以使用,只要有能力都能创造新的商机。产生的新知识都是由精英垄断,但现在每个人都可以接触这些数据,谁都可以做这些事情。

  问:但这只是一种理想,你的消费记录,你的互联网记录,其实已经随意泄露。
  涂子沛:
信息时代,我个人能不能决定怎么发布数据,什么时候开放,什么时候修改,但现在已经失控了。无论是在美国还是中国,尤其是在中国,隐私权非常薄弱,个人信息被随意买卖。

  问:个人留下的数据越多,它对你的掌握就越容易。大数据会成为老大哥吗?
  涂子沛:
大数据是老大哥,这是不可避免的。美国想建中央数据银行,把每个人从出生到坟墓的记录整合起来,后来很多组织反对。经过许多博弈,美国政府还是放弃了,但对政府来说,他们很想建立这样一个“银行”。

  凡标注来源为“经济参考报”或“经济参考网”的所有文字、图片、音视频稿件,及电子杂志等数字媒体产品,版权均属经济参考报社,未经经济参考报社书面授权,不得以任何形式刊载、播放。
 
相关新闻:
· 新华读书“六月十大好书”揭榜 2012-07-09
· 《读书很好》 2012-07-09
· 牵手"三秦书月青年读书节" 2012-05-14
· “2012读书盛典”电视晚会举办 2012-05-08
· 世界读书日 让读书成为干部第一爱好 2012-04-23
 
频道精选:
·[财智]诚信缺失 家乐福超市多种违法手段遭曝光·[财智]归真堂创业板上市 “活熊取胆”引各界争议
·[思想]夏斌:人民币汇率不能一浮了之·[思想]刘宇:转型,还须变革户籍制度
·[读书]《历史大变局下的中国战略定位》·[读书]秦厉:从迷思到真相
 
关于我们 | 版权声明 | 联系我们 | 媒体刊例 | 友情链接
经济参考报社版权所有 本站所有新闻内容未经经济参考报协议授权,禁止转载使用
新闻线索提供热线:010-63074375 63072334 报社地址:北京市宣武门西大街57号
Copyright 2000-2010 XINHUANET.com All Rights Reserved.京ICP证010042号