●得大数据者得天下,是一些推崇大数据时代的变革者坚信不疑的判断。很多专家认为,在大数据时代,谁能有效地垄断数据,谁就有可能成为世界霸主。
●2009年爆发甲型H1N1流感病毒时,谷歌公司就是通过观察人们在网上搜索的大量记录,在流感爆发几周前,就判断出流感是从哪里传播出来的。
●大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。根据麦肯锡预测,如果具备相关的IT设施、数据库投资和分析能力等条件,大数据将在未来10年,使美国医疗市场获得每年3000亿美元的新价值。
2012年3月,美国奥巴马政府发起了《大数据研究和发展倡议》,将大数据定义为“未来的新石油”,称将斥资2亿美元用于大数据研究,以应对大数据革命正在带来的大机遇。据美国咨询机构Gartner预测,从现在起到2015年,大数据将会在世界范围内创造440万个工作岗位。
“大数据”,这一新兴概念,正在被赋予极其丰富的内涵,并被寄予特别巨大的希望……大数据时代,我们该如何寻找对策,迎接挑战?
人类正在迈入大数据时代
关于“大数据(Big Data)”,麦肯锡全球研究所在报告《大数据:创新、竞争和生产力的下一个前沿》中定义:大数据,是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。也有专家认为,大数据的“大”是指大型数据集,即数据量一般在10TB规模左右;多个用户把多个数据集放在一起,形成PB级的数据量;同时,这些数据又来自多种数据源,并以实时、迭代的方式来实现,即“大数据=海量数据+复杂类型的数据”。
我们正处在一个数据爆发增长的时代。移动互联网、移动终端和数据感应器的出现,使数据以超出人们想象的速度在快速增长。据国际数据资讯公司(Global Pulse)估测,数据数量一直在快速增加,每年增长50%,这个速度不仅是指数据流的增长,而且还包括全新的数据种类的增多。据统计,全球企业2010年在硬盘上存储了超过7EB的新数据,消费者在PC和笔记本电脑等设备上存储了超过6EB新数据,而1EB数据就相当于美国国会图书馆中存储数据的4000多倍。目前数据容量增长的速度,已经大大超过了硬件技术的发展速度,并正在引发数据存储和处理的危机。
有研究统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息。而现在,这样的数据量却仅需两天就能够被创造出来,且速度仍在加快。数据显示,2011年全球创建和复制的数据总量,就达到了1.8ZB(1ZB等于10的21次方比特),相当于全球每人产生300GB以上的数据。目前这个数字仍在快速增长,预计2020年,全球产生的数据量更将超过80ZB。由此可见,我们的确已经迈入了大数据时代。
世界各国加紧大数据布局
世界上许多国家都已经认识到了大数据所蕴含的重要战略意义,纷纷开始在国家层面进行战略部署,以迎接大数据技术革命,正在带来的新机遇和新挑战。
美国在《大数据研究和发展倡议》中,提出将通过收集庞大而复杂的数字资料,从中获得知识和洞见,以提升能力。并协助加速在科学、工程上发现的步伐,强化美国国土安全,转变教育和学习模式。根据这一计划,美国希望利用大数据技术实现在多个领域的突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等。其中具体的研发计划涉及了美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6个联邦部门和机构。
英国政府2012年计划在未来两年内,在大数据和节能计算研究上投资1.89亿英镑,以带动企业在该领域的投资。大数据被英国看作是自己的优势所在,且英国认为已在政府层面,为大数据做好了准备。
法国政府宣布将在2013年投入1150万欧元,用于7个大数据市场研发项目。目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。”法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,“大数据”就是其中一项。
日本在2012新一轮IT振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术,如社会化媒体等智能技术的开发、新医疗技术的开发、以及交通拥堵治理等公共领域的应用。
此外,加拿大、新西兰、德国和印度等国也在大数据领域进行了研究部署,还纷纷推出本国的公共数据开放网站,以使更多的人可以使用大数据资源,并从中获得利益。目前,全球已经拥有大大小小的数据开放网站50余个。
大数据将给世界带来巨大冲击
“大数据资源”成为重要战略资源
互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,“大数据”,也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。
很多专家认为,在大数据时代,谁能有效的垄断数据,谁就有可能成为世界的霸主。2006年,微软以1.1亿美元的价格,购买了大数据公司Farecast。2008年,谷歌则以7亿美元的价格,购买了为Farecast提供数据的ITA Software公司。
“大数据安全”上升为国家安全
传统意义上的国家安全,是指军队对国家领土安全的保护,是国家之间军事实力的较量。但在互联网高度发达的大数据时代,网络变成了几乎是透明的虚拟世界,也因此使国家安全的环境和内涵发生了极大的变化,对大数据的安全保存、防丢失和防破坏等问题,成为我们必须要面对的安全难题。大数据安全,已经上升成为国家安全的重要组成部分。
在大数据时代,数据安全的威胁随时都有可能发生。各种国家信息基础设施和重要机构所承载着的庞大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标。
此外,大数据也为网络恐怖分子提供了新的资源支持,有可能使恐怖分子通过网络侵入到人们工作生活的方方面面,并通过威胁、攻击、破坏,瘫痪民用或军事基础设施等手段,达到其制造心理恐慌和财产损失,威胁国家安全和社会安全的目的。
“大数据决策”成为一种新决策方式
依据大数据进行决策,从数据中获取价值,让数据主导决策,是一种前所未有的决策方式,并正在推动着人类信息管理准则的重新定位。随着大数据分析和预测性分析对管理决策影响力的逐渐加大,依靠直觉做决定的状况将会被彻底改变。
2009年爆发的甲型H1N1流感病毒,谷歌公司就是通过观察人们在网上搜索的大量记录,在流感爆发的几周前,就判断出流感是从哪里传播出来的,从而使公共卫生机构的官员获得了极有价值的数据信息,并做出有针对性的行动决策,而这比疾控中心的判断,提前了一两周。美国的Farecast系统,它的一个功能就是飞机票价预测,它通过从旅游网站获得的大量数据,分析41天之内的12000个价格样本,分析所有特定航线机票的销售价格,并预测出当前机票价格在未来一段时间内的涨降走势,从而帮助虚拟乘客选择最佳的购票时机,并降低可观的购票成本。
“大数据应用”促进信息技术与各行业深度融合
有专家指出,大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。
在医疗与健康行业,根据麦肯锡预测,如果具备相关的IT设施、数据库投资和分析能力等条件,大数据将在未来10年,使美国医疗市场获得每年3000亿美元的新价值,并削减2/3的全国医疗开支。
在制造业领域,制造企业为管理产品生命周期将采用IT系统,包括电脑辅助设计、工程、制造、产品开发管理工具和数字制造,制造商可以建立一个产品生命周期管理平台PLM(Product Lifecycle Management),从而将多种系统的数据集整合在一起,共同创造出新的产品。
此外,在交通、能源、材料、商业和服务等行业领域,甚至在新闻传媒领域,也都在以大数据为发展契机,加速这些行业与信息技术的深度融合。
“大数据开发”推动新技术和新应用不断涌现
大数据的应用需求,是大数据新技术开发的源泉。在不久的将来,也许很多原来单纯依靠人类自身判断力的领域应用,最终都将被计算机系统的数据分析和数据挖掘功能,所普遍改变甚至取代。一小片合适的信息,也许会促使创新迈进一大步;一组数据,也可能会得到数据收集人难以想象的应用,甚至可能在另一个看起来毫不相关的领域得到应用。借助这些创新型的大数据应用,数据的能量将会层层被放大。
“语义网(Semantic Web)”,也称为下一代互联网,实际上就是“数据网”(Web of Data)。语义网是一个全球的数据库网,在这个数据库网中,计算机可自动为用户搜寻、检索和集成网上的信息,而不再需要搜索引擎。大数据时代正在催生的这个最大的技术变革,就是要重新构造互联网,打造出下一代互联网。
数据安全管理是最大风险
大数据时代的来临,对中国来说面临安全管理能力、存储及处理能力、应用能力和人才培养能力等多方面的新挑战。
大数据的安全管理能力挑战。数据安全管理问题,是我国应用大数据面临的最大风险。虽然将海量数据集中存储,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。有专家指出:由于新技术的产生和发展,对隐私权的侵犯已经不再需要物理的、强制性的侵入,而是以更加微妙的方式广泛衍生,由此所引发的数据风险和隐私风险,也将更为严重。
当前,我国对大数据的保护能力还十分有限,数据被恶意使用的现象仍然难以掌控。我国个人和企业对于数据资源的保护意识,还比较薄弱。随着电子商务、社交网络、物联网、云计算、以及移动互联网的全面普及,我国数据资源与全球的数据资源一样,正在呈现爆发性、多样性的增长态势。但是,由于对数据保护认识的不足,以及对个人电脑安全防护的不当,个人或企业的隐私数据暴露在互联网上的现象十分普遍。2011年,我国最大程序员网站的600万个人信息和邮箱密码被黑客公开,进而引发了连锁的泄密事件。2013年,中国人寿80万客户的个人保单信息发现被泄露。这些事件都凸显出在大数据时代,信息安全管理所面临的、前所未有的挑战。
大数据的存储及处理能力挑战。当前,我国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。我国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。
在大数据存储方面,数据的爆炸式增长,数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,对数据展现的要求更高。而目前我国传统的数据库,还难以存储如此巨大的数据量。在大数据的分析处理方面,由于针对具体的应用类型,需要采用不同的处理方式,因此必须通过建立高级大数据的分析模型,来实现快速抽取大数据的核心数据、高效分析这些核心数据并从中发现价值,而这些数据分析能力我国还很欠缺。
因此,如何提高我国对大数据资源的存储和整合能力,实现从大数据中发现、挖掘出有价值的信息和知识,是当前我国大数据存储和处理所面临的挑战。
大数据的应用能力挑战。我国拥有庞大的人口资源和大数据应用市场,市场复杂度高且变化多端,使我国成为世界上最复杂的大数据国家。我国互联网用户,通过利用互联网上的海量数据来提升自身的商业价值和科研价值。我国企业用户,也已积累了大量的数据信息资产,如产品数据、运营数据和价值链数据等。随着我国企业信息化系统的深入部署和逐步完善,大数据应用能力所引发的商业模式的改变,将直接影响我国企业的竞争能力。
在政府决策方面,当前我国政府部门的数据规模还很小,多数仍集中在对结构化数据的应用上,而对于非结构化数据的利用则几乎为空白。利用数据分析来支撑政府决策,我国做得还很不够。从认识到“大数据能产生价值”,到实现了“从大数据中找到价值”,再到“有效使用大数据产生的价值”,政府目前也只是刚刚起步。当前,如何收集数据、使用数据、开放数据、管理数据和利用数据来支撑决策,是我国面临的又一新挑战。
大数据的人才培养能力挑战。大数据领域技术人才和商业人才的缺乏,是一个全球性的问题。根据麦肯锡的一项研究显示,仅美国每年就有14万到19万名数据科学家的缺口,预计到2018年将达到44万到49万,而数据科学家则更是严重缺乏。
我国大数据分析专业人才缺口究竟有多大,有专家粗略估算至少需要100万人。当前,具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家,在我国尤为奇缺。目前,我国初级的分析人员只能对数据进行简单的报表和进行描述性分析,而随着未来大数据应用的不断增长,我国大数据人才储备不足的问题将更加严重。因此,培养能够解决大数据问题所需的人才,包括培养大数据分析人才和管理人才,是我们需要面对的又一紧迫问题。
(作者单位:中国科学技术发展战略研究院)