“大数据”是什么?要回答这个问题首先要看看数据是怎样产生的。
在信息化时代里,我们每个人都在贡献数据。上网、打电话、发短信、听歌、拍照片、发帖子、看视频,都会产生数据,就像涓涓细流汇聚成江河湖海,“大数据”出现了。
近年来,数据大爆炸的速度快得惊人。马云曾感慨地说:“大家还没搞清PC的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”
大数据时代来得太快,以至于人们对大数据的定义都有N多种。
按照美国国家标准与技术研究院发布的研究报告的定义:“大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的世界中呈现出数据泛滥的常用词语。大量数据资源为解决以前不可能解决的问题带来了可能性。”
按照业界权威高德纳咨询公司的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”
根据百度百科词条的定义:“大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”
“大数据”到底有多大?目前通行说法,“大数据”至少要达到PB量级。其中,1 PB=22.3万张DVD光盘的容量,相当于800个人类大脑记忆总量,或90个人身体细胞数目总和。1 PB的MP3歌曲可以连续播放2000年。
美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。全世界的工业设备、汽车、电表等设备上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生着海量的数据信息。
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“163大数据”才成为互联网信息技术行业的流行词汇。
如今,大数据技术可以帮助人们做很多以前做不到的事情。比如,国外某警察局利用大数据预测犯罪的发生几率,可以精确到街区500平方英尺的范围内,有针对性地预防,从而使该地区犯罪率明显下降;某统计学家利用大数据预测总统选举结果;某大学利用手机定位数据和交通数据建立城市规划等。
大数据时代,海量的数据已经成为一种“矿藏”。据测算,三年前,2011年全球大数据产值51亿美元;预计三年后,2017年全球大数据产值将达到534亿美元。目前大量“掘金者”在数据的海洋里挖掘、采集、提炼、分析,从而得出有价值的信息提供给政务的、商务的以及各个领域的买家,从而形成了大数据产业生态圈。
“书同文,车同轨。”任何新兴产业要健康发展,首先要尽快建立大家共同遵守的标准。
目前国内外大数据标准化工作已经起步。全国信标委已经对标准化工作进行梳理,从基础技术、产品、应用等不同角度进行分析,形成了大数据标准体系框架,并发布了《大数据标准化白皮书》。