一文看懂大数据的四十年发展史

一只科技鲜枣 2024-11-27 04:51:42

引言:世上本没有大数据。数据越来越多了,也就有了大数据。

█ 1980-2000:早期探索阶段

1980年,美国科技记者阿尔文·托夫勒(Alvin Toffler)出版了自己的著作——《第三次浪潮(The third wave)》。

在书中,阿尔文·托夫勒对人类的文明发展史进行了大胆的断代。他认为,人类历史上一共经历了两次文明浪潮的洗礼:第一次是耗时数千年的农业文明革命,第二次是18世纪60年代开始的工业文明革命。

他进而提出,随着信息技术的发展,人类将要迎来第三次浪潮,也就是信息化革命。在这次浪潮中,“工业主义灭亡,新文明崛起”。

阿尔文·托夫勒的观点,在当时引起了极大的震撼,影响非常深远。这本书出版后,被翻译成三十多种文字,发行量超过一千万册,是史上发行量最大的未来学书籍。他本人,也被世人称为现代最有影响力的“未来学家”之一。

阿尔文·托夫勒

那么,阿尔文·托夫勒与《第三次浪潮》,和本文主题——大数据,有什么关系呢?

关系很大。因为,大数据这个概念首次出现,就是在《第三次浪潮》中。

阿尔文·托夫勒在书中提出了很多大胆的预言。而大数据,就是其中之一(其它还包括跨国公司、无纸化办公、产消合一等)。他非常肯定地指出,“数据就是财富”。而大数据(Big Data),将是“第三次浪潮的华彩乐章”。

阿尔文·托夫勒对数据价值的认知,确实是非常超前的。要知道,那时候才1980年,PC刚刚出现,硬盘仍处于MB级,人类的数据规模并不算大。风起云涌的信息技术浪潮正在起步,而阿尔文·托夫勒却已经看到了未来。

进入90年代后,随着互联网的诞生和爆发,信息革命进入了全新的阶段。越来越多的人开始购买计算机,访问互联网。也有越来越多的科研机构和企业开始上线IT系统,推动自身的信息化转型。

随着信息化的逐渐深入,人们开始发现,研究、生产和业务环节产生的数据越来越多,逐渐对IT系统形成了压力。

90年代中期,诺贝尔奖获得者吉姆·格雷(Jim Gray)指出:大数据的挑战将会首先来自科学,而非商业。

1997年10月,在IEEE会议上,美国宇航局(NASA)研究员迈克尔·考克斯(Michael Cox)和戴维·埃尔斯沃斯(David Ellsworth)发表论文提到:在模拟飞机周围的气流的过程中,产生了极为庞大的数据集,给主存储器、本地磁盘和远程磁盘带来了巨大负担。

他们将这个问题,称之为“大数据问题”。

论文首页

无独有偶,1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey),在一个国际会议上发表了题为“大数据与下一波计算浪潮(Big Data and the Next Wave of Computing)”的演讲,也提到了类似问题。

约翰·马西指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题。他同样采用了“大数据”这一概念,来描述这些挑战,引起了业界的广泛关注。

数据的规模在不断膨胀,人类的存储技术和计算技术已然跟不上数据增长的步伐。业界意识到,数据的价值是无法估量的,而我们必须拥有更强大的技术,去挖掘数据中的这些价值。

█ 2000-2012:全面爆发阶段

到了21世纪,围绕大数据的理论探讨仍在继续。

2001年,麦塔集团(META Group,后被Gartner收购)的分析师道格·兰尼(Doug Laney)将大数据定义为三个以“V”开头的单词,即:Volume(体量大)、Velocity(速度快)和Variety(种类多)。

“3V”理论后来被广泛接受,并成为描述大数据特征的标准。再后来,在“3V”的基础上,业界又演变出了“4V”、“5V”,甚至“7V”,包括:Veracity(真实性)、Value(价值密度)、Variability(变异性)、Visualization(可视性)等。

道格·兰尼

2002年,在经历了“911”袭击之后,美国政府曾计划整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。

虽然后来美国政府停止了这一项目(涉嫌侵犯公民隐私),但这算是人类大数据系统建设的一次早期尝试。

21世纪初期,互联网已经形成非常庞大的规模。社交网络的崛起、电子商务的普及、社会政府和企业的信息化升级……各式各样的互联网行为,产生了更多的数据,这使得海量数据的存储和管理变得更具挑战。

2003年至2006年,搜索引擎公司谷歌(Google)接连发布了三篇重量级论文,推出了GFS、MapReduce、BigTable,开创了大数据时代的新纪元。

2006年,雅虎工程师道卡廷(Doug Cutting)根据Google的论文,开发了后来大名鼎鼎的大数据框架系统——Hadoop。

道卡廷

大数据的技术根基,算是初步完成了。这为后来大数据技术和应用的腾飞,创造了必要条件。

再后来,大数据终于进入了发展的快车道。越来越多的政府和企业,开始加大对大数据的研究和投入,也初步建立起一些大数据系统。

2009年1月,印度政府宣称,将建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配数字ID号码,将数据汇集到世界最大的生物识别数据库中。

2009年5月,美国奥巴马政府正式推出了联邦数据和国家资源库网站(Data.gov)。这个网站是美国“开放政府”承诺的关键部分。它按照原始数据、地理数据和数据工具三个门类,开放了数十万项数据,涵盖了农业、气象、金融、就业等大约50个门类(截止2012年)。

奥巴马本人在竞选中也使用了大数据技术

后来,美国政府还和印度政府合作,搞了个开源政府平台,把Data.gov给开源了。

在大数据系统建设上,联合国也有动作。

同样是2009年,为了应对全球金融危机,时任联合国秘书长潘基文提出创建警报系统,分析“实时数据带给贫穷国家经济危机的影响” 。联合国还成立了项目,研究了如何利用手机和社交网站的数据源来分析预测市场价格以及传染病。

在商业领域,包括沃尔玛等大公司,也开始研究建立大数据系统,帮助商业营销和推广。

同一时期,学术界对大数据的研究又进入了新的高度。

2008年,计算社区联盟(Computing Community Consortium)发表白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,详尽阐述了大数据对社会治理的推动作用,及其潜在的商业价值。围绕大数据的讨论,开始全面升温。

2010年,肯尼斯·库克耶(Kenneth Cukier)在《经济学人》上发表了长达14页的大数据专题报告《数据, 无所不在的数据(Data, data everywhere)》,对大数据时代趋势提出了深刻洞见。

肯尼斯·库克耶

他表示:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。”

2011年5月,全球知名咨询公司麦肯锡发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域(Big data: The next frontier for innovation, competition and productivity)》。

报告指出:“大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

2012年,维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)及肯尼斯·库克耶(前面提到的那位)合著的《大数据时代》一书出版,将大数据这个概念推向了高潮。

大数据时代(中文版)

《大数据时代》被认为是全球大数据系统研究的先河之作,在社会上形成了非常大的影响力。这本书是国内很多人了解大数据的第一本读物。

作者在书中明确指出:“大数据带来的信息风暴正在变革人类的生活、工作和思维,并将引领整个时代的思维变革、商业变革和管理变革。”

同样是2012年,世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

从那时起,大数据逐渐成为家喻户晓的概念,并在各行各业快速普及。

█ 2012-现在:升级和转折阶段

最近的十几年,大数据技术的声浪似乎越来越小。这并不是因为大数据不再重要,而是因为这项技术已经走出了当年的炒作和喧嚣,逐渐进入了平稳发展期。

在政府治理、科学研究以及商业经营领域,大数据技术“润物细无声”,默默发挥着重要的作用。它不仅改变了我们处理和分析信息的方式,也为决策分析提供了重要的参考依据。

大数据相关的技术,在这一阶段发生了一些变化。

例如,UC伯克利AMP实验室开发的Spark,支持内存计算,性能远超MapReduce,逐渐成为行业新宠。

再例如,HBase、Cassandra等NoSQL(非关系型)数据库系统蓬勃发展,支持大规模数据存储和访问。NewSQL数据库的出现,结合了SQL(传统关系型)和NoSQL的优势,适用于需要处理大规模数据和高并发访问的场景,也受到了业界的追捧。

数据仓库、数据湖、湖仓一体的概念不断演进,围绕数据生产、数据聚合、数据分析和数据消费的整套大数据技术体系,变得越来越强大、完善。

更值得一提的是,AI人工智能的崛起,让数据的价值再次爆发。

大数据为人工智能提供了丰富的数据资源,而人工智能则通过先进的算法和技术从大数据中提取价值。作为AI三要素之一,数据(集)的质量,直接影响到AIGC大模型的能力表现。整个社会对数据的重视程度,进一步提升。

在应用大数据的过程中,人们也在想办法解决大数据所带来的挑战。

其中最主要的挑战,当然是隐私问题。

2014年5月,美国白宫发布了研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,但也提出:需要相应的框架、结构与研究,来保护个人隐私,确保公平、防止歧视。

2018年5月25日,欧盟出台了《通用数据保护条例》(General Data Protection Regulation,简称GDPR),是全球数据隐私保护的一个里程碑事件。继该条例之后,世界上许多国家都颁布了自己的数据保护立法。

█ 最后的话

好了,以上就是今天文章的全部内容。

四十多年的时间,大数据从无到有,从弱到强,已经充分证明了自己的价值,成为数字社会的重要组成部分。

未来,随着数字技术的不断进步,尤其是人工智能的不断发展,大数据的应用将更加广泛和深入,为各行业带来更多机遇和挑战。

真正的数据白金时代,正在加速向我们走来。

参考文献:

1、《他预见了第三次浪潮,还发明了“大数据”这个词》,吴晓波频道;;

2、《大数据的崛起:从数据积累到智能决策的变革》,新报观察;

3、《大数据发展现状与未来趋势》,梅宏;

4、《美国大数据研究与应用》,胡经国;

5、百度百科、维基百科等。

0 阅读:2

一只科技鲜枣

简介:感谢大家的关注