大数据的3V、4V、7V，到底是什么意思？

大数据，顾名思义，就是大量的数据。

更专业来说，大数据，是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合。

我们通常说：“量变引起质变”。大数据，就属于这种情况。

当数据体量增加到一定程度时，相关技术、理念、思维等，都随之发生质变，从而形成了一个新的领域，这就是大数据领域。

大数据，通过对海量数据的采集、分析和处理，寻找其中的特征和趋势，提炼更多的高价值信息，用于改善业务流程，或者辅助决策行为。

在大数据领域，我们经常看到一些关于3V、4V、7V的说法。这些V，到底是什么意思呢？

今天这篇文章，小枣君就简单给大家介绍一下。

█ 3V、4V、7V的来源

2001年，美国麦塔集团分析师道格·兰尼（Doug Laney）在对大数据进行理论研究的时候，发现大数据具备三个特征。而这三个特征的英文单词，恰好又以字母“V”开头，即：

Volume（体量大）、Variety（多样化）、Velocity（速度快）。

后来，“3V”这个特征理论，逐渐被业界所接受，成为描述大数据特征的标准。

再后来，在“3V”的基础上，业界的一些专家们又陆续提出了“4V”、“5V”，甚至“7V”，包括：

Veracity（真实性）、Value（价值密度）、Variability（变异性）、Visualization（可视性）等。

所有这些V，就变成了对大数据特征的新定义。

接下来，我们就分别看看，这些“V”具体是什么意思。

█ No.1 ：Volume（体量大）

大数据，到底有多大？

我们传统PC和手机处理的数据，是GB/TB级别。例如，我们的硬盘，现在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系，大家应该都很熟悉了：

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢？PB/EB级别。

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话，貌似不是很直观。我来举个例子吧。

1TB，只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐，或者是20万部电子书。

1PB，需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐，可以听差不多两千年。

1EB，需要大约2000个机柜的存储设备。如果并排放这些机柜，可以连绵1.2公里那么长。如果摆放在机房里，需要21个标准篮球场那么大的机房，才能放得下。

阿里、百度、腾讯这样的互联网巨头，数据量据说已经接近EB级。

数据中心

EB还不是最大的。目前全人类的数据量，是ZB级。

1 ZB = 1024 EB (ZB - zettabyte)

根据IDC的数据，在2020年，全球创建、捕获、复制和消耗的数据总量约为64ZB。而到了2025年，全球数据总量可能会达到惊人的163ZB。如果建一个机房来存储这些数据，那么，这个机房的面积将比196个鸟巢体育场还大。

人类社会的数据体量不仅大，增长速度也很快——每年增长50%。也就是说，每两年就会增长一倍多。

数据的增长，为什么会如此之快？

说到这里，就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段，是1940-1990年。

计算机和数据库被发明之后，数据管理的复杂度大大降低。各行各业开始产生了计算机数据，并记录在数据库中。这时的数据，以结构化数据为主（待会解释什么是结构化数据）。数据的产生方式，是被动的。

第二个阶段，是1990-2010年。

伴随着互联网的爆发，网络内容开始迅速增长，增加了很多的专业输出内容（PGC）。Web2.0出现后，人们开始使用博客、facebook、youtube这样的社交网络，输出大量的用户原创内容（UGC），从而主动产生了大量的数据。移动智能终端时代的到来，也加速了该阶段数据的产生。

第三个阶段，是2010年至今。

随着物联网的发展，各种各样的感知层节点（例如遍布各个角落的传感器、摄像头）开始自动产生大量的数据。企业的数字化转型，构建了大量的系统，沉淀和管理这些数据。人类的数据总量，再次跃升。

经过了“被动-主动-自动”这三个阶段的发展，最终导致了人类数据总量的爆炸式膨胀。

值得一提的是，如今，随着我们逐渐进入AI智能时代，很可能会迎来第四次数据暴增阶段。以AIGC为代表的智能机器生产内容，正在急剧增加。

█ No.2 ：Variety（多样化）

多样性主要体现在三个方面——数据来源多、数据类型多和数据之间关联性强。

数据来源多：

如前面所说，数据来源于不同的应用系统和设备。

例如，企业所产生的营销数据、业务系统数据、生产数据等，互联网行业所产生的社交内容数据、订单数据、用户数据等，政府部门所产生的社会治理数据、地理数据、经济数据等。

数据类型多：

数据又分为结构化数据、非结构化数据和半结构化数据。

结构化数据，是指可以用预先定义的数据模型表述，或者，可以存入关系型数据库的数据。例如，一个班级所有人的年龄、一个超市所有商品的价格，这些都是结构化数据。

结构化数据

而网页文章、邮件内容、图像、音频、视频等，都属于非结构化数据。

半结构化数据，介于结构化和非结构化数据之间。如XML、JSON等格式的数据，它们有一定的组织形式，但不如结构化数据那样严格。

目前，非结构化数据的占比是最高的。例如，在互联网领域里，非结构化数据的占比已经超过了80%。

数据之间关联性强：

数据与数据之间，有一定的关联性，而且频繁交互。

例如，游客在旅游途中上传的照片和日志，就与游客的位置、行程等信息有很强的关联性。

█ No.3 ：Velocity（速度快）

这个特性，指的是大数据的产生速度快、处理速度快、传播速度快。从数据的生成到消耗，时间窗口非常小。

数据产生速度快，体现在生产生活中的方方面面。

我们还是用数字来说话：

就在刚刚过去的这一分钟，数据世界里发生了什么？

Email：2000万封被发出

Google：380万次搜索请求被提交

Youtube：2100分钟的视频被上传

Facebook：69.5万条状态被更新

12306：9000张车票被卖出

……

怎么样？是不是瞬息万变？

数据处理速度快，体现在大数据可以在实时分析和决策需求的推动下，通过实时处理、并行处理等方式，快速对所产生的数据进行处理。

这就要求大数据系统具备高并发、低延迟的能力。举例来说，大数据所采用的流式处理技术，能够在数据不断产生的同时进行实时处理，确保系统能够及时获取并利用最新的信息。

数据传播速度快，体现在大数据与以往的档案、广播、报纸等传统数据载体不同。大数据的交换和传播，是通过互联网等方式实现的，远比传统媒介信息交换的传播速度快。

█ No.4 ：Veracity（真实性）

数据很多，但也要真实才行。

大数据的真实性，指的是数据的质量和可信度。

在大数据环境中，由于数据来源广泛且多样，就会导致容易出现错误、冗余和不一致的数据，进而影响到最终分析的准确性和可靠性。

确保大数据的真实性，需要采用数据清洗、元数据管理、数据治理等手段。

此外，随着技术的发展，越来越多的技术工具和服务被开发出来，用于对大数据真实性的管理和优化。例如数据验证工具、自动化的数据清理流程、先进的统计方法用于检测异常值等。

█ No.5 ：Value（价值密度）

大数据的数据量很大，但随之带来的，就是价值密度很低。数据中真正有价值的，只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌，也许数十TB的视频文件，真正有价值的，只有几秒钟。

例如，2014年美国波士顿爆炸案，现场调取了10TB的监控数据（包括移动基站的通讯记录，附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料），最终找到了嫌疑犯的一张照片。这张照片的价值，毋庸置疑。

大数据中包含很多低价值的信息，而且，信息碎片化的情况严重。因此，需要通过深度分析和挖掘，才能发现有用的内容。

数据挖掘、机器学习和人工智能等技术，正在逐渐提升数据分析和挖掘的效率，帮助人们从低价值密度的数据中提取高价值的信息。

█ No.6 ：Variability（变异性）

不要怕！这里的变异，并不是生化危机。

大数据的变异性，指的是数据在处理过程中可能发生变化的能力，也可以理解为数据的动态性、不确定性。

变异性包括几个方面：

数据分布的不均匀性。

大数据集合可能包含来自不同来源、不同时间、不同地点的数据，这使得数据的分布呈现出不均匀性。不同的子集，可能具有不同的统计性质。在数据分析和建模时，需要考虑这个因素。

数据的动态性。

大数据往往是动态变化的，尤其是实时场景（例如股价）。变化速度，也从以前的秒级，变成了现在的毫秒级，甚至更短。这就要求大数据系统和技术必须能够适应这个动态变化的特性。

数据质量的波动。

前面说了，大数据中可能包含大量的噪音、异常值和错误。这些负面因素，也可能随时间变化，导致数据质量出现明显波动。

环境因素的影响。

大数据的变异性，还可能受到环境因素的影响，如天气、地理位置、社会事件等。对于一些特殊场景的大数据应用，需要考虑这些外部因素可能导致的变化。

█ No.7 ：可视性（Visualization）

这个大家应该比较熟悉。我们现在在很多的政府部门和企业，都会看到数据大屏，其实也就是可视性的一种体现。

大数据的可视性，是指利用图形化、图像化的方式，对大数据进行呈现。这种方式，可以更直观地展示数据的模式、趋势和关系，快速把握数据的关键特征。

可视化，能够帮助人们更好地理解和解释复杂的数据集，提高对信息的洞察力，促使更明智的决策。

除了观看之外，可视化也可以借助辅助工具，提供一些交互性功能。

例如，用户能够自由选择感兴趣的数据子集、调整视图参数，从而更灵活地进行数据探索。这有助于用户深入挖掘数据，找到其中的规律和异常。

█ 最后的话

好啦，以上就是大数据的7V特性。

当然了，这些特性定义，除了前几个以外，并没有一个官方的认可。如果你愿意，也可以再想一个V，变成8V。

作为一种全新的思维方式和商业模式，大数据正在改变我们的工作和生活。下一期，小枣君再和大家详细聊聊，大数据到底有哪些应用场景，能发挥什么样的作用和价值。

敬请关注！

—— The End ——

玩酷网

大数据的3V、4V、7V，到底是什么意思？

一只科技鲜枣