读DAMA数据管理知识体系指南44大数据和数据科学活动

1. 定义大数据战略和业务需求

1.1. 组织的大数据战略需要与其整体业务战略和业务需求保持一致并提供支持，并成为其数据战略的一部分

1.2. 一个组织的大数据战略将推动其明确大数据能力路线图的范围和时间

1.3. 组织试图解决什么问题，需要分析什么

1.4. 要使用或获取的数据源是什么

1.4.1. 内部资源可能易于使用，但也可能在范围上受到限制

1.4.2. 外部资源可能很有用，但不在业务控制范围内

1.5. 提供数据的及时性和范围

1.6. 对其他数据结构的影响以及与其他数据结构的相关性

1.7. 对现有建模数据的影响

1.7.1. 包括扩展对客户、产品和营销方法的知识

2. 选择数据源

2.1. 数据科学工作的数据源选择必须由组织试图解决的问题驱动

2.2. 用于选择或过滤数据的筛选条件也存在风险，应客观地管理这些标准，以避免偏见或偏差

2.3. 数据源头

2.4. 数据格式

2.5. 数据元素代表什么

2.6. 如何连接其他数据

2.7. 数据的更新频率

2.8. 基础数据

2.9. 粒度

2.9.1. 理想情况下，以最细粒度的形式获取数据（未聚合），这样可以用于各种目的聚合

2.10. 一致性

2.10.1. 如果可能，选择超越可视化和认知限制、合适且一致的数据

2.11. 可靠性

2.11.1. 选择长时间稳定可靠的数据源

2.11.2. 采用权威来源的可信数据

2.12. 检查/分析新数据源

2.12.1. 在添加新数据集之前，需要对变更情况进行测试

2.12.2. 随着新数据源的加入，可视化结果可能会发生意想不到的重大变化

3. 获得和接收数据源

3.1. 一旦确定好数据资料，就需要找到它们，有时候还需要购买它们，并将它们提取（加载）到大数据环境中

3.2. 评估过程提供了有关如何将数据与其他数据集（如主数据或历史仓库数据）整合的宝贵见解，以及可用于模型训练集和验证活动的信息

4. 制定数据假设和方法

4.1. 数据科学能够发现数据的意义和其中蕴含见解的答案集

4.2. 制订数据科学解决方案需要构建统计模型，找出数据元素和数据集内部以及二者之间的相关性和趋势

4.3. 模型的效果取决于输入数据的质量和模型本身的健全性

5. 集成和调整数据进行分析

5.1. 准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用

5.2. 连接数据源更像是一门艺术，而不是一门科学

5.3. 一种方法是使用共有键值整合数据的通用模型

5.4. 另一种方法是使用数据库引擎内的索引扫描和连接数据，以获得相似性和记录链接的算法和方法

6. 使用模型探索数据

6.1. 填充预测模型

6.1.1. 需要使用历史信息预先填充配置预测模型，这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素

6.2. 训练模型

6.2.1. 需要通过数据模型进行训练

6.2.2. 训练包括基于数据重复运行模型以验证假设，将导致模型更改

6.2.3. 训练需要平衡，通过针对有限数据文件夹的训练避免过度拟合

6.2.4. 识别异常值或反常现象（不符合被研究元素所表现出来的一般行为的数据对象）对于评估模型至关重要

6.2.5. 数据流需要特别关注极低延迟处理能力的设计和开发，在某些模型中存在预测值在一秒之内差异的极端需求，而解决方案可能需要创新技术和光速限制

6.2.6. 模型可以使用开源库中许多可用的统计函数和技术，其中一个是R语言

6.2.6.1. R语言是用于统计计算的免费软件环境，它包含许多可作为服务被调用的功能

6.3. 评估模型

6.3.1. 将数据放入平台并准备分析后，数据科学就开始了

6.3.2. 数据科学家针对数据运行查询和算法，查看是否有任何见解显现出来，通常会运行许多不同的数学函数以查看是否找到任何有用的信息

6.3.3. 在评估模型时，需要用到数据科学实践中的一个道德组件

6.3.3.1. 所有人工智能(AI)从业者都应该被要求去进行道德培训

6.3.3.2. 仅仅有道德还不够，道德伦理可以帮助从业者了解他们对所有利益相关方的责任，但是道德培训需要通过技术能力得到增强，通过采取技术预防措施，建立和测试系统，将良好意愿付诸实践

6.4. 创建数据可视化

6.4.1. 模型的数据可视化必须满足与模型目的相关的特定需求，每个可视化应该能够回答一个问题或提供一个见解

6.4.2. 设定可视化的目的和参数：时间点状态、趋势与异常、移动部分之间的关系、地理差异及其他

6.4.3. 数据“故事讲述”可以将新问题链接到数据探索的上下文环境中

6.4.4. 只有利用相关数据可视化讲述数据故事，才能获得最佳效果

7. 部署和监控

7.1. 满足业务需求的模型，必须以可行的方式部署到生产中，以获得持续监控

7.2. 揭示洞察和发现

7.2.1. 通过数据可视化来展示发现和数据洞察是数据科学研究的最后一步，洞察应与行动项目相关联，这样组织才能从数据科学工作中受益

7.3. 使用附加数据源迭代

7.3.1. 展示发现和数据洞察，通常会产生新的问题，这又会触发新的研究过程

7.3.2. 数据科学是一个迭代的过程，因此大数据开发需要迭代的支持

7.3.3. 从特定的一组数据源中学习的过程，通常会导致需要不同的或额外的数据源，以支持得到的结论并向现有模型中添加洞察

8. 工具

8.1. 技术进步（摩尔定律、手持设备的激增、物联网等）创造了大数据和数据科学产业

8.2. 数据库内的高级分析

8.3. 非结构化数据分析(Hadoop, MapReduce)

8.4. 分析结果与操作系统的集成

8.5. 跨多媒体和设备的数据可视化

8.6. 链接结构化和非结构化信息的语义

8.7. 使用物联网的新数据源

8.8. 高级可视化能力

8.9. 数据扩展能力

8.10. 技术和工具集的协作

8.11. 访问非结构化数据过去经常通过批处理查询接口进行，导致计划执行缓慢和响应时间漫长

8.11.1. 大数据内存技术可以满足即时查询、报告和分析能力的需要，这些技术允许最终用户构建类SQL查询，来访问非结构化数据

8.12. 决策标准工具集、流程实施工具和专业服务等，可以促进和加快选择初始工具集的过程

8.13. MPP无共享技术和架构

8.13.1. 大规模并行处理(MPP)的出现是大数据和数据科学的首批推动者之一，因为它提供了在相对较短的时间内分析巨量信息的手段

8.13.2. 该架构没有磁盘共享，也不发生内存争用，因此称作“无共享”

8.13.3. MPP逐步发展起来，是因为传统的计算模式（索引、分布式数据集等）不能在大规模表的处理上提供可接受的响应时间

8.13.4. 即使是最强大的计算平台（Cray计算机，曾经是世界上最快的超级计算机）也需要花费数小时甚至数天对万亿行记录的表进行复杂计算

8.13.5. 架构具有线性可扩展性，增加了对数据科学家和大数据用户的吸引力，可以通过可扩展的平台适应增长

8.13.6. 该技术还支持数据库内分析功能——在处理器级执行分析功能（如K-means聚类、回归分析等）的能力

8.13.7. 将工作负载分配到处理器级别，可大大加快分析查询速度，从而推动数据科学的创新

8.13.8. 在所有可用的本地化硬件上，自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案

8.13.9. 数据量正在快速增长

8.13.9.1. 公司可以随着时间的推移通过添加新节点扩充系统的容量并提升性能

8.13.9.2. MPP可以轻松扩展数百或数千个内核的并行性

8.13.9.3. 大规模并行计算，无共享架构充分使用每个内核，使大型数据集上具备线性扩展性和更高的处理性能

8.14. 基于分布式文件的数据库

8.14.1. 分布式文件的解决方案技术，如开源的Hadoop，是以不同格式存储巨量数据的廉价方式

8.14.2. Hadoop存储任何类型的文件——结构化、半结构化和非结构化

8.14.2.1. 使用类似于MPP无共享（用于文件存储的MPP基础）的配置，能够跨处理服务器共享文件

8.14.2.2. 它是安全存储数据（制作多个副本）的理想工具，但在通过结构化或分析机制（如SQL）访问数据时会遇到挑战

8.14.3. 由于成本相对较低，Hadoop已成为许多组织的首要选择

8.14.4. 在Hadoop上，数据可被移动到MPP无共享数据库，以便运行算法

8.14.5. 基于文件的解决方案中使用的模型称为MapReduce

8.14.5.1. 映射(Map)

8.14.5.1.1. 识别和获取需要分析的数据

8.14.5.2. 洗牌(Shuffle)

8.14.5.2.1. 依据所需的分析模式组合数据

8.14.5.3. 归并(Reduce)

8.14.5.3.1. 删除重复或执行聚合，以便将结果数据集的大小减少到需要的规模

8.15. 数据库内算法

8.15.1. 数据库内算法(In-database algorithm)使用类似MPP的原则

8.15.2. 通过移动计算接近数据，可显著减少复杂算法（如K-means聚类、逻辑或线性回归、曼-惠特尼U检验、共轭梯度、群组分析等）的计算时间

8.16. 大数据云解决方案

8.17. 统计计算和图形语言

8.17.1. R语言是用于统计计算和图形的开源脚本语言和环境

8.17.1.1. 它提供了各种各样的统计技术，如线性和非线性建模、经典统计检验、时间序列分析、分类和聚类

8.17.1.2. 它是一种脚本语言，所以用R开发的模型可以在多种环境、不同平台和协作开发中实现，这种协作可以是跨多个地理和组织边界的

8.17.2. R环境还可以在最终用户的控制下创建出版高品质的图，包括数学符号和公式

8.18. 数据可视化工具集

8.18.1. 数据可视化中的传统工具有数据和图形组件

8.18.2. 高级可视化和发现工具使用内存架构，使用户能够与数据交互，展示难以识别的大数据集的模式

8.18.3. 信息图形或信息图表是为有效进行交互和理解而设计的图形表示

8.18.4. 复杂的分析和可视化类型，如格子图、火花线、热图、直方图、瀑布图和子弹图

8.18.5. 内置可视化最佳实践

8.18.6. 交互性，实现视觉发现

玩酷网

读DAMA数据管理知识体系指南44大数据和数据科学活动

躺柒