读DAMA数据管理知识体系指南26数据集成实施指南

躺柒 2025-03-20 10:59:41

1. 工具

1.1. 数据转换引擎/ETL工具

1.1.1. 数据转换引擎(或ETL工具)是数据集成工具箱中的主要工具,是每个企业数据集成程序的核心

1.1.2. 无论是批量的还是实时的,物理的或虚拟的数据都存在运用非常复杂的工具来开发和执行ETL

1.1.3. 数据转换引擎选择的基本考虑应该包括是否需要运用批处理和实时功能,以及是否包括非结构化和结构化数据

1.2. 数据虚拟化服务器

1.2.1. 数据转换引擎通常对数据进行物理抽取、转换和加载,而数据虚拟化服务器对数据进行虚拟抽取、转换和集成

1.2.2. 数据虚拟化服务器可以将结构化数据和非结构化数据进行合并

1.2.3. 数据仓库经常是数据虚拟化服务器的输入,但数据虚拟化服务器不会替代企业信息架构中的数据仓库

1.3. 企业服务总线

1.3.1. 企业服务总线(Enterprise Service Bus, ESB)既指软件体系结构模型,又指一种面向消息的中间件,用于在同一组织内的异构数据存储、应用程序和服务器之间实现近乎实时的消息传递

1.3.2. 最常见的是,ESB以异步格式使用,以实现数据的自由流动

1.3.3. ESB的中央处理器通常在独立于其他参与系统的服务器上实现

1.4. 业务规则引擎

1.4.1. 业务规则引擎中允许非技术用户管理软件的业务规则,因为业务规则引擎可以在不改变技术代码的情况下支持对预测模型的更改,所以它是一个非常有价值的工具,可以用较低的成本支持解决方案的演进

1.5. 数据和流程建模工具

1.5.1. 数据建模工具不仅用来设计目标数据结构,而且用来设计数据集成解决方案所需的中间数据结构

1.5.2. 在系统和组织之间传送的信息或数据流通常不会持久化,但是也应对其进行建模

1.6. 数据剖析工具

1.6.1. 数据剖析包括对数据集的内容统计分析,以了解数据的格式、完整性、一致性、有效性和结构

1.7. 元数据存储库

1.7.1. 元数据存储库包含有关组织中数据的信息,包括数据结构、内容以及用于管理数据的业务规则

1.7.2. 通常,像触发器和定时器等预定过程的指令一样,数据集成工具使用的数据转换、血缘和处理规则也存储在元数据存储库中

1.7.3. 每个工具通常都有自己的元数据存储库

2. 方法

2.1. 基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射形方法并创建标准规范的接口等

3. 实施指南

3.1. 就绪评估/风险评估

3.1.1. 每个组织都有某种形式的数据集成和互操作解决方案

3.1.2. 许多组织花费时间重构现有的解决方案,却没有带来额外的价值

3.1.3. 如果某些数据项目可以证明只针对特定应用程序(如数据仓库或主数据管理中心)的数据集成解决方案是合理的,那么在这些情况下任何对数据集成解决方案的额外使用都会增加投资的价值,因为第一个系统的使用已经达到了预期的效果

3.1.4. 采用新技术的数据集成开发项目常常将实施重点放在技术上,而忽略了业务目标

3.1.5. 必须确保实施数据集成解决方案应保持在关注业务目标和需求上,包括确保每个项目中的参与者都有面向业务或应用程序的人员,而不仅仅是数据集成工具专家

3.2. 组织和文化变革

3.2.1. 组织必须确定管理数据集成实施的是由集中管理的团队负责,或是由在分散的应用程序团队负责

3.2.2. 本地团队应该主要负责管理和解决整合过程中问题,必要时升级到卓越中心

3.2.3. 数据集成解决方案通常被视为纯粹的技术性解决方案

3.2.4. 在每个涉及的系统中,由业务专家审查所有数据转换映射设计和更改

4. 数据集成和互操作治理

4.1. 数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力

4.2. 业务利益相关方负责定义数据建模和转换规则,并应由他们批准对这些业务规则的任何更改

4.3. 如果用户不相信集成和互操作设计将以安全、可靠的方式按承诺执行,那么就没有有效的业务价值

4.4. 控制可能来自治理驱动的日常管理工作

4.5. 在服务水平协议和业务连续性/灾难恢复计划中,实时操作数据集成解决方案必须与它们提供数据的最关键系统采用同样的备份和恢复要求

4.6. 需要制定相应制度,以确保组织从企业数据整合和互操作方法中获益

4.7. 数据共享协议

4.7.1. 在开发接口或以电子方式提供数据之前,应制定一份数据共享协议或谅解备忘录(MOU)

4.8. 数据集成和互操作与数据血缘

4.8.1. 数据血缘对于数据集成和互操作解决方案的开发非常有价值

4.8.2. 对数据流进行更改时需要数据血缘信息

4.9. 度量指标

4.9.1. 数据可用性

4.9.1.1. 请求数据的可获得性

4.9.2. 数据量和速度

4.9.2.1. 传送和转换的数据量

4.9.2.2. 分析数据量

4.9.2.3. 传送速度

4.9.2.4. 数据更新与可用性之间的时延

4.9.2.5. 事件与触发动作之间的时延

4.9.2.6. 新数据源的可用时间

4.9.3. 解决方案成本和复杂度

4.9.3.1. 解决方案开发和管理成本

4.9.3.2. 获取新数据的便利性

4.9.3.3. 解决方案和运营的复杂度

4.9.3.4. 使用数据集成解决方案的系统数量

0 阅读:0

躺柒

简介:书既能读薄也能读厚,输出才能检验输入,完成才能完善。