读DAMA数据管理知识体系指南38元数据管理活动

躺柒 2025-04-01 14:23:56

1. 定义元数据战略

1.1. 元数据战略描述组织应如何管理其自身元数据,以及元数据从当前状态到未来状态的实施线路

1.2. 步骤

1.2.1. 启动元数据战略计划

1.2.1.1. 启动和计划的目的是保证元数据战略团队可以定义出短期和长期目标

1.2.1.2. 包括起草与整体治理措施一致的章程、范围和具体目标,然后展开沟通计划以落实治理措施

1.2.1.3. 关键利益相关方应参与计划制订

1.2.2. 组织关键利益相关方的访谈

1.2.2.1. 通过对业务人员和技术人员的访谈,可以得到元数据战略的基础知识

1.2.3. 评估现有的元数据资源和信息架构

1.2.3.1. 评估确定解决元数据和系统问题的难度,在访谈和文档复查中识别这些问题

1.2.4. 开发未来的元数据架构

1.2.4.1. 优化和确认未来愿景,开发可以满足管理现阶段元数据环境长期目标的元数据架构

1.2.5. 制订分阶段的实施计划

1.2.5.1. 从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可以从当前状态迈向未来受控的元数据环境的实施方法

2. 理解元数据需求

2.1. 元数据需求的具体内容是:需要哪些元数据和哪种详细级别

2.2. 组成

2.2.1. 更新频次

2.2.1.1. 元数据属性和属性集更新的频率

2.2.2. 同步情况

2.2.2.1. 数据源头变化后的更新时间

2.2.3. 历史信息

2.2.3.1. 是否需要保留元数据的历史版本

2.2.4. 访问权限

2.2.4.1. 通过特定的用户界面功能,谁可以访问元数据,如何访问

2.2.5. 存储结构

2.2.5.1. 元数据如何通过建模来存储

2.2.6. 集成要求

2.2.6.1. 元数据从不同数据源的整合程度,整合的规则

2.2.7. 运维要求

2.2.7.1. 更新元数据的处理过程和规则(记录日志和提交申请)

2.2.8. 管理要求

2.2.8.1. 管理元数据的角色和职责

2.2.9. 质量要求

2.2.9.1. 元数据质量需求

2.2.10. 安全要求

2.2.10.1. 一些元数据不应公开,因为会泄露某些高度保密数据的信息

3. 定义元数据架构

3.1. 元数据管理系统必须具有从不同数据源采集元数据的能力,设计架构时应确保可以扫描不同元数据源和定期地更新元数据存储库,系统必须支持手工更新元数据、请求元数据、查询元数据和被不同用户组查询

3.2. 受控的元数据环境应为最终用户屏蔽元数据的多样性和差异性

3.3. 元数据架构应为用户访问元数据存储库提供统一的入口,该入口必须向用户透明地提供所有相关元数据资源,这意味着用户可以在不关注数据源的差异的情况下访问元数据

3.4. 减少对UDF的依赖,最终用户将更加直接地收集、检查和使用数据集,此时许多支持的元数据通常可以更好地公开

3.5. 创建元模型

3.5.1. 创建一个元数据存储库的数据模型,也叫元模型,是定义元数据战略和理解业务需求后的第一个设计步骤

3.6. 应用元数据标准

3.6.1. 元数据解决方案应遵循在元数据战略中已定义的对内和对外的标准,数据治理活动应监督元数据的标准遵从情况

3.6.2. 组织对内元数据标准包括命名规范、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括数据交换格式和应程序接口设计

3.7. 管理元数据存储

3.7.1. 实施控制活动以管理元数据环境

3.7.2. 存储库的控制活动是由元数据专家执行的元数据迁移和存储库更新的控制

3.7.3. 控制活动

3.7.3.1. 作业调度和监控

3.7.3.2. 加载统计分析

3.7.3.3. 备份、恢复、归档、消除

3.7.3.4. 配置修改

3.7.3.5. 性能调优

3.7.3.6. 查询统计分析

3.7.3.7. 查询和报表生成

3.7.3.8. 查询和报表生成

3.7.4. 质量控制活动

3.7.4.1. 质量保证,质量控制

3.7.4.2. 数据更新频率——与时间表匹配

3.7.4.3. 缺失元数据报

3.7.4.4. 未更新的元数据报告

3.7.5. 元数据管理活动

3.7.5.1. 加载、探测、导入和标记数据资产

3.7.5.2. 记录与源的映射和迁移关系

3.7.5.3. 记录版本

3.7.5.4. 用户界面管理

3.7.5.5. 连接数据集的元数据维护——为NOSQL提供支持

3.7.5.6. 数据与对内数据采集建立连接——自定义连接和作业元数据

3.7.5.7. 外部数据源和订阅源的许可

3.7.5.8. 数据增强元数据,如关联GIS

3.7.6. 培训活动

3.7.6.1. 教育和培训用户和数据专员

3.7.6.2. 生成和分析管理指标

3.7.6.3. 对控制活动、查询、报告进行培训

4. 创建和维护元数据

4.1. 好的元数据不是偶然产生的,而是认真计划的结果

4.2. 责任(Accountability)

4.2.1. 认识到元数据通常通过现有流程产生(数据建模,SDLC,业务流程定义),因此流程的执行者对元数据的质量负责

4.3. 标准(Standards)

4.3.1. 制定、执行和审计元数据标准,简化集成过程,并且适用

4.4. 改进(Improvement)

4.4.1. 建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队

4.5. 整合元数据

4.5.1. 集成过程中从整个企业范围内收集和整合元数据,包括从企业外部获取的数据中的元数据

4.5.2. 专用接口

4.5.2.1. 采用单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中

4.5.3. 半专用接口

4.5.3.1. 采用两步方式,扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中

4.5.4. 控制文件

4.5.4.1. 包含数据模型的数据源结构信息

4.5.5. 重用文件

4.5.5.1. 包含管理装载流程的重用规则信息

4.5.6. 日志文件

4.5.6.1. 在流程的每一阶段、每次扫描或抽取操作生成的日志

4.5.7. 临时和备份文件

4.5.7.1. 在流程中使用或做追溯流程所使用的文件

4.5.8. 暂存区可以采用文件目录或数据库的形式

4.5.9. 数据仓库和商务智能所使用的数据整合工具通常也适用于元数据整合

4.6. 分发和传递元数据

4.6.1. 传递机制

4.6.1.1. 元数据内部网站,提供浏览、搜索、查询、报告和分析功能

4.6.1.2. 报告、术语表和其他文档

4.6.1.3. 数据仓库、数据集市和BI(商务智能)工具

4.6.1.4. 建模和软件开发工具

4.6.1.5. 消息传送和事务

4.6.1.6. Web服务和应用程序接口(API)

4.6.1.7. 外部组织接口方案(如供应链解决方案)

5. 查询、报告和分析元数据

5.1. 提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同,后者可能会包括有助于新功能开发(如变更影响分析)或有助于解决数据仓库和商务智能项目中数据定义问题(如数据血缘关系报告)的功能

6. 工具

6.1. 管理元数据的主要工具是元数据存储库

6.2. 元数据管理工具提供了在集中位置(存储库)管理元数据的功能

6.3. 元数据存储库还提供与其他系统交换元数据的功能

6.4. 元数据管理工具和存储库本身也是一种元数据的数据源,特别是在混合型元数据架构模型或大型企业架构中

7. 方法

7.1. 数据血缘和影响分析

7.1.1. 发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息

7.1.2. 基于程序编码的当前版本的血缘称为“实现态血缘(As Implemented Lineage)”

7.1.3. 映射规范文档中描述的血缘称为“设计态血缘(As Designed Lineage)”

7.1.4. 数据血缘创建的局限性在于元数据管理系统的覆盖范围

7.1.5. 导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充

7.1.6. 随着系统中数据元的大量增加,数据血缘关系的发现变得复杂且难以管理

7.1.7. 业务焦点

7.1.7.1. 根据业务优先级寻找数据元的血缘关系

7.1.8. 技术焦点

7.1.8.1. 从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止

7.1.8.2. 技术人员可以从这个系统的识别策略中获益,有助于回答各种各样的数据问题

7.1.9. 记录血缘关系有助于业务和技术人员使用数据,如缺失数据血缘,用户将需花费大量时间来检查异常现象、潜在的变更影响和其他未知结果

7.1.10. 希望实现一个集成的影响和血缘工具,以理解加载过程中涉及的所有移动部分以及最终用户报告和分析

7.1.11. 影响报告概述了哪些组件受到潜在变更的影响,加速和简化评估和维护任务

7.2. 应用于大数据采集的元数据

7.2.1. 大部分数据管理专业人员更熟悉和适应结构化数据存储,结构化数据的每个数据项都有清晰的定义和标记

7.2.2. 元数据标签应在采集时应用于数据,然后元数据可以用来识别可访问的数据湖中的数据内容

8. 实施指南

8.1. 使用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受

8.2. 存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计

8.3. 第一个实施的是验证概念并学习管理元数据环境的试点项目

8.4. 就绪评估/风险评估

8.4.1. 拥有坚定的元数据战略,有助于所有人进行更高效率的决策

8.4.2. 所有人应意识到不管理元数据的风险

8.4.3. 影响

8.4.3.1. 因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断

8.4.3.2. 暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致法律纠纷

8.4.3.3. 如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了

8.4.4. 对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面

8.4.5. 元数据战略是整体数据治理战略的一部分,是实现有效数据治理的第一步

8.5. 组织和文化变革

8.5.1. 元数据计划经常遇到文化阻力

8.5.2. 组织准备程度是一个主要关注点,治理和控制的方法也是如此

8.5.3. 元数据管理在许多组织中是一项低优先级的工作

8.5.4. 企业数据治理战略的实现需要高级管理层的支持和参与,要求业务人员和技术人员能够以跨职能的方式紧密合作

9. 元数据治理

9.1. 组织应确定他们管理元数据生命周期的具体需求,并开展元数据治理工作以满足这些需求

9.2. 建立正式的角色和职责并分配专用资源,特别是在大型或业务关键领域中

9.3. 元数据治理过程本身依赖于可靠的元数据,因此负责管理元数据的团队可以在创建和使用元数据的过程中对管理原则进行验证测试

9.4. 过程控制

9.4.1. 数据管理团队应负责定义标准和管理元数据的状态变化(通常使用工作流或协作软件),同时可以负责组织内的质量提升活动、培训计划或实际培训活动

9.4.2. 需要将元数据战略集成到软件开发的生命周期中,确保变更过的元数据及时得到收集,以确保元数据保持最新

9.5. 元数据解决方案的文档

9.5.1. 元数据的主目录包括当前作用域中的源和目标

9.5.2. 元数据管理实施状态

9.5.3. 源和目标元数据存储

9.5.4. 元数据更新的调度计划信息

9.5.5. 留存和保持的版本

9.5.6. 内容

9.5.7. 质量声明或警告(如缺失的值)

9.5.8. 记录系统和其他数据源状态(如数据内容历史加载、删除或更新标志)

9.5.9. 相关的工具、架构和人员

9.5.10. 敏感信息和数据源的移除或脱敏策略

9.6. 元数据标准和指南

9.6.1. 在与业务贸易伙伴交换数据时,元数据标准是必不可少的

9.6.2. 工具厂商提供XML、JSON或REST技术支持其数据管理产品的数据交换,他们使用相同的策略将工具绑定到解决方案套件中

9.6.2.1. 数据整合、关系和多维数据库、需求管理、BI报告、数据建模和业务规则在内的技术使用XML提供了数据和元数据导入和导出功能

9.6.3. 指导方针包括模板、相关示例、有关预期输入和更新的培训,以及“不使用术语定义术语”等规则和完整性声明

9.6.4. 元数据的ISO标准为工具开发人员提供了指导

10. 度量指标

10.1. 元数据存储库完整性

10.1.1. 将企业元数据(范围内的所有产品和实例)的理想覆盖率与实际覆盖率进行比较

10.1.2. 参照元数据管理范围定义的策略

10.2. 元数据管理成熟度

10.2.1. 根据能力成熟度模型(CMM-DMM)的成熟度评估方法,开发用于判断企业元数据成熟度的指标

10.3. 专职人员配备

10.3.1. 通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺

10.4. 元数据使用情况

10.4.1. 可以通过存储库的访问次数衡量用户对元数据存储库的使用情况和接受程度

10.5. 业务术语活动

10.5.1. 使用、更新、定义解析、覆盖范围

10.6. 主数据服务数据遵从性

10.6.1. 显示SOA解决方案中数据的重用情况

10.7. 元数据文档质量

10.7.1. 一个质量指标是通过自动和手动两种方式评估元数据文档的质量

10.7.2. 另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势

10.7.3. 质量度量表明存储库中元数据的完整性、可靠性、通用性等

10.8. 元数据存储库可用性

10.8.1. 正常运行时间、处理时间(批处理和查询)

0 阅读:30

躺柒

简介:书既能读薄也能读厚,输出才能检验输入,完成才能完善。