1.3-2-1原则1.1.每份数据做三个副本1.2.放到两种介质上1.3.其中一份放在远处1.4.3-2-1原则是所有备
1.回头看日更坚持了700天。读《数据工程之道:设计和构建健壮的数据系统》更新完成读《数据质量管理:数据可靠性与数据质量
1.开创可靠数据系统的未来1.1.数据作为一个行业很可能正在经历一场巨大且不可逆转的巨变1.2.分析型数据正变成现代企业
1.让元数据为业务服务1.1.在过去十多年中,数据团队越来越擅长收集大量的数据1.2.公司如今正在收集越来越多关于其数据
1.要点1.1.实现数据质量不能纸上谈兵,而获得“可靠数据”取决于数据分析和工程实践中的其他几个要素1.2.数据网格以及
1.对数据进行认证1.1.数据认证是指在数据资产满足关于数据质量、可观测性、权责分配、问题解决和沟通等公司内共同遵守的S
1. 在数据平台中建立信任1.1. 确保产品目标与业务目标保持一致1.1.1. 几十年来,数据平台被视为实现目标的手段,
1.普及数据质量1.1.随着企业摄取越来越多的数据,数据分析也逐渐成为企业战略的重要组成部分,对高质量数据的需求只会不断
1.数据沿袭1.1.MyDoom的病毒1.2.现在,许多团队甚至整个公司都在使用数据,这要求数据管理的方式要更便于合作,
1.解决1.1.当你发现数据出了故障,并且了解到它的初步影响时,下一步(有时甚至在根因分析之前)就是要解决这个问题,并且
1.解决大规模数据质量问题1.1.为关键的数据管道制定一个事件管理计划1.2.使用异常检测作为大规模事件检测方案的一部分
1. 数据平台1.1. 让你能够从摄取数据到分析数据的整个过程中全面管理数据的技术组合1.2. 数据平台的要求随着业务的
1. 数据可靠性1.1. 数据可靠性指的是一个组织在整个数据生命周期中提供高数据可用性和健康状况的能力1.1.1. 是高
1.Python和机器学习扩展异常检测1.1.机器学习有助于大规模数据可观测性和数据监控1.1.1.配备了机器学习的检测
1.监控和异常检测1.1.在数据方面,所有明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响1.1.1.宕机可
1.运行分析型数据转换1.1.确保ETL期间的数据质量1.1.1.ETL即“提取-转换-加载”1.1.2.步骤1.1.2
1.批处理1.1.批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中1.2.直到20世纪10年代中期,
1. 收集数据1.1. 数据收集和清洗是生产管道中的第一步1.1.1. 数据转换和测试则在生产管道中解决数据质量问题1.
1.同步数据1.1.不同的数据仓库和数据湖通过数据集成层来进行桥接1.2.AWS Glue、Fivetran和Matil
1.组装1.1.对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可
签名:书既能读薄也能读厚,输出才能检验输入,完成才能完善。