1.解决大规模数据质量问题1.1.为关键的数据管道制定一个事件管理计划1.2.使用异常检测作为大规模事件检测方案的一部分
1. 数据平台1.1. 让你能够从摄取数据到分析数据的整个过程中全面管理数据的技术组合1.2. 数据平台的要求随着业务的
1. 数据可靠性1.1. 数据可靠性指的是一个组织在整个数据生命周期中提供高数据可用性和健康状况的能力1.1.1. 是高
1.Python和机器学习扩展异常检测1.1.机器学习有助于大规模数据可观测性和数据监控1.1.1.配备了机器学习的检测
1.监控和异常检测1.1.在数据方面,所有明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响1.1.1.宕机可
1.运行分析型数据转换1.1.确保ETL期间的数据质量1.1.1.ETL即“提取-转换-加载”1.1.2.步骤1.1.2
1.批处理1.1.批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中1.2.直到20世纪10年代中期,
1. 收集数据1.1. 数据收集和清洗是生产管道中的第一步1.1.1. 数据转换和测试则在生产管道中解决数据质量问题1.
1.同步数据1.1.不同的数据仓库和数据湖通过数据集成层来进行桥接1.2.AWS Glue、Fivetran和Matil
1.组装1.1.对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可
1.为什么数据质量值得关注1.1.数据是你的CEO的首要任务1.2.下游数据消费者(包括产品分析师、营销领导者和销售团队
1.基本信息数据工程之道:设计和构建健壮的数据系统[美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Ho
1.未来1.1.运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变1.2.随着组织以新的方
1.序列化1.1.仅仅通过从CSV转换到Parquet序列化,任务性能就提高了上百倍1.2.基于行的序列化1.2.1.基
1.安全和隐私1.1.安全在数据工程的执行层面至关重要1.1.1.安全需要成为一种思想和行动的习惯1.1.2.安全是隐私
1.机器学习1.1.机器学习正在变得普遍1.1.1.机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并且
1.合作角色1.1.数据分析师1.2.数据科学家1.3.MLOps/机器学习工程师1.4.业务侧1.4.1.数据或非技术
1. 使用场景1.1. 为分析和BI,也就是统计分析、报表和仪表板提供数据服务1.1.1. 是数据服务最为常见的目标1.
1.转换1.1.转换与查询不同1.1.1.查询是根据过滤和连接逻辑从各种来源检索数据1.1.2.转换将结果持久化,供其他
1.数据建模1.1.良好的数据架构必须反映出使用这些数据的组织的业务目标和业务逻辑1.2.数据湖1.0、NoSQL和大数
签名:书既能读薄也能读厚,输出才能检验输入,完成才能完善。