AI技术的“最后一公里”，亚马逊云科技如何搞定ETL问题？

AI的“多米诺骨牌”效应正在加剧，无论从哪个维度看，这种连锁变化都不可忽视。

在2023 re:Invent 大会上，亚马逊云科技CEO Adam Selipsky围绕芯片、云、数据库、集成服务多个领域，强化AI底色。演讲时间长达两个半小时。

在数据服务领域，这一现象前所未有地突出。从信息化到数字化，从数字化到智能化，数据要素重要性不断提升的同时，面向数据的服务也从后端走向前台。

信息时代的门面是大型企业管理系统与机房，数字时代的门面是云与SaaS，那么数据与业务的深度锚定，将企业各种各样的数据应用和业务场景捆绑集成在一起，就是AI时代最新的门面。

然而时代的更替，也给用户带来新的挑战与困难，尤其是数据工程师的痛苦与日俱增。面对企业或个人过往长期积累的数据总和，以及当前日均PB级别的数据增长，在一些BI、AI的项目中，ETL环节就会占用30%的项目时间，而70%的ETL构建和维护工作量也成为数据工程师的常驻梦魇。

ETL就像一个黑洞，在无休止吞噬项目资源。

天下苦ETL久矣，亚马逊云科技 Zero-ETL打通云上云

这里有必要解释一番ETL，即提取、转换、加载（Extract、Transform、Load），将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL也是BI项目重要的一个环节，将直接决定BI项目的成败。

虽然ETL随着数据技术不断迭代发展进入成熟阶段，但也因为其积累足够久远，造成当前ETL工具种类繁多，如Informatica PowerCenter、Microsoft SQL Server Integration Services（SSIS）、IBM InfoSphere DataStage、Apache NiFi等产品各有不同，第一道选型大门就令许多数据工程师不得不反复切换。

千辛万苦选型之后，摆在面前的是ETL任务量随项目复杂度“指数级正相关”。数以千计的ETL任务、调度、排查、维护则成为通往项目成功路上的各种地雷、荆棘。

组织或个人想要在数据中挖掘价值，获得数字化转型的果实，就不得不死磕ETL，正是一种明知山有屎，偏向屎山行的无奈。

如何能够相对轻松解决ETL问题，不仅是数字化转型的痛楚，也是攻克更有效使用AI技术的关键。在时代的推动、客户需求的爆发下，亚马逊云科技在2022年re:Invent全球大会上发布了Zero-ETL服务，正式开创了“零ETL时代”。

亚马逊云科技希望通过Zero-ETL解决方案，把从数据仓库到数据湖的鸿沟填平，令数据工作者用最低的成本，高效完成不同服务间的数据迁移和转换工作，帮助企业实现数据“无感知”、“更自由”的流动能力，从而更好地管理和利用数据。

亚马逊云科技数据库、分析和机器学习副总裁Swami Sivasubramanian表示：“借助Zero-ETL，无论企业和数据的规模有多大，复杂度有多高，通过为客户消除ETL和其它数据迁移任务，助力客户专注于分析数据，面向业务获取新的洞察。”

为此，亚马逊云科技发布两个主要功能：Amazon Aurora与Amazon Redshift的Zero-ETL集成，以及适用于Apache Spark的Amazon Redshift集成。

用户可以在将数据写入Aurora数据库后的几秒钟内对Redshift运行复杂的分析查询。开发人员跳过将数据导入S3，才能在EMR或SageMaker上使用Spark作业的中间数据阶段，就能直连Redshift以创建机器学习应用并处理近乎实时的数据。这极大地减少处理数据并为表示层做好准备所需的时间。

很显然，亚马逊云科技的愿景是希望通过Zero-ETL的方式，把企业或个人从繁杂的基础数据处理事务中解脱出来，令所有人能够将更多的时间和精力聚焦于业务和项目本身，强化客户在业务端的竞争力。

经过一年的锤炼，在2023年亚马逊云科技对Zero-ETL进行了进一步深化。

Adam Selipsky表示：“如今新的Zero-ETL集成可以把事务处理、数据分析集成在一起。在亚马逊云科技不同的云服务之中，通过Zero-ETL能够更好地实现数据在不同服务之间的打通。使工作效率快速而便捷。”

主要表现在5项新的Zero-ETL集成功能，使客户能够快速、轻松地连接和分析数据，而无需构建和管理复杂的提取、转换和加载（ETL）数据管道：Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL与Amazon Redshift数据库的集成，以及Amazon DynamoDB与Amazon OpenSearch服务的Zero-ETL集成，Amazon S3与Amazon OpenSearch服务的Zero-ETL集成。

具体表现为：

•Amazon Aurora和Amazon Redshift的Zero-ETL集成，用于实时分析。并且亚马逊云科技云上的服务之间建立了集成，使分析和机器学习变得更容易，而个人无需深入研究ETL的复杂性。

•Amazon DynamoDB 与Amazon OpenSearch 服务的Zero-ETL集成，不用自定义代码或者基础设施，就能自动复制和转换DynamoDB数据来执行搜索任务；通过与Amazon Athena和Amazon Redshift的联合查询，可对存储在操作数据库、数据仓库和数据湖中的数据运行查询，从而在不移动数据的情况下提供对多个数据源的洞察力。

•Amazon S3与Amazon OpenSearch服务的Zero-ETL集成，在Amazon S3和基于S3的数据湖中查询操作日志的新方法，而无需在服务之间切换。用户可以分析云对象存储中不经常查询的数据，并同时使用OpenSearch Service的操作分析和可视化功能。

•Zero-ETL已经连接100多个数据源，包括SaaS、企业内部和其他云，可对所有数据采取行动。如使用AppFlow将数据湖和数据仓库连接到50多个SaaS应用程序；使用Data Wrangler，在Amazon SageMaker上使用来自40多个数据源的数据一键建立模型；利用QuickSight，使用30多个数据源构建交互式仪表盘；还可使用亚马逊云科技 Data Exchange访问到来自300多个数据提供商和3500多个数据产品等。

这就意味着，只要在亚马逊云科技端服务中，客户即可通过Zero-ETL集成无缝将不同数据库、跨多应用的数据用近乎无消耗的方式，应用于如营销、客服、运营等不同的业务场景之中，不必浪费巨大的精力在传统ETL任务上，在理论上可以在ETL环节节省接近60%的项目时间资源，加速客户的数据应用能力成型。

可以预见，Zero-ETL短期将贯通自身各类云服务的数据转换桎梏，但亚马逊云科技更大的数据棋局也已经在与伙伴的深度合作中展开——通过Zero-ETL，实现客户多云数据的应用自如。

从2小时到10秒钟，使用数据有点“easy money”了吧

在全球范围内制造业、金融、医疗、科技等多行业的众多世界500强企业，已经通过Zero-ETL实现了卓越的数字化体验。

亚马逊云科技通过对Zero-ETL预览版的客户观察发现，客户在使用Zero-ETL之前，它们Amazon Aurora MySQL数据库每分钟产生数十万个事务，将这些数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。

但是通过Aurora和Redshift之间的Zero-ETL集成之后，同样的数据仅需要不到10秒的时间就已经出现在Amazon Redshift数据仓库中，几乎可以实现无缝的实时分析。

西门子股份公司专注于工业、基础设施、交通和医疗领域，并与亚马逊云科技在多个项目上有着紧密合作。出于企业战略需要，构建基于生成式AI的会话机器人“小禹”。

小禹回答内容不仅生成速度更快，其对搜索关键词的命中率也更高，整体使用体验远超传统机器人，首周就有超过4000位内部用户参与使用，超过12000个问题被提出并解答，不但解决各业务部门之间需求相似、重复开发的问题，更以云上弹性资源和托管的Amazon OpenSearch Service、Amazon SageMaker等服务节约了系统在运维和扩展方面的投入成本。

实现小禹快速高质量的实时应答，以及知识库运维托管的低成本功臣，就是背后的Zero-ETL。开发人员不需要管理集群或担心生产规模，可以快速推动部署，并且在多部门、多应用的数据仓库提出数据快速复制到Redshift中进行分析响应。

Adobe通过Amazon Redshift集成的Amazon Aurora Zero-ETL功能为不断扩大的Acrobat Sign客户群提供新的洞察和更快的分析能力，并随着他们用量的增加而同步增长，并且还免去了自己团队的日常维护工作。

Infor作为商业云软件和特定行业ERP解决方案的全球领导者，使用Amazon Redshift集成的Amazon Aurora Zero-ETL功能，它将让Amazon Aurora中的交易数据近乎实时地提供给Amazon Redshift，在不影响Aurora用作关系型数据库性能的同时，又减轻整个组织的运营负担。

高盛集团作为全球顶尖的金融机构，通过面向Apache Spark的Amazon Redshift集成功能，数据平台团队以最少的定制化操作就可以访问Amazon Redshift数据，实现零代码ETL令工程师收集完整及时的信息时，让他们更容易专注于完善其工作流。由于用户现在可以轻松访问Amazon Redshift中的最新数据，高盛将能实现更高的应用程序性能和更强的安全性。

通过不同客户对Zero-ETL的实际使用效果来看，新Zero-ETL已经为客户带来两个突出的价值表现：

•Zero-ETL开启后对Aurora MySQL的性能几乎无影响。通过sysbench压测发现，在进行ETL前后，CPU利用率、读写IOPS以及网络流量几乎没有发生变化。

•Zero-ETL快速进行配置，即可复制除系统表之外所有表的数据，易于使用，没有繁杂的配置整个数据库就可以全部同步到数仓。

Adam Selipsky认为：“数据集成不应该是人工工作的无底洞，你需要一个更好的服务去自动化地、轻松地去连接所有的数据，并且加以使用。”

很显然Zero-ETL已经在客户数字化转型乃至智能化转型中赢得信赖，并且开始让客户感受到ETL这个无底洞将被填平，使用数据前所未有的流畅与简单。

Zero-ETL下一步

无论是亚马逊云科技，还是微软、IBM等巨头，都对Zero-ETL寄予厚望。在打造更极致的数据应用体验同时，以更低成本、更高效方式释放数据能量。

在产品侧，云原生的技术和分布式计算架构已经成为共识，以最佳性能提高Zero-ETL的伸缩灵活性，并且基于云原生特点，Zero-ETL工具会越发注重降低开发门槛和跨平台能力，以应对更多样化、多数据源、多云环境下的数据生态系统。

同时Zero-ETL自身会变得更加智能，利用生成式模型等技术自动学习数据关系，从而减少手动配置的需要。并且更加强调实时数据处理能力，支持快速的数据流传输和处理，以满足实时分析的需求。

在市场发展侧，随着客户行业化、场景化需求的加深，不同行业客户对面向特定行业或领域的数据集成、处理等诉求不断涌现。并且随着数据隐私、数据治理合规的愈发严苛，客户业务场景也对敏感数据的脱敏、加密等环节的优化提出了思考方向。

站在生成式AI立面，Zero-ETL与其结合水到渠成。自动生成的数据和自动化数据处理，进一步提高数据集成和处理效率，从数据处理到数据使用大幅提升用户对数据应用的极致体验。

亚马逊云科技提供了完全托管的生成式AI服务Amazon Bedrock，它使用单个API提供来自AI21 Labs、Anthropic等公司的多个大语言模型，并且支持任意模型之间的任意数据交互。这意味着，通过使用Amazon Bedrock平台，企业可以更轻松地实现数据集成和处理，同时利用生成式AI技术自动生成所需的数据，从而更好地利用数据。

Zero-ETL是一条载着亚马逊云科技与客户一同迈入生成式AI时代的“方舟”。Zero-ETL深度地整合生成式人工智能技术，以进一步优化数据集成和处理的效率，有助于提高企业对数据的价值提取能力，促使数据驱动决策更加普及。

结语

2023 re:Invent无疑为行业带来了前所未有的震撼。对于开发者、业务专家来说，这不仅仅是一场技术的盛宴，更是一次对未来的深度探索和预见，有规模的惊喜，也有认知的惊喜，而这些将极大地激发他们的创新热情和工作激情。

微信搜索大数网，查看2023亚马逊云科技 re:Invent更多相关内容。

玩酷网

AI技术的“最后一公里”，亚马逊云科技如何搞定ETL问题？

大数科技观察