云计算风向标:自研芯片重构云上算力

果果的Game 2022-12-02 11:33:56

预言未来最好的方法,就是去实现它。

2017 年,网易游戏《荒野行动》出海日本。2018 年,这款游戏在日本手游年度收入榜排名第四,为网易带来约 25 亿元收入。

这个游戏出海成功案例的背后,是稳定、响应快、能快速扩展的计算基础设施。在国内,网易往往自己建设计算基础设施;而在海外,则采用混合云。通过亚马逊云科技提供的基础服务,网易搭建了一个可以快速扩展的云基础架构,满足了海外游戏业务快速增长的要求。

同年,亚马逊云科技推出第三代自研的 Nitro 系统,可支持最多 8 个弹性网卡,将网络负载均衡分布到 8 个 CPU 内核上,计算资源的总利用率提升了一倍。使《荒野行动》云计算成本降低了四成;而通过使用 Amazon EC2 A1 实例,音频语音服务和网络转发服务的云计算成本节省了一半。降低成本,提升效率,这是云计算的意义所在,而这还只是开始。

01 再次突破云技术边界

在 2018 年,亚马逊云科技发布了 Arm 架构的 Amazon Graviton 处理器。这是亚马逊云科技自研、为云计算而设计开发的芯片。2020 年 Graviton2 发布,性能比第一代提升了 7 倍;2021 年推出了第三代,性能比二代提升四分之一,浮点计算性能提高了两倍。

Epic Games 的高级工程总监 Mark Imbriaco 说:「基于 Amazon Graviton3 的 EC2 C7g 实例适用于最苛刻的延迟敏感型工作负载,同时能提供显著的性价比优势,并扩展了《堡垒之夜》内的可能性和任何虚幻引擎营造的体验。」F1 赛车管理公司发现,C7g 实例比 Graviton2 C6gn 实例快 40%;Twitter 认为基于 C7g 实例的性能比基于 Graviton2 的 C6g 实例高出 20-80%,同时还将尾延迟减少了 35%。

今年,正在拉斯维加斯召开的 re:Invent 2022 大会上,亚马逊云科技发布了 Graviton3E。这是针对高性能计算优化的版本,面向机器学习浮点和矢量数学计算做了优化,在 HPL 基线测试中,工作负载的性能提高 35%。基于 Graviton3E 芯片,亚马逊云科技推出了面向高性能计算的 HPC7g,适用于天气预报、生命科学、工程计算等高性能计算场景,最多可以提供 64 个 vCPU 和 128GiB 内存。

Graviton 并不是亚马逊云科技设计的第一块芯片。2013 年,亚马逊云科技就推出了首颗自研的 Nitro 芯片,意在通过定制硬件,降低虚拟化的消耗,将更多服务器资源提供给用户。这是长期探索后的必然之举。2006 年,亚马逊开始尝试提供云服务,起初使用基于 Xen 架构的虚拟化系统,但很快发现这种方式大概只能将七成服务器资源提供给用户,而且无法满足用户的稳定性和性能要求。

Nitro 系统的引入,提升了计算实例的安全、性能以及创新速度。亚马逊云科技在 2017 年推出了第三代 Nitro 芯片,2020 年开始使用第四代 Nitro 芯片作为所有计算实例的基础。经过迭代,Nitro 系统提供输入/输出资源和管理功能,包括网络、块存储、安全与虚拟机管理等。

在今年的 re:Invent 2022 大会上,亚马逊云科技高级副总裁 Peter DeSantis 发布了第五代 Nitro 系统,相比于前一代产品,晶体管数量比前一代增加了一倍,提供更高的计算性能,同时 DRAM 内存性能提升了一半,PCle 带宽提升两倍,降低约三成延迟,每瓦性能提高四成,网络转发性能提高六成。配备 Graviton3E 和新一代 Amazon Nitro v5 的 C7gn 实例,比 C7g 网络带宽提升了一倍,每秒数据包转发性能提升 50%,为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比。

「我们一直在创新。」Peter DeSantis 说,「在不需要牺牲安全的情况下,减少我们的成本,同时提高我们的性能,让客户应用获得更好的体验。」

至于网络,今年 re:Invent 大会上也公布了新的进展。Peter DeSantis 表示,相比于传统的 TCP 单路径路由网络,亚马逊云科技自己的 SRD(Scalable Reliable Datagram)协议使用了多路径路由,将「以微秒而不是毫秒」重新传输丢弃的数据包,并加速托管在亚马逊云科技上的网络。SRD 基于 Nitro 硬件调整和优化,其性能优于 TCP。亚马逊云科技推出了 ENA Express,以为 Elastic Fabric Adapters 提供支持的 SRD 协议为基础,与 TCP 相比,P99 延迟减少了 50%,P99.9 延迟减少了 85%,同时还将最大单流带宽从 5Gbps 到增加到了 25Gbps。

也许可以这样说:Nitro v5 + Graviton3E + SRD for Everything——亚马逊云科技再次突破了云技术边界。当计算能力提升了,资源限制减少了,网络性能提升了,那么接下来呢?

亚马逊云科技认为,云计算的未来,是 Serverless——无服务器技术。

「Serverless」这个术语最早出现在 2012 年发表在 ReadWrite 上的一篇文章中。作者 Ken Fromm 认为,Serverless 意味着开发人员不再需要考虑对基础设施资源的管理。通过消除后端基础设施的复杂性,Serverless 让开发人员将注意力从服务器级别转移到应用和任务级别。Serverless 意味着计算资源对开发人员透明,开发人员只要关注业务逻辑即可。

但是在当时,这个概念并没有掀起什么波澜。2014 年,Amazon.com 首席技术官 Werner Vogels 博士在 re:Invent 全球大会上发布了 Lambda 服务,重新定义了云计算的 Serverless 化发展理念,这一概念才开始广为人知。至今,亚马逊云科技已累计发布了超过 100 款新的 Serverless 功能,活跃用户超过 100 万,同时每月的调用请求量超过 100 万亿次。

现在,Lambda 的改进依然在继续。长期以来,冷启动时间一直是对 Lambda 最大的优化需求之一。过去,借助 Firecracker MicroVM,已经可以将冷启动时间从几秒缩短到不到一秒,而在这次 re:Invent 大会上,亚马逊云科技宣布了新功能 SnapStart,通过创建客户 Lambda 函数快照,可将冷启动时间进一步缩短 90%,几乎即用即开。

即需即用,按触发次数付费,不使用不付费;功能松散耦合,降低开发难度,提升开发敏捷性。对云计算的使用者和开发者来说,Serverless 看起来都是好选择。

02 Serverless 时代已全面到来

北京时间 11 月 30 日,亚马逊云科技 CEO Adam Selipsky 的主题演讲开始了。这场演讲重点围绕数据、安全、计算性能和行业应用,旨在帮助云计算用户快速实现数字化转型。Adam Selipsky 认为,数据世界的方向是数据、数据分析、数据库、机器学习的结合,要真正了解数据流的全过程,从数据进入组织,到利用数据协作、共享、做决策,需要从端到端的视角认识数据。亚马逊云科技在正努力研究端到端的数据之旅,并在数据之旅的每一站都构建强大的功能和服务。

在这场演讲中,「Serverless」一直是个隐藏的关键词。毕竟,用户在面对越来越多的数据服务时,会更关注其易用程度,而非底层的基础设施。

Serverless 架构让应用开发更敏捷,并改进了性能和可扩展性,从而满足快速数据增长、多样化的数据源和数据模型。亚马逊云科技已经实现了数据的无感知自动化流转与一体化融合,并且帮助缩短人工智能相关应用的开发周期,帮助实现模型验证流程自动化。

在 Serverless 环境下,开发人员只需要编写云函数,设置好触发云函数运行的事件就可以了,对计算资源的管理工作完全由云计算提供商来承担:选择实例、部署、容错、监控、日志、安全补丁等等等等,都无需用户操心。而且,与传统云计算收费方式不同,Serverless 按照函数执行时间收费,而非按照预留的资源收费。这意味着更细粒度的管理方式,更低的成本支出。目前来看,Serverless 是开发新应用最快速的方式,也是总成本最低的方式。

亚马逊云科技已经从计算、存储、应用集成、数据库、数据分析、人工智能等多个服务领域全面推进 Serverless 进程,领跑完成了 Serverless 在云服务上的全面布局。在计算领域,有 8 年历史的 Amazon Lambda 是无需设置和管理服务器即可运行代码的计算服务,Amazon Fargate 是随用随付的计算引擎;在数据存储领域,最受欢迎的 Amazon Aurora 早在 2018 年就已推出 Serverless 版本;2012 年上线的 Amazon DynamoDB 作为云原生的 Serverless 架构键-值数据库,能为用户提供了极高弹性、可用性和性能。除了这两款知名度较高的产品外,适用于低延迟高速处理的宽列数据库 Amazon Keyspace 和图数据库 Amazon Neptune 也同样有 Serverless 版本——事实上,亚马逊云科技已经有 7 款 Serverless 数据库引擎了。

而在数据分析领域,从久负盛名的 Redshift、大数据分析 EMR、流式数据管道 MSK 和数据引擎 Kinesis,到数据集成工具 Glue、数据查询工具 Athena,再到日志分析工具 OpenSearch 和商业智能服务 QuickSight Q,都已经实现了 Serverless 化。Adam Selipsky 在 re:Invent 大会的主题演讲中特别介绍了这一系列工具,这是行业中的首创,没有任何其他厂商做到——亚马逊云科技已经在数据分析 PaaS 领域实现了数据仓库、大数据平台、流式数据分析的 Serverless 化,将数据 Serverless 能力拓展到了全栈。

与此同时,不确定性的压力也在促使各行各业拥抱 Serverless:无论是大型多人在线游戏,还是领先的交通和汽车企业,亦或著名的消费品企业,都已经开始使用 Serverless 架构。利用 Serverless 带来的极致敏捷和高扩展性与低成本,来更好面对这个愈加不确定的世界。

Adam Selipsky 说:「亚马逊云科技目前已经提供了 200 多项云服务,但创新还远没有结束。亚马逊云科技会在构建新服务、深化现有服务的功能、整合不同服务三个方面不断投入。」

今天我们的世界已经分成了两个:一个是由原子构成,另一个则是由比特构成。两个世界同样真实,且我们正在越来越多地运用后一个世界来管理和影响前者。人们希望在数字世界更加自由,摆脱物理规则的束缚,而Serverless化是实现这样的未来的途径,也是亚马逊云科技正在努力的方向。

0 阅读:3