9月5日,钛媒体消息,即将在2024全球AI芯片峰会上,壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。
壁仞HGCT的异构协同通信效率大于98%、端到端训练效率90-95%,从而突破了大模型异构算力孤岛难题。
壁仞科技副总裁、AI软件首席架构师丁云帆表示,这是业界首次支持3种及以上(壁仞GPU+英伟达GPU+其他国产芯片)异构GPU同时训练一个大模型。同时,目前壁仞科技打造的软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案可以实现千卡集群、千亿参数的自动断点续训小于10分钟,15天连续训练不中断,4天连续训练无故障。
异构GPU协同训练:壁仞HGCT方案:支持3种及以上异构GPU(包括壁仞GPU、英伟达GPU及其他国产芯片)同时训练一个大模型,这是业界的首次突破。高效协同:异构协同通信效率大于98%,端到端训练效率达到90-95%,解决了大模型异构算力孤岛难题。全栈优化与开源开放:壁仞科技提供软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案。实现千卡集群、千亿参数的自动断点续训小于10分钟,15天连续训练不中断,4天连续训练无故障。