过往运算基本上就是CPU一言堂,那时的霸主是Intel;挖矿初期,AMD的GCN小核心架构成为时代红利,后续nVidia的CUDA架构不断更新,从而成为了从挖矿、专业应用,以及AI运算都成为了霸主。
而Deepseek的出现打破了CUDA算力垄断。
DeepSeek 通过对算法的优化和对底层计算的抽象,实现了对硬件的无关性。这意味着它不仅可以在英伟达的 GPU 上运行,还能在 AMD 的 GPU、华为的芯片甚至苹果的 M 系列芯片等多种硬件平台上施展才华,为不同硬件厂商提供了新的发展机遇,打破了 NVIDIA 凭借 CUDA 对硬件生态的垄断。
获多方支持合作:DeepSeek 的突破吸引了众多 GPU 厂商的支持。AMD 已将 DeepSeek - V3 模型集成到其 Instinct MI300X GPU 上,且性能超过了 GPT - 4;华为昇腾也成功适配部署了 DeepSeek 的 AI 模型,加速了其技术的普及和应用。这有助于构建一个更加开放、多元的 GPU 生态体系,使更多硬件厂商能够在 AI 领域发挥作用,不再完全依赖 NVIDIA 的 CUDA 生态。
当下,深圳市嘉合劲威电子科技有限公司(简称“嘉合劲威”)正全力投入研发一款专门针对 AI 专业应用而生的新一代内存,也就是 MRDIMM。这款内存的诞生之意义在于通过对内存容量和性能的显著提升,以此切实增强 AI 运算的规模与效能,有力地削减中小企业在 AI 研发、运维以及应用环节中所面临的硬件成本。
回首往昔,服务器和工作站大多依靠 RDIMM 内存来支撑运行。但随着电脑处理器和显卡性能如火箭般迅猛飙升,以及 AI 运算能力呈飞速发展态势,传统的 RDIMM 内存逐渐显得捉襟见肘,愈发难以满足不断增长的 AI 应用需求。
与此同时,HBM 作为一种崭露头角的内存芯片技术,已然发展到了 HBM5 阶段。尽管其性能极为出色,然而高昂的成本以及颇高的硬件方案开发要求,致使它更多地被运用在体积更为小巧、更为大型的 AI 应用终端之中。
嘉合劲威当下正专心致志于 MRDIMM 内存的研发工作。这款内存产品能够广泛地应用于服务器和工作站,不但可以大幅提升 AI 运行的效能,还能够有效地降低中小企业在 AI 开发、运维和应用方面的成本。MRDIMM 内存的核心组成部分涵盖了多路复用寄存时钟驱动器(MRCD)和多路复用数据缓冲器(MDB)。其独具特色的并行传输设计让数据吞吐量达成翻倍之效,同时操作两个内存阵列(Rank),再结合多路复用技术,将数据传输速率提升至标准 DDR5 RDIMM 的两倍之多。
MRDIMM 内存的优势清晰明了。它完全与现有 DDR5 RDIMM 的物理接口和外形规格相兼容,用户无需对服务器主板进行任何修改就能够轻松实现升级;此外,MRDIMM 采用双等级操作设计,达成了带宽的成倍增加,让大容量与高性能能够同时兼顾。在电脑处理器、显卡和内存这三大对 AI 运算起着关键作用的因素里,伴随着处理器和显卡性能的提升,内存已然成为制约 AI 运算的瓶颈所在。而 MRDIMM 借助提升带宽和效率,有效地缓解了这一矛盾冲突。
就以 deepseek 的本地部署应用为例,普通用户可以选择 70b 以内的工作模式,在此模式下,对内存容量和带宽的需求相对而言较为低下。然而,中小企业在选择 70b 以上的工作模式时,仅仅依靠显卡显存显然难以应对自如,此时内存的容量大小和带宽便成为了影响运行效能的关键要素。选用 MRDIMM 内存,不但能够降低 deepseek 本地部署应用的电脑配置成本,还能够在保持配置不变的情形下,通过将内存升级为 MRDIMM,实现 AI 运算能效的大幅提升。
嘉合劲威正在研发的 MRDIMM 内存,单根容量覆盖 32GB 至 256GB,第一代产品的传输速率达到 8,800 MT/s,第二代支持 12,800 MT/s 速率,第三代预计将会突破 17,600 MT/s。依据初步测试结果显示,使用第一代 MRDIMM 的英特尔至强 6 处理器性能提升高达 33%,AI 推理任务中词元吞吐量提升 31%,延迟降低 24%。MRDIMM 凭借其大容量、高带宽、低延迟的特性,与 AI 算力需求的完美融合,极大地降低了 AI 人工智能的硬件成本,未来很有希望逐步成为 AI 服务器和高性能计算的标准配置。