“小王,你听说了吗?
最近清华大学的一个团队搞了个大新闻,只用单GPU的DeepSeek-R1。
”咖啡厅里,小刘眉飞色舞地跟小王讨论最新的技术动态。
小王眼神中充满了好奇:“单GPU?
这可真新鲜,跟我好好讲讲。”
本地部署的难题与突破有多少开发者都在困惑:DeepSeek-R1这么火,为什么本地部署就这么难?
事实上,DeepSeek-R1高达671B参数的模型对显存要求极高,就像一部大容量的豪华车需要开阔的道路才能跑得痛快。
即便是8卡A100这种高端设备也难以负荷,结果就是,很多人被高昂的硬件成本吓得止步不前。
但天下没有解决不了的难题。
清华大学KVCache.AI团队和趋境科技的联合团队,这回给大家带来了一点惊喜。
他们的KTransformers项目竟然可以让24G显存在本地运行DeepSeek-R1以及V3的671B版,预处理速度能达到286 tokens/s,推理生成速度达14 tokens/s。
光听这些数字,也能感受到这种技术给大家带来的激动和期待。
在这次的更新中,他们用到了异构平台设计,这不仅减少了对GPU的依赖,还让CPU在DeepSeek的加速中发挥了重要作用。
这项技术,不但让更多的开发者看到了在本地运行大模型的可能,还大大降低了大家的准入门槛。
创新异构平台的技术亮点那么这个创新的异构平台到底是什么?
其实,这次技术的亮点在于使用了CPU和GPU的混合应用。
简单来说,就是把能在CPU上处理的部分任务交给CPU,这样就能减少对GPU的依赖。
所以,这样的分工下,即便是单卡GPU,也能跑得动深度学习的重任。
这一技术的基础,就是英特尔最新的AMX(高级矩阵扩展指令集),它堪称是CPU中的“Tensor Core”。
通过这个指令集,CPU的预处理速度达到286 tokens/s,已经比之前llama.cpp快了近28倍。
这意味着,大量需要处理上万级Token的任务,从原来的“分钟级等待”一下子变成了“秒级响应”。
这对那些需要长时间等待的大规模代码库分析等任务来说,简直是天大的好消息。
实测性能与社区反响虽然理论上听来很诱人,但实际表现如何?
社区的开发者们迫不及待地用自己的CPU和显卡进行了实测,譬如用3090显卡和200GB内存组装的系统,结果显示,Q2_K_XL模型的推理速度达到了9.1 tokens/s。
真正实现了千亿级模型的家庭化运作。
于是,在GitHub上,围绕这个项目的问题和讨论迅速积累,打起了热烈的交流战,成为社区的热门项目之一。
HuggingFace的开源负责人也对这个项目点赞。
种种反响证明,这项技术不仅仅是纸上谈兵,它的确在现实中带来了切实的提升和可能性。
未来展望:至强6的潜力目前,KTransformers使用的是英特尔2023年发布的第四代至强可扩展处理器,但清华KVCache.AI团队表示,他们接下来会尝试升级到至强6,这意味着什么?
至强6产品线将会拥有更高的计算密度,比如单CPU最高可以达到128核。
再加上新一代AMX的加持和高带宽型内存(MR-DIMM)的支持,预填充性能有望进一步提高。
这将带来更高的计算效率,也为未来更多的复杂任务提供了硬件支持。
想象一下,如果每个研究团队都能以相对低的成本,拥有这么一台高效运转的推理机器,那科研效率和可以探索的领域将会有多么大的提升。
结尾:从困惑到突破,再到广泛的社区反响和未来的憧憬,KTransformers项目给学术界和开发者们带来了许多可能性。
当我们在技术的前沿,不断打破成本与效能的桎梏,或许真正推动科研和技术创新的,不只是那些庞大的硬件设备,而是我们对挑战的无畏和对未来的热爱。
清华大学KVCache.AI团队和趋境科技的这次尝试告诉我们,只要敢于创新和探索,就有可能打破常规,让不可能变为可能。
未来或许我们会看到更多这样的技术飞跃,不断在有限的条件下创造无限的可能。
如此,才能真正让科技不仅是前沿的,也是平易近人的。