玩酷网

清华大学在DeepSeek - 671B全量版运行上的最新突破: 过去需要8张H

清华大学在DeepSeek - 671B全量版运行上的最新突破: 过去需要8张H100显卡,成本几百万,现在只用一张4090显卡,成本六万出头,就能跑起来。效率提升28倍!这是什么概念?普通用户也能用4090显卡跑大模型了!算力门槛一下就被拔平了!想搞AI的中小团队、个人开发者有救了!

牛的是清华又双叒叕突破了!这次他们提出了创新性的CPU+GPU混合架构,把400G缓存放进了内存里!不需要那么多显卡集群,也能跑大模型!这种算法和模型结合的方法,极大地提升了算力使用效率,也极大地降低了AI的算力门槛。

评论列表

37度暖风
37度暖风 110
2025-02-21 02:33
只要思想不滑坡,办法总比困难多。

哇哦 回复 02-21 15:07
只要不需要算力可以解决,就解决算力问题的时间可以拉长,芯片升级时间不会拖ai的后腿

韶华几曾 回复 02-22 07:24
每秒token数肯定跟纯显方案没得比

抬头看路
抬头看路 35
2025-02-21 08:27
你什么4090,一张六万多???开发票了?[哭着笑][哭着笑][哭着笑]

song 回复 02-27 10:24
一张4090就够了,机箱都不要。[doge]

凋零向日葵 回复 02-27 16:12
对于企业用户,400G内存不是啥难事,现在服务器服务器配256-512G内存难度不大

bydagl
bydagl 33
2025-02-21 04:11

简约时尚风格 回复 02-21 10:43
你不看成本吗?综合收益呢?

枯萎的野草 回复 02-21 11:08
以前玩不起,至少有得玩

化身孤岛的鲸_幺
化身孤岛的鲸_幺 29
2025-02-21 02:26
我记得测过,大概得3张吧?哪里的消息,有出处么?因为太吃显存了,一张估计出不来字,3张出字都不快。

psymerlin 回复 02-21 09:55
这个好像需要新的CPU统一内存和显存架构,类似苹果的一种架构,把内存和显存整合了。

psymerlin 回复 psymerlin 02-21 11:06
如果以前CPU架构也可以,我都准备加到1T测试下了

C4
C4 22
2025-02-21 09:54
蒸馏GPT的工业垃圾

汤姆哈迪 回复 02-27 17:19
你以为蒸馏是蒸馒头呢

戈比劳王 回复 02-27 10:23
你能再说出关于蒸馏技术哪怕一个字 我倒立吃食

彳亍而行
彳亍而行 18
2025-02-21 18:49
穷则战术穿插,富则火力覆盖
遍净天
遍净天 16
2025-02-21 06:43
权宜之计,不能沾沾自喜
惠源商贸
惠源商贸 14
2025-02-21 10:56
这么搞你们是想彻底把美国佬的根儿给刨了哇,个老流氓不跟你们拼命才怪
樱花舞兮云飞扬
樱花舞兮云飞扬 14
2025-02-21 11:18
一张4090效率是8张H100的28倍[捂脸哭]

般若波罗蜜 回复 02-26 05:56
cpu部分的新算法比之前的llama.cpp的纯CPU算法快28倍。主要是稀疏矩阵乘法的优化。

vivienne 回复 般若波罗蜜 02-26 15:37
你和我解释科普这些没意义。

伏羲
伏羲 11
2025-02-21 09:31
真以为这种部署方式能用啊?慢到你想死

灿烂时空 回复 02-21 20:00
吃早餐提问 吃无饭时出结果

bingo
bingo 10
2025-02-21 07:53
400b的都要400显存,而且慢成申公豹[doge]
寻:::::::
寻::::::: 7
2025-02-22 07:02
让这货解一下数学难题就行
wdkbaby
wdkbaby 6
2025-02-27 12:54
前提是人家大模型的运算结果要允许你收集吧,说白了就是一台边缘服务器,没有核心服务器的数据,就一堆废铁!
用户38xxx89
用户38xxx89 5
2025-02-21 19:18
放屁,4090部署个21b都慢的一比,671根本跑不了
逍遙
逍遙 4
2025-02-22 19:34
当下主流的家用电脑就可以跑了,也不用很大的内存,只要设置虚拟内存就行了。

般若波罗蜜 回复 02-26 06:02
大哥不嫌卡啊。内存64位乘以2G主频,一秒16GB的吞吐率。虚拟内存是硬盘实现的,比内存慢百倍啊。你是想一天出一个token?

逍遙 回复 般若波罗蜜 02-27 14:31
慢点就慢点呗,主打一个省钱

jdbrjejdbfd
jdbrjejdbfd 4
2025-02-24 12:05
ai这玩意个人玩玩的话最多搞到70b就差不多了 671b那不是给个人玩的
赛博情报官
赛博情报官 4
2025-02-21 13:38
每秒多少tokens咋不提?1.58b量化的671b满血我自己也部署过,输出慢的一逼不说还是残血

灿烂时空 回复 02-21 19:59
暂时我看到所有都是龟速 想上吊的龟速 直接免费用GPT3.5就行了

用户16xxx32
用户16xxx32 3
2025-02-22 17:49
64的内存条来8根。
天剑
天剑 2
2025-02-21 19:40
天天网络繁忙是什么原因

用户18xxx20 回复 02-22 09:55
付钱买api就不会繁忙了

般若波罗蜜 回复 02-26 06:00
服务器限流。他们公司不是正规的互联网公司,服务器有限,做了限流。

Simon
Simon 2
2025-02-21 18:39
西方标准也是可以突破的,不能墨守成规!
到处转转
到处转转 2
2025-02-21 12:37
不是一张4090吧,就算8卡跑671确实有点慢[哭笑不得][哭笑不得][哭笑不得]
℃冰
℃冰 2
2025-02-21 12:22
,你们都是怎么用的 每次打开只能问一个问题 再问就是服务器繁忙
九个太阳
九个太阳 2
2025-02-21 09:58
不考虑数据通过总线的损耗,就光DDR5到GDDR7之间的差距也得慢100倍不止吧?再一个算力也不是一个次元的。
看不见的风景
看不见的风景 2
2025-02-21 20:57
然后又跑到大漂亮去了,这是清华的一贯作风
紫气东来
紫气东来 2
2025-02-22 15:23
搞死英伟达的节奏啊
圆滚滚与胖嘟嘟
圆滚滚与胖嘟嘟 2
2025-02-21 21:42
能不能做个共享算力平台,根据在线时间,网络,cpu显卡算力来给点费用,这样全国闲置电脑能不能干掉银河服务器!也省了各个企业组建服务器阵列的费用!能实现吗?

梦一回╭♀丶 回复 02-22 08:14
挖矿[哭笑不得]

伊狼啸月
伊狼啸月 2
2025-02-22 21:53
q4量化的,精度降低
jlspng
jlspng 2
2025-02-21 23:26
中国人聪明
灿烂时空
灿烂时空 2
2025-02-21 19:58
我看到那么多所有吹嘘deepseek 低成本本地部署——都是运算速度超慢的
青龙王
青龙王 2
2025-02-21 16:12
哇偶,只要六万嗳,不过兄弟们肾都给女神经换了苹果手机了,再拿什么换呢?[滑稽笑]
用户10xxx19
用户10xxx19 1
2025-02-21 14:03
AMD最近把高内存调动成高显存,这就不需要占用昂贵而且量少的显卡显存。
ILNBA
ILNBA 1
2025-02-21 09:37
看来还是读书多一点的好[红脸笑]
爱吃花的大猫
爱吃花的大猫 1
2025-02-21 09:58
清华。。呵呵,只会跟在人后,拾人牙慧
用户33xxx72
用户33xxx72 1
2025-02-21 11:17
我一个电脑盲都知道,算法肯定在cpu和内存就可以实现,用gpu搞计算不是长久之计。

DDK 叶哥 回复 02-25 00:53
CPU和GPU各有所长,但实际大语言模型,理论上用LPU更合适。 英伟达多年布局CUDA,在软件应用上占有绝对优势。

般若波罗蜜 回复 02-26 05:59
不是一万,是十六万三千多,但是实际是公用一个显存,略微等待一点。等效于十万个乘法器去打x64的CPU里面加速指令的512个乘法器。

1234567
1234567 1
2025-02-22 09:42
清华捡浙大的饭吃
瘸腿泰迪
瘸腿泰迪 1
2025-02-24 13:26
速度呢
爱吃糖的文哲桑
爱吃糖的文哲桑 1
2025-02-24 18:38
但100跑能更好的话,都还是全想用!
鎏金哇开呀酷烈!
鎏金哇开呀酷烈! 1
2025-02-21 17:04
丢内存里就行,连系统一起
A听众
A听众 1
2025-02-24 21:55
清华北大几十亿的研究经费干什么去了??就会修改别人的东西。
用户11xxx73
用户11xxx73
2025-02-23 08:31
标题党。你一觉睡醒电脑还卡着不动呢