北京时间 1 月 28 日,美股收盘,英伟达下跌 16.86%,市值蒸发 5888.62 亿美元(约合人民币 4.27 万亿元),创下美股纪录。业界分析这与 DeepSeek 带来的冲击直接相关,该公司在训练明星产品 DeepSeek-V3 开源大模型的过程中,仅使用了 2,048 块 H800 显卡,这与英伟达与 OpenAI 们所讲的技术故事有所不同。
一位英伟达发言人在评价 DeepSeek 的成果时表示:“DeepSeek 是一个出色的 AI 技术进步,也是测试时间尺度(Test Time Scaling)的一个完美例子,”“DeepSeek 的工作说明了如何利用这一技术来创建新的模型。”当地时间 1 月 27 日,美国总统特朗普表示中国 AI 应用的突然兴起对于美国科技公司来说“应该是一个警钟”,但他同时表示仍对美国公司保持期望。
(来源:资料图)
全世界技术圈还在以饱满的热情热议 DeepSeek,该公司也适时发布了一系列名为 Janus Pro 的基于视觉的多模态 AI 开源模型,并表示模型性能优于 OpenAI 的 DALL-E 3。
新模型是对去年底推出的 Janus 的升级。Janus Pro 通过升级训练流程、数据质量和模型大小对 Janus 进行了改进,从而提高了图像稳定性和细节丰富性。Janus-Pro 通过添加 7,200 万张高质量合成图像并将其与真实世界数据进行平衡,实现了更具视觉吸引力和更稳定的图像输出。
Janus Pro 系列模型参数的大小从 1B 到 7B 不等,参数较多的模型比参数较少的模型表现更好。目前,Janus Pro 已经获得了 MIT 协议许可,这意味着它可以在商业上不受限制地使用。
DeepSeek 将 Janus Pro 描述为“新颖的自回归框架”,它既能理解图片又能生成图片,兼具图像生成、视觉问答和图像字幕等功能。DeepSeek 表示,在 GenEval 和 DPG Bench 中两个 AI 评估基准,这一系列模型中参数最大的 Janus-Pro-7B 击败了 DALL-E 3 以及 PixArt alpha、Emu3-Gen 和 Stability AI 的 Stable Diffusion XL 等型号。
(来源:资料图)
DeepSeek 在 Hugging Face 上的一篇文章中写道:“Janus Pro 的简单性、高度灵活性和有效性使其成为下一代统一多模式模型的有力候选者。”
要知道,只需一台普通电脑就能运行 Janus-Pro-7B,同时可以生成分辨率为 384x384 的图。网友“冷雨寻双”表示这就好比“用五菱宏光跑出了保时捷的加速度”。虽然图片的尺寸不算太大,但是考虑到其参数只有 7B,所以正如 DeepSeek 在上述文章中所写的:“Janus Pro 旨在实现性能和计算成本之间的平衡。”目前,在 Hugging Face 上,Janus-Pro 位居模型下载排行榜第二名,第一名则是 DeepSeek-R1。
通过发布 Janus Pro 7B,DeepSeek 将其范围从语言处理扩展到计算机视觉这一关键领域。由于 Janus Pro 7B 不需要大量的计算资源,因此可以大大降低希望将先进视觉 AI 集成到企业业务的门槛。无论是初创公司还是大型公司,都可以在不产生过高基础设施成本的情况下来部署先进的视觉智能模型。
与此同时,DeepSeek 的 APP 已经登上苹果应用商店排行榜榜首,超过了ChatGPT。不过,1 月 27 日,DeepSeek 表示其服务器遭到大规模恶意攻击,因此它暂停了注册。
(来源:资料图)
因为最近一系列产品的良好表现,AMD 已宣布集成 DeepSeek-V3 到 MI300X GPU。许多技术团队也在尝试复现这一技术成果,来自美国加州大学伯克利分校、香港科技大学和 Hugging Face 的研究人员均已成功复现 DeepSeek 模型。这些研究人员发现仅仅使用强化学习,无需使用监督微调,仅用 30 美元就能见证“奇迹”。
比如,加州大学伯克利分校的研究人员在 CountDown 游戏中复现了 DeepSeek R1-Zero。他们证明只需使用强化学习,让参数仅有 3B 的基础语言模型也能实现自我验证和自我搜索。
香港科技大学的研究人员使用 8K 个样本,成功在 7B 模型上复现 DeepSeek-R1-Zero 和 DeepSeek-R1 的训练。具体来说,他们以 Qwen2.5-Math-7B 作为基础模型,通过对其进行强化学习,在不进行监督微调和没有使用奖励模型的情况下,让 Qwen2.5-Math-7B 在 AIME 基准上达到 33.3% 的准确率,在 AMC 上达到 62.5% 的准确率,在 MATH 上达到 77.2% 的准确率。
而 Hugging Face 则已官宣其复刻了 DeepSeek R1 的所有流程(pipeline),其从 DeepSeek-R1 中蒸馏出来高质量语料库,复现了 R1-Distill 模型。
总的来说,由 DeepSeek 引起的震撼还在持续。犹记得一年前的 2024 开年,人们都在关注 OpenAI 的 Sora。一年后的 2025 年开年,所有注意力都转移到 DeepSeek 身上,这似乎是“换了人间”。
编辑:李航
参考资料
https://futurism.com/silicon-valley-shambles-chinese-startup-deepseek
https://techcrunch.com/2025/01/27/viral-ai-company-deepseek-releases-new-image-model-family/
https://venturebeat.com/ai/deepseek-unleashes-janus-pro-7b-vision-model-amidst-ai-stock-bloodbath-igniting-fresh-fears-of-chinese-tech-dominance/
https://www.reuters.com/technology/artificial-intelligence/hedge-flow-hedge-funds-were-pausing-us-ai-bets-deepseek-emerged-says-goldman-2025-01-27/
https://www.reuters.com/technology/artificial-intelligence/what-is-deepseek-why-is-it-disrupting-ai-sector-2025-01-27/
https://www.reuters.com/technology/deepseeks-janus-pro-ai-model-beats-rivals-image-generation-2025-01-27/
https://www.reuters.com/technology/artificial-intelligence/chinese-ai-startup-deepseek-overtakes-chatgpt-apple-app-store-2025-01-27/
https://www.cnbc.com/2025/01/27/nvidia-calls-chinas-deepseek-r1-model-an-excellent-ai-advancement.html
https://www.nbcnews.com/tech/innovation/trump-china-deepseek-ai-wake-call-rcna189526