deepseek开源了两个新的推理模型:DeepSeek-R1和DeepSeek-R1-Zero。同时也开放了思维链的API:deepseek-reasoner,价格如图1。
目前还没有更进一步的信息,也不知道这两个模型区别在什么地方。按上次的节奏明天会有更进一步的消息,在等等看。更新:发完微博对应的github介绍上线了! github.com/deepseek-ai/DeepSeek-R1 ,跑分如图3
基本上是671B 参数的DeepSeek-R1对标OpenAI-o1,然后还搞了个DeepSeek-R1-Distill-Qwen-32B对标 OpenAI-o1-mini。DeepSeek-R1-Zero参考介绍:
“DeepSeek-R1-Zero 是一个通过大规模强化学习 (RL) 训练的模型,没有将监督微调 (SFT) 作为预备步骤,它在推理方面表现出卓越的性能。通过强化学习,DeepSeek-R1-Zero 自然而然地涌现出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也遇到了一些挑战,例如无限重复、可读性差和语言混合。为了解决这些问题并进一步提高推理性能,我们推出了 DeepSeek-R1,它在强化学习之前加入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上实现了与 OpenAI-o1 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中蒸馏出来的六个稠密模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini,在稠密模型方面取得了新的最先进成果。”