这两天发布的模型/技术太多了。特别是国产厂商,似乎都赶在春节前发布新成果新技术。
⭐DeepSeek R1,推理模型,开源,及其附带的Zero模型和一系列蒸馏模型。
⭐字跳的豆包,发布了Doubao-1.5-pro,跑分看能力也达到了Claude3.5-Sonnet的水平,支持多模态。还提到有个在研的推理模型Doubao-1.5-pro-AS1-Preview 。
⭐Kimi发布了 k1.5 推理模型,主打长上下文与 RL 结合(还未上线)。
⭐MiniMax发布了 minimax-text-01 ,把模型的上下文窗口扩展到了4M,且在长文本输出方面做的很强。另外还发布了文本转语音模型T2A-01-HD, 情感模拟效果很好。
⭐阶跃星辰升级了 Step 系基座模型全家桶,主打多模态。
⭐阿里qwen系列没发什么直接面向用户的东西,但开源了对大模型研究者很有用的过程奖励模型(PRM,似乎是唯一一个开源类似东西的厂商?)和一篇讨论改进MoE技术的论文:Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models。
⭐讯飞也出了推理模型,叫x1
应该还有其他的,太多了记不住。总之主打一个红红火火过大年了[打call]