中国的研究人员在两个月内开发出一个ChatGPT的开源竞争对手

知新了了 2025-01-25 11:19:04

DeepSeek-R1是中国研究人员开发的一种新的推理模型,它完成任务的熟练程度与OpenAI的o1相当,而成本只是前者的一小部分。

中国发布了一款廉价的开源软件,与OpenAI的ChatGPT竞争,这让一些科学家感到兴奋,也让硅谷感到担忧。

该创新背后的中国人工智能(AI)实验室DeepSeek于2024年12月底公布了其免费的大型语言模型(LLM) DeepSeek- V3,并声称该模型仅用558万美元在两个月内建成,这是硅谷竞争对手所需时间和成本的一小部分。

紧随其后的是一款名为DeepSeek-R1的新模型,于1月20日发布。在第三方基准测试中,DeepSeek-V3与OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5的功能相匹配,同时在包括问题解决、编码和数学在内的任务中表现优于Meta的Llama 3.1和阿里巴巴的Qwen2.5。

现在,R1在许多相同的测试中也超过了ChatGPT最新的o1型号。这种令人印象深刻的性能,其成本只是其他模型的一小部分,它的半开源性质,以及它在更少的图形处理单元(GPU)上的训练,让人工智能专家惊叹不已,并引发了中国人工智能模型超越美国同行的忧虑和恐慌。

1月22日,OpenAI的战略合作伙伴微软首席执行官萨蒂亚·纳德拉在瑞士达沃斯举行的世界经济论坛上表示:“我们应该非常非常认真地对待中国的发展。”

人工智能系统使用从人类输入中获取的训练数据进行学习,这使它们能够根据训练数据集中出现的不同模式的概率生成输出。

对于大型语言模型,这些数据是文本。例如,OpenAI的GPT-3.5于2023年发布,它接受了来自存储库Common Crawl的大约570GB的文本数据的训练,这些数据大约相当于3000亿个单词,来自书籍、在线文章、维基百科和其他网页。

推理模型,如R1和o1,是标准LLM的升级版本,使用一种称为“思维链”的方法来回溯和重新评估其逻辑,这使它们能够更准确地处理更复杂的任务。

这使得推理模型在那些希望将人工智能整合到工作中的科学家和工程师中很受欢迎。

但与ChatGPT的o1不同,DeepSeek是一个“开放权重”模型(尽管它的训练数据仍然是专有的),允许用户查看内部并修改其算法。同样重要的是,它为用户提供的价格降低了27倍。

除了性能之外,围绕DeepSeek的炒作还来自于其成本效率;与竞争对手公司为培训花费的数千万至数亿美元相比,该模型的微薄预算微不足道。

此外,美国的出口管制限制了中国公司获得最好的人工智能计算芯片,迫使R1的开发人员构建更智能、更节能的算法,以弥补其计算能力的不足。据报道,ChatGPT需要1万个Nvidia GPU来处理训练数据,DeepSeek的工程师表示,他们只需要2000个GPU就能取得类似的结果。

这将在多大程度上转化为有用的科学和技术应用,或者DeepSeek是否只是训练了它的模型来通过基准测试,仍有待观察。科学家和人工智能投资者正在密切关注。

如果朋友们喜欢,敬请关注“知新了了”!

0 阅读:272

知新了了

简介:专注于新知、科普及趣闻的传播,日耕不辍,天天新鲜。