超越GPT-4.5!新版DeepSeek-V3官方报告来了

TechWeb 2025-03-27 09:43:55

继在开源平台放出更新版的DeepSeek-V3 模型后,DeepSeek官方正式公布了该模型的具体性能改进情况,包括推理任务表现提高、前端开发能力增强、中文写作升级、中文搜索能力优化,在工具调用、角色扮演、问答闲聊等方面也有一定幅度的能力提升。

DeepSeek V3 模型升级后目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。DeepSeek官方建议:如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和tokenizer_config.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。与 DeepSeek-R1 保持一致,此次DeepSeek-V3-0324的开源仓库(包括模型权重)统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

DeepSeek-V3-0324大模型的优化情况

实战测试对于中文写作升级这一项,我们初步测试看看。分别让DeepSeek启动深度思考(R1)和关闭深度思考(新V3)来写同一篇命题作文:《以武汉为关键词,写一篇关于雷军的散文》1、DeepSeek-R1深度思考20秒后,写出的散文:

2、DeepSeek-V3-0324直接生成的散文

大家觉得进步如何?

0 阅读:1

TechWeb

简介:专注于互联网消费领域,提供互联网产品等最新资讯。