新华社研究院发布大模型体验报告，讯飞星火总分第一

8月12日，新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》，对当前国内风生水起的主流大模型进行了客观评测，结果显示，科大讯飞星火总分第一。

相对于6月首次发布的《人工智能大模型体验报告》，本次测评在题目设计、对标Benchmark（人类）、打分权重、专家测评团队四大维度进行了全面升级。

其中，在题目设计方面，测评题目由300道扩展至500道，并进一步完善了题目分类：

在对标Benchmark方面，本次测评将接受过高等教育的人类作为对照，来考评大模型真实能力；

在打分标准上，本次测评根据对产业、生活的实际价值，对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计；

在测评团队方面，本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。

本次研究设置了用户体验项目，抓取了7月31日—8月4日数据，通过人机互动提问等形式，对国内主流大模型进行使用体验评测，旨在为科技企业调整努力方向提供参考。

报告显示，与2023年6月相比，当前中国大模型产品进步显著。但与接受过高等教育的人类相比，大模型在智商、情商等方面还存在一定程度差距。

综合基础能力、智商能力、情商能力和工具提效四大能力综合得分情况来看，科大讯飞星火大模型得分1013，仅比人类答案少1分，在各主流大模型中排名第一。其它排在第二、第三的分别为百度文心一言和商汤商量。

据了解，科大讯飞星火大模型发布于5月6日，并于6月9日完成首次升级。相对于初始版本，讯飞星火讯飞新版本无论是知识问答能力、推理能力、数学能力、语言理解、代码能力还是文本生成能力均有较大提升。

科大讯飞星火之所以有如此表现，此前科大讯飞董事长刘庆峰表示，主要是因为公司员工努力和技术积累所致。

刘庆峰表示，在过去24年的创业历程中，为了让机器实现像人一样能听会说、能理解会思考，用人工智能建设美好世界的梦想，科大讯飞人没有一天停止过，也没有一天不再奋斗。

在过去的创业历程中，科大讯飞不仅彻底扭转了中文语音产业的竞争格局，而且在英文等多语种领域获得了全球第一的地位。

在全球首次让机器语音转写超过专业书记员；首次让机器翻译通过国家翻译师资格考试；首次让机器通过了国家执业医师资格考试。同时也是中国唯一一家承担认知智能国家重点实验室建设的公司。

除技术积累外，科大讯飞还拥有成建制的团队，且每一个关键模块都是完全自主研发的，有完整的创新体系，这是科大讯飞在人工智能领域得以踏实前行的关键。

科大讯飞星火大模型当前的版本为1.5，据悉，8月15日，科大讯飞将正式发布讯飞星火2.0版，在文本生成、语言理解、逻辑推理等各项能力持续提升的同时，代码能力和多模态能力将登上全新高度。

玩酷网