作者:王泽宇 华略智库新媒体部
来源:上海华略智库(ID:HUALUETT)
人工智能的浪潮正以不可阻挡之势席卷全球,它在各个领域的应用不断刷新着我们的认知。本文通过测评三大国产AI大模型在决策咨询领域的表现,深入探讨人工智能能否取代人类咨询师。让我们跟随本文,一起来看看在这场较量中,谁能更胜一筹?
全文3894字,阅读约10分钟
2022年11月,ChatGPT的横空出世,将人工智能发展推向了一个新的时代,各大互联网科技企业都开始将其纳入自身核心发展战略,许多以人工智能为依托的初创企业也如雨后春笋般涌现出来。一年多时间,国产人工智能大模型的发展速度之快、应用行业之广超出想象。比如,近期科大讯飞发布了讯飞星火大模型4.0,在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力方面获得全面提升,整体超越GPT-4 Turbo。
2023年,麦肯锡曾发布了一份题为《生成式人工智能的经济潜力》的研究报告,称在2030年至2060年间,或有50%的职业会逐步被人工智能取代。作为一名智库的从业者,我也有一丝隐忧:未来,决策咨询会不会被人工智能取代?为此,我们设计了此次测评,来看看中文大语言模型做决策咨询,会不会比我们更优秀。
凭借我们广泛的市场经验和客户反馈来看,一项优秀的决策咨询成果通常需要同时具备三个方面:
三个方面,地球人都知道
——清晰的逻辑:把事说清,做到一目了然;
——有趣的灵魂:思想为王,做到一针见血;
——好看的皮囊:表达优美,做到一见倾心。
本次测评也将会从以上三个方面重点展开。
在测评对象方面,我们综合技术水平、用户体量、市场口碑等因素选择了三款大模型产品参与本次测评,它们是:百度的文心大模型、科大讯飞的讯飞星火、月之暗面的Kimi智能助手。
首先,百度作为中国领先的科技公司之一,在人工智能领域的研发投入非常庞大。在2022年李彦宏就曾透露,百度10年内在人工智能领域累计投入超过1000亿用于研发,每年研发占比都超过15%,这种不遗余力的投入最终也体现在了文心一言优异的表现上。文心大模型在多项自然语言处理任务中的表现卓越,如文本生成、机器翻译和语义理解。截至今年4月份,文心一言的用户数突破了2亿,API日均调用量也突破了2亿,服务客户数达到了8.5万,利用千帆平台开发的AI原生应用数超过了19万。
其次,科大讯飞是中国语音技术领域的龙头企业,其技术广泛应用于教育、医疗等多个行业。讯飞星火大模型以其在语音识别和智能对话系统方面的领先技术而闻名。自2023年9月至今年6月底,讯飞星火APP在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型App中排名第一。值得一提的是,讯飞星火大模型在教育、医疗等细分行业的专业应用也覆盖了超过2000万用户。
最后,月之暗面虽然创立仅一年多,但凭借Kimi智能助手的出色表现迅速在市场上崛起,赢得众多资本青睐,其当前估值已经高达195亿人民币。今年3月18日,月之暗面曾宣布在大模型长上下文窗口技术上取得新的突破,Kimi智能助手支持无损上下文长度从最初的20多万字,扩容到200万字。该消息公布后,Kimi关注度一路走高,一度挤爆了服务器。今年4月,Kimi智能助手网页版访问量达到2004万,较3月上涨60.2%,访问量一度超过文心一言,排在国内同类产品的第一位。
看图说话
清晰的逻辑
“清晰的逻辑”在决策咨询中体现为思想的穿透力和判断性,要求咨询师基于深厚的行业知识和专业背景,提供清晰的见解和分析,确保思想观点与实际情况相吻合,确保内容真实、可验证。
为验证AI的上述能力,我们从“批判的武器与武器的批判”和“钢铁的领袖与领袖的钢铁”中获得灵感,设计了以下问题:
“在产业培育中,你如何理解‘把握未来的产业’和‘把握产业的未来’?字数限制在500字以内。”
以下是各个大模型的回答:
星火
文心
Kimi智能助手
从上述回答中可以看出,三个大模型均展现出了较高的理解能力,都区分了“未来的产业”和“产业的未来”的概念区别,前者“未来产业”,关注新兴产业趋势的洞察和前瞻性布局,强调技术发展赛道的变化;后者“产业未来”则侧重现有产业的持续发展和升级。不过受制于文章篇幅,我们此次环节没有引入更多问题,大模型的知识面广度仍有待进一步考察。
有趣的灵魂
“有趣的灵魂”在决策咨询中体现为思想的洞察力和准确性,要求咨询师基于信息的充分挖掘、科学分析和系统提炼,提供具有说服力的见解和分析,能够从不同角度佐证主要观点,确保报告的权威性和可信度。
为验证AI的上述能力,我们设计了以下问题:“长三角一体化上升为国家战略五年来,区域间的差距是扩大还是缩小?请结合实际数据和依据作出回答。”
以下是各个大模型的回答:
文心
星火
Kimi智能助手
文心大模型是三个大模型中表现最好的,它尝试依托实际数据和案例,从经济水平、科创能力、基础设施、生态保护四个方面证明区域间差距正逐步缩小这一观点。尤其是在经济水平和生态保护两个方面,引用了中心区城乡居民收入差距、中心区人均GDP与全域人均GDP差距的数据以及水乡客厅的案例。不过其在其他两个方面所展示的数据与论点关联性依旧不高,略显薄弱,比如TA提到长三角地区在基础设施建设方面取得显著进展,但并没有给出具体案例——沪苏双11号线无缝对接,或是打通省界“断头路”项目等。
讯飞星火的回答从宏观层面展现了长三角地区五年来在经济发展、对外开放、协同创新、产业集群等领域取得的成就,但并没有切入问题本身,展示长三角区域间差距扩大或缩小的证据,得出的结论与实际论证过程也不尽相符。
Kimi智能助手的回答列举了长三角地区一部分的区域发展现状,但也没有回答差距是扩大还是缩小,仅在公共服务领域上提到教育、医疗卫生方面差异逐渐缩小,社会保障的内部差距有所扩大,但并没有列举具体数据和材料论证这一观点,得出的结论说服力不高。
总体来看,三大模型在该问题上的完成度较差,讯飞星火和Kimi智能助手并没有很好地理解问题,文心大模型在案例引用上展现出了亮点,但仍旧不足。
好看的皮囊
“好看的皮囊”在决策咨询中体现为思想的表现力和可读性,要求咨询师运用清晰、精炼且具有创造力的表达方式,以清晰的结构、优美的语言和工整的行文,使得复杂信息变得易于理解和接受,让读者能够快速抓住重点,提升整体阅读体验。
为验证AI的上述能力,我们设计了以下问题:“请为浙江省嘉善县撰写一篇热情洋溢的城市推介词,吸引和留住青年人才,以诗歌为标题,字数限制在1000字以内。”
以下是各个大模型的回答:
星火
文心
Kimi智能助手
文心大模型的文章以“嘉善,诗画江南的青春乐章”为题,从历史、自然风貌、文化底蕴、创新发展和人文关怀五个方面详细描绘了嘉善的独特魅力,最后以喊话青年人才为结尾,其亮点在于使用“嘉善之美、嘉善之韵、嘉善之活、嘉善之魅”引出每一段,并且点出了嘉善作为吴文化发源地的特色。
讯飞星火的文章以“嘉善,诗意栖居的江南水乡”为主题,主要从自然风景、历史文化描绘了嘉善的独特魅力,并重点讲述了嘉善为青年才俊提供的优良资源和广阔发展空间。
Kimi智能助手的文章以“江南梦,嘉善情——诗意栖居,青春启航”为题,从历史文化、创新空间、教育资源、生活环境、发展机遇五个方面描绘了嘉善的亮点。
三篇文章总体上结构清晰且各具特色,展现出了人工智能在结构梳理上的较高能力。但从细节来看,三者在语言组织上还略显生硬,缺乏韵味,属于“不耐看”的类型。最大的问题在于,三篇文章自始至终没有给出有力依据,比如在介绍嘉善的创新环境和发展空间时,没有点出嘉善“双示范”的国家战略地位,没有突出嘉善具有竞争力的人才招引政策,没有提到祥符荡科创绿谷、中国归谷嘉善科技园等人才展示平台,没有彰显出嘉善求贤若渴的招贤纳士姿态,使得推介词“热情”不足、“洋溢”不够。
总体来看,三大模型对于文章结构的梳理值得借鉴参考,但并没有很好地完成这一项任务。
回到我们最开始的问题,人工智能是否会取代咨询师?在给出最终的答案之前,我们不妨先看看滨州市委书记、市人大常委会主任宋永祥在第三届滨州人才节启动仪式暨人才高峰荟上的主旨演讲:《选择滨州 爱上智城 共赢未来》。文章用“江山代有才人出”“近水楼台先得月”“此心安处是吾乡”“不拘一格降人才”“天生我材必有用”五句诗向人才致敬,结构严谨、行文流畅、语言优美、逻辑清晰、内容详实,堪称推介词的范本。
通过此次测评,我们能够看到人工智能模型在语义理解和逻辑梳理上展现出的能力。例如,这些模型能够几乎瞬间分析大量文本,提取关键信息,并整理出清晰的框架,能够帮助咨询师更好地梳理课题思路,把握研究方向,提高工作效率。然而,三个大模型在综合表现上仍无法达到高质量决策咨询报告的要求,比如在语言组织上还略显生硬,无法在论证观点时提供全面且有力的依据,反映出当前的人工智能在生成高质量、连贯性强的文本方面仍有很大提升空间。
此外,要让人工智能在决策咨询中发挥更大作用,还需要克服一些挑战。首先,人工智能模型依赖大量数据,如果收集的数据存在偏差或不准确,会直接影响其输出结果;其次,决策咨询的论证过程需要透明、可靠和令人信服的依据,当前的人工智能模型,其本质上还难以脱离“黑箱”的本质,还没有人能够了解其内部工作原理,这就需要有人不断对其生成的结果进行严格审查和校验。
综上,当前的大语言模型具备在实际工作中作为辅助工具,能够帮助咨询师提升部分场景的工作效率,但距离完全取代咨询师还有很大的差距。未来,随着人工智能技术的不断进步,或许有一天大语言模型能在更复杂的任务中发挥更大的作用,然而在此之前,咨询师的创造力、判断力和表达力依然是决策咨询中不可替代的关键因素。
更为重要的是,咨询师和大模型一样,都在持续不断地学习,同时——华略智库的公众号和视频号就是例证。
所以,在可预见的阶段,决策咨询行业中,主要靠人工,有时靠智能。暂时,我们还不会被取代。