​混合模型上线,AI对比测评更方便了

壹零社科技宅 2024-09-12 06:50:08

01

360 AI助手上线

8月1日,在ISC.AI 2024第十二届互联网安全大会·人工智能峰会上,360创始人周鸿祎宣布联合15家国内AI大模型厂商共同推出新产品“AI助手”,支持调用并切换Kimi、智谱AI、豆包、讯飞星火、文心一言、通义千问等多个AI大模型,以提升用户与人工智能的互动体验。

8月22日,360 AI助手更新,除了优化首页和问答页,还推出了一个关键功能——“模型竞技场”,即在原有模型广场的基础上增加多模型的对比功能,用户在输入问题后会得到多份答案。这样不仅能一站式体验多种AI大模型,还能对比同一问题的结果并进行交叉验证。由于不同厂商投喂的训练数据各有差异,各家大模型所擅长的领域可能也有所区别,多模型集成能够集众家之长,并拓宽信息资料的收集渠道,从而优化输出内容。

用户可根据对比结果和个人偏好择优应用,如果没有偏好和选择思路,360智脑可以为用户智能推荐。

360 AI助手主页的“模型竞技场”入口

02

多面参考,横向对比

进入AI助手首页,输入框默认使用AI助手的混合模型,即智能助手自动调度最适配的大模型回答问题,可以满足多场景交互。如果用户想单独选择某一家大模型也可以点击选择按钮随时切换,下方的官方推荐中显示了部分主流大模型,同时简要介绍了各自擅长的方向和特色供用户参考。接入的所有大模型会在“模型广场”板块集中显示,用户也可以在这里进行查找。

输入框下方多模型的切换

进入左侧的“模型竞技场”板块后,页面会出现带有“VS”的对比框,点击框中的“+”号,或左上角的“+”号,均可查找并选择大模型,用户最多可添加三家进行对比测评。在输入框给出问题,选中的大模型会针对这一问题同时进行回答。

“模型竞技场”的界面

不仅如此,AI助手还特设了提示词题库,从基础能力、趣味问答和创作生成三个维度考查大模型的能力,涉及逻辑推理、语言理解等多种题型,可帮助用户从多维度比较不同大模型的性能,从而选出最匹配使用需求的一个。

涵盖多种考查类型的题库

我们选择了文心一言、豆包和Kimi三家以内容创作见长的大模型,并输入“请为电脑报写一条媒体宣传文案,不少于100字”的问题请求,三个大模型均按需求给出了答案,并分别显示了模型响应时间、生成内容字数、任务耗时和效率(每秒生成多少字)四项指标以便对比。

三家大模型还根据各自的内容分析,在答案末尾弹出了相关问题链接作为补充,弹出的顺序由先到后分别是豆包、文心一言和Kimi。在答案框下方,用户可以根据结果对三种大模型进行投票。

三家大模型内容创作的对比结果

如果需要切换参与对比的大模型,可以点击右侧按钮选择“移除模型”或“替换模型”。

选择“移除模型”或“替换模型”

点击页面右上角的“新话题”按钮,即可一键清空,开启新的问题对话。

0 阅读:1

壹零社科技宅

简介:感谢大家的关注