腾讯元宝全面测评!国产AI“看剧”时代开启!

技术创新发展界 2024-06-04 11:06:39

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

腾讯在大模型上的动作姗姗来迟。

对于“后发”的抉择,腾讯想得很清楚。

在“腾讯元宝”上线的发布会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,“虽然行业内看起来火热,但是中国移动互联网用户规模12.32亿,国内AI头部产品日活跃用户规模仅数百万。这意味着AI产品的渗透率极低,不到1%。”

图片

在这种情景之下,尽管大家的FOMO(害怕错过)情绪很重,但先发不见得必然获取到优势。豆包对于文心一言的反超就是一个例证。去年8月份推出的豆包,无论是下载量还是月活跃用户数均超过了上半年就入局的文心一言。

因此,腾讯选择了沉住气,将更准确地洞察用户需求、内部打磨产品作为自己的答案。

那么,后发的元宝能否带来一些惊喜呢?

我们为元宝的模型能力进行了全方位的测评。同时,背靠腾讯丰富的内容生态是元宝的独特优势和潜力,因此也对现在的内容链接能力进行了评测,来看看元宝对微信、腾讯视频、微信读书等资源的利用情况。

图片

在体验元宝之后,元宝给我留下最深印象的优点就是——国内AI终于开始读图了!虽然豆包、Kimi也允许上传图片,但是他们本质做的是OCR,只识字不识图。

图片

但元宝可以看懂,并且可以对画面内容进行一些理解。

图片

虽然Ta目前看不懂自己的梗图,并且误解自己是个理财APP。但总体来说是个巨大的进步。

图片

至于缺点,元宝没有采取目前GPT、Kimi等比较主流的方法,会给每一个对话概括一个名字。方便用户随时回顾之前的对话内容。

元宝在开始新对话后,必须通过不断地上拉才可以回顾之前的对话。在删除聊天记录时则会清楚全部的记录(这个灵感是来自微信吗),而且也尚未提供搜索,给人感觉不够便利。

图片

此外,元宝很有想法。不是那种被质问就马上道歉说是自己出幻觉的那种AI。

详细的测评将从以下五个维度展开。

图片

一、自然语言处理能力1.语言理解第一个题目由GPT-4o提供:

图片

元宝的作答非常详尽,因此只选取了建议部分:

图片

从上述回答来看,元宝的理解比较深入,全面分析了给出的金融问题,并符合逻辑地提供了有价值且易于理解的投资建议。

作为AI测试界的常客,我们选择了两个“弱智吧”笑话,对元宝进行了测试。

第一个是生鱼片是不是死鱼片?以下是元宝的总结:

图片

另一个是经典的爸妈结婚问题:

图片

2.语言生成选择了一道高考作文题目交给元宝作答。

元宝的作文乍一看很唬人,细品一下会发现Ta一直在跑题,主要是模型起的标题把自己带偏了。

不过有意思的是,元宝无需提示就意识到了自己的作答身份,全篇以学生口吻完成。

二、信息检索和知识问答

首先检索了OpenAI的新闻,完成度不错。OpenAI与普华永道的合作也是最新发生的事情。

图片

但当我用马斯克为关键词进行搜索时,元宝刚开始的回答还很靠谱。

图片

但随着Ta思维的发散,Ta的答案走远了……

图片

当我追问时,元宝居然神奇的硬圆上了。(这就是元宝的性格,不会像其他模型那样爱认错,下文还会提到)

图片

三、任务执行和实用工具

在任务执行中,我们考察的是元宝的路线规划能力。

图片

在实用工具能力上,选择了一道难度较大的行测题目,对元宝进行了拷问。

图片

元宝经过一通分析之后,也很好地找出了正确答案。

图片

四、多模态交互能力1.图像理解

元宝的读图能力是我觉得最有趣的地方。

特别是Ta理解了照片拍摄的意图,让我感觉比较惊喜。

图片

我甚至给元宝看了最近正在考虑组的房子户型图。元宝没有像一般大模型那样被质疑后就爆发讨好性人格,而是坚持自我!(不过他应该是把厨房当成卧室了)。

图片

2.图像生成

元宝能根据古诗的含义进行图像生成。如果非常依赖上下文的诗表现可能不佳,例如“知否,知否,应是绿肥红瘦”,元宝可能会po上两颗一红一绿的树上去。

图片

生成的日常图片逼真而有食欲。

图片

五、腾讯内容生态链接能力

首先让元宝给我推荐值得关注的美食公众号

图片

方向是对的,但是质量没有那么好,里面有一些断更一年多的公众号也被收录了。

同时,在检索最近发生的事情时,元宝可以使用微信公众号的优质资源整合作答。但是在交互时,需要注意prompt的写法,我一开始的问法是“为什么要爆料”,此时元宝不会开启搜索,而是选择进行动机的推测。

图片

图片

另外,在检索热播剧时,元宝还会拉到腾讯视频的答案,点击可以在网页端看视频。不过,在进一步的测试中发现,目前的元宝还不具备阅读和理解视频的能力。

图片

其实,依托腾讯庞大的生态。元宝完全有机会成为一个很好的个人助手。

期待元宝能打破APP之间那道无形的墙。这其中的想象力以及能释放给用户的便利可能远超你我的想象。

图片

来源: 51CTO技术栈

0 阅读:20

技术创新发展界

简介:感谢大家的关注