玩酷网

腾讯元宝全面测评！国产AI“看剧”时代开启！

技术创新发展界 2024-06-04 11:06:39

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

腾讯在大模型上的动作姗姗来迟。

对于“后发”的抉择，腾讯想得很清楚。

在“腾讯元宝”上线的发布会上，腾讯云副总裁、腾讯混元大模型负责人刘煜宏说，“虽然行业内看起来火热，但是中国移动互联网用户规模12.32亿，国内AI头部产品日活跃用户规模仅数百万。这意味着AI产品的渗透率极低，不到1%。”

图片

在这种情景之下，尽管大家的FOMO（害怕错过）情绪很重，但先发不见得必然获取到优势。豆包对于文心一言的反超就是一个例证。去年8月份推出的豆包，无论是下载量还是月活跃用户数均超过了上半年就入局的文心一言。

因此，腾讯选择了沉住气，将更准确地洞察用户需求、内部打磨产品作为自己的答案。

那么，后发的元宝能否带来一些惊喜呢？

我们为元宝的模型能力进行了全方位的测评。同时，背靠腾讯丰富的内容生态是元宝的独特优势和潜力，因此也对现在的内容链接能力进行了评测，来看看元宝对微信、腾讯视频、微信读书等资源的利用情况。

图片

在体验元宝之后，元宝给我留下最深印象的优点就是——国内AI终于开始读图了！虽然豆包、Kimi也允许上传图片，但是他们本质做的是OCR，只识字不识图。

图片

但元宝可以看懂，并且可以对画面内容进行一些理解。

图片

虽然Ta目前看不懂自己的梗图，并且误解自己是个理财APP。但总体来说是个巨大的进步。

图片

至于缺点，元宝没有采取目前GPT、Kimi等比较主流的方法，会给每一个对话概括一个名字。方便用户随时回顾之前的对话内容。

元宝在开始新对话后，必须通过不断地上拉才可以回顾之前的对话。在删除聊天记录时则会清楚全部的记录（这个灵感是来自微信吗），而且也尚未提供搜索，给人感觉不够便利。

图片

此外，元宝很有想法。不是那种被质问就马上道歉说是自己出幻觉的那种AI。

详细的测评将从以下五个维度展开。

图片

一、自然语言处理能力1.语言理解第一个题目由GPT-4o提供：

图片

元宝的作答非常详尽，因此只选取了建议部分：

图片

从上述回答来看，元宝的理解比较深入，全面分析了给出的金融问题，并符合逻辑地提供了有价值且易于理解的投资建议。

作为AI测试界的常客，我们选择了两个“弱智吧”笑话，对元宝进行了测试。

第一个是生鱼片是不是死鱼片？以下是元宝的总结：

图片

另一个是经典的爸妈结婚问题：

图片

2.语言生成选择了一道高考作文题目交给元宝作答。

元宝的作文乍一看很唬人，细品一下会发现Ta一直在跑题,主要是模型起的标题把自己带偏了。

不过有意思的是，元宝无需提示就意识到了自己的作答身份，全篇以学生口吻完成。

二、信息检索和知识问答

首先检索了OpenAI的新闻，完成度不错。OpenAI与普华永道的合作也是最新发生的事情。

图片

但当我用马斯克为关键词进行搜索时，元宝刚开始的回答还很靠谱。

图片

但随着Ta思维的发散，Ta的答案走远了……

图片

当我追问时，元宝居然神奇的硬圆上了。（这就是元宝的性格，不会像其他模型那样爱认错，下文还会提到）

图片

三、任务执行和实用工具

在任务执行中，我们考察的是元宝的路线规划能力。

图片

在实用工具能力上，选择了一道难度较大的行测题目，对元宝进行了拷问。

图片

元宝经过一通分析之后，也很好地找出了正确答案。

图片

四、多模态交互能力1.图像理解

元宝的读图能力是我觉得最有趣的地方。

特别是Ta理解了照片拍摄的意图，让我感觉比较惊喜。

图片

我甚至给元宝看了最近正在考虑组的房子户型图。元宝没有像一般大模型那样被质疑后就爆发讨好性人格，而是坚持自我!（不过他应该是把厨房当成卧室了）。

图片

2.图像生成

元宝能根据古诗的含义进行图像生成。如果非常依赖上下文的诗表现可能不佳，例如“知否，知否，应是绿肥红瘦”，元宝可能会po上两颗一红一绿的树上去。

图片

生成的日常图片逼真而有食欲。

图片

五、腾讯内容生态链接能力

首先让元宝给我推荐值得关注的美食公众号

图片

方向是对的，但是质量没有那么好，里面有一些断更一年多的公众号也被收录了。

同时，在检索最近发生的事情时，元宝可以使用微信公众号的优质资源整合作答。但是在交互时，需要注意prompt的写法，我一开始的问法是“为什么要爆料”，此时元宝不会开启搜索，而是选择进行动机的推测。

图片

图片

另外，在检索热播剧时，元宝还会拉到腾讯视频的答案，点击可以在网页端看视频。不过，在进一步的测试中发现，目前的元宝还不具备阅读和理解视频的能力。

图片

其实，依托腾讯庞大的生态。元宝完全有机会成为一个很好的个人助手。

期待元宝能打破APP之间那道无形的墙。这其中的想象力以及能释放给用户的便利可能远超你我的想象。

图片

来源： 51CTO技术栈

0 阅读：20

技术创新发展界

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章