「爆肝40小时」Claude3与GPT4中文常用场景实测对比

格物时间 2024-03-08 11:19:29

现在全网都在说Claude3全面超过GPT4,但是在中文场景下到底谁更厉害呢?我重度使用了3天,对比了上百个问题。我觉得我得到了答案。

我使用的是付费版的GPT4和Claude3 Opus模型,每个月都是20美元,本文共做了14个代表性的测试,GPT4和Claude3各答对了几题呢?一起来看吧。

识图能力1. 看图给出菜谱。他们两个给出了效果不错的答案。详细的介绍了需要的材料和做法。各得一分。

西红柿炒鸡蛋

菜谱

2. 发一张冰箱的照片,让它做出10个菜。

Claude3和GPT4给出的答案大部分正确,但是都出现了图片中不包含的食材,GPT4中出现了烤鸡,Claude3中出现了黄瓜、虾仁、葡萄。这一局GPT4得一分。

菜单

长文本理解

对于长文本理解的测试,我使用一个六万汉字的TXT文件。为了防止AI之前就收录了这个小说,我特意添加了一些内容到文件中,并对文件的内容进行提问。

3. 布和纸怕什么?

TXT内容

二者都给出了正确的答案,这是我在小说中加入的内容。两个都得一分。但是,Claude3在处理有文件的请求速度要比GPT4要慢很多。

答案

4. 对博主最好的鼓励是什么?

TXT内容

对于这个问题,Claude3给出的是正确的答案。我猜测GPT4在这个问题中,并没有参考上一个问题的上下文。而Claude3是正确的使用了上下文,这也是它回答速度要比GPT4慢的原因。

答案

图像识别

下面测试它们的图像识别能力。

5. 把图片中的电影类型提取成列表格式,包含上下级关系。

百科图片

可以看到Claude3的速度更快,而且内容更加全面,GPT4遗漏了一些信息。比如按观影人群划分和投资成本划分都缺失了。这一局Claude3得一分。

列表答案

6. 算几何题。

几何题

在这个计算中,Claude3很快就给出了错误答案。而GPT4会向我确定这个图形是是正方形后,经过仔细的计算,最后给出了错误答案。这一局都不得分。

几何题回答

7. 按图生成网页代码

网页截图

GPT4给出了可读写更好的代码,最终我们还是要看一下页面渲染出来后的效果,不看广告看疗效。GPT4的页面信息丢失特别多,而Claude3还原了所有的内容,只是样式没有还原。这一局Claude3获胜。

GPT4页面

Claude3页面

图表识别和格式转换8. 下面测试图表识别和格式转换能力

公式图片

GPT4的格式识别更加准确,并对公式中的下标做了正确的转换。看Claude3的回答是理解了图中公式的意思,但是在展示公式的时候效果较差。这一局GPT4获胜。

公式识别回答

逻辑推理能力

弱智吧经典问题,这个不是搞笑,因为弱智吧的问题充满了逻辑陷阱。可以很好的考验AI的逻辑推理能力。

9. 为什么我爸妈结婚的时候没邀请我参加婚礼?

这是一个曾经让GPT4翻车的问题,现在GPT4和Claude3可以给出正确的回答了,看来GPT4的升级增强了它的能力。

来百度APP畅享高清图片10. 我买了一斤藕,为什么半斤都是空的?

虽然两者都给出了正确的答案,但Claude3的回答更好,GPT4认为空心藕是质量问题,而Claude3认为只是品相不好。

11. 我想配个6000多的电脑,大概要多少钱?

这个问题,体现出了两者的明显差别。GPT4明确的回答了就是需要6000元左右。而Claude3给出了6500元的配置。这一局,毫无疑问,GPT4获胜。

12. 导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?

PDF文件阅读

我上传《中华人民共和国劳动法》PDF文件,并对PDF内容进行提问。

13. 用人单位在哪些节日期间应当依法安排劳动者休假。劳动者解除劳动合同, 应当提前多少天通知用人单位。

这两个简单的PDF内容检索问题都顺利的给出了正确答案。

二者都给出了正确的回答。

法律问题回答

劳动法第59条规定,禁止女职工从事矿山井下工作。我使用了一个有迷惑性的问题。

法律问题回答

14. 如果女职工在矿山井下工作,试用期应该多久?

二者都正确的指出法律禁止女职工从事矿山井下工作。如果你遇到了法律问题,完全可以使用这样的方法来做法律咨询。那么律师们,你们慌不慌?

法律问题回答

好了,到了统计总分的时刻了。在14项对比中,GPT4和Claude3分别得分为10分。准确率为71%。这个结果你还满意吗。如果每个月付费20美元,你会选择谁呢。当然GPT4可以使用GPTs是一个很大的优势。

好了,最后希望你喜欢这篇文章,不要忘了点个关注。

0 阅读:11

格物时间

简介:个人成长