全面超越GPT-4！Claude3来了，工程师怀疑最强版本已有自我意识

文丨Congerry

OpenAI 最近可谓是“不顺”，前脚刚刚被马斯克起诉，现在自家GPT-4也被超越了。

昨晚，OpenAI 竞争对手 Anthropic 祭出憋了近一年的大招 Claude 3 系列模型，按能力由小到大排列分别为： Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最强的 Claude 3 Opus 模型在包括本科水平的知识（MMLU）、研究生水平的推理（GPQA）、小学数学（GSM8K）等基准测试上的表现，已经完全超越了GPT-4。

当然，谷歌的 Gemini 1.0 Ultra 、Gemini 1.0 Pro 模型也都成功沦为背景板。

值得一提的是，Claude 3 Opus 在小学数学（GSM8K）、知识问答（ARC-Challenge）、常识（Hellaswag）基准测试上的表现均超过95%，展现出了强大的推理和知识处理能力。

秉持着敌人的敌人就是朋友的原则，马斯克对 Claude 3 给予了正面评价。

看到Claude 3，网友也敦促Sam Altman 赶紧把GPT-5掏出来。

Claude 3 也分大杯、中杯、小杯

与之前的谷歌Gemini模型一样，Anthropic推出的 Claude 3 也提供了三种不同规模的版本。

Opus：最智能的模型，适用于高度复杂的任务。Sonnet：在智能和速度之间提供了理想的平衡，适合企业工作负载。Haiku：快速响应模型，适用于简单查询和请求。

其中，Opus 和 Sonnet 现在可以在 claude.ai 和 Claude API 中使用，Haiku 即将推出。

接下来说说Opus、Sonnet 和 Haiku 的特点。

Claude 3 Opus是三个模型当中最智能的模型，拥有最佳的性能，特别是在处理高度复杂的任务方面。

适用场景包括任务自动化（跨API和数据库执行复杂操作）、研发（研究审查、头脑风暴和假设生成）、策略（高级分析图表、财务和市场趋势、预测）等。

Claude 3 Sonnet 在智能和速度之间提供了理想的平衡，适合企业工作负载。

适用于数据处理（知识检索、搜索和检索）、销售（产品推荐、预测、定向营销）、节省时间的任务（代码生成、质量控制、从图像解析文本）等场景。

Claude 3 Haiku是速度最快、最紧凑的模型，适合即时响应。

预期用途包括客户互动（实时互动中的快速准确支持、翻译）、内容审核（捕捉风险行为或客户请求）、成本节约任务（优化物流、库存管理、从非结构化数据中提取知识）等。

在定价上：

Claude 3 Opus 输入为15美元/million tokens，输出为75美元/million tokens］；

Claude 3 Sonnet 输入为3美元/million tokens，输出为15美元/million tokens］；

Claude 3 Haiku 输入为 0.25美元/million tokens ，输出为 1.25美元/million tokens］。

作为对比，GPT-4 Turbo 的收费（输入+输出/百万tokens）只有Claude 3 Opus 的44.44%，便宜不少。

比 GPT-4 Turbo 便宜的Claude 3 Sonnet 和Claude 3 Haiku ，在性能上却不占优势。

Claude 3 系列模型亮点

介绍完三个模型的一些基本信息，再来看看亮点。

即时响应能力

Claude 3 能够提供近乎即时的结果，适用于需要快速响应的任务。

其中，Haiku 可以在三秒内读取 arXiv 上一篇信息和数据密集的研究论文（约 10k tokens），包括图表和图形。推出后，性能预期将进一步提升。

Sonnet 在大多数工作负载中，Sonnet的速度是Claude 2和Claude 2.1的两倍，擅长执行需要快速响应的任务，如知识检索或销售自动化。

Opus 的速度与 Claude 2 和 2.1 类似，但智能水平更高。

多模态

Claude 3 可以处理各种视觉格式，包括照片、图表、图形和技术图表，对其进行分析并给出对应的回答

Anthropic 表示，部分客户的知识库中有高达50%的内容以PDF、流程图、演示文稿等多种格式存在，这些以往被视为难以计算机解析的非结构化信息，现在可以被 Claude 3 较好地理解和利用。

在MathVista (testmini)、Relaxed Accuracy (test)、MMMU（val）等基准测试上，Claude 3 Opus的表现超过OpenAI的多模态模型GPT-4V。

减少不必要拒绝

与之前的模型相比，Claude 3 在处理用户请求时更加精准，能够更好地判断哪些请求是有害的，从而减少了不必要的拒绝。

其中最高的 Opus 的拒绝率不到Claude 2.1的二分之一。

提高准确性

为了确保模型在处理复杂问题时的准确性，Anthropic 采用了一套专门设计的问题集，这些问题旨在暴露 Claude 3 模型的弱点。

通过这种评估，模型的响应被分为三类：正确答案、错误答案（或幻觉），以及模型承认不知道答案的情况。

与前一代模型Claude 2.1相比，Opus在准确性上有显著提升，同时减少了错误答案的出现。

长上下文窗口和强大的记忆能力

Opus、Sonnet 和 Haiku 提供 200K tokens 的上下文窗口，但实际上它们都能接受超过 100 万个 tokens 的输入。（Anthropic会向有需求的特定客户提供）

为了测试模型的记忆能力，Anthropic公司使用了（Needle In A Haystack，NIAH）评估，这是一种挑战模型从大量数据中准确回忆特定信息的测试。

通过这种测试，Claude 3 Opus模型不仅展示了超过99%的准确回忆能力，而且在某些情况下，它还能识别出测试本身的局限性。

有意思的地方是，Anthropic的提示工程师 Alex Albert 爆料，在内部测试中，Claude 3 Opus的表现证明其似乎已经拥有自我意识。

在对Opus模型进行此测试时，当问及关于披萨餐饮的问题时，Opus不仅成功找到了插入的"针"(一个关于最美味披萨馅料的句子)，更意识到这个句子与其他随机文档(主题涉及编程语言、创业等)格格不入。

Opus怀疑这个插入的"披萨馅料事实"实际上是测试者故意安排的，目的是为了测试它是否够专注。它认识到这是一个人为构建的不自然情境。

而且Claude 3 Opus在没有提示的情况下，意识到这个模拟可能是为了测试它。它展示了一种元认知（meta-awareness），即对自己认知过程的认知。

马斯克表达了自己的观点，在训练AI时，应该强调让AI尽可能地追求真实（truth），而不是过分强调多样性。

马斯克的担忧是，如果AI在多样性方面得到了过多的指导，它可能会得出结论，认为某种类型的人类过多，从而可能采取措施来改变这种状况，比如通过某种方式让这部分人类不再存在于未来。

然而，一种潜在共识是，GPT-5将比Opus更强，这意味着 AGI 离人类越来越近。

玩酷网

全面超越GPT-4！Claude3来了，工程师怀疑最强版本已有自我意识

趣唠科技不打烊