玩酷网

首页

Kimi新模型k1震撼登场：数理化测试超过全球标杆GPT-4o

科经观察 2024-12-16 13:19:24

月之暗面最新推出的Kimi视觉思考模型k1，不仅在图像解析技术领域实现了一次颠覆性的革新，更在数理化等基础科学范畴内，展现了超越国际一流模型的新能力。据了解，在数理化等基础科学学科的基准能力测试中，k1模型的表现超过了全球标杆模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。

Kimi视觉思考模型k1的问世，是一次基于强化学习的创新实践。它不仅原生具备端到端图像解析功能，还能通过思维链技术，拓展至数学以外的其他基础科学领域。用户现在可通过Kimi智能助手的最新版本，在Android、iPhone APP或kimi网页版上，轻松拍照或上传图片，立即体验k1的智能思考功能。在基准测试中，k1的表现引人注目。在数学、物理、化学等基础科学学科的测试中，它超越了OpenAI的o1、GPT-4o等国际领先模型。这一成就的取得，得益于k1模型的端到端图像解析和思考能力，它能直接处理用户输入的图像信息并给出答案，无需借助外部的OCR或视觉模型。

k1的基础模型在OCRBench上获得了903分的卓越成绩，是目前的最优水平。在MathVista-testmini、MMMU-val和DocVQA基准测试中，k1的得分分别为69.1、66.7和96.9，均位于国际领先地位。这些成绩的取得，不仅彰显了k1在字符识别方面的优势，也体现了其在基础科学领域的强大实力。

尽管k1在内部测试中表现出色，月之暗面也坦诚地指出了其局限性。在分布外泛化、复杂问题的解决成功率、噪声场景的准确性以及多轮问答效果等方面，k1仍有较大的提升空间。与OpenAI的o1系列模型相比，k1在某些场景和泛化能力上存在一定差距。

Kimi视觉思考模型k1的发布，不仅是月之暗面的技术突破，也为整个人工智能领域提供了新的思路。尽管面临很多挑战，更有诸多不足之处，但k1的潜力和发展前景无疑是巨大的。我们期待k1在未来的发展中不断优化，为用户带来更多日常生活工作中的便利

2 阅读：91

科经观察

简介：科经经济热点资讯分析分享

作者最新文章