当地时间的3月6日,Mistral公司通过它的官网发布了最新的Mistral OCR技术。

这项技术并不是什么独创的技术,它的对手们,包括中国的公司,美国的公司,都在做这个。最强大的对手,包括谷歌,微软。这次看Mistral公司发布的对比,它跟微软和谷歌的技术参数进行了对比,官方强调它们的识别效果是这些当前已有的平台当中,最优的。
在横向对比,包括Gpt在内的多个大模型,不管是数学,还是多语言,Mistral识别的得分数据都是占优的。
分数更高,然后速度据说是更快一些。复杂的数学公式,对于Mistral来说,也易如反掌。你可以上传比如JPEG图片,或者PPT,或者是PDF文件,Mistral OCR都能兼容,并识别文件所载的内容。
目前Mistral OCR的 收费价格是一千页文件,一美元。你可以在云平台使用,也可以调用它的API接口进行使用。

如果你的数据比较敏感,你也可以申请本地部署。他们也有商业的服务。
很多人可能不理解OCR 有什么作用,现在人类跟人工智能大模型交互,主要是通过API和聊天输入框,本质上还是文本数据的交互和传递。大多数模型,还是只能处理文字,公式之类的,偏文本的内容。
现阶段你常见的DeepSeek,你使用它的模式,都是通过输入问题,比如:鱼香肉丝怎么做
然后DeepSeek回答的也是文本。
这个时候,比如你网上找了一个菜谱,手写的,你想让AI帮你分析一下,这个菜谱的配方。
那可能就需要用OCR功能,把你图片上的文字识别出来。
我倒是希望有一天,人工智能的OCR功能,能识别医生开的处方单,那才是天书。。。