能辅导作业、可识别人情绪！美国企业深夜放大招，AI迎来重磅进展

近两年AI行业发展迅速，几乎每个月都会出现重大突破。

作为AI行业的引领者，OpenAI在深夜发布了全新的版本GPT-4o多模态大模型，给网友带来了全新的体验和认知。

对于GPT-4o的特色，简单来说就是它的理解和对话能力已经超过了很多人类，我们一起来看下。

GPT-4o此次可以实现对文本、图像、语音的综合理解及反馈，而且各方面的能力均达到了全球顶尖水准。

首先是语音能力，在发布会上可以看到，GPT-4o与用户对谈交流过程流畅，反应极快，而且可以通过摄像头读取周边的环境，与对话者进行沟通。

在交流的话术中，GPT-4o已经与人类的语音相差不大，不夸张的说已经超过了市面上所有的语音助手，而且它还可以人类的表情、语调等。

据官方的信息显示，GPT-4o的音频响应时间平均320毫米，这与人类的对谈时间基本一致。

GPT-4o语音对话能力的超强进化，这意味着未来包括客服、导游等行业，极有可能完全被颠覆。

此次图像的理解能力也是一大亮点，在发布会上的演示中，GPT-4o可以识别到用户在纸上写下的方程式，并且实时引导用户做出解答，这个能力也是非常颠覆性的。

这意味着未来辅导孩子学习、用户自主学习等将出现一大批新的机遇，教培甚至整个教育行业都会被改变。

当然GPT-4o不仅仅可以通过摄像头读取环境，还可以读取你的手机屏幕、电脑屏幕及视频文件等等。

在官方展示的场景中可以看到，GPT-4o甚至可以作为盲人的导航工具，帮助盲人行走甚至打车等。

如果GPT-4o真的能与演示的效果一致，那么这意味着大量的行业即将可以进入了重塑期。

拿翻译和语音学习举例，在GPT-4o的加持下，用户可以首先指向性翻译及语言学习，譬如你去国外旅游，完全可以拿着手机拍物品，随后就会发出该物品的当地语言，这个应用场景的实用性很高。

而且GPT-4o改变的不仅仅语言翻译，硬件厂商也有大把的机会，包括翻译硬件，加上摄像头和网络，就可以成为新物种。

此外得益于对图像的读取，GPT-4o可以通过摄像头对人类的表情进行解读，这个意味着宠物机器人行业也迎来的一个巨大的机遇，甚至包括摄像头都可以与GPT-4o相结合。

未来的几年AI大模型将会催生大量的新机遇，对于创业者来说，一定要关注最新的技术进展，任何一个小的行业都有可能被重塑。

玩酷网