近两年AI行业发展迅速,几乎每个月都会出现重大突破。
作为AI行业的引领者,OpenAI在深夜发布了全新的版本GPT-4o多模态大模型,给网友带来了全新的体验和认知。
对于GPT-4o的特色,简单来说就是它的理解和对话能力已经超过了很多人类,我们一起来看下。
GPT-4o此次可以实现对文本、图像、语音的综合理解及反馈,而且各方面的能力均达到了全球顶尖水准。
首先是语音能力,在发布会上可以看到,GPT-4o与用户对谈交流过程流畅,反应极快,而且可以通过摄像头读取周边的环境,与对话者进行沟通。
在交流的话术中,GPT-4o已经与人类的语音相差不大,不夸张的说已经超过了市面上所有的语音助手,而且它还可以人类的表情、语调等。
据官方的信息显示,GPT-4o的音频响应时间平均320毫米,这与人类的对谈时间基本一致。
GPT-4o语音对话能力的超强进化,这意味着未来包括客服、导游等行业,极有可能完全被颠覆。
此次图像的理解能力也是一大亮点,在发布会上的演示中,GPT-4o可以识别到用户在纸上写下的方程式,并且实时引导用户做出解答,这个能力也是非常颠覆性的。
这意味着未来辅导孩子学习、用户自主学习等将出现一大批新的机遇,教培甚至整个教育行业都会被改变。
当然GPT-4o不仅仅可以通过摄像头读取环境,还可以读取你的手机屏幕、电脑屏幕及视频文件等等。
在官方展示的场景中可以看到,GPT-4o甚至可以作为盲人的导航工具,帮助盲人行走甚至打车等。
如果GPT-4o真的能与演示的效果一致,那么这意味着大量的行业即将可以进入了重塑期。
拿翻译和语音学习举例,在GPT-4o的加持下,用户可以首先指向性翻译及语言学习,譬如你去国外旅游,完全可以拿着手机拍物品,随后就会发出该物品的当地语言,这个应用场景的实用性很高。
而且GPT-4o改变的不仅仅语言翻译,硬件厂商也有大把的机会,包括翻译硬件,加上摄像头和网络,就可以成为新物种。
此外得益于对图像的读取,GPT-4o可以通过摄像头对人类的表情进行解读,这个意味着宠物机器人行业也迎来的一个巨大的机遇,甚至包括摄像头都可以与GPT-4o相结合。
未来的几年AI大模型将会催生大量的新机遇,对于创业者来说,一定要关注最新的技术进展,任何一个小的行业都有可能被重塑。