OpenAI官网的访客验证复选框要求用户确认自己是人类,这在该公司最新发布的GPT-4o之后似乎显得有些讽刺。(“o”代表“omni”。)在2024年5月13日的公告中,OpenAI将其大型语言模型的最新版本描述为“迈向更自然的人机交互的一步”,并列举了一系列新的或改进的功能,例如在对话中的人类响应时间和通过面部表情解释情绪。“使用GPT-4o,我们训练了一个全新的端到端模型,涵盖文本、视觉和音频,这意味着所有输入和输出都由同一神经网络处理,”新闻稿解释道。TechCrunch报道称,GPT-4o现在“更加多语言”,OpenAI声称“在50多种语言中性能增强”。事实上,OpenAI的新闻稿包含了一张条形图,比较了OpenAI和几个竞争对手的音频翻译BLEU分数。根据OpenAI的说法,GPT-4o获得了最高的BLEU分数,Gemini紧随其后。该公司还指出“非英语语言文本方面有了显著改进”。
实时翻译一直是专业人士和普通大众的常客,它引发了与文学作品中的巴别鱼的不可避免的比较,以及一波波的赞誉和失望。“GPT-4o打破了当代口译的惯例,以第三人称说话。”“没人告诉他们谷歌翻译已经做了很多年,”一位观察者在X平台上的一篇文章中评论道。其他人则表示不同意,评论说GPT-4o“更容易使用”,“速度稍快,摩擦更小”。OpenAI的演示展示了OpenAI首席技术官Mira Murati与一位意大利语对话者进行的简短对话,该对话者问会说话的鲸鱼可能会问人类什么问题。“它们可能会问,我们如何解线性方程?”她的对话者用英语回答,这显然是对演示早些时候内容的回调。
有趣的是,GPT-4o打破了当代口译的惯例,以第三人称而非第一人称说话(对参与者的理解没有明显影响),这一事实被X平台上的评论员们注意到,他们反驳了不可避免的“翻译员RIP”的热门话题。除了翻译和口译之外,许多观察人士还指出,语言学习应用程序Duolingo的股价在OpenAI发布公告期间下跌了3%。NVIDIA高级研究经理Jim Fan博士将生成的声音描述为“生动甚至有点调情。
GPT-4o正在努力(也许有点过分努力)听起来像HER,”他指的是2013年一部电影,一个男人爱上了由斯嘉丽·约翰逊配音的人工智能虚拟助手。“这是朝着更具情感和强烈个性的AI迈进了一步,而OpenAI似乎在过去积极压制了这一点,”Fan总结道。OpenAI于2024年5月13日开始推出GPT-4o的文本和图像功能。根据新闻稿,“我们计划在未来几周内向一小部分值得信赖的API合作伙伴推出对GPT-4o的新音频和视频功能的支持。”