7月31日,OpenAI在其官方媒体账号上表示,开始向一小部分ChatGPT Plus用户推出高级语音模式。
当前,实时响应和可打断对话是公认的语音助手技术难点。而据OpenAI介绍,其推出的高级语音模式可以提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。
此前,ChatGPT的语音对话使用了三个独立的模型:一个用于将用户的语音转换为文本,GPT-4理解和处理文本的提示,然后再由第三个模型将文本转换为语音。但GPT-4o是单一多模态模型,能够在没有辅助模型帮助的情况下处理这些任务,从而显著降低对话的延迟。
OpenAI还声称GPT-4o可以感知用户声音中的情绪语调,包括悲伤、兴奋或歌唱。
OpenAI表示,虽然最开始只有一小部分用户可以参与高级语音模式的测试,但该公司计划逐渐扩大测试范围,并计划在秋季让所有ChatGPT Plus用户都能使用。
ChatGPT从去年9月就开始支持语音对话,并于今年5月展示了更高级的版本。不过5月份展示的这个版本曾引发一个版权风波。
今年5月,美国著名演员斯嘉丽·约翰逊(Scarlett Johansson)表示,ChatGPT的语音模式中有一款名为Sky的声音与她的声音出奇相似,她对此感到震惊和愤怒。
而且,根据斯嘉丽的说法,去年OpenAI的首席执行官山姆·阿尔特曼(Sam Altman)曾联系她为ChatGPT配音,但她因个人原因拒绝了。
在斯嘉丽的法律代表联系OpenAI之后,OpenAI表示,“出于对约翰逊女士的尊重,我们已暂停在我们的产品中使用Sky的声音。”
或许是担心类似的版权风波再次上演,OpenAI在宣布推出高级语音模式的帖子下面补充道:“我们用100多名外部红队人员测试了GPT-4o的语音功能,涉及45种语言。为了保护个人隐私,我们对模型进行了训练,使其只能以预设的四种声音说话。”
高级语音模式将仅限于ChatGPT的四种预设声音——Juniper、Breeze、Cove和Ember,这些声音是与付费配音演员合作制作的。
OpenAI还表示,其已经构建了系统来阻止ChatGPT输出除上述四种声音之外的声音,并实施了防护措施来屏蔽对暴力或版权内容的请求。