OpenAI推出高级语音模式部分Plus用户将先行试用

7月31日，OpenAI在其官方媒体账号上表示，开始向一小部分ChatGPT Plus用户推出高级语音模式。

当前，实时响应和可打断对话是公认的语音助手技术难点。而据OpenAI介绍，其推出的高级语音模式可以提供更自然的实时对话，允许用户随时打断，并能感知和响应用户的情绪。

此前，ChatGPT的语音对话使用了三个独立的模型：一个用于将用户的语音转换为文本，GPT-4理解和处理文本的提示，然后再由第三个模型将文本转换为语音。但GPT-4o是单一多模态模型，能够在没有辅助模型帮助的情况下处理这些任务，从而显著降低对话的延迟。

OpenAI还声称GPT-4o可以感知用户声音中的情绪语调，包括悲伤、兴奋或歌唱。

OpenAI表示，虽然最开始只有一小部分用户可以参与高级语音模式的测试，但该公司计划逐渐扩大测试范围，并计划在秋季让所有ChatGPT Plus用户都能使用。

ChatGPT从去年9月就开始支持语音对话，并于今年5月展示了更高级的版本。不过5月份展示的这个版本曾引发一个版权风波。

今年5月，美国著名演员斯嘉丽·约翰逊（Scarlett Johansson）表示，ChatGPT的语音模式中有一款名为Sky的声音与她的声音出奇相似，她对此感到震惊和愤怒。

而且，根据斯嘉丽的说法，去年OpenAI的首席执行官山姆·阿尔特曼（Sam Altman）曾联系她为ChatGPT配音，但她因个人原因拒绝了。

在斯嘉丽的法律代表联系OpenAI之后，OpenAI表示，“出于对约翰逊女士的尊重，我们已暂停在我们的产品中使用Sky的声音。”

或许是担心类似的版权风波再次上演，OpenAI在宣布推出高级语音模式的帖子下面补充道：“我们用100多名外部红队人员测试了GPT-4o的语音功能，涉及45种语言。为了保护个人隐私，我们对模型进行了训练，使其只能以预设的四种声音说话。”

高级语音模式将仅限于ChatGPT的四种预设声音——Juniper、Breeze、Cove和Ember，这些声音是与付费配音演员合作制作的。

OpenAI还表示，其已经构建了系统来阻止ChatGPT输出除上述四种声音之外的声音，并实施了防护措施来屏蔽对暴力或版权内容的请求。

玩酷网