OpenAI发布三款全新模型，均为语音相关产品

日前，OpenAI方面发布3款全新语音模型，其中包括语音转文本模型GPT-4o Transcribe、GPT-4o MiniTranscribe，以及文本转语音模型GPT-4o MiniTTS。

对此OpenAI方面表示，“为了让智能体真正发挥作用，人们需要能够与智能体进行更深入、更直观的互动，包括使用自然的口语进行有效沟通，而不仅仅是通过文字……我们发布的全新语音转文本和文本转语音音频模型，能够帮助开发者构建更强大、可定制、更智能的智能体”。

据了解，GPT-4o Transcribe和GPT-4o MiniTranscribe支持超过100种语言，与OpenAI现有的语音转文本模型Whisper相比，其单词错误率 (WER)有所改进，语言识别能力和准确性也更高，在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案，在呼叫中心、会议记录等领域具备更高可靠性。

对此OpenAI方面表示，这些进步直接源于强化学习方面的有针对性的创新以及使用多样化、高质量的音频数据集进行的广泛中间训练。

需要注意的是，OpenAI方面并不打算公开GPT-4o Transcribe、GPT-4o MiniTranscribe。对此OpenAI产品主管奥利维尔·戈德曼（Olivier Godement）表示，GPT-4o Transcribe、GPT-4o MiniTranscribe比Whisper“大得多”，因此不适合公开发布。此外他还进一步解释到，“它们不是那种能在笔记本电脑上本地运行的模型，比如Whisper那种。我们想确保，如果我们以开源方式发布东西，我们是经过深思熟虑的”。

而GPT-4o MiniTTS则不仅能够提供更细致入微、听起来更逼真的语音，还具有增强的语音可控性（steerability）。这也就意味着开发者不仅首次可以“指导”模型说什么，还能“指导”它怎么说，从而为从客户服务到创意故事等各种用例提供更多定制体验。

据了解，目前开发者已可以通过API调用OpenAI这3款语音模型。而在价格方面，GPT-4o Transcribe音频输入每100万tokens费用为6美元、文本输入每100万tokens费用为2.5美元，输出每100万tokens费用为10美元，每分钟成本为0.6美分；GPT-4o MiniTranscribe音频输入每100万tokens费用为3美元、文本输入每100万tokens费用为1.25美元，输出每100 万tokens费用为5美元，每分钟成本为0.3美分；GPT-4o MiniTTS每100万tokens输入费用为0.60美元，每100万tokens输出费用为12美元，每分钟成本1.5美分。

展望未来，OpenAI方面表示，“我们计划继续投资提高音频模型的智能性和准确性，并探索允许开发人员使用自己的自定义声音以符合我们的安全标准的方式构建更加个性化的体验的方法……我们还将投资其他模式（包括视频），以使开发人员能够构建多模式代理体验”。

玩酷网

OpenAI发布三款全新模型，均为语音相关产品

聊点科技行叭