早在 2019 年,谷歌公司就推出了第一代“Translatotron S2ST”系统。经过不断的技术改进和优化,在 2021 年 7 月,谷歌公司又推出了“Translatotron S2ST”系统的第二代版本。在 2023 年 5 月 27 日,谷歌公司发布了一篇论文,宣布正在部署一种全新的训练方法,用以训练这款全新的“Translatotron 3”模型。
据研究人员介绍,“Translatotron 2”模型已经在翻译质量、语音鲁棒性(Robust)和语音自然度等方面,取得了非常优秀的表现。而“Translatotron 3”模型则是谷歌公司在人工智能语音翻译领域的又一次重大突破,实现了“第一个完全无监督直接语音到语音翻译的端对端模型”。
传统上的“S2ST”系统,主要是通过自动语音识别 + 机器翻译 + 文本到语音合成的级联方法来解决语音翻译问题的。然而,“Translatotron 3”模型则是依赖一种全新的端对端架构,直接将源语言语音映射到目标语言,而不依赖中间文本表示,从而实现了更快的速度和更高的准确性。研究人员表示,“Translatotron 3”模型不仅可以用于语音翻译,还可以用于创建帮助有语言障碍的人的工具,或者开发更具吸引力和有效性的个性化语言学习工具,为广大用户带来更加便捷、高效的语言学习体验。