你能想象使用一个键盘,每按下一个键需要两秒钟才显示在屏幕上吗?这正是大多数语音界面的典型延迟,因此难怪它们无法被大多数人接受。今天,我们开源了 Moonshine,这是一款全新的语音转文字模型,能够比当前领先的 OpenAI Whisper 更快、更高效地返回结果,同时在准确性上也不逊色于甚至超过它。论文中有完整的细节,但主要的改进在于新架构使其相比 Whisper 提升了 1.7 倍的速度,并支持灵活大小的输入窗口。这种可变长度输入非常重要,因为 Whisper 总是处理 30 秒的音频段,即使只有几秒钟的语音,也需要填充零来处理比实际需求多得多的数据。这两项改进让我们在十秒音频片段上达到了比 Whisper 快五倍的处理速度!
要理解这在实际中意味着什么,可以查看我们的 Torre 翻译器。Moonshine 的速度使我们能够在用户说话的同时几乎即时地提供翻译,使对话比现有解决方案更加自然流畅。
更妙的是,Moonshine 对资源的需求很低,使我们可以在设备上本地运行而无需网络连接,既保护隐私,又能在全球各地随时使用。
我们创建 Useful 是为了帮助机器更好地理解我们,我们很自豪能分享这项在语音转文字领域的最新进展,因为语音界面是这一使命的关键部分。Moonshine 不仅支持我们像 Torre 这样的产品,它独特的设计还使自动语音识别能够在真正的嵌入式硬件上运行。我们发现将 ASR 运行在微控制器和 DSP 上的最大障碍并不是处理能力,因为加速器可以帮助解决这个问题,而是内存限制。即使是最小的 Whisper 模型也需要至少 30MB 的内存,因为现代的 transformer 会生成较大的动态激活层,无法存储在闪存或其他只读存储器中。而由于 Moonshine 的需求会随输入窗口大小而缩放,我们有望在 8MB 或更少的内存中转录几秒钟长的完整句子。
我非常期待看到人们能用这些新模型在资源受限的平台上实现什么,尤其是在 Raspberry Pi 这样的平台上,以往运行完整的语音转文字一直是个挑战。如果你开发了什么有趣的应用,请随时联系我们,我们非常想听到你的消息!