介绍Moonshine：最新的语音转文字技术

你能想象使用一个键盘，每按下一个键需要两秒钟才显示在屏幕上吗？这正是大多数语音界面的典型延迟，因此难怪它们无法被大多数人接受。今天，我们开源了 Moonshine，这是一款全新的语音转文字模型，能够比当前领先的 OpenAI Whisper 更快、更高效地返回结果，同时在准确性上也不逊色于甚至超过它。论文中有完整的细节，但主要的改进在于新架构使其相比 Whisper 提升了 1.7 倍的速度，并支持灵活大小的输入窗口。这种可变长度输入非常重要，因为 Whisper 总是处理 30 秒的音频段，即使只有几秒钟的语音，也需要填充零来处理比实际需求多得多的数据。这两项改进让我们在十秒音频片段上达到了比 Whisper 快五倍的处理速度！

要理解这在实际中意味着什么，可以查看我们的 Torre 翻译器。Moonshine 的速度使我们能够在用户说话的同时几乎即时地提供翻译，使对话比现有解决方案更加自然流畅。

更妙的是，Moonshine 对资源的需求很低，使我们可以在设备上本地运行而无需网络连接，既保护隐私，又能在全球各地随时使用。

我们创建 Useful 是为了帮助机器更好地理解我们，我们很自豪能分享这项在语音转文字领域的最新进展，因为语音界面是这一使命的关键部分。Moonshine 不仅支持我们像 Torre 这样的产品，它独特的设计还使自动语音识别能够在真正的嵌入式硬件上运行。我们发现将 ASR 运行在微控制器和 DSP 上的最大障碍并不是处理能力，因为加速器可以帮助解决这个问题，而是内存限制。即使是最小的 Whisper 模型也需要至少 30MB 的内存，因为现代的 transformer 会生成较大的动态激活层，无法存储在闪存或其他只读存储器中。而由于 Moonshine 的需求会随输入窗口大小而缩放，我们有望在 8MB 或更少的内存中转录几秒钟长的完整句子。

我非常期待看到人们能用这些新模型在资源受限的平台上实现什么，尤其是在 Raspberry Pi 这样的平台上，以往运行完整的语音转文字一直是个挑战。如果你开发了什么有趣的应用，请随时联系我们，我们非常想听到你的消息！

玩酷网

介绍Moonshine：最新的语音转文字技术

进击的代码