离线使用OpenAI的Whisper桌面版本，语音视频文字识别翻译全能手

OpenAI的Whisper，是开源的语音识别系统,能够处理多种语言的语音识别和转录,并可以将其他语言翻译成英语,支持超过50种语言的转录和翻译,包括但不限于:非洲语、阿拉伯语、中文、英语、法语、德语、印地语、日语、韩语、俄语、西班牙语等。

虽然做了个简单的界面让大家方便使用，但说实话，安装那玩意儿可真是让人头大。你想啊，光是安装就得装一大堆库，还容易因为Python版本啊、CUDA版本啊这些乱七八糟的原因出错。每台电脑安装起来都不一样，这台成功了，换另一台可能就歇菜了。对不懂电脑的人来说，这安装过程简直是噩梦。

而且Whisper对硬件要求还挺高的。Large模型要10GB显存，Medium要5GB。除非你有40系列显卡或者前几代60级以上的显卡，不然连Medium模型都跑不起来。

所以今天我要给大家介绍一个特别版的Whisper，叫Whisper Desktop。这玩意儿好就好在不用额外安装东西，下载下来基本就能直接用。

Whisper Desktop是基于一个大神（Konstantin）做的Whisper CPP。用纯C和C++写的，程序是直接编译出来的。你只要下载程序本体和模型文件就能用，不用再装别的东西。

这位大神搞出来的GGML Tensor Library虽然会牺牲一点模型精度，但能大幅减少模型所需资源，用CPU跑起来也更有效率。

那么，怎么用Whisper Desktop呢？首先去它的GitHub页面，最新版本是1.12.0，这里是别人打包的链接在这：https://github.com/ADT109119/WhisperGUI/releases。进入release页面，下载whisperdesktop.zip，解压到随便哪个地方。

这时候程序还不能用，我们得手动下载模型。直接打开程序，选择模型的页面上会有下载链接。

建议用Medium模型，因为它对硬件要求不高，而且各方面来说是最好的选择。

下载完模型后，在Whisper Desktop的模型选择页面选好模型文件。其实这时候可以直接按OK开始用了，但我们还可以调整一下设置。

在Advanced选项里，最直观的就是选择用哪张显卡。甚至还能选集成显卡，不过还是建议选你最好的那张独立显卡。

设置好后进入下一页，这里可以选择识别语言、文件、输出格式和路径等。选好后点右下角的Transcribe就开始识别了。想看进度的话可以点上方的Debug Console。

接下来看看系统资源占用和处理时间。我用的是Medium模型，4GB显存都没占满，可见GGML模型确实比原始模型省资源多了。

处理时间方面，我拿原始模型的Small模型和GGML的Medium模型比较。结果GGML的Medium模型处理速度比原始的Small模型还快，表现相当亮眼。

当然，GGML模型也不是全优点。前面说了，它会牺牲一定精度。我用跟测试原始Whisper一样的文件来测试精度，结果如下：

GGML模型在同档位下表现都不如原始模型。有意思的是，Large的GGML模型表现反而不如Medium的。Medium和Small模型看起来正常些，错误率比原始模型高了一点点。

这样的表现其实挺不错的。想想，只要跑Medium的GGML模型，就能用比原始Small模型更少的资源、更短的时间，得到更好的结果。而且还不用处理安装Whisper时遇到的一堆问题。

对大多数用户来说，Whisper Desktop应该是个不错的选择。

玩酷网

离线使用OpenAI的Whisper桌面版本，语音视频文字识别翻译全能手

千雁评商业啊