离线使用OpenAI的Whisper桌面版本,语音视频文字识别翻译全能手

千雁评商业啊 2024-07-18 02:26:37

OpenAI的Whisper,是开源的语音识别系统,能够处理多种语言的语音识别和转录,并可以将其他语言翻译成英语,支持超过50种语言的转录和翻译,包括但不限于:非洲语、阿拉伯语、中文、英语、法语、德语、印地语、日语、韩语、俄语、西班牙语等。

虽然做了个简单的界面让大家方便使用,但说实话,安装那玩意儿可真是让人头大。你想啊,光是安装就得装一大堆库,还容易因为Python版本啊、CUDA版本啊这些乱七八糟的原因出错。每台电脑安装起来都不一样,这台成功了,换另一台可能就歇菜了。对不懂电脑的人来说,这安装过程简直是噩梦。

而且Whisper对硬件要求还挺高的。Large模型要10GB显存,Medium要5GB。除非你有40系列显卡或者前几代60级以上的显卡,不然连Medium模型都跑不起来。

所以今天我要给大家介绍一个特别版的Whisper,叫Whisper Desktop。这玩意儿好就好在不用额外安装东西,下载下来基本就能直接用。

Whisper Desktop是基于一个大神(Konstantin)做的Whisper CPP。用纯C和C++写的,程序是直接编译出来的。你只要下载程序本体和模型文件就能用,不用再装别的东西。

这位大神搞出来的GGML Tensor Library虽然会牺牲一点模型精度,但能大幅减少模型所需资源,用CPU跑起来也更有效率。

那么,怎么用Whisper Desktop呢?首先去它的GitHub页面,最新版本是1.12.0,这里是别人打包的链接在这:https://github.com/ADT109119/WhisperGUI/releases。进入release页面,下载whisperdesktop.zip,解压到随便哪个地方。

这时候程序还不能用,我们得手动下载模型。直接打开程序,选择模型的页面上会有下载链接。

建议用Medium模型,因为它对硬件要求不高,而且各方面来说是最好的选择。

下载完模型后,在Whisper Desktop的模型选择页面选好模型文件。其实这时候可以直接按OK开始用了,但我们还可以调整一下设置。

在Advanced选项里,最直观的就是选择用哪张显卡。甚至还能选集成显卡,不过还是建议选你最好的那张独立显卡。

设置好后进入下一页,这里可以选择识别语言、文件、输出格式和路径等。选好后点右下角的Transcribe就开始识别了。想看进度的话可以点上方的Debug Console。

接下来看看系统资源占用和处理时间。我用的是Medium模型,4GB显存都没占满,可见GGML模型确实比原始模型省资源多了。

处理时间方面,我拿原始模型的Small模型和GGML的Medium模型比较。结果GGML的Medium模型处理速度比原始的Small模型还快,表现相当亮眼。

当然,GGML模型也不是全优点。前面说了,它会牺牲一定精度。我用跟测试原始Whisper一样的文件来测试精度,结果如下:

GGML模型在同档位下表现都不如原始模型。有意思的是,Large的GGML模型表现反而不如Medium的。Medium和Small模型看起来正常些,错误率比原始模型高了一点点。

这样的表现其实挺不错的。想想,只要跑Medium的GGML模型,就能用比原始Small模型更少的资源、更短的时间,得到更好的结果。而且还不用处理安装Whisper时遇到的一堆问题。

对大多数用户来说,Whisper Desktop应该是个不错的选择。

0 阅读:0

千雁评商业啊

简介:感谢大家的关注