insanely-fast-whisper是一款功能强大的音频翻译工具,具备高速转录能力,能在短时间内完成大量音频处理,提高工作效率
以下是IFW在 Nvidia A100 - 80GB 上运行的一些基准测试:
核心特性
1、自动转录,可快速将长音频文件转录为文本,无需手动逐字逐句
2、支持说话人分割和区分,识别不同说话人,有助于分析和整理多人音频
3、按词或片段生成时间戳文本,方便字幕制作
4、支持100种语言的转录(含粤语)或者翻译成英文
底层框架
Whisper-Large-v3:OpenAI推出的一种用于自动语音识别(ASR)和语音翻译的预训练模型,经过168万小时的标记数据训练,显示出强大的能力,可以在不需要微调的情况下推广到许多数据集和领域
Transformers+Torch+Pyannote:加速转录和语音分段
功能说明
1、选择操作系统,windows或者苹果系统
2、选择音频文件,不能是视频文件
3、选择输出路径,转录或翻译完成后会生成output.json文件
4、选择音频语言,程序会识别语言也可以手动选择语言,选择与音频不同的语言,生成的结果是选择后的语言
5、输出选择后的语言或翻译成英文
6、选择处理速度,这个值并不是越大越好,博主GTX1660的显卡设置成1最为合适,配置好可以适当调大
7、记录音频形式,按词或片段记录音频,根据自己的需要选择,文件末尾会输出完整的文本
点击开始按钮,控制台会打印时间进度,程序执行完毕会给出output.json文件的生成路径