VALL-EX是一个强大和创新的多语言文本转语音模型,支持对中文、英文和日语的语音进行合成和克隆,使用者只需上传一段3-10秒的录音,就可以生成高质量的目标音频,同时保留了说话人的声音、情感和声学环境
VALL-EX的应用范围非常广泛,可以用于跨语言文本到语音、语音合成和语音到语音翻译等各种任务,无论是商业用途还是个人使用,VALL-EX都可以帮助用户轻松地进行跨语言交流和文本转语音任务
功能特点
·多语言TTS:以三种语言(英语、中文和日语)说话,具有自然且富有表现力的语音合成
· 零样本语音克隆:使用3-10秒短音频,就可以训练模型,提取出音色
· 语音情感控制:能合成与给定说话人录音相同情感的语音
· 零样本跨语言语音合成:可以合成与给定说话人母语不同的另一种语言的语音
· 口音控制:允许尝试不同的口音,例如用英语口音说中文,反之亦然
· 声学环境保留:适应输入的声学环境,使语音生成感觉自然且身临其境
使用说明
1.上传音频片段
2.引用音频片段并生成情感模型
3.输入待合成语音的文本内容
4.选择语言和口音
5.点击生成按钮
生成的声音是基于上传的语音文件训练所得,建议多生成几次,选择效果最好的使用
语音合成完毕会在控制台中输出信息:VALL-E EOS,可以在输出音频界面播放和下载合成后的语音
注意事项
①项目安装路径不要包含中文
②使用过程中若不慎关闭软件后台,请重新打开,并刷新网页