三只羊卢总的醉酒录音，说方言吐脏话，AI合成能到吗

家人们，大家最近刷三只羊的瓜么了！

先是骗人造假卖月饼后面又出录音门。月饼这个事非常可恨，一点没得洗。但是就在昨晚，录音门发生了反转！

“录音门”大反转

网传的录音中，三只羊的“卢总”就公司处理客户投诉、竞争对手等问题发表了“惊人看法”，并牵扯到与三只羊女主播的不当关系。

录音一开始传播，便引发了巨大热议！昨晚，合肥市公安局发布了警情通报：

划重点：警察叔叔下场调查，发现是录音是AI合成的！

情绪转变，声音的背景音很像在偷偷录音。奶茶截取了合成的录音一小段，你们听着呢。

而就在大家还在分析这个录音是怎么通过AI合成的时候，A公司站出来了，称犯罪嫌疑人通过此前卢某直播片段约30秒录音进行克隆，并通过文本生成了录音：

而且，还公开了调取证据通知书！！

证据链全了！可是AI真能合成能到这个程度吗？

这能生成这么逼真的录音吗？

奶茶灰常好奇能不能合成类似还原度的录音？于是，奶茶点进站出来的A公司的官网：

真能这么还原？奶茶决定亲身试用了一下！

我选用了最近很热门的电视剧边水往事里面王安全的音频文件：（安全哥不许告我！）

首先，导入了一下王安全的语音片段：

然后用这个创造的声音角色生成对应文本的语音：

A公司平台就合成了对应的语音

怎么说呢！刚开始奶茶没报任何希望，我以为是A公司在借机给自己打广，等着翻车，没想到还挺自然，，，，，有点像了！我决定再试一个更长的语句看看行不行！

好像不行了。。

从15s后已经开始丢失音色、不稳定了，而且开始有机器腔调了！

奶茶认为，想要达到录音门里这么高还原度甚至达到“混淆视听”让大家难以分辨的效果，目前看不是A公司这种平台克隆功能可以做到的，肯定至少大量语料数据训练的吧？

如果不是通过平台上的音效生成功能，而是使用某个人长时间的语音进行开源模型训练，是否能生成高度还原的声音呢？这是有可能的，但能否完全做到呢？

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cnClaude-3研究测试：hiclaude3.com

目前在A公司的网站上，奶茶没有找到训练模型的入口，只看到了上文使用较短语音通过平台的人声大模型生成的功能。

合成这段音频的难度是非常大的，网友们重点都转移到了合成小哥身上了，

小结

怎么说呢家人们，这次真的很难评！

首先，关于这段录音是否是部分合成还是完全合成，警方并未明确说明。从录音的整体质量来看，若要达到如此高的还原度和逼真度，很可能需要使用个人语料库进行训练和生成。而使用A公司开放平台进行实际测试，似乎难以实现如此复杂和多人参与的录音效果。

其次，既然A公司已经承认这段合成录音与其有关，那么具体是通过什么技术实现的呢？可能涉及到犯罪相关的细节不便公开，但从目前平台的能力来看，似乎与犯罪录音的完整性并不完全吻合。

最后，这次“录音门”事件也敲响了警钟！！！

无论是部分造假还是完全造假，无论使用的是开源训练还是平台的声音克隆技术，AI的潜在犯罪能力已经被证实，且不易被察觉。因此,相关的语音合成、语音生成开源工具的使用,是否需要制定更严格的法律法规来加以规范,这是我们必须正视的问题～

夕小瑶的读者家人们有做语音合成的吗？欢迎大家在评论区讨论～

玩酷网