家人们,大家最近刷三只羊的瓜么了!
先是骗人造假卖月饼 后面又出录音门。月饼这个事非常可恨,一点没得洗。但是就在昨晚,录音门发生了反转!
“录音门”大反转网传的录音中,三只羊的“卢总”就公司处理客户投诉、竞争对手等问题发表了“惊人看法”,并牵扯到与三只羊女主播的不当关系。
录音一开始传播,便引发了巨大热议!昨晚,合肥市公安局发布了警情通报:
划重点:警察叔叔下场调查,发现是录音是AI合成的!
情绪转变,声音的背景音很像在偷偷录音。奶茶截取了合成的录音一小段,你们听着呢。
而就在大家还在分析这个录音是怎么通过AI合成的时候,A公司站出来了,称犯罪嫌疑人通过此前卢某直播片段约30秒录音进行克隆,并通过文本生成了录音:
而且,还公开了调取证据通知书!!
证据链全了!可是AI真能合成能到这个程度吗?
这能生成这么逼真的录音吗?奶茶灰常好奇能不能合成类似还原度的录音?于是,奶茶点进站出来的A公司的官网:
真能这么还原?奶茶决定亲身试用了一下!
我选用了最近很热门的电视剧边水往事里面王安全的音频文件:(安全哥不许告我!)
首先,导入了一下王安全的语音片段:
然后用这个创造的声音角色生成对应文本的语音:
A公司平台就合成了对应的语音
怎么说呢!刚开始奶茶没报任何希望,我以为是A公司在借机给自己打广,等着翻车,没想到还挺自然,,,,, 有点像了!我决定再试一个更长的语句看看行不行!
好像不行了。。
从15s后已经开始丢失音色、不稳定了,而且开始有机器腔调了!
奶茶认为,想要达到录音门里这么高还原度甚至达到“混淆视听”让大家难以分辨的效果,目前看不是A公司这种平台克隆功能可以做到的,肯定至少大量语料数据训练的吧?
如果不是通过平台上的音效生成功能,而是使用某个人长时间的语音进行开源模型训练,是否能生成高度还原的声音呢?这是有可能的,但能否完全做到呢?
3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com
目前在A公司的网站上,奶茶没有找到训练模型的入口,只看到了上文使用较短语音通过平台的人声大模型生成的功能。
合成这段音频的难度是非常大的,网友们重点都转移到了合成小哥身上了,
小结怎么说呢家人们,这次真的很难评!
首先,关于这段录音是否是部分合成还是完全合成,警方并未明确说明。从录音的整体质量来看,若要达到如此高的还原度和逼真度,很可能需要使用个人语料库进行训练和生成。而使用A公司开放平台进行实际测试,似乎难以实现如此复杂和多人参与的录音效果。
其次,既然A公司已经承认这段合成录音与其有关,那么具体是通过什么技术实现的呢?可能涉及到犯罪相关的细节不便公开,但从目前平台的能力来看,似乎与犯罪录音的完整性并不完全吻合。
最后,这次“录音门”事件也敲响了警钟!!!
无论是部分造假还是完全造假,无论使用的是开源训练还是平台的声音克隆技术,AI的潜在犯罪能力已经被证实,且不易被察觉。因此,相关的语音合成、语音生成开源工具的使用,是否需要制定更严格的法律法规来加以规范,这是我们必须正视的问题~
夕小瑶的读者家人们有做语音合成的吗?欢迎大家在评论区讨论~