AI邓丽君如何翻唱周杰伦的《千里之外》?袁隆平院士的仿真语音又是如何生成?在第13期南都数字经济治理论坛“AI复活”主题研讨现场,来自中国科学院信息工程研究所的正高级工程师韩冀中,给与会嘉宾带来了上述场景的LIVE 演示,并分享科普了其背后的AIGC技术原理及数据安全治理挑战。从“AI孙燕姿”到“AI李玟”“AI高以翔”, 从“虚拟歌手一秒出专辑”到当下“复活逝者”的火爆业务,AIGC行业的发展可谓一日千里。在韩冀中看来,虽然生成式人工智能技术离真实大规模落地距离尚有一定距离,但在商业应用场景的丰富速度上还是非常迅猛的。韩冀中认为,“数字人也许会改变互联网的信息流,引发数字时代的新趋势,互联网或将进入人机共生的时代,更多与个人日常生活相关的数据会上网“,与此同时,大模型服务质量的提升也有赖于高质量的训练数据,但是企业能否合规留存与使用个人数据,如何保护个人隐私安全,仍是一个具有挑战性的问题。”
在《数字人生成技术及其风险》的主旨演讲中,韩冀中总结了全球AIGC当前主要的模态技术路径:在文本方面体现为聊天机器人技术;音频方面包含了语音内容的声音克隆、音色模仿以及歌曲生成技术;图像和视频方面则是以人为主体的身份替换、说话人生成、人物定制化生成,以及聚焦于环境且基于文本指导的图像或视频生成。“对周杰伦的音频输入,首先尽可能地去除他的音色,而保留其中的歌词、语气等信息,随后再使用专属于邓丽君的vits模型为其添上邓丽君的音色。” 韩冀中以语音生成领域为例,介绍称当前该领域主要包括音色迁移、声音克隆等主流技术形态。“声音克隆主要基于卷积神经网络和大规模语音的预训练模型,比如只要输入袁老的既往语音来提供音色,再加上一段文本,就能克隆出对应音频。”韩冀中演示称。他同时表示,“在音乐生成行业比较敏感的话题,则主要是涉及音乐版权的问题,相关业务领域的训练数据来源目前也存在风控漏洞。“会上韩冀中表示,在AI复活亲人的案例中,可以综合利用这些工具,比如使用定制化文生图技术生成亲人头像、使用声音克隆技术复制亲人音色、使用文字生成技术生成对话内容、使用音频驱动视频生成技术来驱动亲人的头部动作等。“对AI复活逝者的追寻是有代价的。”韩冀中坦言,对数字人来说,技术上可以实现和亲人聊天交流,甚至能将一些记忆的对话场景写入数据库,作为大模型的提示词,生成复原当时场景的对话。而从相应的技术需求来说,"AI复活亲人”为了做到惟妙惟肖,在数据层面需要收集一定规模高质量的逝者面部图像和声音数据,他以包小柏提到的对女儿遗产信息的使用授权为例,“如何保障这些逝者海量的敏感隐私数据在被授权后的合理存储、使用与清洗,是一个新的安全挑战。”他强调,依照《互联网信息服务深度合成管理规定》,训练数据包含个人信息的,应当遵守个人信息保护的有关规定。AI服务提供者若在未获得数据主体(即逝者家属或法定继承人)的明确同意下收集逝者的个人数据,如声音或图像,就是侵犯了逝者的隐私权。而即便在获得授权的情况下,服务提供者对于使用逝者数据的方式仍可能超出原授权的范围,如未经授权用于模型训练,“这种行为可能对逝者家属造成严重伤害。”与此同时,随着合成内容的效果越来越逼真,如果未明确标识,容易引发混淆,加剧网络虚假信息的泛滥。”韩冀中一针见血。而根据《互联网信息服务深度合成管理规定》,深度合成服务提供者所提供的深度合成服务,可能导致公众混淆的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识。此外,韩冀中还同时提到,如何甄别公司发布的数字人技术是否使用了某个隐私数据,在技术上也在探索阶段,目前的检测技术还需要企业配合提供测试接口,纯粹的黑盒测试仍有一定困难,因此“在一些企业不配合的情况下也很难探知它是否使用过一些无授权的隐私数据。为此,我们团队也正在开展相关研究,如有进展,会再向大家汇报与交流。