在日常生活里,人脸识别无处不在,无论是上下班打卡、电子支付,还是进出火车站,它都为我们带来了极大的便利。但在人脸识别技术不断发展的背后,有着诸多复杂且精妙的研究历程。今天,让我们聚焦于人脸识别中的一个细分方向——人脸转正,一同探寻它是如何突破重重困难,走进我们生活的。
侧脸转正:人脸识别的关键难题李子青老师指出,海关提出了一个棘手需求:现有的人脸识别技术对正脸的识别率颇高,然而一旦碰上带有姿态的人脸,识别性能便会大幅下降。在海关这种人员流动频繁的场所,人们的行为难以限制,拍摄到的大多是侧脸图像。能否设法将侧脸图像转为正脸再进行识别,以此解决这一难题?
姿态无疑是影响人脸识别的关键因素。想想那些仅有几面之缘的陌生人,我们很难记住他们的侧脸模样。倘若给出一张陌生的侧脸图片,要想象出其身份证照上的正脸,对普通人而言,难如登天。以一个小孩的侧脸和正脸为例,外观差异巨大,若不经过特殊处理,极难匹配。除姿态外,表情也是影响人脸识别的重要因素,周星驰在《九品芝麻官》中就曾凭借搞怪表情骗过官差的 “人脸识别系统”。由此可见,若能将人脸图像校正为正面的无表情图像,再送去识别,似乎就能解决不少问题。
人脸作为三维物体,在拍摄时的旋转会产生姿态变化,而人脸的三维结构形变则会带来表情变化。可我们拍摄的人脸图像是二维的,在这个转换过程中,人脸的三维结构信息丢失了。这就好比将一个立体的物体压扁成平面,很多关键信息都缺失了。若能从二维图像中还原出三维结构,再基于此进行姿态和表情校正,人脸转正工作便能变得更为可靠。
技术攻坚:实现人脸精准转正明确技术路线后,首要任务是实现三维重建。三维重建依赖于三维人脸模型,我们找来200个不同性别、年龄的人,利用三维扫描仪获取他们的三维人脸,经过点对点配准和数理统计方法,构建出三维人脸模型。这个模型通过姿态、形状、表情等一系列参数进行控制,给定不同参数,就能生成不同的三维人脸。
基于此提出了分析合成法。模拟人脸图像生成过程,给三维人脸模型加上姿态、形状、纹理、光照等参数,生成一张人脸图像,接着搜索这些参数,使生成的图像与目标图像尽可能相似,以此完成三维重建。将此功能应用于各种人脸识别系统,取得了一定效果。
但李老师很快指出,该系统虽然性能不错,可速度太慢,一分钟才能重建一张人脸图像,难以满足实时人脸识别系统的需求。当时人工神经网络开始兴起,尝试训练神经网络让它看懂图像中的人脸,并返回姿态、形状和表情参数,以实现三维重建。但初期效果不佳,经分析发现,原来姿态、形状和表情这三组参数的重要性截然不同,姿态参数最为关键,稍有偏差,人脸就会严重偏离。神经网络不加区分地学习所有参数,导致学习能力浪费在不重要的参数上。
为此,研究人员研究出一系列学习策略,让神经网络明白哪些参数重要,哪些次之,并且按照重要程度依次学习。最终,基于神经网络的三维人脸重建方法诞生,速度从原来的一分钟一张提升至每秒100张,甚至能在手机端实现实时重建,无论是飞速变化的人脸细微动作,还是大姿态的完全侧脸和超大俯仰角,都能稳定重建。
完成三维重建后,下一步便是利用重建的三维人脸将图像转正。先重建出人脸背后的三维世界,人脸内部通过三维人脸重建结果获取,人脸外部粗略估计深度信息,将整张图像转化为三维物体。在三维空间中对其进行旋转,将表情校正后重新成像,得到初步校正结果。但此时会出现黑边问题,这是因为原图是侧脸,转正后原本看不见的半边脸暴露出来,且这部分在原图中没有像素。由于人脸加上光照后不再对称,直接用对称方法填充会导致不自然的发黑现象。于是又提出光照模型,将人脸的光照部分分解出来,用原图减去光照部分得到与光照无关的面部细节部分,利用其对称性进行填充,再加上光照部分,最终得到高保真的校正结果。
广泛应用:推动多领域发展通过人脸转正技术,极大地提升了人脸识别系统对带姿态人脸的识别能力。这项技术不仅能服务于机器,在刑侦领域也大有用武之地。当警方仅获取嫌疑人的一张侧脸低质量图像时,利用该系统将正脸恢复出来,能助力警官进行比对和侦查,有效提升刑侦效率。
除了人脸转正,其背后的三维人脸重建技术还有着更广泛的应用。在手机端,面部产品的虚拟试用功能便是基于此,通过采集人脸图像恢复出三维人脸,在上面进行化妆或配饰穿戴后重新成像,让客户体验产品虚拟效果,如虚拟试装、虚拟穿戴眼镜等。在元宇宙领域,虚拟主播和虚拟带货也依赖三维重建技术,将重建出的三维人脸的表情和姿态系数映射到数字人上,实现数字人的驱动,完成虚拟交互。
此外,一些应用对三维人脸重建提出了更高要求,如定制个性化虚拟形象,这就催生出精细三维人脸重建这一新兴方向。理解人脸的三维结构,在人脸安全方面也至关重要。例如,面对将他人照片打印出来欺骗人脸识别系统的攻击行为,通过识别三维结构,能轻松区分真假人脸,保障人脸识别系统的安全性,这便是人脸防伪领域的研究方向。
人脸蕴含着丰富的信息,除身份信息外,还包括情感、健康等深层次信息。未来,随着对人脸理解的不断深入,我们有望满足人类更多深层次需求,让人工智能系统更加人性化 。
文本来源@格致论道讲坛的视频内容