你能想象交换了脸的蒙娜丽莎和奥黛丽·赫本吗?
这种魔幻的效果是如何实现的呢?
我们邀请到微软亚洲研究院视觉计算组的高级研究员「陈栋」为大家从技术层面分析一下AI换脸。
换脸在科研领域实际上是一个很早就被研究的问题,其本身的定义是将输入人脸换到目标人脸中,并使输出人脸保持目标人脸的表情、角度、背景等属性。如图1所示,输入人脸图片是著名影星赫本,目标人脸图片是蒙娜丽莎,输出结果是一张将原蒙娜丽莎图片中的身份换成赫本的照片。
换脸看起来简单,实际上的技术难点比较多,下面将逐一介绍:
1. 输出人脸的身份是否与输入人脸的身份一致。这实际上是决定一个换脸成功最为关键的因素之一。对于输入人脸的提供者而言,换脸的趣味性就在于将自己的人脸换入目标图片中,这样会让自己有代入感。
2. 输出人脸的表情、角度、背景等属性是否与目标人脸一致。这其实也是一个非常具有挑战性的问题,如果我们仔细观看AI换脸的视频,会发现它合成的人脸并没有表现得和目标视频中人脸的表情、双眸方向、嘴型等细节一样生动。
3. 图像合成质量。图片合成质量是指合成图片的清晰度、真实性、是否存在人工合成的痕迹(artifacts)。一张合成质量高的图片应该可以骗过人的眼睛,让人觉察不到它是合成的。
4. 输出视频时间连续性。输出视频时间连续性是指在用合成图片制作成视频后,视频抖动越少,连续性越好。但是现在视频中的换脸技术基本上采用的是将视频中的每一帧换脸,然后再组合在一起,由于没有帧间连续性的保证,输出视频会出现一些帧间抖动的问题。
5. 可拓展性。拓展性好的算法可以将任意输入人脸图片的身份换入目标人脸图片中。而现有的一些算法需要针对输入人脸和目标图片进行训练才可以进行换脸。
6. 处理遮挡、大角度等极端情况的目标人脸的能力。在换脸过程中,目标人脸可能会出现遮挡或者大角度的侧脸,这样输出人脸应该也是含有遮挡或者是大角度的,这其实对生成模型的挑战非常大。
下面结合这些技术难点介绍一下最近的一些换脸的相关工作:
首先要介绍的是DeepFakes。DeepFakes是一种随着深度学习大火的面部替换算法。在训练阶段,它需要人A和B的多个面部图像。它分别为人A和B训练两个自动编码器网络。两个编码器网络共享权重,两个解码器使用不同的权重。当训练过程完成时,我们可以将从人A产生的潜在特征传递给解码器B。解码器B将尝试从关于人A的信息生成人B的面部图像,这样就完成了换脸这个任务。
DeepFakes在输入身份和被换身份的图片足够多同时足够多样的情况下保身份和保属性的能力不错,生成图片质量也还可以。但是当输入身份和被换身份图片不够的时候,保身份和保属性的能力均会有所下降,同时生成图片的质量也会下降。DeepFakes这个项目中设计了一些针对有遮挡、大角度的脸的处理方法,所以有不错的处理遮挡、大角度等极端情况的目标人脸的能力。另外,由于DeepFakes没有针对视频连续性设计算法,所以其合成的视频的连续性可能会有一些问题。DeepFakes最大的缺点就是可拓展性差,DeepFakes只能对训练中已经"见过"的人脸进行合成,不具备外插能力。这也成了限制DeepFakes算法商用的重要原因。
另外,我们自己在CVPR 2018上的工作"Towards Open-Set Identity Preserving Face Synthesis"也可以完成换脸这个任务。如图2所示,我们提出了一个基于GAN的框架,其中,I网络用来提取图片的身份信息,A网络用来提取网络的属性信息(如角度、表情、背景等),G通过提取的信息生成一张新的图片,C网络用来保证生成的图片和输入图片的身份信息一致,D网络用来保证生成的图片是一张真实的图片。这样我们可以将输入人脸x^s的身份换入x^a中。
通过在MS-Celeb-1M上的训练,我们的模型能够在开放数据集上生成保持身份信息的图片。在开放数据集上得到的结果如下图所示:
图中,(a)是提供身份信息的图片,(b)是提供属性信息的图片,(c)是模型生成的结果,同一行的图片具有相同的身份信息,同一列的图片具有相同的属性信息。从生成图片中可以看到,我们的模型既保持了与(a)相同的身份信息,又保持了与(b)相同的属性信息。
这项工作在保身份和保属性上有不错的表现,同时可拓展性很好,可以实现对任意输入人脸的换脸。再者由于GAN的存在,合成图片的质量也算不错,但是由于没有针对合成视频连续性进行专门优化,所以在合成视频时也会存在一些问题。另外这种基于GAN的方法在碰到遮挡和大角度时合成的图片质量会存在问题。当然这些可以使用DeepFakes项目中的一些技巧进行处理。
参考文献
[1] Bao J, Chen D, Wen F, et al. Towards open-set identity preserving face synthesis[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6713-6722.
https://arxiv.org/pdf/1803.11182.pdf[2] Deepfakes_faceswap project: https://github.com/deepfakes/faceswap
本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的"邀请",让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。
来源:知乎 www.zhihu.com
作者:微软亚洲研究院
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载
此问题还有 26 个回答,查看全部。
延伸阅读:
颜技AI换脸和zao app有何区别?两家首批AI视频换脸市场玩家新风口?
类似Prisma这种用人工智能进行云端处理的APP还有哪些?
没有评论:
发表评论