机器柱的中心。
机器之心编辑部
米托成像实验室(MT Lab)利用StyleGAN技术落地多个毛发生成项目,并在米托秀秀生产AirBush及海外产品。
网上刘海生成,发际线调整和稀疏区域补发。妈妈再也不用担心我掉头发了。
当逐渐移动的发际线和日渐稀疏的刘海成为焦虑的来源,为了满足这一届用户对浓密头发的向往,美图公司在人工智能领域的技术大脑美图影像实验室(MT,已经深耕多年。
基于深度学习领域积累的技术优势,Lab)落地了多个毛发生成项目,实现了高清真实毛发纹理生成。目前已率先在米托的核心产品米托秀秀和海外产品。
AirBrush推出刘海生成、发际线调整、稀疏区域补发等功能,满足用户对发型的多样化需求。
其中,刘海生成功能可以根据定制的生成区域生成不同风格的刘海(如图1.1-1.3所示)。
图1.1:刘海生成(左:原图,右:全刘海生成效果图)。
图1.2:刘海生成(左:原图,右:全刘海生成效果图)。
图1.3:各种刘海生成的效果图。
发际线调节功能可以在保持原有发际线样式的同时调节不同的发际线高度(如图2.1-2.2所示):
图2.1:发际线调整前后对比。
图2.2:发际线调整对比。
头发生成任务面临的挑战
头发编辑作为一项通用的生成任务,在落地实践过程中仍面临以下需要突破的关键技术瓶颈:
*首先是获取生成的数据。以刘海生成任务为例,在生成特定风格的刘海时,一个人是否有刘海的数据是最理想的配对数据,但获得这类真实数据的可能性极低。同时,如果有针对性地收集特定风格刘海的数据,形成特定属性的不成对数据集,要获得高质量、多风格的数据,成本会很高,基本不具备可操作性。
*其次,高清图像细节的生成。由于头发部分纹理细节复杂,通过CNN很难生成真实、理想的头发。其中,在配对数据的情况下,虽然可以通过设计像Pixel2PixelHD[1]和U2-Net[2]这样的网络来进行监督学习,但是这种方法生成的图像的清晰度仍然非常有限。在不成对数据的情况下,属性通常以类似于HiSD[3]、StarGAN[4]和CycleGAN[5]的方式进行转换和生成。这种方式生成的图片不仅清晰度差,还存在目标效果生成不稳定、生成效果不真实等问题。
针对上述情况,MT Lab基于庞大的数据资源和卓越的模型设计能力,并借助StyleGAN[6]。
解决了头发生成任务面临的两个核心问题:匹配数据生成和高清图像细节。StyleGAN
―GAN(生成对抗网络)作为当前生成领域的主要方向,是图像生成应用的主要代表,是一种基于风格输入的无监督高清图像生成模型。StyleGAN可以基于7。
万1024*1024高清人脸图像训练数据FFHQ通过精美的网络设计和训练技巧,可以生成清晰逼真的图像效果。另外,StyleGAN。
还可以具备基于样式输入编辑属性的能力,通过编辑隐藏变量实现对图像语义内容的修改。
age/f64db6af57974874b80dbbf62c09c35a' alt='生成刘海、调整发际线,让你告别头秃烦恼的竟然是AI「生发」神器' />图 3:基于 StyleGAN 生成的图片
美图基于 StyleGAN 的头发编辑方案
1\. 配对数据生成
StyleGAN 生成配对数据最为直接的方式就是在 w + 空间直接进行相关属性的隐向量编辑,生成相关属性,其中隐向量编辑方法包括
GanSpace[7]、InterFaceGAN[8] 及 StyleSpace[9]
等等。但是,这种图像生成方式通常隐含着属性向量不解耦的情况,即在生成目标属性的同时往往伴随其他属性(背景和人脸信息等)产生变化。
因此,MT Lab 结合 StyleGAN Projector[6]、PULSE[10] 及 Mask-Guided Discovery[11]
等迭代重建方式来解决生成头发配对数据的问题。该方案的主要思路是通过简略编辑原始图片,获得一张粗简的目标属性参考图像,将其与原始图像都作为参考图像,再通过
StyleGAN 进行迭代重建。
以为头发染浅色发色为例,需要先对原始图片中的头发区域染上统一的浅色色块,经由降采样获得粗略编辑简图作为目标属性参考图像,在 StyleGAN
的迭代重建过程中,生成图片在高分辨率尺度下与原始图片进行相似性监督,以保证头发区域以外的原始信息不发生改变。
另一方面,生成图片通过降采样与目标属性参考图像进行监督,以保证生成的浅色发色区域与原始图片的头发区域一致,二者迭代在监督平衡下生成期望中的图像,同时也获得了一个人有无浅色头发的配对数据(完整流程参考下图
4)。
值得强调的是,在该方案执行过程中既要保证生成图片的目标属性与参考图像一致,也要保证生成图像在目标属性区域外与原始图片信息保持一致;还需要保证生成图像的隐向量处于
StyleGAN 的隐向量分布中,才能够确保最终的生成图像是高清图像。
图 4 :染浅色头发 StyleGAN 迭代重建示意图
此外,基于该方案的思路,在头发生成领域还能获取到发际线调整的配对数据(如下图 5)、刘海生成的配对数据(如下图 6)以及头发蓬松的配对数据(如下图 7)。
图 5:发际线配对数据
图 6:刘海配对数据
图 7:头发蓬松配对数据
2\. 配对数据增益
基于迭代重建,还能够获得配对数据所对应的 StyleGAN 隐向量,通过隐向量插值的方式还能实现数据增益,进而获得足够数量的配对数据。
以发际线调整的配对数据为例,如下图 8
所示,(a)和(g)是一组配对数据,(c)和(i)是一组配对数据,在每一组配对数据间,可以通过插值获得发际线不同程度调整的配对数据。如(d)和(f)分别是(a)和(g)、(c)和(i)之间的插值。
同样地,两组配对数据间也可以通过隐向量插值获得更多配对数据。如(b)和(h)分别是(a)和(c)、(g)和(i)通过插值获得的配对数据。此外,通过插值获得的配对数据也能够生成新的配对数据,如(e)是(b)和(h)通过差值获得的配对数据,基于此可以满足对理想的发际线调整配对数据的需求。
图 8:配对数据增益
3\. image-to-image 生成
基于 StyleGan 的迭代重建获得配对数据后,就可以通过 pixel2piexlHD 模型进行有监督的学习训练,这种 image-to-image
的方式相对稳定且具有稳健性,但生成图像的清晰度还无法达到理想的效果,因此选择通过在 image-to-image 模型上采用 StyleGAN
的预训练模型来帮助实现生成细节的提升。传统的 StyleGAN 实现 image-to-image 的方式是通过 encoder
网络获得输入图的图像隐向量,然后直接编辑隐向量,最后实现目标属性图像生成,但由这种方式生成的图像与原图像比对往往相似度较低,无法满足基于原图像进行编辑的要求。
因此 MT Lab 对这种隐向量编辑的方式进行了改进,一方面直接将原图像 encode 到目标属性的隐向量,省去进行中间隐向量编辑的步骤;另一方面将
encoder 网络的特征与 StyleGAN
网络的特征进行融合,最终通过融合后的特征生成目标属性图像,以最大限度保证生成图像与原图像的相似度,整体网络结构与 GLEAN[12]
模型非常相似,该方式兼顾了图像高清细节生成与原图相似度还原两个主要问题,由此也完成了高清且具有真实细节纹理的头发生成全流程,具体如下图 9:
图 9:头发生成网络结构
基于 StyleGAN 编辑生成方案的拓展
基于 StyleGAN
编辑生成方案能够在降低生成任务方案设计难度的同时,提高生成任务的研发效率,实现生成效果的大幅度提升,同时也具有很高的扩展性。其中,结合 StyleGAN
生成理想头发配对数据的方式极大地降低了图像编辑任务的难度,比如将该方案关注的属性拓展到头发以外,就能够获得更多属性的配对数据,例如五官更换的配对数据(如下图
10),借此可以尝试对任何人脸属性编辑任务进行落地实践。
此外,借助 StyleGAN 预训练模型实现 image-to-image
的方式能够保证生成图像的清晰度,因此还可以将其推广到如图像修复、图像去噪、图像超分辨率等等更为一般的生成任务中。
图 10:五官更换的配对数据:原图(左),参考图(中),结果图(右)
目前, MT Lab 已在图像生成领域取得新的技术突破,实现了高清人像生成并达到精细化控制生成。在落地头发生成以外,MT Lab
不仅实现了牙齿整形、眼皮生成、妆容迁移等人脸属性编辑功能,还提供了 AI
换脸、变老、变小孩、更换性别、生成笑容等等风靡社交网络的新鲜玩法,一系列酷炫玩法为用户带来了更有趣、更优质的使用体验,也展现了其背后强大的技术支持与研发投入。
未来,深度学习仍将是 MT Lab 重点关注的研究领域之一,也将持续深入对前沿技术的研究,不断深化行业技术创新与突破。
_参考文献:_
_[1] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao,Jan Kautz, and
Bryan Catanzaro. High-resolution image syn-thesis and semantic manipulation
with conditional gans. In CVPR, 2018._
_[2] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R
Zaiane, and MartinJagersand. U2-net: Going deeper with nested u-structure for
salient object detection. Pattern Recognition, 2020._
_[3] Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong
Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji. Image-to-image Translation via
Hierarchical Style Disentanglement. InProc. In CVPR, 2021._
_[4] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan:
Unified genera-tive adversarial networks for multi-domain image-to-image
translation. In CVPR, 2018._
_[5] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan:
Unified genera-tive adversarial networks for multi-domain image-to-image
translation. In CVPR, 2018._
_[6] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko
Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN.
InProc. In CVPR, 2020._
_[7] Erik H ark onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris.
Ganspace: Discovering interpretable gancontrols. In NIPS, 2020._
_[8] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Inter-preting the
latent space of gans for semantic face editing. In CVPR, 2020._
_[9] Zongze Wu, Dani Lischinski, and Eli Shecht-man. StyleSpace analysis:
Disentangled controlsfor StyleGAN image generation. In arXiv, 2020._
_[10] Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi,and Cynthia
Rudin. Pulse: Self-supervised photo upsam-pling via latent space exploration
of generative models. In CVPR, 2020._
_[11] Mengyu Yang, David Rokeby, Xavier Snelgrove. Mask-Guided Discovery of
Semantic Manifolds in Generative Models. In NIPS Workshop, 2020._
_[12] K. C. Chan, X. Wang, X. Xu, J. Gu, and C. C. Loy, Glean: Generative
latent bank for large-factor image super-resolution, In CVPR, 2021._