您的位置：首页 > 科学 >

字节AI实习生想出有趣的事:马花藤和雷军成为二代帅哥

2021-06-10 17:02 　来源：快科技

这位于和伟老师还是那种熟悉的“弹琴跳舞”的感觉吗？

而如果蓉姐也进入这个维度，画风应该是.

啊，是一种真正的大师的感觉。蓉姐才是童年的真神！

如果把互联网大佬变成这样的画风会是怎样的场景？

先看看雷军，你会看到那双迷人的眼睛的剑眉。

看看BAT的三大兄弟.

好家伙，感觉可以直接看图写字，去橙光游戏做个整体《互联网风云录之三雄争霸》。

(10，000个字符的草稿已准备就绪.)

连歪坚果都可以用这个维度统一起来。

看到图灵奖得主，《深度学习》三巨头，本吉奥的偏执，韩丁的执着，乐村的冷淡与骄傲，绝世高手的感觉都可以直接填满，随时可以逛华山。

辛顿大侠小说男主面实锤

连乐村自己也看到了，忍不住转发：

如你所见，这的确是GAN的又一杰作。

然而，这位来自字节跳动的GAN新秀可不仅仅是一位橙光游戏的竖绘老师。

卡通风格：

油画风格：

甚至特朗普风格.

只要100张男女照片作为训练样本，AgileGAN可以看一个小时，就得心应手了。

即使照片中的人戴着面具，他也可以化妆：

它还会自动将帽子转换成头发。戴的帽子越多，头发越密。如果你戴五顶帽子，就这样：

你甚至可以开发一些幽灵游戏，比如把生成的图像反馈回去.

乐村变成美女

而正是字节跳动和南洋理工大学培养出了这样一个会画画，能打鬼畜的GAN。宋，目前在实习研究员。

此外，AgileGAN的相关论文已入选SIGGRAPH 2021。

只需100对样本训练1小时

之所以叫AgileGAN，是因为它在v。

100上训练时间只需要1小时，训练数据集也只需要大概100对样本(男女各100张)。

这么强，怎么做到的？

要知道风格迁移的一大难点，就是如照片到卡通这种面部几何形状变化较大的迁移。

如果过于强调保留几何形状特征，会造成不符合审美的扭曲与瑕疵。

但是保留的少了迁移完就和输入的照片不像了。

△以前的算法不是脸发绿就是五官扭曲

这是因为，风格迁移算法如StyleGAN2，通把照片的特征编码成向量，逆映射(Inversion Mapping)到隐空间 (Latent Space)。

在此基础上对向量进行变换，再映射回图像，就能产生加减年龄，转换性别的效果。

△图源 GAN Inversion: A Survey

但是AgileGAN团队发现，像StyleGAN2那样寻找最佳的隐空间映射是行不通的，因为适用于真实照片的映射并不一定适用于其他风格。

AgileGAN以StyleGAN2为基础进行改进，解决办法分为两部分。

第一个是层级变分自编码器 (hierarchical Variational Eutoencoder,简称hVaE)。

在确保映射隐空间分布符合原始高斯分布的同时，将原来的一个隐空间分成不同分辨率的多个隐空间，可以更好地编码图像中不同层次的细节。

第二个是从StyleGAN2的预训练权重开始，重新微调出一个属性感知的生成器。

包括不同属性（如性别、年龄）的多个生成路径和多个判别器，以更好地实现依赖属性的风格迁移。

StyleGAN2生成器和属性感知的生成器这两个训练阶段是独立执行的，可以并行训练。

这样分开操作不仅减少了需要的训练数据集大小，还使风格迁移拥有更大的灵活性。

不过使用小数据集时判别器容易过拟合。解决办法是加入一个早期停止策略，一旦风格化效果达到预期，就停止训练。

这还没完，如果用上一阶运动技术(First Order Motion)，AgileGAN还可以完成视频的风格迁移。

字节跳动实习生一作

另外，AgileGAN还是个“实习生作品”，成型于一作宋果鲜在字节跳动实习期间。

宋果鲜，本科毕业于中科大数学专业，目前正在南洋理工大学攻读计算机科学博士学位。同时，他也是字节跳动美国AI实验室的实习生。

他的研究方向主要是计算机视觉和计算机图形学，包括基于图像的3D人脸重建/分析、VR/AR应用等等。

所以，在AgileGAN眼里，宋同学又是什么样的呢?

发量和发质，真的很优秀了。

说起来，没准以后就能在抖音直接玩上这样的GAN了。

要是等不及，作者已经放出了试玩版：

http://www.agilegan.com/