谷歌新款「怪物制造机」,用GAN一键生成定制版「哥斯拉」

  • 时间:
  • 浏览:17

“始祖鸟进化了,暴龙!

随着一声呼唤,萌萌中的数字宠物动物变成了巨大的数字战斗动物。

相信很多80后、90后的学生对这个《数码宝贝》印象深刻。小时候,他们也幻想过有一只属于自己的数码兽。

现在,一个谷歌的奇美拉画师绘图工具可能会实现你童年的梦想。

有了奇美拉画师,你可以在系统提供的或者自己上传的生物轮廓上创建怪物。点击“转换”按钮后,系统会生成自己的3D效果的“怪物”。

强大的“怪物制造者”背后,依然是GAN

谷歌的研究团队已经创建了一个数字卡牌游戏的原型,其概念是将生物组合成新的混血儿(怪物),然后这些混血儿(怪物)可以互相“战斗”。

在这个游戏中,玩家可以从现实世界的动物卡(比如美国蝾螈或者鲸鱼)开始,然后结合起来,让它们更加“夸张”(可怕的美国蝾螈-鲸鱼嵌合体)。

这为演示图像生成模型提供了一个创造性的环境,因为可能嵌合体的数量需要一种方法来快速设计大量可以自然组合的艺术元素,同时仍然保留原始生物体可识别的视觉特征。

研究小组的目标是在用户输入的指导下创建高质量的生物卡图像。因此,在用户反馈的指导下,我们试图利用生成性对抗网络(GANs)来创建适合幻想卡牌游戏原型的生物图像。

GAN结合了两个卷积神经网络:一个生成器网络用于创建新图像,另一个鉴别器网络用于确定这些图像是否是来自训练数据集的样本(在这种情况下,是由用户创建的图像)。

研究小组使用了一种称为条件GAN的变体,其中生成器接受单个输入来指导图像生成过程。有趣的是,这种方法严格偏离了其他GAN的工作,后者通常侧重于照片真实感。

为了训练GANs,研究小组创建了一个全色图像数据集,其中包含了单个生物体的轮廓,这些轮廓是从3D生物模型中改编而来的。这种生物的轮廓描述了每种生物的形状和大小,并提供了一个分割的地图来识别身体的各个部分。

模型的任务是生成多物种嵌合体,基于艺术家提供的轮廓,通过模型训练,然后带入嵌合体画家。

图:生成的卡牌艺术融入卡牌游戏,原型展示基本生物

生物是通过结构生成的,语义细节也是现实的

使用GAN生成生物体的一个问题是,当渲染图像的细微或低对比度部分时,空间一致性可能会丢失,尽管这些对人类来说具有高度的感知重要性。例子包括眼睛、手指,甚至区分有相似纹理的重叠身体部位。

GAN生成的图像显示不匹配的身体部位

创造奇美拉需要一个新的非摄影幻想数据集,它必须具有独特的特征,如戏剧性的视角、构图和光照。现有的插图存储库不适合作为训练ML模型的数据集,因为它们可能会受到许可证、风格冲突或缺乏这项任务所需的多样性的限制。

为了解决这个问题,研究团队开发了一种新的用户主导的半自动方法,用于从3D生物模型创建ML训练数据集,这使得团队能够大规模工作,并根据需要快速迭代。

在这个过程中,用户会创建或获取一组3D生物模型,每个需要的生物类型(如鬣狗或狮子)都要建立一个模型。然后,用户使用虚拟引擎制作两组纹理并将其叠加在3D模型上。一套有全彩纹理(左图),另一套有各个身体部位(如头、耳、颈等)。),称为“细分图”(右图)。

然后在训练过程中,将第二部分的身体部位细分提供给模型,以保证GAN了解身体部位特有的各种生物体的结构、形状、纹理和比例。

示例数据集训练图像及其配对分割图

这些3D生物模型放在一个简单的3D场景中,也使用了虚幻引擎。然后一套自动化脚本会采用这个3D场景,在每个3D生物模型的不同姿态、视点和缩放级别之间进行插值,创建全色图像和分割图,从而形成GAN的训练数据集。

使用这种方法,研究小组为每个3D生物模型生成了超过10,000个图像分割对。与手动生成这些数据相比,用户节省了数百万小时(每个图像大约20分钟)。

感知损失微调使怪物更加“奇怪”

GAN有很多可调超参数,导致输出图像质量不同。为了更好的理解模型哪个版本比其他版本好,我们为用户提供了这些模型生成的不同生物类型的样本,并将其总结成几个最好的例子。

研究小组收集了关于这些例子中所需特征的反馈,例如深度感、生物纹理的风格以及面部和眼睛的真实感。

这些信息不仅用于训练新版本的模型,还可以从每个生物类别(如瞪羚、山猫、大猩猩等)中选择最佳图像。)模型生成数千张生物图像后。

使用有条件的甘创造生成的嵌合体

研究团队通过关注感知损失来优化GAN。损失函数组件(也用于Stadia的Style Transfer ML)使用从单独的卷积神经网络(CNN)提取的特征来计算两幅图像之间的差异,这种方法以前在ImageNet数据集上训练过数百万张照片。

从CNN的不同层提取特征,并对每个特征应用权重,这将影响特征对最终损失值的贡献。这些权重对于确定最终图像的外观非常重要。

由不同的感知失重产生的恐龙-蝙蝠嵌合体

这是GAN训练产生的一些生物,感知损失权重不同,表现出模型能处理的输出和姿态的一小部分。

使用不同模型生成的生物

Google的团队希望这些GAN模型和Chimera Painter演示工具能够启发人们新的艺术创作思路。用机器学习当刷子能创造出什么?

参考链接:

https://ai . googleblog.com/2020/11/using-gans-to-create-fantastic . html