点击 机器学习算法与Python学习 选择加星标
精彩内容不迷路
CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明transformer 有可能成为计算机视觉任务如分类、检测和分割的强大通用模型。我们都很好奇在计算机视觉领域transformer 还能走多远对于更加困难的视觉任务比如生成对抗网络 (GAN)transformer 表现又如何
在今年年初的时候德克萨斯奥斯汀分校的团队推出了使用纯Transformer构建 Generative Adversarial Network并且在Cifar-10, STL-10, CelebA (64 x 64) 等常见benchmark中取得了不错的成绩。这几个月以来不同的研究人员都是用Transformer各个方向取得了极大的进展Vision Transformer的研究获得了计算机社区的广泛关注。最近TransGAN团队更新了他们的结果最新的结果表明TransGAN不仅在低分辨率图像任务中超越了StyleGAN在更高分辨率如256x256图像生成任务中也取得了优异的成绩。
论文https://arxiv.org/abs/2102.07074
代码https://github.com/VITA-Group/TransGAN
使用Vision Transformer搭建GAN网络不仅来源于对探索Transformer在视觉任务中表现力的好奇同时也期望解决卷积神经网络CNN长久以来面临的多种缺陷。例如局部感受野不利于捕捉全局信息以及空间不变性不利于获取随空间位置改变的特征。
首先让我们简单了解一下适用于高分辨率图像生成任务的TransGAN具体结构
TransGAN包含了一个内存友好的基于 transformer 的生成器和一个多尺度金字塔结构的判别器。其中生成器采用逐级放大分辨率的方式减小计算量每一个层级之间采用了上采样模块来提高分辨率。在低分辨率层级中研究人员采用了简单的Bicubic Upsample保持模型的宽度而仅放大分辨率在高分辨率层级中分辨率大于32x32则采用Pixelshuffle模块使得分辨率放大的同时模型宽度减小为原来的1/4。
对于判别器而言文章采用了多尺度输入的极联判别器而不是与原始ViT相同的结构。这是因为当分辨率继续上升时继续将每一张图片视为多个块状图片的组合会面临多种问题。具体而言当切割的块状图片大小较小时判别器能够更有效地处理图片的细节和纹理信息然而较小的块状图片将导致总块数长度较大这将造成极大的计算量消耗。另一方面虽然使用较大的块状图片可以捕捉到丰富的结构信息并解决计算量的问题每一张块状图片捕捉到细节信息将会损失不利于生成细节更丰富的图片。为了解决这个问题研究人员提出来多尺度判别器通过将输入图片切割成不同大小的块状图片来同时捕捉纹理信息和结构信息。与此同时判别器采用了金字塔结构不断地降低特征的分辨率以获取更高的计算效率。
为了将TransGAN应用于更高的分辨率文中提出了采用Grid Self-attention来替换standard self-attention。研究人员发现原始的self-attention虽然能捕捉全局信息但是在更高的分辨率上这一优点反而成了累赘。这是由于从低分辨率高分辨率图像时只需要在局部区域捕捉并生成细节信息。文中提出的Grid Self-Attention通过不重叠的窗口将原始特征图分割成同一大小的小图并只在小图中使用self-attention这种方法极大地降低了self-attention的计算消耗和显存消耗。文中同时讨论了Grid Self-attention可能带来的潜在问题如分割的小图之间因为信息交互被阻碍而导致的边界损失。实际上研究人员发现在足够的训练时间下这种边界损失会逐渐消失这是由于判别器的感受野覆盖了整张图片从而驱动生成器生成不包含边界损失的图片。
尽管上文描述的生成器和判别器在设计上拥有多种优势训练由纯Transformer构建的GAN依旧不是一件轻而易举的事这主要是因为GAN和Transformer都面临着训练及其不稳定的问题。对此研究人员提出了一系列训练技巧包括数据增强相对位置编码以及改进的归一化结构。最终在同样使用数据增强的设定下TransGAN在Cifar-10STL-10以及Celeba 128 x 128等常用benchmark中取得了最好的成绩并超过StyleGAN-v2等结构。
同时实验结果表明提出的各种模块的优越性
在将应用TransGAN于更高分辨率时TransGAN继续保持了优越的性能并且生成了细节丰富的高清图像
通过观察比较基于Transformer和卷积神经网络的GAN研究人员发现Transformer在训练早起并不能有效生成有意义的图片例如人脸的五官这可能是由于缺失了卷积神经网络具备的归纳偏置。但是在足够的数据和训练下Transformer逐渐学习到有意义的位置信息和归纳偏置最终生成细节丰富的高清图片。
在总结中研究人员表示将继续将纯Transformer应用于更多数据集和更高的分辨率当中。
如果对你有帮助。请不吝点赞点在看谢谢【感谢龙石为本站提供数据治理平台技术支撑 http://www.longshidata.com/pages/government.html】