2024年5月28日发(作者:)

第38卷第4期

2021年4月 

计算机应用研究

ApplicationResearchofComputers

Vol.38No.4

Apr.2021

基于生成式对抗网络的画作图像合成方法

赵宇欣,王 冠

(天津大学数学学院,天津300354)

摘 要:画作图像合成旨在将两个不同来源的图像分别作为前景和背景融合在一起,这通常需要局部风格迁

移。现有算法过程繁琐且耗时,不能做到实时的图像合成。针对这一缺点,提出了基于生成式对抗网络(genera

,GAN)的前向生成模型(PainterGAN)。PainterGAN的自注意力机制和UNet结构控制合成过tiveadversarialnet

程中前景的语义内容不变。同时,对抗学习保证逼真的风格迁移。在实验中,使用预训练模型作为PainterGAN

的生成器,极大地节省了计算时间和成本。实验结果表明,比起已有方法,PainterGAN生成了质量相近甚至更好

的图像,生成速度也提升了400倍,在解决局部风格迁移问题上是高质量、高效率的。

关键词:图像风格迁移;生成对抗网络;图像合成;自注意力机制

中图分类号:TP39141   文献标志码:A   文章编号:10013695(2021)04047120804

:10.19734/j.issn.10013695.2020.03.0082doi

Painterlyimagecompositionbasedongenerativeadversarialnet

ZhaoYuxin,WangGuan

(SchoolofMathematics,TianjinUniversity,Tianjin300354,China)

Abstract:Painterlyimagecompositingaimstoharmonizeaforegroundimageinsertedintoabackgroundpainting,whichis

donebylocalstyletransfer.Thechiefdrawbackoftheexistingmethodsisthehighcomputationalcost,whichmakesrealtime

,thispaperproposedafeedforwardmodelbasedongenerativeadversarialnetoperationdifficult.Toovercomethisdrawback

work(GAN),calledPainterGAN.PainterGANintroducedaselfattentionnetworkandaUNettocontrolthesemanticcontent

inthegeneratedimage.Meanwhile,adversariallearningguaranteedafaithfultransferofstyle.PainterGANalsointroduceda

pretrainednetworkwithinthegeneratortoextractfeatures.ThisallowedPainterGANtodramaticallyreducetrainingtimeand

storage.Experimentsshowthat,comparedtostateofartmethods,PainterGANgeneratedimageshundredsoftimesfasterwith

comparableorsuperiorquality.Therefore,itiseffectiveandefficientforlocalstyletransfer.

Keywords:imagestyletransfer;GAN;imagecompositing;selfattention

0 引言

图像合成属于图像变换问题,目的是通过模型将一个简单

的粘贴合成图像转变成一个融合为一体的图像。例如,将一个

人像(前景)插入到一张照片(背景)中,图像合成期望将两者

融合在一起,使得观察者以为这个人像本来就在照片中。因为

前景和背景的光线、明亮、纹理等风格特征不同,简单的粘贴合

成会造成不自然的视觉效果,可以被轻易判断为假的合成物。

因此需要一个融合过程将背景的部分风格迁移到前景来,使它

们的合成物在视觉上是统一协调的。针对照片的图像合成,不

同工作分别通过匹配前景和后景的统计特征,如直方图、均值

[1][2]

方差、协方差等进行融合。针对画作的图像合成,Luan等

[3]

人提出了基于PatchMatch和神经网络的局部风格迁移模

型。本文也就这一问题提出新的思路。与图像合成紧密相连

4,5]

的进一的一个概念就是图像的风格迁移。随着深度学习

步发展,文献[6]提出神经风格迁移(neuralstyletransfer,

NST),通过深度神经网络将油画的风格特征迁移到图像上,同

时保留了图像本身的内容。考虑到NST的优化过程较为耗

时,文献[7,8]设计了快速前向生成模型,提高了图像生成的

[9,10]

被提出,积极推动了这个领速度。在这之后,大量的工作

域的发展。目前这些工作都是针对全局风格迁移问题,不适用

于画作图像的合成,例如,粘贴一束花到梵高的油画作品星空

中,一个理想的融合结果是这束花具有和画中其他植物相似的

风格,而不是集中夜空、山脉、人物所有风格于一体。

[11]

014年被提出,在很多图像问题上生成式对抗网络在2

有令人印象深刻的表现。GAN由生成器和鉴别器组成,其中

生成器试图生成与真实数据相似的图片,而鉴别器则尽力识别

出这些生成的图片,直到它们达到纳什平衡,在这种状态下,生

[12]

GAN用卷积神经网络构成器可以生成足够逼真的数据。c

[13]

造生成器和鉴别器,并用于解决图像方面的问题;IcGAN将

GAN和编码器结合起来在特征空间编辑图像属性,以控制图

[14]

像的生成;CycleGAN用双向映射的GAN模型来完成图像到

[15]

Zhang等人将自注意力机制插入到GAN图像的生成任务;

中,大幅提升图像生成质量。不同于对图像迭代优化的思路,

这些模型极大地提升了图像的生成速度,但是生成的图像细节

性不够,不同像素区域之间相关性不强。

AN提出一个用于画作图像合成的全新模型本文基于G

PainterGAN。通过对抗训练,损失函数驱动PainerGAN学习目

标背景的明暗、色彩、纹理等风格特征,同时尽最大可能保留训

练数据的语义内容不变。在训练完成后,将任意内容的前景图

像输入到模型中,PainterAGN都可以将其渲染成目标的背景风

格,当渲染完成的前景图像贴入背景中时,能完全融入其中,令

PainterGAN以此完成从背观看者无法判断该合成图像的真假,

景到前景的局部风格迁移。在这个过程中,一个关键点是原始

内容和逼真风格之间的矛盾。当前景的内容被赋予较大的权

重,迁移的风格通常与背景不一致;反之,当风格迁移更被重

视,原本的内容会有一定程度的信息损失。基于单阶段的优化

  收稿日期:20200314;修回日期:20200506  基金项目:国家自然科学基金资助项目(91746107)

  作者简介:赵宇欣(1995),女,山西晋中人,硕士研究生,主要研究方向为机器学习、深度学习、计算机视觉(zhaoyuxin_alice@tju.edu.cn);

1992),女,内蒙古呼伦贝尔人,博士研究生,主要研究方向为深度学习、数学物理反问题.王冠(

第4期赵宇欣,等:基于生成式对抗网络的画作图像合成方法

·1209·

   

方案很难同时平衡两者,如PatchMatch

[16]

;基于二阶段的优化

方案通过粗糙—细节两个阶段逐步优化生成图像,但是计算成

本过高,如DPH

[3]

。PainterGAN在GAN的基础上进行改进,

通过引入自注意力机制和UNet来控制前景的语义内容不变,

同时对抗训练又保证风格逼真且与背景一致。在模型训练过

程中,PainterGAN用预训练的VGG替代生成器中的编码器,极

大地节省了计算空间和时间。

1 本文方法

GAN的基本思想是通过映射将特定数据分布转换为目标

数据分布。训练过程中对抗损失函数驱动整个模型的参数优

化,最终使之达到局部最优点。在画作的图像合成问题中,

PainterGAN的生成器将前景映射到背景图像的分布中,使之具

有背景的风格特征。本节将对自注意力机制、PainterGAN的网

络结构和模型的损失函数进行详细描述。

11 自注意力机制的基本原理

自注意力机制在图像生成过程中通过建立不同像素区域

的相关性,有助于促进物体的轮廓完整。在卷积计算中,比起

整幅图像,单个卷积核通常提供很小的感受野,例如3×3或者

4×4。相应地,在卷积计算的前几层,图像的细颗粒度信息可

以被捕获。随着层数的增加,卷积核的感受野逐渐变大,模型

能抓取图像中的语义内容,但是深层的特征映射丢失了很多信

息,不同区域之间建立的联系很难有效传递到模型的浅层。由

于卷积计算的这些局限,已有的风格迁移方法倾向于生成带有

破碎边缘的物体。自注意力机制是一个可行的解决方法。

自注意力机制通常用于自然语言处理中的前后文语义理

解。Zhang等人

[15]

首次将其引入到GAN中用于图像分类。在

其他的计算机视觉任务中,自注意力机制也被证明是有效的。

从理论上说,它对人眼更容易注意到的图像区域反映更强烈,

以此来增强物体的显著性。自注意力网络被引入在Painter

GAN的生成器下采样之后、上次采样之前。其基本思想

[15]

以总结为:

a)将编码器生成的特征映射输入到三个独立的卷积层,

f(x)=W(x)=W

C×N

x,g(x)=W

x,h

x中,假设输入为x