中科院自動(dòng)化所聯(lián)合北方電子設(shè)備研究所提多輸入文本人臉合成方法
文本人臉合成指的是基于一個(gè)或多個(gè)文本描述,生成真實(shí)自然的人臉圖像,并盡可能保證生成的圖像符合對(duì)應(yīng)文本描述,可以用于人機(jī)交互,藝術(shù)圖像生成,以及根據(jù)受害者描述生成犯罪嫌疑人畫像等。針對(duì)這個(gè)問題,中科院自動(dòng)化所聯(lián)合北方電子設(shè)備研究所提出了一種基于多輸入的文本人臉合成方法(SEA-T2F),并建立了第一個(gè)手工標(biāo)注的大規(guī)模人臉文本描述數(shù)據(jù)集(CelebAText-HQ)。該方法首次實(shí)現(xiàn)多個(gè)文本輸入的人臉合成,與單輸入的算法相比生成的圖像更加接近真實(shí)人臉。相關(guān)成果論文《Multi-caption Text-to-Face Synthesis: Dataset and Algorithm》已被ACM MM 2021錄用。

- 論文地址:https://zhaoj9014.github.io/pub/MM21.pdf
- 數(shù)據(jù)集和代碼已開源:https://github.com/cripac-sjx/SEA-T2F

圖1 不同方法的文本到人臉圖像生成結(jié)果
相較于文本到自然圖像的生成,文本到人臉生成是一個(gè)更具挑戰(zhàn)性的任務(wù),一方面,人臉具有更加細(xì)密的紋理和模糊的特征,難以建立人臉圖像與自然語(yǔ)言的映射,另一方面,相關(guān)數(shù)據(jù)集要么是規(guī)模太小,要么直接基于屬性標(biāo)簽用網(wǎng)絡(luò)生成,目前為止,還沒有大規(guī)模手工標(biāo)注的人臉文本描述數(shù)據(jù)集,極大地限制了該領(lǐng)域的發(fā)展。此外,目前基于文本的人臉生成方法[1,2,3,4]都是基于一個(gè)文本輸入,但一個(gè)文本不足以描述復(fù)雜的人臉特征,更重要的是,由于文本描述的主觀性,不同人對(duì)于同一張圖片的描述可能會(huì)相互沖突,因此基于多個(gè)文本描述的人臉生成具有很重大的研究意義。
針對(duì)該問題,團(tuán)隊(duì)提出了一個(gè)基于多輸入的文本人臉生成算法。算法采用三階段的生成對(duì)抗網(wǎng)絡(luò)框架,以隨機(jī)采樣的高斯噪聲作為輸入,來(lái)自不同文本的句子特征通過SFIM模塊嵌入到網(wǎng)絡(luò)當(dāng)中,在網(wǎng)絡(luò)的第二第三階段分別引入了AMC模塊,將不同文本描述的單詞特征與中間圖像特征通過注意力機(jī)制進(jìn)行融合,以生成更加細(xì)密度的特征。為了更好地在文本中學(xué)習(xí)屬性信息,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)屬性分類器,并引入屬性分類損失來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)。

圖2 模型框架示意圖
此外,團(tuán)隊(duì)首次建立了一個(gè)大規(guī)模手工標(biāo)注數(shù)據(jù)集,首先在CelebAMask-HQ數(shù)據(jù)集中篩選了15010張圖片,每個(gè)圖片分別由十個(gè)工作人員手工標(biāo)注十個(gè)文本描述,十個(gè)描述按照由粗到細(xì)的順序分別描述人臉的不同部位。
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)對(duì)提出的方法進(jìn)行了定性和定量分析[5,6],實(shí)驗(yàn)結(jié)果表明,該方法不僅能生成高質(zhì)量的圖像,并且更加符合文本描述。

圖3 不同方法比較結(jié)果

圖4 不同數(shù)量輸入的生成結(jié)果

表1 不同方法的定量比較結(jié)果

表2 消融實(shí)驗(yàn)結(jié)果:前三行分別表示網(wǎng)絡(luò)去除SFIM,AMC,和屬性分類損失。