自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你說我畫,你畫我說:全球超大中文跨模態(tài)生成模型文心ERNIE-ViLG

新聞 人工智能
在文字生成圖像上,文心 ERNIE-ViLG 可以根據(jù)用戶輸入的文本,自動(dòng)創(chuàng)作圖像,生成的圖像不僅符合文字描述,而且達(dá)到了非常逼真的效果。

 

在文字生成圖像上,文心 ERNIE-ViLG 可以根據(jù)用戶輸入的文本,自動(dòng)創(chuàng)作圖像,生成的圖像不僅符合文字描述,而且達(dá)到了非常逼真的效果。在圖像到文本的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內(nèi)容,還能夠根據(jù)圖片中的場景回答相關(guān)的問題。

前不久,百度產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型 “文心” 全景圖亮相,近日,其中的跨模態(tài)生成模型 ERNIE-ViLG 在百度文心官網(wǎng)開放體驗(yàn)入口,并放出了論文:

體驗(yàn)鏈接:https://wenxin.baidu.com/wenxin/ernie-vilg

論文鏈接:https://arxiv.org/pdf/2112.15283.pdf

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

據(jù)悉,文心 ERNIE-ViLG 參數(shù)規(guī)模達(dá)到 100 億,是目前為止全球最大規(guī)模中文跨模態(tài)生成模型,該模型首次通過自回歸算法將圖像生成和文本生成統(tǒng)一建模,增強(qiáng)模型的跨模態(tài)語義對(duì)齊能力,顯著提升圖文生成效果。

小編帶你體驗(yàn)文心 ERNIE-ViLG “圖像創(chuàng)作”能力:

在文字生成圖像上,文心 ERNIE-ViLG 可以根據(jù)用戶輸入的文本,自動(dòng)創(chuàng)作圖像,生成的圖像不僅符合文字描述,而且達(dá)到了非常逼真的效果。

注意!以下圖片都是全新生成,并非可直接搜索到的原圖。

文心 ERNIE-ViLG 不僅能創(chuàng)作建筑、動(dòng)物等單個(gè)物體:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

還可以創(chuàng)作包含多個(gè)物體的復(fù)雜場景:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

甚至能根據(jù)用戶輸入的文字要求腦洞大開:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

對(duì)于具有無限想象力的古詩詞,文心 ERNIE-ViLG 也能生成恰如其分的畫面,并根據(jù)不同的圖畫風(fēng)格也有所調(diào)整:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG
你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

油畫風(fēng)格

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

中國畫風(fēng)格

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

水彩畫風(fēng)格

此外,還能根據(jù)文字提示對(duì)圖片進(jìn)行補(bǔ)全:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

而在圖像到文本的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內(nèi)容:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

不僅如此,文心 ERNIE-ViLG 還能夠根據(jù)圖片中的場景回答相關(guān)的問題:

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

目前文心 ERNIE-ViLG 在百度文心官網(wǎng)開放體驗(yàn)的文本生圖像 demo 能夠根據(jù)古詩詞進(jìn)行作畫,增強(qiáng)詩詞的畫面感。

在這些能力的背后,究竟蘊(yùn)含著怎樣的 AI 技術(shù)秘密?

跨模態(tài)生成:AI 領(lǐng)域極具挑戰(zhàn)性的一道“難題”

跨模態(tài)生成,指的是將一種模態(tài) (文本、圖像、語音) 轉(zhuǎn)換成另一種模態(tài),同時(shí)保持模態(tài)之間的語義一致性。

圖文生成是跨模態(tài)生成的挑戰(zhàn)之一。以圖片生成文本為例,文本描述概括性強(qiáng),根據(jù)文本生成圖片,需要考慮大量文字中未涵蓋的細(xì)節(jié)信息,具有極高的挑戰(zhàn)性。例如詩句“春江水暖鴨先知”,僅僅描述了江水、鴨子兩個(gè)物體和春天這個(gè)季節(jié),但沒有具體描述鴨子的顏色、江邊的桃花以及圖中物體之間的位置關(guān)系。

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

春江水暖鴨先知

近些年來,基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的方法在人臉、風(fēng)景等受限領(lǐng)域的文本到圖像生成任務(wù)上已取得了不錯(cuò)的效果;DALL-E 通過超大規(guī)模的自回歸生成模型,在圖像片段之間建立了前后依賴的關(guān)系,從而具備多樣性生成的建模能力,在多樣性更強(qiáng)、難度更大的開放領(lǐng)域文本到圖像生成上取得了亮眼的效果。

百度文心 ERNIE-ViLG 模型則進(jìn)一步提出統(tǒng)一的跨模態(tài)雙向生成模型,通過自回歸生成模式對(duì)圖像生成和文本生成任務(wù)進(jìn)行統(tǒng)一建模,更好地捕捉模態(tài)間的語義對(duì)齊關(guān)系,從而同時(shí)提升圖文雙向生成任務(wù)的效果。文心 ERNIE-ViLG 在文本生成圖像的權(quán)威公開數(shù)據(jù)集 MS-COCO 上,圖片質(zhì)量評(píng)估指標(biāo) FID(Fréchet Inception Distance)遠(yuǎn)超 OpenAI 的 DALL-E 等同類模型,并刷新了圖像描述多項(xiàng)任務(wù)的最好效果。此外,文心 ERNIE-ViLG 還憑借強(qiáng)大的跨模態(tài)理解能力,在生成式視覺問答任務(wù)上也取得了領(lǐng)先成績。

文心 ERNIE-ViLG 技術(shù)原理解讀:圖文雙向生成統(tǒng)一建模

百度文心 ERNIE-ViLG 使用編碼器 - 解碼器參數(shù)共享的 Transformer 作為自回歸生成的主干網(wǎng)絡(luò),同時(shí)學(xué)習(xí)文本生成圖像、圖像生成文本生成兩個(gè)任務(wù)。

基于圖像向量量化技術(shù),文心 ERNIE-ViLG 把圖像表示成離散的序列,從而將文本和圖像進(jìn)行統(tǒng)一的序列自回歸生成建模。在文本生成圖像時(shí), 文心 ERNIE-ViLG 模型的輸入是文本 token 序列,輸出是圖像 token 序列;圖像生成文本時(shí)則根據(jù)輸入的圖像序列預(yù)測文本內(nèi)容。兩個(gè)方向的生成任務(wù)使用同一個(gè) Transformer 模型。視覺和語言兩個(gè)模態(tài)在相同模型參數(shù)下進(jìn)行相同模式的生成,能夠促進(jìn)模型建立更好的跨模態(tài)語義對(duì)齊。

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 圖文雙向生成統(tǒng)一建??蚣?/em>

已有基于圖像離散表示的文本生成圖像模型主要采用兩階段訓(xùn)練,文本生成視覺序列和根據(jù)視覺序列重建圖像兩個(gè)階段獨(dú)立訓(xùn)練,文心 ERNIE-ViLG 提出了端到端的訓(xùn)練方法,將序列生成過程中 Transformer 模型輸出的隱層圖像表示連接到重建模型中進(jìn)行圖像還原,為重建模型提供語義更豐富的特征;對(duì)于生成模型,可以同時(shí)接收自身的抽象監(jiān)督信號(hào)和來自重建模型的原始監(jiān)督信號(hào),有助于更好地學(xué)習(xí)圖像表示。

文心 ERNIE-ViLG 構(gòu)建了包含 1.45 億高質(zhì)量中文文本 - 圖像對(duì)的大規(guī)??缒B(tài)對(duì)齊數(shù)據(jù)集,并基于百度飛槳深度學(xué)習(xí)平臺(tái)在該數(shù)據(jù)集上訓(xùn)練了百億參數(shù)模型,在文本生成圖像、圖像描述等跨模態(tài)生成任務(wù)上評(píng)估了該模型的效果。

文本生成圖像(Text-to-image Synthesis)任務(wù)效果

文心 ERNIE-ViLG 文本生成圖像的能力在開放領(lǐng)域公開數(shù)據(jù)集 MS-COCO 上進(jìn)行了驗(yàn)證。評(píng)估指標(biāo)使用 FID(該指標(biāo)數(shù)值越低效果越好), 在 zero-shot 和 finetune 兩種方式下,文心 ERNIE-ViLG 都取得了最佳成績,效果遠(yuǎn)超 OpenAI 發(fā)布的 DALL-E 等模型。

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 MS-COCO 數(shù)據(jù)集上的效果

圖像描述(Image Captioning)任務(wù)效果

圖像生成文本能力上,文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 兩個(gè)公開中文圖片標(biāo)題生成數(shù)據(jù)集上, 都取得了最好成績。

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 AIC-ICC 數(shù)據(jù)集上的效果

生成式視覺問答(Generative VQA)任務(wù)效果

在生成式視覺問答方面,文心 ERNIE-ViLG 也展示了不俗的實(shí)力。生成式視覺問答要求模型根據(jù)圖像內(nèi)容和對(duì)應(yīng)的問題生成答案,模型需要具備深度的視覺內(nèi)容理解能力和跨模態(tài)的語義對(duì)齊能力,并需要生成簡短的答案文本,難度極高。文心 ERNIE-ViLG 在 FMIQA 數(shù)據(jù)集上取得了最好的效果,圖靈測試的通過率達(dá)到了 78.5%,優(yōu)于當(dāng)前最好方法 14 個(gè)百分點(diǎn)。

你說我畫,你畫我說:全球最大中文跨模態(tài)生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 FMIQA 數(shù)據(jù)集上的效果

結(jié)語

讓機(jī)器具備跨模態(tài)生成能力是人工智能的重要目標(biāo)之一。在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、圖像編輯、AI 輔助設(shè)計(jì)、虛擬數(shù)字人等領(lǐng)域,文心 ERNIE-ViLG 這類跨模態(tài)大模型有著廣泛的應(yīng)用前景,也為這些領(lǐng)域未來的發(fā)展提供了無限的創(chuàng)意和可能。作為百度 “文心” 大模型全景圖中的重要一員,文心 ERNIE-ViLG 也代表著百度文心在跨模態(tài)大模型領(lǐng)域邁出堅(jiān)實(shí)步伐,從技術(shù)自主創(chuàng)新和加速產(chǎn)業(yè)應(yīng)用方面持續(xù)推動(dòng)中國 AI 發(fā)展。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2023-03-24 12:55:13

文心一言百度模型

2015-04-16 13:41:24

2012-03-26 15:08:22

我畫你猜

2012-03-28 22:12:00

游戲

2015-04-15 15:07:59

2012-11-05 10:18:21

云存儲(chǔ)你畫我猜云服務(wù)

2023-03-17 07:25:16

李彥宏百度文心一言

2012-03-26 21:32:38

2022-12-30 17:18:04

2025-04-08 11:30:00

DIM數(shù)據(jù)倉庫架構(gòu)

2023-06-20 13:14:32

ChatGPT電影GPT

2015-03-16 11:33:16

程序員代碼bug

2024-11-04 08:40:00

2022-08-08 20:33:12

VolatileJVM

2021-09-02 09:53:42

開發(fā)Redis配置

2011-11-24 10:00:10

Xtend

2020-12-16 06:33:06

thisJava調(diào)用

2023-02-10 08:22:43

Unicode統(tǒng)一碼萬國碼

2018-03-14 14:48:57

人工智能

2022-08-01 08:36:09

upstream下游上游
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)