自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI也可以腦補(bǔ)畫面了嗎?

開發(fā) 開發(fā)工具
一段描述性的文字、配上風(fēng)格參考和局部的畫面信息,AI有可能快速、準(zhǔn)確的“腦補(bǔ)”出完整的圖像嗎?在深度學(xué)習(xí)頂會NeurIPS 2021上,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室提出了一種全新的多模態(tài)預(yù)訓(xùn)練架構(gòu),M6-UFC 來統(tǒng)一任意數(shù)量的多模態(tài)控制用于靈活的條件圖像生成。

????一 導(dǎo)讀

一段描述性的文字、配上風(fēng)格參考和局部的畫面信息,AI有可能快速、準(zhǔn)確的“腦補(bǔ)”出完整的圖像嗎?在深度學(xué)習(xí)頂會NeurIPS 2021上,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室提出了一種全新的多模態(tài)預(yù)訓(xùn)練架構(gòu),M6-UFC 來統(tǒng)一任意數(shù)量的多模態(tài)控制用于靈活的條件圖像生成。實(shí)驗(yàn)表明,M6-UFC 可應(yīng)用于服裝設(shè)計(jì)、促進(jìn)智能制造的發(fā)展和個(gè)性化服裝定制。

在犀牛智能制造的業(yè)務(wù)中,M6為淘寶運(yùn)動時(shí)尚品牌設(shè)計(jì)“元生款”服裝,幫助降低人力投入、時(shí)間成本和整個(gè)設(shè)計(jì)流程的碳排放。根據(jù)估算,通過M6先制作初始樣本,并結(jié)合犀牛環(huán)保面料如天然纖維材質(zhì)的研發(fā)應(yīng)用,就能在設(shè)計(jì)-生產(chǎn)這件印花T恤的過程中減少30%以上的碳排放。利用M6模型和犀牛智造,現(xiàn)在賣出一件服裝大約能減排0.35千克二氧化碳;賣出50件就相當(dāng)于種下一棵樹。

二 文章框架

1 AI的想象力?

告訴你一些信息,你能想象整件衣服是什么樣子嗎?

比如:要和下面↓↓領(lǐng)子一模一樣:

??

??

這個(gè)圖案設(shè)計(jì)很好看,想要一件類似的:

??

??

再比如, 一件 “真絲紗網(wǎng)拼接A字連衣裙”。

下面揭曉答案:

??

??

其實(shí),這些設(shè)計(jì)都是由一個(gè)神經(jīng)網(wǎng)絡(luò)完成。各種衣服想怎么組合,就怎么組合,例如下圖的西裝+印花t恤,短裙+襯衣 等等;花紋,顏色,材質(zhì)都可以都可以很好的融合。

??

??

不用擔(dān)心撞衫,同樣的控制信號,想生成多少款就生成多少款:

??

??

2 一個(gè)多模態(tài)控制下的圖像生成模型

以上的這些都來自一個(gè)叫M6-UFC的模型,可以使用任意數(shù)量的文本、圖像作為控制信號,生成高質(zhì)量的圖像,還能對細(xì)節(jié)進(jìn)行保留和編輯。

研究出自阿里巴巴達(dá)摩院和清華大學(xué),相關(guān)論文已被NeurIPS 2021接收。

??

??

在此之前,大多數(shù)的圖像生成編輯方法,通常只使用一種控制信號。例如,在圖像inpainting和outpainting任務(wù),會給定圖像的一部分,在風(fēng)格遷移任務(wù)中,會給一張風(fēng)格圖像,在文本生成圖像中,會給一段描述圖片的話。

??

??

M6-UFC作為一種全新的方法,第一次將多種控制信號統(tǒng)一起來,并可以對任意數(shù)量的控制信號進(jìn)行組合來生成圖像。

例如在下面這張圖中,就同時(shí)輸入了文本“翻領(lǐng)墊肩橙色帶口袋西裝大衣”,圖像“翻領(lǐng)”和要保留的部分“米色寬松下擺”:

??

??

而M6-UFC會根據(jù)控制信號,生成滿足所有要求的圖像。

M6-UFC的核心思想在于非自回歸的訓(xùn)練框架,兼容了之前架構(gòu)(例如 DALL·E,VQGAN)不兼容的圖像控制和保留控制信號。

非自回歸生成的好處不止于此,還大大提高了生成速度,并增強(qiáng)了圖像的整體一致性。

模型的輸入是一個(gè)24層的M6(一種Transformer模型),它的輸入分為四部分:第一部分是兩個(gè)特殊的評測token [REL]和[FDL],用于評測控制信號與生成圖像的相關(guān)性,以及生成圖像的真實(shí)性,用于后續(xù)的PNAG算法;第二部分是文本控制輸入,即任意長度的單詞序列;第三部分是視覺控制輸入,這里我們將視覺控制的圖像通過第一階段的codebook轉(zhuǎn)化成了一個(gè)code序列,而我們進(jìn)一步支持多個(gè)視覺控制,用[SEP]將多個(gè)控制的code序列劃分開;最后一部分是待生成的圖像,它同樣被轉(zhuǎn)化為一個(gè)code序列,而在訓(xùn)練或者NAR生成中,這個(gè)code序列被部分或者全部mask。

??

??

3 訓(xùn)練過程

研究人員設(shè)計(jì)了三個(gè)任務(wù)來訓(xùn)練模型,主任務(wù)為Masked Sequence Modeling(MSM),同時(shí)有兩個(gè)評測任務(wù) Relevance Estimation和Fidelity Estimation。

任務(wù)一:Masked Sequence Modeling

這個(gè)任務(wù)相似于BERT中的masked language modeling。作為圖像領(lǐng)域最早運(yùn)用離散code來做MLM訓(xùn)練的模型之一,M6-UFC和同期的工作BEIT相比,其mask策略更加完善因此也能支持更復(fù)雜的控制類型。M6-UFC中有如下四種策略:1. 隨機(jī)決定mask的code數(shù)量,然后隨機(jī)采樣需要mask的位置;2. 全部mask;3. 隨機(jī)選擇圖像中任意大小的box區(qū)域,然后對該區(qū)域進(jìn)行mask;4. 隨機(jī)選擇圖像中任意大小的box區(qū)域,然后對該區(qū)域外的部分進(jìn)行mask。

在此之上,M6-UFC還將mask策略進(jìn)一步拓展到了多種控制模態(tài), 對于文本控制(TC)和視覺控制(VC)進(jìn)行四種組合(保留控制被自然地包含在mask的訓(xùn)練過程中):兩者兼有,只有一種,或者兩者皆無。因?yàn)閿?shù)據(jù)集中沒有提供視覺控制-目標(biāo)圖像對,而只有文本-圖像對,研究者們截取目標(biāo)圖像中的一個(gè)或者多個(gè)區(qū)域來作為訓(xùn)練過程中的數(shù)據(jù)額控制。

任務(wù)二:Relevance Estimation

將token [REL]的特征輸入到一個(gè)線性分類器進(jìn)行二元分類,判斷控制信號和當(dāng)前生成圖像的相關(guān)性。這里的負(fù)樣本通過將兩個(gè)訓(xùn)練樣例的控制信號進(jìn)行互換。

任務(wù)三:Fidelity Estimation

將token [FDL]的特征輸入到一個(gè)線性分類器進(jìn)行二元分類,判斷生成圖像是不是真實(shí)的。由于數(shù)據(jù)集中不存在”不真實(shí)“的負(fù)樣本,我們在訓(xùn)練幾個(gè)epoch后用M6-UFC進(jìn)行text-to-image生成,把合成的圖像作為負(fù)樣本。

在模型推導(dǎo)階段,研究人員提出了一種漸進(jìn)式的非自回歸生成方法PNAG。在每一次迭代中,在mask階段都產(chǎn)生5個(gè)不同的輸入樣例,然后在predict階段產(chǎn)生5個(gè)生成圖像,以及這5張圖的relevance和fidelity分?jǐn)?shù)。選擇relevance和fidelity分?jǐn)?shù)最高的(以1:1的比例加權(quán))圖像作為下一步的輸入圖像。PNAG算法可以給用兩個(gè)評測器指導(dǎo)非自回歸迭代的生成方向,而不是”無意識“地進(jìn)行迭代。

隨著迭代的進(jìn)行,圖像與文本的相關(guān)性和圖像質(zhì)量會越來越高。紅框的是具有最高分的圖像,也就是最終結(jié)果,這和我們?nèi)搜鄣恼J(rèn)知基本相符,如下圖所示:

??

??

4 測試結(jié)果

真實(shí)效果如何?

研究人員在標(biāo)準(zhǔn)數(shù)據(jù)集上與傳統(tǒng)的GAN-based方法進(jìn)行比較,發(fā)現(xiàn)在FID和LPIPS上都取得了當(dāng)前最好的效果。

??

??

之后,研究人員將M6-UFC和VQGAN進(jìn)行詳細(xì)的比較,在自動評測上基本取得更好的效果,人工評測上更是大幅領(lǐng)先。

??

??

與此同時(shí),M6-UFC所花的時(shí)間不到VQGAN的10%!

再來看看生成的圖像,一個(gè)反事實(shí)例子中(男式牛仔風(fēng)格的蕾絲裙),VQGAN生成了一條正常的牛仔褲,而UFC-BERT生成了一件現(xiàn)實(shí)不存在的服飾,一條具有蕾絲下擺,男士褲襠設(shè)計(jì)的牛仔裙。

??

??

使用文本控制(TC)和保留控制(PC):

??

??

使用文本控制(TC)和視覺控制(VC)

??

??

文章也討論了PNAG算法的有效性,產(chǎn)生三個(gè)消解模型,其中PNAG(w/o. REL)去掉了相關(guān)性評測器,PNAG(w/o. FDL)去掉了真實(shí)性評測器,而MNAG是原始的Mask-Predict算法。同時(shí),在PNAG中,并行迭代的數(shù)量B也是個(gè)重要的超參數(shù),默認(rèn)為5,研究者們將其也設(shè)置為1和10進(jìn)行實(shí)驗(yàn)。消解結(jié)果如下,可以發(fā)現(xiàn)兩個(gè)評測器都對圖像生成的質(zhì)量有很大幫助,而B設(shè)置的越大,PNAG迭代時(shí)搜索的空間越來,圖像質(zhì)量也就越好。

??

??

5 前景與展望

本文介紹了一種新架構(gòu) M6-UFC,以統(tǒng)一任意數(shù)量的多模態(tài)控制,以實(shí)現(xiàn)靈活的條件圖像生成。UFC的編輯能力,大大提升了圖像在少樣本情況下的生成拓展性和創(chuàng)造力,通過自動圖像生成來打造全新款式。實(shí)驗(yàn)表明,M6-UFC可以應(yīng)用于服裝設(shè)計(jì)。因此,這項(xiàng)研究可以推動智能制造的發(fā)展,促進(jìn)個(gè)性化服裝定制,幫助服裝設(shè)計(jì)師提高效率。

AI不僅僅有理解和匹配能力,更加有創(chuàng)新創(chuàng)造的能力。而這樣的能力,也慢慢趨近于人類的認(rèn)知能力,我們從以往的事物中學(xué)習(xí)和理解,并在新的場景下自由組合和創(chuàng)造。我們相信這樣的能力不僅會給消費(fèi)者帶去耳目一新的體驗(yàn),也能通過平臺給商家?guī)ト碌馁x能體驗(yàn)。

關(guān)于M6

M6是阿里巴巴智能計(jì)算實(shí)驗(yàn)室推出的超大規(guī)模預(yù)訓(xùn)練模型。M6團(tuán)隊(duì)相繼提出百億、千億、萬億和十萬億參數(shù)規(guī)模的超大規(guī)模預(yù)訓(xùn)練模型M6。除了首先通過擴(kuò)展稠密模型觀察到和Neural scaling law一致的現(xiàn)象,后續(xù)M6團(tuán)隊(duì)開始研究超大規(guī)模MoE模型,是在全球范圍繼谷歌后首個(gè)在此領(lǐng)域深入探索的團(tuán)隊(duì)。隨后打造了第一個(gè)基于稀疏專家模型的多模態(tài)預(yù)訓(xùn)練模型-千億參數(shù)M6,用非常高效的方式完成如此大規(guī)模的多模態(tài)預(yù)訓(xùn)練模型的訓(xùn)練。完成第一步之后,M6團(tuán)隊(duì)在此前研究的基礎(chǔ)上,開始思考如何讓MoE模型變得更加強(qiáng)大的同時(shí),也能更加低碳、環(huán)保。最終,在今年5月,在相比千億M6顯著提效的同時(shí),萬億參數(shù)M6-T僅用480張GPU耗時(shí)3天即訓(xùn)練完成。10月,M6再次突破業(yè)界極限,通過更細(xì)粒度的CPU offload、共享-解除算法等創(chuàng)新技術(shù),讓收斂效率進(jìn)一步提升7倍,這使得模型規(guī)模擴(kuò)大10倍的情況下,能耗未顯著增加。

除了深入探索大模型研發(fā)的技術(shù),M6團(tuán)隊(duì)同時(shí)也高度關(guān)注大模型的落地應(yīng)用和服務(wù)。針對不同的業(yè)務(wù)場景,團(tuán)隊(duì)將M6模型和各類單模態(tài)和跨模態(tài)的下游任務(wù),包括理解類和生成類任務(wù)深度結(jié)合,推出了服務(wù)化組件,日均實(shí)現(xiàn)上億調(diào)用,得到了業(yè)務(wù)方的認(rèn)可和積極的意見反饋。同時(shí)團(tuán)隊(duì)將M6模型的生成和理解能力,落地到服飾制造、智能文案生產(chǎn)、金融領(lǐng)域?qū)υ捙c問答等應(yīng)用場景中,將技術(shù)能力轉(zhuǎn)化為工業(yè)落地價(jià)值。

數(shù)據(jù)庫常見問題排查

開發(fā)者經(jīng)常會遇到些數(shù)據(jù)庫的問題,覺得無從下手,這嚴(yán)重影響了開發(fā)效率,也影響了開發(fā)者對數(shù)據(jù)庫的熱情。如何避免這樣的窘境,如何降低數(shù)據(jù)庫使用門檻以及運(yùn)維的成本,如何在較短的時(shí)間內(nèi)用云數(shù)據(jù)庫的技術(shù)和理念來武裝自己,提升自己。本課程通過實(shí)際的場景以及最佳實(shí)踐出發(fā),帶給大家一些數(shù)據(jù)庫問題的通用解決思路和方法,大家會發(fā)現(xiàn)數(shù)據(jù)庫不再是一個(gè)黑盒,相反它看得見,摸得著,也能夠輕松玩得轉(zhuǎn)。點(diǎn)擊閱讀原文查看詳情。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2019-11-19 10:56:16

AI 視覺想象力框架

2023-11-05 15:15:47

AI技術(shù)

2021-06-22 18:50:00

機(jī)器翻譯人工智能計(jì)算機(jī)

2023-03-06 12:35:45

AI大腦畫面圖像

2020-09-08 14:13:41

AI亞馬遜云科技DeepRacer

2017-03-19 15:47:50

神經(jīng)網(wǎng)絡(luò)

2019-11-01 12:36:14

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-04-15 09:00:00

模型推理AI

2022-12-23 15:46:14

AI開源

2012-08-14 09:20:00

Python

2021-04-01 22:30:19

人工智能機(jī)器人機(jī)器學(xué)習(xí)

2019-10-21 09:10:10

AI 數(shù)據(jù)人工智能

2018-09-20 08:53:56

AI平臺工具

2024-09-29 08:47:55

2018-01-14 23:07:36

戴爾

2022-03-10 15:14:06

人工智能超算5G

2025-04-24 09:38:00

3D模型AI

2023-08-18 14:31:00

模型論文

2019-09-09 16:10:32

ETL數(shù)據(jù)科學(xué)數(shù)據(jù)

2020-09-08 12:58:48

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號