自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里50億參數(shù)AI畫畫模型火了!將圖像拆分再自由重組,達(dá)摩院副院長率隊(duì)打造

人工智能 新聞
研究團(tuán)隊(duì)認(rèn)為,想要實(shí)現(xiàn)圖像的可控生成,不能依賴于對模型的調(diào)節(jié),重點(diǎn)應(yīng)該放在組合性上,這種方式可以將圖像的創(chuàng)造力提升到指數(shù)級。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

AI畫畫通用模型,新增一員大將!

由阿里達(dá)摩院副院長周靖人等人打造的可控?cái)U(kuò)散模型Composer,一經(jīng)發(fā)布就小火了一把。

圖片

這個(gè)模型由50億參數(shù)訓(xùn)練而來,和Stable Diffusion原理不同。

更進(jìn)一步把訓(xùn)練圖像拆解成了多個(gè)元素,然后基于這些元素訓(xùn)練擴(kuò)散模型,讓它們能夠靈活組合。

由此一來,模型的創(chuàng)造能力就比僅基于圖像大很多。

如果有100張能拆分成8個(gè)元素的圖像,那么就能生成一個(gè)數(shù)量為100的8次方的結(jié)果組合。

圖片

網(wǎng)友們看了紛紛表示,AI畫畫發(fā)展速度也太快了!

圖片

團(tuán)隊(duì)表示,模型的訓(xùn)練和推理代碼都在路上了。

有限手段的無限使用

該框架的核心思想是組合性(compositionality),模型名字就叫做Composer。

觀察到現(xiàn)下很多AI畫畫模型,在細(xì)節(jié)的可控性上還沒有做到很好,比如準(zhǔn)確改變顏色、形狀等。

研究團(tuán)隊(duì)認(rèn)為,想要實(shí)現(xiàn)圖像的可控生成,不能依賴于對模型的調(diào)節(jié),重點(diǎn)應(yīng)該放在組合性上,這種方式可以將圖像的創(chuàng)造力提升到指數(shù)級。

引用語言學(xué)大師諾姆·喬姆斯基的經(jīng)典語錄來解釋模型,就是:

有限手段的無限使用。

具體來看,該模型就是將每個(gè)訓(xùn)練圖像拆解成一系列基礎(chǔ)元素,如蒙版圖、草稿圖、文字描述等,用它們來訓(xùn)練一個(gè)擴(kuò)散模型。

圖片

然后讓這些被拆分的元素,在推理階段靈活組合,生成大量新的圖像輸出。

圖片

它可以支持多種形式作為輸入。比如文字描述作為全局信息,深度圖和草圖作為局部引導(dǎo),顏色直方圖為低級細(xì)節(jié)等。

在保證生成圖像可控的基礎(chǔ)上,作為一個(gè)通用框架,該模型還能不用再訓(xùn)練就可以完成大量經(jīng)典生成任務(wù)。

舉例來看,圖(a)中,最左邊的是原圖,后面4個(gè)是通過對Composer不同子集的表示進(jìn)行調(diào)節(jié)而生成的新結(jié)果。

圖(b)展示的是圖像插值的結(jié)果。

圖片

圖像重構(gòu)的話是醬嬸兒的,Composer能夠簡單地改變圖像表示來重新配置圖像,比如草稿圖和分割圖。

圖片

還有對圖像的特定部分進(jìn)行編輯。

比如給蛋糕派換口味、把珍珠耳環(huán)少女的臉換成梵高、讓兔子長一張熊貓臉等。

圖片

比較經(jīng)典的圖像生成任務(wù)也能挑戰(zhàn),而且無需再訓(xùn)練。

圖片


圖片

團(tuán)隊(duì)表示,現(xiàn)有成果還存在一定局限性,比如在單一條件輸入的情況下,生成效果不是很好。以及輸入不同語義的圖像和文本嵌入時(shí),生成結(jié)果會降低對文本嵌入的權(quán)重。

而針對AI畫畫模型都需要面對的風(fēng)險(xiǎn)問題,團(tuán)隊(duì)表示為避免被濫用,他們會在公開模型前先創(chuàng)建一個(gè)過濾版本。

達(dá)摩院副院長帶隊(duì)

該研究由阿里及螞蟻團(tuán)隊(duì)完成。

圖片

通訊作者為周靖人。

圖片

他現(xiàn)任阿里達(dá)摩院副院長、阿里云智能CTO,是IEEE Fellow。

2004年于哥倫比亞大學(xué)獲得計(jì)算機(jī)博士學(xué)位,后加入微軟擔(dān)任研發(fā)合伙人。

2015年,周靖人加入阿里巴巴集團(tuán),先后負(fù)責(zé)過達(dá)摩院智能計(jì)算實(shí)驗(yàn)室、大數(shù)據(jù)智能計(jì)算平臺、搜索推薦事業(yè)部等。

論文一作Huang Lianghua同樣來自達(dá)摩院,研究方向?yàn)閿U(kuò)大模型規(guī)模和數(shù)據(jù)來表示學(xué)習(xí)和內(nèi)容生成。

圖片

論文地址:?https://arxiv.org/abs/2302.09778?

GitHub地址:??https://github.com/damo-vilab/composer

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-05-20 11:10:56

AI大牛離職

2022-08-17 10:39:44

AI阿里達(dá)摩院文檔智能

2018-04-20 09:08:10

AI芯片阿里巴巴

2022-07-12 14:45:54

達(dá)摩院模型

2022-11-03 18:29:09

阿里云達(dá)摩院人工智能

2019-09-25 14:34:15

AI 數(shù)據(jù)人工智能

2019-03-18 09:54:59

程序員技能溝通

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2022-07-19 14:01:44

阿里達(dá)摩院AI

2018-06-07 16:00:28

阿里巴巴語音識別開源

2019-07-09 13:13:10

AI 數(shù)據(jù)人工智能

2020-12-18 11:06:44

微軟AI技術(shù)

2023-10-22 07:11:58

2010-12-17 09:52:24

中國聯(lián)通IT應(yīng)用質(zhì)量管理

2012-10-26 12:42:04

云計(jì)算曹珂

2019-01-03 09:18:37

AI數(shù)據(jù)科技

2021-08-24 15:58:24

AI 阿里人工智能

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2021-12-29 21:00:42

人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號