自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="ddbss"><li id="ddbss"></li></p>

<p id="ddbss"></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

阿里50億參數(shù)AI畫畫模型火了！將圖像拆分再自由重組，達(dá)摩院副院長率隊(duì)打造

作者：明敏 2023-02-27 15:57:37

人工智能新聞

研究團(tuán)隊(duì)認(rèn)為，想要實(shí)現(xiàn)圖像的可控生成，不能依賴于對模型的調(diào)節(jié)，重點(diǎn)應(yīng)該放在組合性上，這種方式可以將圖像的創(chuàng)造力提升到指數(shù)級。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

AI畫畫通用模型，新增一員大將！

由阿里達(dá)摩院副院長周靖人等人打造的可控?cái)U(kuò)散模型Composer，一經(jīng)發(fā)布就小火了一把。

這個(gè)模型由50億參數(shù)訓(xùn)練而來，和Stable Diffusion原理不同。

它更進(jìn)一步把訓(xùn)練圖像拆解成了多個(gè)元素，然后基于這些元素訓(xùn)練擴(kuò)散模型，讓它們能夠靈活組合。

由此一來，模型的創(chuàng)造能力就比僅基于圖像大很多。

如果有100張能拆分成8個(gè)元素的圖像，那么就能生成一個(gè)數(shù)量為100的8次方的結(jié)果組合。

網(wǎng)友們看了紛紛表示，AI畫畫發(fā)展速度也太快了！

團(tuán)隊(duì)表示，模型的訓(xùn)練和推理代碼都在路上了。

有限手段的無限使用

該框架的核心思想是組合性（compositionality），模型名字就叫做Composer。

觀察到現(xiàn)下很多AI畫畫模型，在細(xì)節(jié)的可控性上還沒有做到很好，比如準(zhǔn)確改變顏色、形狀等。

研究團(tuán)隊(duì)認(rèn)為，想要實(shí)現(xiàn)圖像的可控生成，不能依賴于對模型的調(diào)節(jié)，重點(diǎn)應(yīng)該放在組合性上，這種方式可以將圖像的創(chuàng)造力提升到指數(shù)級。

引用語言學(xué)大師諾姆·喬姆斯基的經(jīng)典語錄來解釋模型，就是：

有限手段的無限使用。

具體來看，該模型就是將每個(gè)訓(xùn)練圖像拆解成一系列基礎(chǔ)元素，如蒙版圖、草稿圖、文字描述等，用它們來訓(xùn)練一個(gè)擴(kuò)散模型。

然后讓這些被拆分的元素，在推理階段靈活組合，生成大量新的圖像輸出。

它可以支持多種形式作為輸入。比如文字描述作為全局信息，深度圖和草圖作為局部引導(dǎo)，顏色直方圖為低級細(xì)節(jié)等。

在保證生成圖像可控的基礎(chǔ)上，作為一個(gè)通用框架，該模型還能不用再訓(xùn)練就可以完成大量經(jīng)典生成任務(wù)。

舉例來看，圖（a）中，最左邊的是原圖，后面4個(gè)是通過對Composer不同子集的表示進(jìn)行調(diào)節(jié)而生成的新結(jié)果。

圖（b）展示的是圖像插值的結(jié)果。

圖像重構(gòu)的話是醬嬸兒的，Composer能夠簡單地改變圖像表示來重新配置圖像，比如草稿圖和分割圖。

還有對圖像的特定部分進(jìn)行編輯。

比如給蛋糕派換口味、把珍珠耳環(huán)少女的臉換成梵高、讓兔子長一張熊貓臉等。

比較經(jīng)典的圖像生成任務(wù)也能挑戰(zhàn)，而且無需再訓(xùn)練。

團(tuán)隊(duì)表示，現(xiàn)有成果還存在一定局限性，比如在單一條件輸入的情況下，生成效果不是很好。以及輸入不同語義的圖像和文本嵌入時(shí)，生成結(jié)果會降低對文本嵌入的權(quán)重。

而針對AI畫畫模型都需要面對的風(fēng)險(xiǎn)問題，團(tuán)隊(duì)表示為避免被濫用，他們會在公開模型前先創(chuàng)建一個(gè)過濾版本。

達(dá)摩院副院長帶隊(duì)

該研究由阿里及螞蟻團(tuán)隊(duì)完成。

通訊作者為周靖人。

他現(xiàn)任阿里達(dá)摩院副院長、阿里云智能CTO，是IEEE Fellow。

2004年于哥倫比亞大學(xué)獲得計(jì)算機(jī)博士學(xué)位，后加入微軟擔(dān)任研發(fā)合伙人。

2015年，周靖人加入阿里巴巴集團(tuán)，先后負(fù)責(zé)過達(dá)摩院智能計(jì)算實(shí)驗(yàn)室、大數(shù)據(jù)智能計(jì)算平臺、搜索推薦事業(yè)部等。

論文一作Huang Lianghua同樣來自達(dá)摩院，研究方向?yàn)閿U(kuò)大模型規(guī)模和數(shù)據(jù)來表示學(xué)習(xí)和內(nèi)容生成。

論文地址：?https://arxiv.org/abs/2302.09778?

GitHub地址：??https://github.com/damo-vilab/composer

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="8anb4"></sub>