自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="g1iwh"><table id="g1iwh"><option id="g1iwh"></option></table></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

擴(kuò)散模型更懂復(fù)雜提示詞！Pika北大斯坦福開(kāi)源新框架，利用LLM提升理解力

作者：量子位 2024-01-24 13:17:00

人工智能新聞

文本-圖像生成/編輯框架RPG（Recaption,Plan and Generate），已經(jīng)在網(wǎng)上引起熱議。

Pika北大斯坦福聯(lián)手，開(kāi)源最新文本-圖像生成/編輯框架！

無(wú)需額外訓(xùn)練，即可讓擴(kuò)散模型擁有更強(qiáng)提示詞理解能力。

面對(duì)超長(zhǎng)、超復(fù)雜提示詞，準(zhǔn)確性更高、細(xì)節(jié)把控更強(qiáng)，而且生成圖片更加自然。

效果超越最強(qiáng)圖像生成模型Dall·E 3和SDXL。

比如要求圖片左右冰火兩重天，左邊有冰山、右邊有火山。

SDXL完全沒(méi)有符合提示詞要求，Dall·E 3沒(méi)有生成出來(lái)火山這一細(xì)節(jié)。

還能通過(guò)提示詞對(duì)生成圖像二次編輯。

這就是文本-圖像生成/編輯框架RPG（Recaption,Plan and Generate），已經(jīng)在網(wǎng)上引起熱議。

它由北大、斯坦福、Pika聯(lián)合開(kāi)發(fā)。作者包括北大計(jì)算機(jī)學(xué)院崔斌教授、Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng等。

目前框架代碼已開(kāi)源，兼容各種多模態(tài)大模型（如MiniGPT-4）和擴(kuò)散模型主干網(wǎng)絡(luò)（如ControlNet）。

利用多模態(tài)大模型做增強(qiáng)

一直以來(lái)，擴(kuò)散模型在理解復(fù)雜提示詞方面都相對(duì)較弱。

一些已有改進(jìn)方法，要么最終實(shí)現(xiàn)效果不夠好，要么需要進(jìn)行額外訓(xùn)練。

因此研究團(tuán)隊(duì)利用多模態(tài)大模型的理解能力來(lái)增強(qiáng)擴(kuò)散模型的組合能力、可控能力。

從框架名字可以看出，它是讓模型“重新描述、規(guī)劃和生成”。

該方法的核心策略有三方面：

1、多模態(tài)重新描述（Multimodal Recaptioning）：利用大模型將復(fù)雜文本提示拆解為多個(gè)子提示，并對(duì)每個(gè)子提示進(jìn)行更加詳細(xì)的重新描述，以此提升擴(kuò)散模型對(duì)提示詞的理解能力。

2、思維鏈規(guī)劃（Chain-of-Thought Planning）:利用多模態(tài)大模型的思維鏈推理能力，將圖像空間劃分為互補(bǔ)的子區(qū)域，并為每個(gè)子區(qū)域匹配不同的子提示，將復(fù)雜的生成任務(wù)拆解為多個(gè)更簡(jiǎn)單的生成任務(wù)。

3、互補(bǔ)區(qū)域擴(kuò)散（Complementary Regional Diffusion）：將空間劃分好后，非重疊的區(qū)域各自根據(jù)子提示生成圖像，然后進(jìn)行拼接。

最后就能生成出一張更加符合提示詞要求的圖片。

RPG框架還可以利用姿態(tài)、深度等信息進(jìn)行圖像生成。

和ControlNet對(duì)比，RPG能進(jìn)一步拆分輸入提示詞。

用戶輸入：在一間明亮的房間里，站著一位身穿香檳色長(zhǎng)袖正裝、正閉著雙眼的漂亮黑發(fā)女孩。房間左邊放著一只插著粉色玫瑰花的精致藍(lán)花瓶，右邊有一些生機(jī)勃勃的白玫瑰。

基礎(chǔ)提示詞：一個(gè)漂亮女孩站在她的明亮的房間里。

區(qū)域0：一個(gè)裝著粉玫瑰的精致藍(lán)花瓶

區(qū)域1：一個(gè)身穿香檳色長(zhǎng)袖正裝的漂亮黑發(fā)女孩閉著雙眼。

區(qū)域2：一些生機(jī)勃勃的白玫瑰。

也能實(shí)現(xiàn)圖像生成、編輯閉環(huán)。

實(shí)驗(yàn)對(duì)比來(lái)看，RPG在色彩、形狀、空間、文字準(zhǔn)確等維度都超越其他圖像生成模型。

研究團(tuán)隊(duì)

該研究有兩位共同一作Ling Yang、Zhaochen Yu，都來(lái)自北大。

參與作者還有AI創(chuàng)企Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng。

她是斯坦福計(jì)算機(jī)博士，在計(jì)算機(jī)視覺(jué)、3D視覺(jué)方面有著豐富學(xué)術(shù)經(jīng)歷，參與的去噪擴(kuò)散隱式模型（DDIM）論文，如今單篇引用已有1700+。并有多篇生成式AI相關(guān)研究發(fā)表在ICLR、NeurIPS、CVPR、ICML等頂會(huì)上，且多篇入選Oral。

去年，Pika憑借AI視頻生成產(chǎn)品Pika 1.0一炮而紅，2位斯坦福華人女博士創(chuàng)辦的背景，使其更加引人注目。

△左為郭文景（Pika CEO），右為Chenlin Meng

參與研究的還有北大計(jì)算機(jī)學(xué)院副院長(zhǎng)崔斌教授，他還是數(shù)據(jù)科學(xué)與工程研究所長(zhǎng)。

另外，斯坦福AI實(shí)驗(yàn)室博士Minkai Xu、斯坦福助理教授Stefano Ermon共同參與這項(xiàng)研究。

論文地址：https://arxiv.org/abs/2401.11708

代碼地址：https://github.com/YangLing0818/RPG-DiffusionMaster

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)