自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無(wú)需參數(shù)訪問!CMU用大模型自動(dòng)優(yōu)化視覺語(yǔ)言提示詞 | CVPR’24

人工智能 新聞
就在最近,卡內(nèi)基梅隆大學(xué)(CMU)的研究團(tuán)隊(duì)對(duì)于這個(gè)問題提出了一種創(chuàng)新的“黑盒優(yōu)化”策略——通過大語(yǔ)言模型自動(dòng)調(diào)整自然語(yǔ)言提示詞,使視覺語(yǔ)言模型在文生圖、視覺識(shí)別等多個(gè)下游任務(wù)中獲得更好的表現(xiàn)。

視覺語(yǔ)言模型(如 GPT-4o、DALL-E 3)通常擁有數(shù)十億參數(shù),且模型權(quán)重不公開,使得傳統(tǒng)的白盒優(yōu)化方法(如反向傳播)難以實(shí)施。

那么,有沒有更輕松的優(yōu)化方法呢?

就在最近,卡內(nèi)基梅隆大學(xué)(CMU)的研究團(tuán)隊(duì)對(duì)于這個(gè)問題提出了一種創(chuàng)新的“黑盒優(yōu)化”策略——

通過大語(yǔ)言模型自動(dòng)調(diào)整自然語(yǔ)言提示詞,使視覺語(yǔ)言模型在文生圖、視覺識(shí)別等多個(gè)下游任務(wù)中獲得更好的表現(xiàn)。

這一方法不僅無(wú)需觸及模型內(nèi)部參數(shù),還大幅提升了優(yōu)化的靈活性與速度,讓用戶即使沒有技術(shù)背景也能輕松提升模型性能。

該研究已被 CVPR 2024 接收。

圖片

如何做到的?

大多數(shù)視覺語(yǔ)言模型(如 DALL-E 3、GPT-4o 等)并未公開模型權(quán)重或特征嵌入,導(dǎo)致傳統(tǒng)依賴反向傳播的優(yōu)化方式不再適用。

不過,這些模型通常向用戶開放了自然語(yǔ)言接口,使得通過優(yōu)化提示詞來提升模型表現(xiàn)成為可能。

然而,傳統(tǒng)的提示詞工程嚴(yán)重依賴工程師的經(jīng)驗(yàn)和先驗(yàn)知識(shí)。

例如,為提升 CLIP 模型的視覺識(shí)別效果,OpenAI 花費(fèi)了一年時(shí)間收集了幾十種有效的提示詞模板(如 “A good photo of a [class]”)。

同樣,在使用DALL-E 3和Stable Diffusion等文生圖模型時(shí),用戶往往也需掌握大量提示詞技巧才能生成滿意的結(jié)果。

那么,有沒有替代人類提示詞工程師的方法?

有的 CMU 團(tuán)隊(duì)提出了一種新策略:用 ChatGPT 等大語(yǔ)言模型自動(dòng)優(yōu)化提示詞。

像提示詞工程師利用反饋改進(jìn)提示詞一樣,CMU 的方法將正負(fù)反饋交給 ChatGPT,以更高效地調(diào)整提示詞,具體過程如圖所示:

圖片

這種優(yōu)化過程類似于機(jī)器學(xué)習(xí)中的“爬山法”(hill-climbing)策略,不同之處在于大語(yǔ)言模型可以自動(dòng)分析提示詞表現(xiàn),從正負(fù)反饋中找到最優(yōu)改進(jìn)方向。

研究團(tuán)隊(duì)利用這一特性來更高效地優(yōu)化提示詞。這個(gè)過程可以用以下步驟概括:

圖片

  1. 提示詞初始化:收集一批未經(jīng)優(yōu)化的初始提示詞。
  2. 提示詞排序:對(duì)當(dāng)前提示詞進(jìn)行表現(xiàn)評(píng)分,保留高分提示詞,替換低分提示詞。
  3. 生成新提示詞:通過大語(yǔ)言模型,根據(jù)提示詞的表現(xiàn)生成新的候選提示詞。

經(jīng)過多輪迭代,最終返回得分最高的提示詞作為優(yōu)化結(jié)果。

實(shí)驗(yàn)結(jié)果

通過這一方法,CMU 團(tuán)隊(duì)在無(wú)需人類提示工程師參與的情況下,在多個(gè)小樣本視覺識(shí)別數(shù)據(jù)集上取得了最佳準(zhǔn)確性,甚至超越了傳統(tǒng)的白盒提示詞優(yōu)化方法(如 CoOp)。

圖片

此外,該方法在無(wú)需了解數(shù)據(jù)集內(nèi)容的前提下,自動(dòng)捕捉到了下游任務(wù)的視覺特性并將其融入提示詞中,取得了更好的效果。

例如,在食物識(shí)別任務(wù)中,ChatGPT 自動(dòng)將提示詞調(diào)整為識(shí)別“多樣化的美食和原料”,從而提升了模型的表現(xiàn)。

圖片

研究團(tuán)隊(duì)還證明了,通過 ChatGPT 黑盒優(yōu)化得到的提示詞不僅適用于單一模型架構(gòu),還能在不同模型架構(gòu)(如 ResNet 和 ViT)之間泛化,并且在多種模型上表現(xiàn)優(yōu)于白盒優(yōu)化得到的提示詞。

圖片

這一系列實(shí)驗(yàn)證明,大語(yǔ)言模型能夠從提示詞的性能反饋中提取出隱含的“梯度”方向,從而實(shí)現(xiàn)無(wú)需反向傳播的模型優(yōu)化。

在文生圖任務(wù)中的應(yīng)用

CMU 團(tuán)隊(duì)進(jìn)一步探索了該方法在生成任務(wù)中的應(yīng)用潛力。

在文本到圖像生成(T2I)任務(wù)中,ChatGPT 能夠自動(dòng)優(yōu)化提示詞,從而生成更符合用戶需求的高質(zhì)量圖像。

例如,對(duì)于輸入描述“一個(gè)動(dòng)物注視著一個(gè)人”,系統(tǒng)可以通過逐步優(yōu)化提示詞來提升生成圖像的準(zhǔn)確性。

圖片

此外,這一方法還適用于提示反演(Prompt Inversion)。

提示反演是一種根據(jù)現(xiàn)有圖像反推生成模型輸入提示詞的技術(shù),簡(jiǎn)單來說,就是通過圖像生成能夠再現(xiàn)其特征的文本描述(提示詞)。

圖片

研究團(tuán)隊(duì)在復(fù)雜的文本到圖像任務(wù)上進(jìn)行了測(cè)試,結(jié)果表明這一方法僅需三輪提示詞優(yōu)化,就能顯著提高用戶的滿意度。

圖片

此外,研究團(tuán)隊(duì)還指出,提示反演可以幫助用戶快速定制特定的圖像效果,例如“讓這只狗變成站立姿勢(shì)”或“讓背景變成夜景”,從而生成符合特定需求的圖像。

圖片

CMU 團(tuán)隊(duì)表示,提出的黑盒優(yōu)化范式突破了傳統(tǒng)模型調(diào)優(yōu)的限制,不僅在圖像分類和生成任務(wù)中表現(xiàn)出色,還展示了廣泛的應(yīng)用潛力。

這一方法無(wú)需訪問模型權(quán)重,僅通過“文本梯度”實(shí)現(xiàn)精準(zhǔn)優(yōu)化,具備強(qiáng)大的擴(kuò)展性。

未來,黑盒優(yōu)化有望應(yīng)用于實(shí)時(shí)監(jiān)控、自動(dòng)駕駛、智能醫(yī)療等復(fù)雜動(dòng)態(tài)場(chǎng)景,為多模態(tài)模型的調(diào)優(yōu)帶來更加靈活高效的解決方案。

團(tuán)隊(duì)介紹

團(tuán)隊(duì)的一作劉士弘(Shihong Liu)是卡內(nèi)基梅隆大學(xué)的研究生畢業(yè)生,曾任機(jī)器人研究所研究員。

目前在 北美Amazon 工作,負(fù)責(zé)大型分布式系統(tǒng)的計(jì)算和大語(yǔ)言模型驅(qū)動(dòng)的 AI Agent 的開發(fā)。

圖片

△劉士弘(Shihong Liu)

團(tuán)隊(duì)的共同一作林之秋(Zhiqiu Lin)是卡內(nèi)基梅隆大學(xué)的博士研究生,專注于視覺-語(yǔ)言大模型的自動(dòng)評(píng)估與優(yōu)化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等頂級(jí)會(huì)議上發(fā)表了十?dāng)?shù)篇論文,并曾榮獲最佳論文提名和最佳短論文獎(jiǎng)等。

圖片

△林之秋(Zhiqiu Lin)

Deva Ramanan教授是計(jì)算機(jī)視覺領(lǐng)域的國(guó)際知名學(xué)者,現(xiàn)任卡內(nèi)基梅隆大學(xué)教授。

圖片
△Deva Ramanan教授

他的研究涵蓋計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,曾獲得多項(xiàng)頂級(jí)學(xué)術(shù)榮譽(yù),包括2009年的David Marr獎(jiǎng)、2010年的PASCAL VOC終身成就獎(jiǎng)、2012年的IEEE PAMI青年研究員獎(jiǎng)、2012年《大眾科學(xué)》評(píng)選的“十位杰出科學(xué)家”之一、2013年美國(guó)國(guó)家科學(xué)院Kavli Fellow、2018年和2024年的Longuet-Higgins獎(jiǎng),以及因其代表性工作(如COCO數(shù)據(jù)集)獲得的Koenderink獎(jiǎng)。

此外,他的論文在CVPR、ECCV和ICCV上多次獲得最佳論文提名及榮譽(yù)獎(jiǎng)。他的研究成果對(duì)視覺識(shí)別、自動(dòng)駕駛、和人機(jī)交互等應(yīng)用產(chǎn)生了深遠(yuǎn)影響,是該領(lǐng)域極具影響力的科學(xué)家之一。

 CVPR’24論文鏈接: https://arxiv.org/abs/2309.05950

 論文代碼: https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

 項(xiàng)目網(wǎng)站: https://llm-can-optimize-vlm.github.io

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-05 09:00:00

大語(yǔ)言模型自然語(yǔ)言AI

2024-06-17 07:46:01

2024-07-02 12:43:10

優(yōu)化算法

2024-11-04 13:38:29

2024-11-26 11:44:04

大模型GPT提示詞

2024-04-10 10:28:47

2025-02-28 06:35:47

2020-12-21 10:00:49

算法模型優(yōu)化

2022-04-11 09:20:00

模型訓(xùn)練

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2024-01-15 16:41:00

模型數(shù)據(jù)

2024-09-19 13:40:00

2024-03-19 13:12:36

自動(dòng)駕駛模型

2024-08-19 09:42:00

模型MIT

2024-03-21 10:35:59

AI人工智能

2023-11-16 09:59:58

智能駕駛算力

2025-02-17 10:13:27

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2024-01-15 08:17:00

模型技術(shù)

2024-07-17 09:47:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)