Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion
Meta又來炸場了!
就在剛剛,Meta推出了一個基于Transformer的多模態(tài)模型——CM3leon,在文生圖和圖像理解領域都取得了絕對的突破,堪稱同類最佳。
而且,這種將多模態(tài)組合成單一模型,在此前公開的AI系統(tǒng)中是前所未有的。
圖片
顯然,Meta的這項研究,為多模態(tài)AI定義了一個全新的標準,預示著AI系統(tǒng)完全可以在理解、編輯、生成圖像、視頻、文本這些任務上自由切換。
同時,CM3leon的推出,正式標志著自回歸模型首次在關鍵基準上,與領先的生成擴散模型的性能相媲美。
圖片
論文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/
此前,文生圖領域最受矚目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生圖技術基本上都是依賴于擴散模型。
但CM3leon的革命性意義在于:它使用的是完全不同的技術——基于tokenizer的自回歸模型。
結果表面,基于tokenizer的自回歸模型不僅比基于擴散模型的方法更有效,在文生圖領域?qū)崿F(xiàn)了SOTA,而且訓練的計算量還比此前基于Transformer的方法少了五倍!
準備好,一大波酷炫效果來襲
光看原始性能指標,還說明不了什么。
CM3leon真正驚艷的地方,在于處理更復雜的提示和圖像編輯任務。
準確渲染圖像,效果驚人
比如,它可以從提示中準確渲染圖像,例如「撒哈拉沙漠中戴著草帽和霓虹燈太陽鏡的小仙人掌」。
任意prompt,隨心所欲編輯圖像
CM3leon還有一個獨特的功能——根據(jù)任意格式的文本指令對現(xiàn)有圖像進行編輯,比如更改天空顏色,或者在特定位置添加對象。
上面這些功能,遠遠超越了DALL-E 2等模型所能達到的效果。
圖片
前所未有的多模態(tài)單一模型
CM3leon的多功能架構,讓它能夠在文本、圖像和構圖任務之間流暢地自由轉(zhuǎn)換。
除了文生圖的功能,CM3leon還可以為圖像生成標注、回答有關圖像內(nèi)容的問題,甚至可以根據(jù)邊界框和分割圖的文本描述創(chuàng)建圖像。
這種將模態(tài)組合成單一模型的情況,在此前在公開披露的AI系統(tǒng)中是前所未有的。
prompt:狗叼著什么?模型回答:棍子。
prompt:詳細描述給定圖像。模型回答:這張圖像中,一只狗嘴里叼著一根棍子。地面上有草。圖像的背景中有樹。
圖片
給定圖像邊界框分割的文本描述,說明在圖像的哪個地方需要一個水池、需要一個鏡子,CM3leon就可以完全按prompt生成對應圖像。
圖片
超高分辨率
一個單獨的超分辨率平臺可以與CM3leon輸出集成,從而顯著提高分辨率和細節(jié)。
輸入prompt「湖中央的圓形小島,湖周圍有森林,高對比度」——
解決AI畫手難題
連AI不會畫手的老大難問題,都被CM3leon輕松解決了。
自回歸模型首次擊敗Diffusion?
在近年來大熱的文生圖領域,Midjourney,DALL-E 2和Stable Diffusion使用的都是擴散技術。
雖然Diffusion技術產(chǎn)生的結果很驚艷,但由于它是計算密集型的,這使得它的計算強度很大,運行成本很高,而且往往缺乏實時應用所需的速度。
有趣的是,OpenAI幾年前曾想通過名為Image GPT的模型,來探索了Transformer作為圖像生成的可能性。但它最終放棄了這個想法,轉(zhuǎn)而支持Diffusion。
而CM3leon采用的是完全不同的方法。作為基于Transformer的模型,它利用注意力機制來權衡輸入數(shù)據(jù)(無論是文本還是圖像)的相關性。
這種架構的差異,使得CM3leon能夠?qū)崿F(xiàn)更快的訓練速度和更好的并行化,因而比傳統(tǒng)的基于擴散的方法更有效。
僅用單個TPU,CM3leon就在圖像數(shù)據(jù)集上進行了有效的訓練,并在MS-COCO數(shù)據(jù)集上達到了4.88的FID分數(shù),超過了Google的文本到圖像模型Parti。
與此同時,CM3leon的效率更是同類Transformer架構的5倍以上。
圖片
CM3leon之所以如此成功,可以歸功于它獨特的架構和訓練方法。
它強大性能的一個關鍵,就是監(jiān)督微調(diào)的技術(SFT)。
此前,SFT已被用于訓練像ChatGPT這樣的文本生成模型,效果很好,但Meta認為,應用于圖像領域時,它也很有用。
事實上,指令微調(diào)不僅提高了CM3Leon在圖像生成方面的性能,而且提高了圖像標注編寫的性能,使其能夠回答有關圖像的問題并通過遵循文本指令(例如「將天空的顏色更改為亮藍色」)來編輯圖像。
CM3leon僅采用解碼器轉(zhuǎn)換器體系結構,類似于已建立的基于文本的模型,但增加了處理文本和圖像的功能。
訓練過程涉及檢索增強,以及跨越各種圖像和文本生成任務的指令微調(diào)。
通過應用跨模態(tài)的監(jiān)督微調(diào)技術,Meta顯著提高了CM3leon在圖像標注、視覺QA和文本編輯方面的性能。
盡管CM3leon只在30億個文本token上進行了訓練,但它與在多達1000億個token上訓練的其他模型的結果相當,甚至實現(xiàn)了超越。
作為第一個采用與文本語言模型相似的方法進行調(diào)整的多模態(tài)模型,Meta在CM3leon中加入了一個大規(guī)模的檢索增強預訓練階段和一個第二個多任務的監(jiān)督微調(diào)(SFT)階段。
CM3leon表現(xiàn)如何
憑借CM3leon的能力,圖像生成工具可以產(chǎn)生更一致的圖像,更好地遵循輸入提示。
以下是CM3leon在各種任務中的能力展示,所有任務均由單個模型完成:
文本到圖像生成
基于文本的圖像編輯(例如,「將天空的顏色改為明亮藍色」)很具挑戰(zhàn)性,因為它要求模型能夠同時理解文本指令和視覺內(nèi)容。
尤其是,當涉及復雜對象或提示包含多個必須在輸出中出現(xiàn)的約束條件時。
根據(jù)具有高度組合結構的提示文本,CM3leon可以生成一個指令跟隨的圖像。
(1) 在撒哈拉沙漠中戴著稻草帽和霓虹太陽鏡的小仙人掌
(2) 一只人手的特寫
(3) 在動漫中準備使用武士刀參加一場史詩級戰(zhàn)斗的浣熊主角
(4) 以幻想風格呈現(xiàn)的停車標志,上面寫著「1991」
基于文本的圖像編輯
給定一張圖像和一個文本提示,CM3leon可以根據(jù)文本中的指令對圖像進行編輯。
由于CM3leon模型的通用性,與其他的任務一樣,這是通過同一個模型實現(xiàn)的,而不像以前的模型(如InstructPix2Pix)只針對基于文本的圖像編輯進行微調(diào)。
圖片
同時,CM3leon模型還可以根據(jù)一系列不同的提示來生成簡短或長篇描述,并回答關于圖像的問題。
舉個栗子。
- 提示:
問題:這兩個物體有什么共同點?
上下文:選擇最佳答案。
選項:(A)閃的(B)咸的
回答:讓我們逐步思考:
- CM3Leon輸出:
思考每個物體。薯片有咸味。椒鹽脆餅是咸的。所以答案是(B)。
圖片
- 提示:
詳細描述給定圖像中的所有物體。
- CM3Leon輸出:
一個街道標志位于金屬桿上。標志是藍色的,上面有白色的文字。桿上有一個紅燈。天空是明亮的藍色。街道上停著車。街道兩側有樹木。街道兩側有建筑物。
圖片
同樣,對于下面這些「看圖問答」,CM3leon都能輕松拿捏。
圖片
為了進一步了解CM3leon,Meta在圖像描述生成和視覺問答任務中,對指令微調(diào)模型進行了實證評估,并將它們與先前的SOTA基準進行了比較。
相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本數(shù)據(jù)明顯較少(約3B個token)。
但在MS-COCO圖片描述和VQA2問答方面,CM3leon卻實現(xiàn)了與零樣本OpenFlamingo相同的性能,甚至在VizWiz任務上擊敗了Flamingo近10個百分點。
圖片
結構引導的圖像編輯
結構引導的圖像編輯旨在理解和解釋提供的文本指令以及結構或布局信息。
從而讓CM3leon模型能夠在遵循給定的結構或布局指令的同時,創(chuàng)建視覺上一致和語境恰當?shù)膱D像編輯。
在只包含分割的圖像(沒有文本類別)中,生成一張圖像。這里的輸入表示從中提取分割的圖像。
圖片
超分辨率
除此之外,圖像生成領域還有一個常見的技巧——利用經(jīng)過單獨訓練的超分辨率階段,從原始模型輸出生成更高分辨率的圖像。
對于這類文本到圖像生成任務,CM3leon表現(xiàn)得也非常好。
(1)一杯熱氣騰騰的咖啡,背景是群山,在旅途中休息
(2)日落時分,美麗而雄偉的公路
(3)湖中心的圓形小島,湖邊環(huán)繞著森林
以及一些「奇幻」風格的生成。
圖片
(1)海龜在水下游泳
(2)大象在水下游泳
(2)一群羊
如何構建CM3Leon
架構
在架構方面,CM3Leon采用了一個和成熟的文本模型相似的僅解碼器Transformer。
但不同的是,CM3Leon能夠輸入和生成文本和圖像。
訓練
通過采用論文「Retrieval-Augmented Multimodal Language Modeling」中提出的訓練檢索增強技術,Meta大大提高了CM3Leon模型的效率和可控性。
同時,Meta還在各種不同的圖像和文本生成任務上,對CM3Leon模型進行了指令微調(diào)。
圖片
左側:各種任務的常見輸入;右側:相應的模型輸出。
在訓練過程中,Meta將模型輸入和輸出連接起來,并使用與預訓練階段相同的目標進行訓練。
隨著人工智能行業(yè)的不斷發(fā)展,像CM3Leon這樣的生成模型變得越來越復雜。
這些模型通過對數(shù)百萬個示例圖像進行訓練來學習視覺和文本之間的關系,但它們也可能反映出訓練數(shù)據(jù)中存在的偏見。
因此,Meta采用了有許可的數(shù)據(jù)集對CM3Leon進行訓練。
而結果也證明,雖然數(shù)據(jù)的分布與先前的模型截然不同,但CM3Leon仍然實現(xiàn)了強大的性能。
對此,Meta希望,通過大家的共同努力,可以創(chuàng)建更準確、更公正、更公平的模型。
為多模態(tài)語言模型鋪平道路
總的來說,Meta認為,CM3Leon在各種任務上的出色性能,是朝著更真實的圖像生成和理解邁出的重要一步。
而這樣的模型,最終可以幫助提升創(chuàng)造力并在元宇宙中實現(xiàn)更好的應用。
作者介紹
Lili Yu、Bowen Shi和Ramakanth Pasunuru為論文共同一作。
其中,作Lili Yu取得了北大物理系的學士學位,以及MIT電子工程和計算機科學的博士學位。
圖片