史上最強(qiáng)文生圖模型?谷歌Imagen3內(nèi)部詳細(xì)評(píng)估資料解讀 精華
文章鏈接:https://arxiv.org/pdf/2408.07009
亮點(diǎn)直擊
- Imagen 3,目前Google最好的文生圖擴(kuò)散模型,是一種潛在擴(kuò)散模型,可以從文本提示生成高質(zhì)量的圖像。
- 詳細(xì)描述了 Imagen 3 質(zhì)量和責(zé)任評(píng)估,發(fā)現(xiàn)Imagen 3相比其他SOTA模型更受歡迎。
- 討論了安全和表征問(wèn)題,以及用于最小化本文模型潛在危害的方法。
數(shù)據(jù)
Imagen 3模型在一個(gè)大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含圖像、文本和相關(guān)注釋。為了確保質(zhì)量和安全標(biāo)準(zhǔn),本文采用了多階段的過(guò)濾過(guò)程。這個(gè)過(guò)程首先去除不安全、暴力或低質(zhì)量的圖像。然后,本文消除AI生成的圖像,以防止模型學(xué)習(xí)到此類(lèi)圖像中常見(jiàn)的偽影或偏差。此外,本文使用去重管道并降低相似圖像的權(quán)重,以最大限度地減少輸出過(guò)擬合訓(xùn)練數(shù)據(jù)中特定元素的風(fēng)險(xiǎn)。
本文數(shù)據(jù)集中的每張圖像都配有原始(來(lái)自替代文本、人類(lèi)描述等)和合成的標(biāo)題。合成標(biāo)題是使用Gemini模型通過(guò)多種提示生成的。本文利用多個(gè)Gemini模型和指令來(lái)最大化這些合成標(biāo)題的語(yǔ)言多樣性和質(zhì)量。本文應(yīng)用過(guò)濾器來(lái)刪除不安全的標(biāo)題和個(gè)人身份信息。
評(píng)估
本文將最高質(zhì)量配置——Imagen 3模型——與Imagen 2以及以下外部模型進(jìn)行比較:DALL·E 3、Midjourney v6、Stable Diffusion 3 Large (SD3) 和 Stable Diffusion XL 1.0 (SDXL 1)。通過(guò)廣泛的人工評(píng)估和自動(dòng)評(píng)估,本文發(fā)現(xiàn)Imagen 3在文本到圖像生成方面設(shè)立了新的行業(yè)標(biāo)準(zhǔn)。本文討論了總體結(jié)果及其局限性,定性結(jié)果。本文注意到,可能整合Imagen 3的產(chǎn)品在性能上可能與測(cè)試配置有所不同。
人工評(píng)估
本文對(duì)文本到圖像生成模型的五個(gè)不同質(zhì)量方面進(jìn)行了人工評(píng)估:總體偏好、提示與圖像的對(duì)齊、視覺(jué)吸引力、詳細(xì)提示與圖像的對(duì)齊以及數(shù)值推理。為了避免評(píng)估者的判斷混淆,這些方面都是獨(dú)立評(píng)估的。
對(duì)于前四個(gè)方面,量化判斷(例如,給出1到5的評(píng)分)在實(shí)踐中難以在評(píng)估者之間校準(zhǔn)。因此,本文使用并排比較的方法;這也成為聊天機(jī)器人以及其他文本到圖像評(píng)估中的標(biāo)準(zhǔn)做法。第五個(gè)方面——數(shù)值推理——可以通過(guò)計(jì)算圖像中給定類(lèi)型的物體數(shù)量,直接且可靠地由人類(lèi)進(jìn)行評(píng)估,因此本文采用單模型評(píng)估方法。
每個(gè)并排比較(即針對(duì)前四個(gè)方面及其對(duì)應(yīng)的提示集)都會(huì)聚合為所有六個(gè)模型的Elo評(píng)分,以便在它們之間進(jìn)行校準(zhǔn)比較。直觀地,每次成對(duì)比較代表兩個(gè)模型之間進(jìn)行的一場(chǎng)比賽,Elo評(píng)分表示模型在所有模型競(jìng)爭(zhēng)中的總體得分。本文通過(guò)對(duì)每對(duì)模型進(jìn)行詳盡比較,生成每個(gè)方面和提示集的完整Elo記分板。每項(xiàng)研究(即在給定問(wèn)題和給定提示集上對(duì)兩個(gè)模型的配對(duì))由2500個(gè)評(píng)分組成(本文發(fā)現(xiàn)這個(gè)數(shù)量在成本和可靠性之間取得了良好的平衡),這些評(píng)分在提示集中均勻分布。模型在評(píng)估界面中是匿名的,并且每次評(píng)分時(shí)都會(huì)隨機(jī)打亂位置。
本文使用一個(gè)外部平臺(tái)從一個(gè)龐大且多樣化的評(píng)估者池中隨機(jī)選擇評(píng)估者。數(shù)據(jù)收集是根據(jù)Google DeepMind的數(shù)據(jù)豐富最佳實(shí)踐進(jìn)行的,這些實(shí)踐基于人工智能合作組織(Partnership on AI)的負(fù)責(zé)任的數(shù)據(jù)豐富服務(wù)采購(gòu)指南。此過(guò)程確保所有數(shù)據(jù)豐富工作的參與者至少獲得當(dāng)?shù)氐纳罟べY。
本文總共在5個(gè)不同的提示集上進(jìn)行人工評(píng)估。本文在三個(gè)不同的提示集上評(píng)估前三個(gè)質(zhì)量方面(整體偏好、提示-圖像對(duì)齊和視覺(jué)吸引力)。首先,本文使用最近發(fā)布的GenAI-Bench,這是一個(gè)由專(zhuān)業(yè)設(shè)計(jì)師收集的1600個(gè)高質(zhì)量提示的集合。為了與之前的工作保持一致,本文還在DrawBench的200個(gè)提示和DALL·E 3 Eval的170個(gè)提示上進(jìn)行評(píng)估。對(duì)于詳細(xì)的提示-圖像對(duì)齊,本文使用了來(lái)自DOCCI的1000張圖像及其對(duì)應(yīng)的標(biāo)題(DOCCI-Test-Pivots)。最后,本文使用GeckoNum基準(zhǔn)來(lái)評(píng)估數(shù)值推理能力。所有外部模型都是通過(guò)其公開(kāi)訪問(wèn)提供運(yùn)行的,除了DALL·E 3 Eval和DrawBench上的DALL·E 3,本文使用其作者發(fā)布的圖像。
總共,本文從3225位不同的評(píng)估者那里收集了366,569個(gè)評(píng)分,涉及5943次提交。每位評(píng)估者最多參與本文研究的10%,在每次研究中,每位評(píng)估者提供大約2%的評(píng)分,以避免結(jié)果偏向于特定評(píng)估者的判斷。來(lái)自71個(gè)不同國(guó)籍的評(píng)估者參與了本文的研究,其中英國(guó)、美國(guó)、南非和波蘭的參與者最多。
總體偏好
總體偏好衡量用戶(hù)對(duì)給定輸入提示生成的圖像的滿(mǎn)意程度。這個(gè)問(wèn)題設(shè)計(jì)為一個(gè)開(kāi)放性問(wèn)題,由評(píng)價(jià)者自行決定在每個(gè)提示中哪些質(zhì)量方面最為重要,這與模型的實(shí)際使用情況類(lèi)似。本文將兩幅圖像并排展示給評(píng)價(jià)者,連同提示一起,并詢(xún)問(wèn):“假設(shè)你在使用一款計(jì)算機(jī)工具,該工具根據(jù)上述提示生成圖像。如果你在使用這款工具,你希望看到哪幅圖像?如果兩幅圖像同樣吸引人,請(qǐng)選擇‘我無(wú)所謂’?!毕聢D2展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。在GenAI-Bench上,Imagen 3明顯比其他模型更受歡迎。在DrawBench上,Imagen 3以較小的優(yōu)勢(shì)領(lǐng)先于Stable Diffusion 3,而在DALL·E 3 Eval上,本文觀察到四個(gè)領(lǐng)先模型的結(jié)果接近,Imagen 3略占優(yōu)勢(shì)。
提示-圖像對(duì)齊
提示-圖像對(duì)齊評(píng)估的是輸入提示在輸出圖像內(nèi)容中的表現(xiàn)程度,而不考慮圖像中的潛在缺陷或其美學(xué)吸引力。本文將兩幅圖像連同提示一起并排展示給評(píng)價(jià)者,并詢(xún)問(wèn)他們:“考慮上面的文本,哪幅圖像更好地捕捉到了提示的意圖?請(qǐng)盡量忽略圖像的潛在缺陷或質(zhì)量問(wèn)題。除非提示中提到,否則請(qǐng)忽略不同的風(fēng)格。” 下圖3展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。在GenAI-Bench上,Imagen 3以顯著優(yōu)勢(shì)領(lǐng)先;在DrawBench上,優(yōu)勢(shì)較小;而在DALL·E 3 Eval上,三個(gè)領(lǐng)先模型的表現(xiàn)相似,且置信區(qū)間重疊。
視覺(jué)吸引力
視覺(jué)吸引力量化了生成圖像的吸引程度,而不考慮所請(qǐng)求的內(nèi)容。為了測(cè)量這一點(diǎn),本文向評(píng)估者展示兩張并排的圖像,而不提供生成這些圖像的提示,然后詢(xún)問(wèn):“哪張圖像對(duì)您更有吸引力?”
下圖4顯示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。Midjourney v6整體表現(xiàn)領(lǐng)先,Imagen 3在GenAI-Bench上幾乎與之持平,在DrawBench上稍有優(yōu)勢(shì),而在DALL·E 3 Eval上具有顯著優(yōu)勢(shì)。
詳細(xì)的提示圖像對(duì)齊
在本節(jié)中,本文通過(guò)生成來(lái)自DOCCI的詳細(xì)提示的圖像,進(jìn)一步推動(dòng)提示-圖像對(duì)齊能力的評(píng)估。這些提示的長(zhǎng)度顯著增加——平均136個(gè)詞——比之前使用的提示集要長(zhǎng)得多。然而,在按照前文的相同評(píng)估策略進(jìn)行一些試點(diǎn)后,本文意識(shí)到閱讀超過(guò)100個(gè)詞的提示并評(píng)估圖像與其中所有細(xì)節(jié)的對(duì)齊程度對(duì)人工評(píng)價(jià)者來(lái)說(shuō)過(guò)于困難和繁瑣。因此,本文利用了DOCCI提示實(shí)際上是高質(zhì)量的真實(shí)參考照片的標(biāo)題這一事實(shí)——與標(biāo)準(zhǔn)的文本到圖像評(píng)估提示集不同,后者沒(méi)有對(duì)應(yīng)的參考圖像。本文將這些標(biāo)題輸入到圖像生成模型中,并測(cè)量生成圖像的內(nèi)容與DOCCI基準(zhǔn)參考圖像的對(duì)齊程度。本文特別指示評(píng)價(jià)者專(zhuān)注于圖像的語(yǔ)義(物體、它們的位置、方向等),忽略風(fēng)格、拍攝技術(shù)、質(zhì)量等。
下圖5顯示了結(jié)果,其中本文可以看到Imagen 3相對(duì)于第二好的模型有顯著的優(yōu)勢(shì),領(lǐng)先114 Elo點(diǎn),并且勝率達(dá)到63%。這一結(jié)果進(jìn)一步突顯了其遵循輸入提示詳細(xì)內(nèi)容的卓越能力。
數(shù)值推理
本文還評(píng)估了模型生成精確數(shù)量物體的能力,這是GeckoNum基準(zhǔn)中的最簡(jiǎn)單任務(wù)。具體來(lái)說(shuō),本文提出問(wèn)題:圖像中有多少個(gè)?其中指的是用于生成圖像的源提示中的名詞,并將其與提示中請(qǐng)求的預(yù)期數(shù)量進(jìn)行比較。物體的數(shù)量范圍從1到10,任務(wù)包括各種復(fù)雜性的提示,因?yàn)閿?shù)字嵌入在不同類(lèi)型的句子結(jié)構(gòu)中,考察了顏色和空間關(guān)系等屬性的作用。
結(jié)果顯示在下圖6中,本文看到,雖然生成精確數(shù)量的物體對(duì)當(dāng)前模型來(lái)說(shuō)仍然是一個(gè)挑戰(zhàn)性任務(wù),但I(xiàn)magen 3是最強(qiáng)的模型,比第二名的DALL·E 3高出12個(gè)百分點(diǎn)。此外,本文發(fā)現(xiàn),Imagen 3在生成包含2到5個(gè)物體的圖像時(shí),比其他模型具有更高的準(zhǔn)確性,并且在處理具有更復(fù)雜數(shù)字句子結(jié)構(gòu)的提示時(shí)表現(xiàn)更好,例如“1塊餅干和五瓶”。
自動(dòng)評(píng)估
近年來(lái),自動(dòng)評(píng)估(auto-eval)指標(biāo),如CLIP和VQAScore,在衡量文本到圖像模型的質(zhì)量方面被更廣泛地使用,因?yàn)樗鼈兿啾热斯ぴu(píng)估更易于擴(kuò)展。為了補(bǔ)充之前的人工評(píng)估,本文對(duì)提示-圖像對(duì)齊和圖像質(zhì)量進(jìn)行了自動(dòng)評(píng)估指標(biāo)測(cè)試。
提示-圖像對(duì)齊
本文選擇了三種強(qiáng)大的自動(dòng)評(píng)估提示-圖像對(duì)齊指標(biāo),分別來(lái)自主要的指標(biāo)家族:對(duì)比雙編碼器(如CLIP)、基于VQA的(如Gecko)和基于LVLM提示的實(shí)現(xiàn)(如VQAScore2)。雖然之前的研究表明這些指標(biāo)與人工判斷有很好的相關(guān)性,但尚不清楚它們是否能夠可靠地區(qū)分更相似的強(qiáng)模型。因此,本文首先通過(guò)將這些指標(biāo)的預(yù)測(cè)與人工評(píng)級(jí)進(jìn)行比較來(lái)驗(yàn)證這三種指標(biāo)的有效性,并在附錄C.1中報(bào)告結(jié)果。
本文觀察到,盡管CLIP在當(dāng)前工作中被廣泛使用,但在大多數(shù)情況下,它未能預(yù)測(cè)出正確的模型排序。本文發(fā)現(xiàn)Gecko和本文的VQAScore變體(以下簡(jiǎn)稱(chēng)VQAScore)表現(xiàn)良好,且有72%的時(shí)間達(dá)成一致。在這些情況下,這些指標(biāo)的結(jié)果與人工判斷94.4%的時(shí)間是一致的,因此本文可以對(duì)結(jié)果充滿(mǎn)信心。盡管它們表現(xiàn)相似,但VQAScore更具優(yōu)勢(shì),與人工評(píng)級(jí)的匹配率為80%,而Gecko為73.3%。本文注意到,Gecko使用了一個(gè)較弱的骨干網(wǎng)絡(luò)——PALI,而非Gemini 1.5 Pro,這可能導(dǎo)致了性能差異。因此,接下來(lái)本文將討論使用VQAScore的結(jié)果,并將其他結(jié)果和進(jìn)一步的討論留到附錄C.1。
本文在四個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估,以研究模型在不同條件下的差異:Gecko-Rel、DOCCI-Test-Pivots、Dall·E 3 Eval和GenAI-Bench。Gecko-Rel旨在測(cè)量對(duì)齊度,并包含具有高度注釋者一致性的提示,DOCCI-Test-Pivots包含長(zhǎng)而描述性的提示,Dall·E 3 Eval和GenAI-Bench是更為多樣化的數(shù)據(jù)集,旨在評(píng)估一系列能力。結(jié)果如下圖7所示。本文可以看到,總體上在這些指標(biāo)下表現(xiàn)最好的模型是Imagen 3。它在DOCCI-Test-Pivots的長(zhǎng)提示上表現(xiàn)最佳,并且始終具有總體最高的性能。最后,本文看到SDXL 1和Imagen 2的表現(xiàn)始終低于其他模型。
本文進(jìn)一步探討了Gecko-Rel在類(lèi)別上的細(xì)分,如下圖8所示??傮w而言,Imagen 3是表現(xiàn)最好的模型之一。在測(cè)試顏色、計(jì)數(shù)和空間推理等能力的類(lèi)別中,Imagen 3表現(xiàn)最佳(進(jìn)一步驗(yàn)證了結(jié)果)。本文還看到,模型在處理更復(fù)雜和組合性提示時(shí)的表現(xiàn)有所不同,例如在具有更高語(yǔ)言難度的提示上,SDXL 1的表現(xiàn)明顯不如其他模型。在組合性提示上(模型需要在場(chǎng)景中創(chuàng)建多個(gè)物體或創(chuàng)建沒(méi)有物體的場(chǎng)景),本文看到Imagen 3表現(xiàn)最佳。這與之前的數(shù)據(jù)集發(fā)現(xiàn)相一致,因?yàn)镮magen 3在DOCCI-Test-Pivots上表現(xiàn)最佳,該數(shù)據(jù)集特別具有非常長(zhǎng)且具有挑戰(zhàn)性的提示。這些結(jié)果表明,與其他模型相比,Imagen 3在處理更復(fù)雜的提示和多種能力方面表現(xiàn)最佳。
圖像質(zhì)量
本文比較了Imagen 3、SDXL 1和DALL·E 3在MSCOCO-caption驗(yàn)證集30,000個(gè)樣本上生成的圖像分布,使用不同的特征空間和距離度量,遵循Vasconcelos等人的協(xié)議。本文在Inception特征空間上采用Fréchet距離(FID)和Dino-v2特征空間上的Fréchet距離(FD-Dino),以及在CLIP-L特征空間上的最大均值差異距離(CMMD)。生成圖像的分辨率從1024×1024像素減少到每個(gè)度量的標(biāo)準(zhǔn)輸入大小。
與Vasconcelos等人類(lèi)似,本文觀察到這三個(gè)度量的最小化之間存在權(quán)衡。FID傾向于生成自然的顏色和紋理,但在更仔細(xì)的檢查下,它未能檢測(cè)出物體形狀和部分的扭曲。較低的FD-Dino和CMMD值有利于圖像內(nèi)容。下表1顯示了結(jié)果。Imagen 3和DALL·E 3的FID值反映了由于審美偏好而故意偏離MSCOCO-caption樣本的顏色分布,生成更生動(dòng)、風(fēng)格化的圖像。同時(shí),Imagen 3在這三個(gè)模型中表現(xiàn)出最低的CMMD值,突顯了其在最先進(jìn)特征空間度量上的強(qiáng)大性能。
結(jié)論和局限性
總的來(lái)說(shuō),Imagen 3在提示-圖像對(duì)齊上明顯領(lǐng)先,尤其是在詳細(xì)提示和計(jì)數(shù)能力方面;而在視覺(jué)吸引力上,Midjourney v6領(lǐng)先,Imagen 3位居第二??紤]到所有的質(zhì)量方面,Imagen 3在整體偏好上明顯領(lǐng)先,這表明它在高質(zhì)量輸出和尊重用戶(hù)意圖之間取得了最佳平衡。
雖然Imagen 3和其他當(dāng)前強(qiáng)大的模型表現(xiàn)出色,但在某些能力上仍然存在不足。特別是那些需要數(shù)值推理的任務(wù),從生成精確數(shù)量的物體到關(guān)于部分的推理,對(duì)所有模型來(lái)說(shuō)都是一個(gè)挑戰(zhàn)。此外,涉及尺度推理的提示(例如“房子和貓一樣大”)、組合短語(yǔ)(例如“一個(gè)紅色的帽子和一個(gè)黑色的玻璃書(shū)”)以及動(dòng)作(“一個(gè)人扔一個(gè)足球”)是所有模型中最難的。這之后是需要空間推理和復(fù)雜語(yǔ)言的提示。
定性結(jié)果
下圖9展示了由Imagen 3生成的24張圖像,以展示其能力。下圖10展示了2張上采樣到12百萬(wàn)像素的圖像,并進(jìn)行裁剪以顯示細(xì)節(jié)水平。
負(fù)責(zé)任的開(kāi)發(fā)和部署
在本節(jié)中,本文概述了從數(shù)據(jù)整理到產(chǎn)品部署的最新負(fù)責(zé)任部署方法。作為這一過(guò)程的一部分,本文分析了模型的優(yōu)缺點(diǎn),制定了政策和期望,并實(shí)施了訓(xùn)練前和訓(xùn)練后的干預(yù)措施以實(shí)現(xiàn)這些目標(biāo)。在發(fā)布前,本文進(jìn)行了多種評(píng)估和紅隊(duì)測(cè)試,以改進(jìn)模型并為決策提供信息。這與Google在2024年概述的方法一致。
評(píng)估
谷歌DeepMind在發(fā)布圖像生成模型時(shí),一直遵循結(jié)構(gòu)化的負(fù)責(zé)任開(kāi)發(fā)方法。在此基礎(chǔ)上,本文結(jié)合之前的倫理和安全研究工作、內(nèi)部紅隊(duì)測(cè)試數(shù)據(jù)、更廣泛的倫理文獻(xiàn)以及現(xiàn)實(shí)世界中的事件,對(duì)Imagen 3模型的社會(huì)效益和風(fēng)險(xiǎn)進(jìn)行了評(píng)估。這一評(píng)估指導(dǎo)了緩解措施和評(píng)估方法的開(kāi)發(fā)和改進(jìn)。
溢出
圖像生成模型為創(chuàng)意和商業(yè)應(yīng)用帶來(lái)了多種益處。圖像生成可以幫助個(gè)人和企業(yè)快速制作原型,并嘗試新的視覺(jué)創(chuàng)意方向。這項(xiàng)技術(shù)還有可能讓更多人參與到視覺(jué)藝術(shù)的創(chuàng)作中來(lái)。
風(fēng)險(xiǎn)
本文大致識(shí)別了與內(nèi)容相關(guān)的兩類(lèi)風(fēng)險(xiǎn):(1) 有意的對(duì)抗性濫用模型,以及 (2) 善意使用中的無(wú)意模型失效。
第一類(lèi)風(fēng)險(xiǎn)涉及使用文本到圖像生成模型來(lái)創(chuàng)建可能促進(jìn)虛假信息、協(xié)助欺詐或生成仇恨內(nèi)容的情況。第二類(lèi)風(fēng)險(xiǎn)包括人物的表現(xiàn)方式。圖像生成模型可能會(huì)放大關(guān)于性別身份、種族、性取向或國(guó)籍的刻板印象,并且有些模型被觀察到會(huì)過(guò)度性化女性和女孩的輸出。當(dāng)模型未能很好地校準(zhǔn)以遵循提示指令時(shí),即使在善意提示下,圖像生成模型也可能使用戶(hù)接觸到有害內(nèi)容。
政策和需求
政策
谷歌的Imagen 3安全政策與谷歌的生成式AI模型禁止生成有害內(nèi)容的既定框架一致。這些政策旨在減輕模型生成有害內(nèi)容的風(fēng)險(xiǎn),涵蓋了兒童性虐待和剝削、仇恨言論、騷擾、色情內(nèi)容以及暴力和血腥等領(lǐng)域。
需求
遵循Gemini的方法,本文在模型開(kāi)發(fā)中進(jìn)一步優(yōu)化,以更好地響應(yīng)用戶(hù)的提示。盡管拒絕所有用戶(hù)請(qǐng)求的政策可能被視為“無(wú)違規(guī)”(即遵守Imagen 3不應(yīng)做的事情的政策),但顯然無(wú)法滿(mǎn)足用戶(hù)的需求,也無(wú)法實(shí)現(xiàn)生成模型的下游益處。因此,Imagen 3的開(kāi)發(fā)旨在最大限度地遵循用戶(hù)請(qǐng)求,并在部署時(shí)采用多種技術(shù)來(lái)降低安全和隱私風(fēng)險(xiǎn)。
緩解措施
在Imagen 3中,安全性和責(zé)任感通過(guò)針對(duì)預(yù)訓(xùn)練和后訓(xùn)練干預(yù)的努力得以實(shí)現(xiàn),這與Gemini項(xiàng)目的類(lèi)似方法一致。本文根據(jù)風(fēng)險(xiǎn)領(lǐng)域?qū)︻A(yù)訓(xùn)練數(shù)據(jù)進(jìn)行安全過(guò)濾,同時(shí)去除重復(fù)和/或概念上相似的圖像。本文生成合成標(biāo)題,以提高訓(xùn)練數(shù)據(jù)中與圖像相關(guān)的概念的多樣性和多元化,并進(jìn)行分析以評(píng)估訓(xùn)練數(shù)據(jù)中的潛在有害數(shù)據(jù),并在考慮公平性問(wèn)題的情況下審查數(shù)據(jù)的代表性。本文還進(jìn)行額外的后訓(xùn)練緩解措施,包括生產(chǎn)過(guò)濾,以確保隱私保護(hù)、降低錯(cuò)誤信息的風(fēng)險(xiǎn),并盡量減少有害輸出,其中包括使用如SynthID水印等工具。
責(zé)任和安全評(píng)估
在模型層面,Imagen 3 使用了四種評(píng)估形式,以應(yīng)對(duì)不同生命周期階段、評(píng)估結(jié)果的使用以及專(zhuān)業(yè)知識(shí)來(lái)源:
- 開(kāi)發(fā)評(píng)估:這些評(píng)估旨在提高Imagen 3在責(zé)任標(biāo)準(zhǔn)上的表現(xiàn)。評(píng)估由內(nèi)部設(shè)計(jì),并基于內(nèi)部和外部基準(zhǔn)進(jìn)行開(kāi)發(fā)。
- 保證評(píng)估:這些評(píng)估用于治理和審查,由模型開(kāi)發(fā)團(tuán)隊(duì)以外的團(tuán)隊(duì)開(kāi)發(fā)和運(yùn)行。保證評(píng)估按照模態(tài)進(jìn)行標(biāo)準(zhǔn)化,評(píng)估數(shù)據(jù)集嚴(yán)格保密。評(píng)估結(jié)果反饋到訓(xùn)練過(guò)程中,以幫助減輕風(fēng)險(xiǎn)。
- 紅隊(duì)測(cè)試:這是一種對(duì)抗性測(cè)試形式,其中對(duì)手對(duì)AI系統(tǒng)發(fā)起攻擊,以識(shí)別潛在漏洞。測(cè)試由內(nèi)部專(zhuān)業(yè)團(tuán)隊(duì)和招募的參與者共同進(jìn)行。發(fā)現(xiàn)的潛在弱點(diǎn)可以用于減輕風(fēng)險(xiǎn)并改進(jìn)內(nèi)部評(píng)估方法。
- 外部評(píng)估:由獨(dú)立的外部領(lǐng)域?qū)<覉F(tuán)隊(duì)進(jìn)行,旨在識(shí)別模型安全工作中的改進(jìn)領(lǐng)域。這些評(píng)估的設(shè)計(jì)是獨(dú)立的,結(jié)果定期報(bào)告給內(nèi)部團(tuán)隊(duì)和治理小組。
發(fā)展評(píng)估
安全在模型開(kāi)發(fā)階段,本文通過(guò)自動(dòng)化安全指標(biāo)積極監(jiān)控模型對(duì)Google安全政策的違規(guī)情況。這些自動(dòng)化指標(biāo)為建模團(tuán)隊(duì)提供快速反饋。本文使用多模態(tài)分類(lèi)器來(lái)檢測(cè)內(nèi)容政策違規(guī)。多模態(tài)分類(lèi)器的多模態(tài)性非常重要,因?yàn)樵谠S多情況下,當(dāng)兩個(gè)獨(dú)立無(wú)害的元素(如標(biāo)題和圖像)結(jié)合時(shí),可能會(huì)產(chǎn)生有害的結(jié)果。例如,文本提示“豬的圖像”本身似乎沒(méi)有違規(guī),但當(dāng)與屬于邊緣化群體的人類(lèi)圖像結(jié)合時(shí),可能導(dǎo)致有害的表現(xiàn)。
本文在各種安全數(shù)據(jù)集上評(píng)估了Imagen 3的性能,并將其與Imagen 2的性能進(jìn)行了比較。這些數(shù)據(jù)集專(zhuān)門(mén)用于評(píng)估生成圖像中的暴力、仇恨、顯性性行為和過(guò)度性行為。盡管Imagen 3是一個(gè)更高質(zhì)量的模型,但在開(kāi)發(fā)評(píng)估中,它的違規(guī)率與Imagen 2相似或更低。
公平性文本到圖像生成的過(guò)程需要準(zhǔn)確描繪提示中提到的具體細(xì)節(jié),同時(shí)填補(bǔ)場(chǎng)景中未明確說(shuō)明但必須具體化的部分,以生成高質(zhì)量的圖像。本文優(yōu)化了圖像輸出與用戶(hù)提示的一致性,并在前文中報(bào)告了相關(guān)結(jié)果。本文還旨在在用戶(hù)提示的要求范圍內(nèi)生成多樣化的輸出,并特別關(guān)注人物外觀的分布。
具體來(lái)說(shuō),本文通過(guò)基于感知年齡、性別和膚色分布的自動(dòng)化指標(biāo)來(lái)評(píng)估公平性,這些指標(biāo)來(lái)源于涉及一般人物的提示生成的圖像。這項(xiàng)分析補(bǔ)充了過(guò)去的一些研究,這些研究分析了對(duì)各種職業(yè)的模板化查詢(xún)?cè)陬?lèi)似維度上的響應(yīng)。本文使用分類(lèi)器收集感知(或P.)年齡、性別表達(dá)和膚色(基于Monk膚色量表),并根據(jù)下表2將圖像分類(lèi)到各個(gè)維度的不同類(lèi)別中。
除了這些統(tǒng)計(jì)數(shù)據(jù)之外,本文還測(cè)量了在上述三個(gè)維度中輸出同質(zhì)化的提示的百分比。對(duì)于某一維度,如果所有生成的圖像都落入該維度的單一類(lèi)別(見(jiàn)上表2),則該提示被定義為具有同質(zhì)化輸出。本文的目標(biāo)是輸出的圖像能夠準(zhǔn)確反映任何人都可以是醫(yī)生或護(hù)士,而不會(huì)因?yàn)樵u(píng)估集的構(gòu)建偏向于擁有與男性化傾向提示同等數(shù)量的女性化傾向提示而無(wú)意中獎(jiǎng)勵(lì)了一個(gè)有偏見(jiàn)的模型。
從下表3和下表4中可以看到,與Imagen 2相比,Imagen 3在結(jié)果上有所改善或保持不變。特別值得注意的是,所有三個(gè)維度中具有同質(zhì)化輸出的提示的百分比顯著降低。本文將繼續(xù)研究方法,以減少在人群多樣性廣泛定義下的同質(zhì)化現(xiàn)象,同時(shí)不影響圖像質(zhì)量或提示與圖像的對(duì)齊。
保證評(píng)估
責(zé)任治理的保證評(píng)估是為了提供模型發(fā)布決策的證據(jù)。這些評(píng)估由專(zhuān)門(mén)團(tuán)隊(duì)獨(dú)立于模型開(kāi)發(fā)過(guò)程進(jìn)行,團(tuán)隊(duì)具備專(zhuān)業(yè)知識(shí)。用于這些評(píng)估的數(shù)據(jù)集與模型訓(xùn)練的數(shù)據(jù)集是分開(kāi)的。評(píng)估的高級(jí)別發(fā)現(xiàn)會(huì)反饋給團(tuán)隊(duì),以幫助他們進(jìn)行緩解措施。
內(nèi)容安全
本文根據(jù)安全政策對(duì)Imagen 3進(jìn)行了評(píng)估。結(jié)果表明,Imagen 3在內(nèi)容安全性方面有所改善:與Imagen 2相比,總的政策違規(guī)數(shù)量減少,并且每個(gè)政策領(lǐng)域都顯示出改善或在誤差范圍內(nèi)的結(jié)果。
公平性為了評(píng)估模型輸出的公平性,本文采用了兩種方法:
- 標(biāo)準(zhǔn)化評(píng)估:理解在提示職業(yè)時(shí)輸出中代表的人口統(tǒng)計(jì)信息,以此作為代表性多樣性的代理。
該評(píng)估使用140個(gè)職業(yè)的列表,每個(gè)職業(yè)生成100張圖像。然后,本文分析這些圖像,并根據(jù)感知的年齡、性別表達(dá)和膚色對(duì)圖像進(jìn)行分類(lèi)。評(píng)估發(fā)現(xiàn),Imagen 3傾向于生成較淺膚色、感知為男性的面孔,以及感知為女性面孔時(shí)的較年輕年齡,但這種傾向比Imagen 2要小。 - 不同表現(xiàn)風(fēng)險(xiǎn)的定性調(diào)查
為了捕捉在基于職業(yè)的分析中可能未被揭示的表現(xiàn)風(fēng)險(xiǎn),本文還對(duì)一系列潛在的危害進(jìn)行了定性調(diào)查。這種測(cè)試旨在尋找錯(cuò)誤表示或不當(dāng)表示的情況,例如,如果模型的輸出與提示中請(qǐng)求的人口統(tǒng)計(jì)術(shù)語(yǔ)不匹配,無(wú)論是顯性不匹配還是由于請(qǐng)求了一個(gè)歷史或文化上定義的人口群體而導(dǎo)致的不匹配。測(cè)試結(jié)果顯示,模型的行為符合用戶(hù)的預(yù)期。
?
危險(xiǎn)能力本文還評(píng)估了Imagen 3在自我復(fù)制、工具使用和網(wǎng)絡(luò)安全等領(lǐng)域的風(fēng)險(xiǎn)。具體來(lái)說(shuō),本文測(cè)試了Imagen 3是否可以用于a) 欺詐/騙局,b) 社會(huì)工程,c) 欺騙圖像識(shí)別系統(tǒng),以及d) 隱寫(xiě)編碼。示例包括生成虛假登錄頁(yè)面或網(wǎng)絡(luò)釣魚(yú)警報(bào)的模型;生成虛假憑證;生成惡意二維碼;以及生成簽名。本文在這些場(chǎng)景中沒(méi)有發(fā)現(xiàn)任何危險(xiǎn)能力,相較于現(xiàn)有的惡意行為者的工具——例如開(kāi)源圖像生成或簡(jiǎn)單的在線(xiàn)圖像搜索。
紅隊(duì)測(cè)試
在模型開(kāi)發(fā)過(guò)程中,本文還進(jìn)行了紅隊(duì)測(cè)試,以識(shí)別與Imagen 3模型相關(guān)的新型失敗。紅隊(duì)成員試圖引發(fā)模型行為,這些行為可能違反政策或產(chǎn)生代表性問(wèn)題,例如歷史不準(zhǔn)確或有害的刻板印象。在整個(gè)模型開(kāi)發(fā)過(guò)程中進(jìn)行紅隊(duì)測(cè)試,以便為開(kāi)發(fā)和保障評(píng)估領(lǐng)域提供信息,并在發(fā)布前進(jìn)行緩解。違反行為會(huì)被報(bào)告并進(jìn)行定性評(píng)估,提取新型失敗和攻擊策略以供進(jìn)一步審查和緩解。
外部評(píng)價(jià)
Gemini 1.0技術(shù)報(bào)告概述了一種協(xié)作方法,獨(dú)立的外部團(tuán)體參與增強(qiáng)模型安全性,通過(guò)結(jié)構(gòu)化評(píng)估、定性探究和無(wú)結(jié)構(gòu)的紅隊(duì)測(cè)試。這些團(tuán)體的選擇基于他們?cè)诙鄠€(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí),包括社會(huì)風(fēng)險(xiǎn)以及化學(xué)、生物、放射性和核風(fēng)險(xiǎn)。參與者包括來(lái)自學(xué)術(shù)界、民間社會(huì)和商業(yè)組織的成員,并且他們獲得了相應(yīng)的報(bào)酬。
每個(gè)外部團(tuán)體開(kāi)發(fā)了針對(duì)特定領(lǐng)域的測(cè)試方法。盡管這些團(tuán)體生成的報(bào)告獨(dú)立于Google DeepMind,但該組織的專(zhuān)家可供討論方法和發(fā)現(xiàn)。這些外部團(tuán)體提供了全面的分析,包括原始數(shù)據(jù)和材料,例如提示和模型響應(yīng),這些對(duì)于理解評(píng)估過(guò)程至關(guān)重要。
從這些外部安全測(cè)試中獲得的見(jiàn)解對(duì)于制定緩解策略和識(shí)別現(xiàn)有內(nèi)部評(píng)估方法和政策中的弱點(diǎn)至關(guān)重要。這種協(xié)作努力旨在增強(qiáng)Google DeepMind開(kāi)發(fā)的模型的整體安全性和可靠性。
產(chǎn)品部署
在發(fā)布之前,Google DeepMind 的責(zé)任與安全委員會(huì) (RSC) 會(huì)根據(jù)項(xiàng)目生命周期內(nèi)進(jìn)行的評(píng)估和評(píng)價(jià),審查模型的性能,以做出發(fā)布決策。除了這一過(guò)程外,還會(huì)在特定應(yīng)用模型的背景下進(jìn)行系統(tǒng)級(jí)安全評(píng)估和審查。
為了實(shí)現(xiàn)發(fā)布,創(chuàng)建了內(nèi)部模型卡,以便對(duì)關(guān)鍵性能和安全指標(biāo)進(jìn)行結(jié)構(gòu)化和一致的內(nèi)部文檔記錄,并隨時(shí)間推移通知適當(dāng)?shù)耐獠繙贤ā1疚臅?huì)定期發(fā)布外部模型卡和系統(tǒng)卡,包括技術(shù)報(bào)告的更新以及面向企業(yè)客戶(hù)的文檔。
此外,相關(guān)產(chǎn)品網(wǎng)站(如 Gemini 應(yīng)用和 Cloud Vertex AI)上可以找到涵蓋使用條款、模型分發(fā)和訪問(wèn),以及變更控制、日志記錄、監(jiān)控和反饋等操作方面的在線(xiàn)內(nèi)容。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Google DeepMind
