生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs
為任務(wù)選擇正確的GenAI模型需要了解每個(gè)模型使用的技術(shù)及其特定能力,下面請(qǐng)了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。
以前,大多數(shù)人工智能模型都專注于更好地處理、分析和解釋數(shù)據(jù)。直到最近,在所謂的生成神經(jīng)網(wǎng)絡(luò)模型方面的突破帶來了一系列用于創(chuàng)建各種內(nèi)容的新工具,從照片和繪畫到詩(shī)歌、代碼、電影劇本和電影。
頂級(jí) AI 生成模型概述
研究人員在 2010 年代中期發(fā)現(xiàn)了新的生成 AI 模型的前景,當(dāng)時(shí)開發(fā)了變分自編碼器(VAEs)、生成對(duì)抗網(wǎng)絡(luò)(GAN) 和擴(kuò)散模型(Diffusion)。2017年問世的轉(zhuǎn)換器(Transformers)是一種突破性的神經(jīng)網(wǎng)絡(luò),可以大規(guī)模分析大型數(shù)據(jù)集以自動(dòng)創(chuàng)建大型語(yǔ)言模型(LLM)。2020 年,研究人員引入了神經(jīng)輻射場(chǎng) (NeRF),這是一種從 3D 圖像生成 2D 內(nèi)容的技術(shù)。
這些快速發(fā)展的生成模型是一項(xiàng)正在進(jìn)行的工作,因?yàn)檠芯咳藛T所做的調(diào)整通常會(huì)導(dǎo)致巨大的進(jìn)步,而且顯著的進(jìn)展并沒有放緩。“模型架構(gòu)在不斷變化,新的模型架構(gòu)將繼續(xù)開發(fā),”在加州大學(xué)伯克利分校任教的懷特說。
每個(gè)模型都有其特殊的能力,目前,擴(kuò)散模型(Diffusion)在圖像和視頻合成領(lǐng)域表現(xiàn)異常出色,轉(zhuǎn)換器模型(Transformers)在文本領(lǐng)域表現(xiàn)良好,GAN 擅長(zhǎng)用合理的合成樣本來擴(kuò)充小數(shù)據(jù)集。但是選擇最佳模型始終取決于特定的用例。
所有的模型都不相同,人工智能研究人員和ML(機(jī)器學(xué)習(xí))工程師必須為適當(dāng)?shù)挠美退璧男阅苓x擇合適的一個(gè),并考慮模型在計(jì)算、內(nèi)存和資本方面可能存在的限制。
特別是轉(zhuǎn)換器模型,推動(dòng)了生成模型的最新進(jìn)展和興奮。“人工智能模型的最新突破來自對(duì)大量數(shù)據(jù)的預(yù)訓(xùn)練模型,以及使用自我監(jiān)督學(xué)習(xí)來訓(xùn)練沒有明確標(biāo)簽的模型,”數(shù)字化轉(zhuǎn)型咨詢公司UST的首席人工智能架構(gòu)師Adnan Masood說。
例如,OpenAI的生成式預(yù)訓(xùn)練轉(zhuǎn)換器系列模型是該類別中最大,最強(qiáng)大的模型之一,比如模型之一GPT-3包含175億個(gè)參數(shù)。
頂級(jí)生成式 AI 模型的主要應(yīng)用
Masood解釋說,頂級(jí)生成AI模型使用不同的技術(shù)和方法來生成新數(shù)據(jù)。主要功能和用途包括:
- VAE使用編碼器-解碼器架構(gòu)來生成新數(shù)據(jù),通常用于圖像和視頻生成,例如生成用于隱私保護(hù)的合成人臉。
- GAN 使用生成器和鑒別器來生成新數(shù)據(jù),通常用于視頻游戲開發(fā)中以創(chuàng)建逼真的游戲角色。
- Diffusion添加然后消除噪聲以生成具有高細(xì)節(jié)水平的高質(zhì)量圖像,從而創(chuàng)建近乎逼真的自然場(chǎng)景圖像。
- Transformer可以有效地并行處理順序數(shù)據(jù),以進(jìn)行機(jī)器翻譯、文本摘要和圖像創(chuàng)建。
- NeRF提供了一種使用神經(jīng)表示的3D場(chǎng)景重建的新方法。
下面讓我們更詳細(xì)地介紹每種方法。
VAE
VAE于2014年開發(fā),旨在使用神經(jīng)網(wǎng)絡(luò)更有效地編碼數(shù)據(jù)。
人工智能分析平臺(tái)Sisense的AI負(fù)責(zé)人Yael Lev表示,VAE學(xué)會(huì)更有效地表示信息。它們由兩部分組成:一個(gè)編碼器(encoder),使數(shù)據(jù)更小,另一個(gè)解碼器(decoder),使數(shù)據(jù)恢復(fù)到原始形式。它們非常適合從較小的信息中創(chuàng)建新示例,修復(fù)嘈雜的圖像或數(shù)據(jù),在數(shù)據(jù)中發(fā)現(xiàn)異常內(nèi)容并填充缺失的信息。
然而,VAE也傾向于產(chǎn)生模糊或低質(zhì)量的圖像,UST的Masood說。另一個(gè)問題是,潛在空間(用于捕獲數(shù)據(jù)結(jié)構(gòu)的低維空間)錯(cuò)綜復(fù)雜且具有挑戰(zhàn)性。這些弱點(diǎn)可能會(huì)限制VAE在高質(zhì)量圖像或?qū)撛诳臻g的清晰理解至關(guān)重要的應(yīng)用中的有效性。VAE的下一次迭代可能會(huì)側(cè)重于提高生成數(shù)據(jù)的質(zhì)量,提高訓(xùn)練速度并探索其對(duì)順序數(shù)據(jù)的適用性。
GANs
GANs于2014年開發(fā),用于生成逼真的面部和打印數(shù)字。GAN 將創(chuàng)建真實(shí)內(nèi)容的生成神經(jīng)網(wǎng)絡(luò)與用于檢測(cè)虛假內(nèi)容的判別神經(jīng)網(wǎng)絡(luò)對(duì)立起來?!爸鸩降?,兩個(gè)網(wǎng)絡(luò)融合產(chǎn)生與原始數(shù)據(jù)無法區(qū)分的生成圖像”普華永道全球人工智能負(fù)責(zé)人Anand Rao說。
GAN 通常用于圖像生成、圖像編輯、超分辨率、數(shù)據(jù)增強(qiáng)、風(fēng)格傳輸、音樂生成和深度偽造創(chuàng)建。GAN的一個(gè)問題是,它們可能會(huì)遭受模式崩潰,其中生成器產(chǎn)生有限和重復(fù)的輸出,使它們難以訓(xùn)練。Masood說,下一代GAN將專注于提高訓(xùn)練過程的穩(wěn)定性和融合性,將其適用性擴(kuò)展到其他領(lǐng)域,并開發(fā)更有效的評(píng)估指標(biāo)。GAN也很難優(yōu)化和穩(wěn)定,并且對(duì)生成的樣本沒有明確的控制。
Diffusion
擴(kuò)散模型由斯坦福大學(xué)的一組研究人員于2015年開發(fā),用于模擬和反轉(zhuǎn)熵和噪聲。擴(kuò)散技術(shù)提供了一種模擬現(xiàn)象的方法,例如鹽等物質(zhì)如何擴(kuò)散到液體中,然后逆轉(zhuǎn)它,此相同模型還有助于從空白圖像生成新內(nèi)容。
擴(kuò)散模型是當(dāng)前圖像生成的首選,它們是流行的圖像生成服務(wù)的基本模型,例如Dall-E 2,Stable Diffusion,Midjourney和Imagen。它們還用于管道中生成語(yǔ)音、視頻和 3D 內(nèi)容。此外,擴(kuò)散技術(shù)還可用于數(shù)據(jù)插補(bǔ),其中預(yù)測(cè)和生成缺失數(shù)據(jù)。
許多應(yīng)用將擴(kuò)散模型與LLM配對(duì),用于文本到圖像或文本到視頻生成。例如,Stable Diffusion 2 使用對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型作為文本編碼器,它還添加了用于深度和升級(jí)的模型。
Masood預(yù)測(cè),對(duì)穩(wěn)定擴(kuò)散等模型的進(jìn)一步改進(jìn)可能側(cè)重于改進(jìn)負(fù)面提示,增強(qiáng)以特定藝術(shù)家風(fēng)格生成圖像的能力,并改善名人圖像。
Transformers
轉(zhuǎn)換器模型是由Google Brain的一個(gè)團(tuán)隊(duì)于2017年開發(fā)的,旨在改善語(yǔ)言翻譯,它們非常適合以與給定順序不同的順序處理信息,并行處理數(shù)據(jù)并使用未標(biāo)記的數(shù)據(jù)擴(kuò)展到大型模型。
它們可用于文本摘要、聊天機(jī)器人、推薦引擎、語(yǔ)言翻譯、知識(shí)庫(kù)、超個(gè)性化(通過偏好模型)、情感分析和命名實(shí)體識(shí)別,以識(shí)別人、地點(diǎn)和事物。它們還可用于語(yǔ)音識(shí)別,如OpenAI的耳語(yǔ),視頻和圖像中的對(duì)象檢測(cè),圖像字幕,文本分類活動(dòng)和對(duì)話生成。
盡管Transformers具有多功能性,但它們確實(shí)存在局限性。它們的訓(xùn)練成本可能很高,并且需要大型數(shù)據(jù)集。由此產(chǎn)生的模型也相當(dāng)大,這使得識(shí)別偏差或不準(zhǔn)確結(jié)果的來源變得具有挑戰(zhàn)性。馬蘇德說:“它們的復(fù)雜性也使得解釋其內(nèi)部運(yùn)作變得困難,阻礙了它們的可解釋性和透明度。
Transformer模型架構(gòu)
NeRF
NeRF 于 2020 年開發(fā),用于將光場(chǎng)的 3D 表示捕獲到神經(jīng)網(wǎng)絡(luò)中,第一次實(shí)施非常緩慢,需要幾天時(shí)間才能捕獲第一個(gè)3D圖像。
然而,在 2022 年,英偉達(dá)的研究人員找到了一種在大約 30 秒內(nèi)生成新模型的方法。這些模型可以表示3D對(duì)象 - 具有相當(dāng)?shù)馁|(zhì)量 - 以幾兆字節(jié)為單位,而其他技術(shù)可以占用千兆字節(jié)。它們有希望能夠帶來更有效的技術(shù)來捕獲和生成元宇宙中的 3D 對(duì)象。英偉達(dá)研究總監(jiān)亞歷山大·凱勒(Alexander Keller)說,NeRFs“最終可能對(duì)3D圖形的重要性與數(shù)碼相機(jī)對(duì)現(xiàn)代攝影的重要性一樣重要。
Masood說,NeRF在機(jī)器人,城市測(cè)繪,自主導(dǎo)航和虛擬現(xiàn)實(shí)應(yīng)用方面也顯示出巨大的潛力。然而,NERF的計(jì)算成本仍然很高,將多個(gè) NERF 組合成更大的場(chǎng)景也很具有挑戰(zhàn)性,今天NeRF唯一可行的用例是將圖像轉(zhuǎn)換為3D對(duì)象或場(chǎng)景。盡管存在這些限制,Masood預(yù)測(cè)NeRF將在基本圖像處理任務(wù)中找到新的角色,例如去噪,去模糊,上采樣,壓縮和圖像編輯。
GenAI生態(tài)系統(tǒng)進(jìn)行時(shí)
重要的是要注意,這些模型正在進(jìn)行中,研究人員正在尋求改進(jìn)單個(gè)模型以及將它們與其他模型和處理技術(shù)相結(jié)合的方法。Lev預(yù)測(cè),生成模型將變得更加通用,應(yīng)用程序?qū)U(kuò)展到傳統(tǒng)領(lǐng)域之外,用戶還可以更有效地指導(dǎo)AI模型,并了解它們?nèi)绾胃玫毓ぷ鳌?/span>
在多模態(tài)模型上也有工作正在進(jìn)行中,這些模型使用檢索方法來調(diào)用針對(duì)特定任務(wù)優(yōu)化的模型庫(kù)。他還希望生成模型能夠開發(fā)其他功能,例如進(jìn)行API調(diào)用和使用外部工具,例如,根據(jù)公司的呼叫中心知識(shí)微調(diào)的LLM將提供問題的答案并執(zhí)行故障排除,例如重置客戶調(diào)制解調(diào)器或在問題解決時(shí)發(fā)送電子郵件。
事實(shí)上,今天流行的模型架構(gòu)最終可能會(huì)在未來被更高效的東西所取代。“當(dāng)新架構(gòu)出現(xiàn)時(shí),也許Diffusion和Transformer模型將不再有用,”懷特說。我們?cè)贒iffusion上看到了這一點(diǎn),因?yàn)樗鼈兊囊胧沟瞄L(zhǎng)短期記憶算法和RNN(遞歸神經(jīng)網(wǎng)絡(luò))對(duì)自然語(yǔ)言應(yīng)用的方法不太有利。
有人預(yù)測(cè),生成AI生態(tài)系統(tǒng)將演變?yōu)槿龑幽P?,基礎(chǔ)層是一系列基于文本、圖像、語(yǔ)音和代碼的基礎(chǔ)模型,這些模型攝取大量數(shù)據(jù),基于大型深度學(xué)習(xí)模型構(gòu)建,并結(jié)合了人類判斷。接下來,特定于行業(yè)和功能的領(lǐng)域模型將改善醫(yī)療保健、法律或其他類型的數(shù)據(jù)的處理。在頂層,公司將使用專有數(shù)據(jù)及其主題專業(yè)知識(shí)來構(gòu)建專有模型。這三個(gè)層將顛覆團(tuán)隊(duì)開發(fā)模型的方式,并將迎來模型即服務(wù)的新時(shí)代。
如何選擇生成式 AI 模型:首要注意事項(xiàng)
根據(jù)Sisense的Lev的說法,在模型之間進(jìn)行選擇時(shí)的首要考慮因素包括以下內(nèi)容:
您要解決的問題。選擇已知適用于您的特定任務(wù)的模型。例如,將轉(zhuǎn)換器用于語(yǔ)言任務(wù),將 NeRF 用于 3D 場(chǎng)景。
數(shù)據(jù)的數(shù)量和質(zhì)量。Diffusion需要大量良好的數(shù)據(jù)才能正常工作,而VAE則在數(shù)據(jù)較少的情況下工作得更好。
結(jié)果的質(zhì)量。GAN 更適合清晰和詳細(xì)的圖像,而 VAE 更適合更平滑的結(jié)果。
訓(xùn)練模型的難易程度。GAN可能很難訓(xùn)練,而VAE和Diffusion更容易。
計(jì)算資源要求。NeRF和Diffusion都需要大量的計(jì)算機(jī)能力才能正常工作。
需要控制和理解。如果您想更好地控制結(jié)果或更好地了解模型的工作原理,VAE 可能比 GAN 更好。