自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文看盡SOTA生成式模型:九大類別21個(gè)模型全回顧!

人工智能
在大公司參與初創(chuàng)企業(yè)方面,可以看到微軟向OpenAI投資了10億美元,并幫助他們開(kāi)發(fā)模型;同樣,谷歌在2014年收購(gòu)了Deepmind。

過(guò)去的兩年時(shí)間里,AI界的大型生成模型發(fā)布呈井噴之勢(shì),尤其是Stable Diffusion開(kāi)源和ChatGPT開(kāi)放接口后,更加激發(fā)了業(yè)界對(duì)生成式模型的熱情。

但生成式模型種類繁多,發(fā)布速度也非常快,稍不留神就有可能錯(cuò)過(guò)了sota

圖片

最近,來(lái)自西班牙科米利亞斯主教大學(xué)的研究人員全面回顧了各個(gè)領(lǐng)域內(nèi)AI的最新進(jìn)展,將生成式模型按照任務(wù)模態(tài)、領(lǐng)域分為了九大類,并總結(jié)了2022年發(fā)布的21個(gè)生成式模型,一次看明白生成式模型的發(fā)展脈絡(luò)!

圖片

論文鏈接:https://arxiv.org/abs/2301.04655

生成式AI分類

模型可以按照輸入和輸出的數(shù)據(jù)類型進(jìn)行分類,目前主要包括9類。

圖片

有趣的是,在這些已發(fā)布大模型的背后,只有六個(gè)組織(OpenAI, Google, DeepMind, Meta, runway, Nvidia)參與部署了這些最先進(jìn)的模型。

圖片

其主要原因是,為了能夠估計(jì)這些模型的參數(shù),必須擁有極其龐大的計(jì)算能力,以及在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程方面高度熟練且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。

因此,也只有這些公司,在收購(gòu)的初創(chuàng)公司和與學(xué)術(shù)界合作的幫助下,能夠成功部署生成式人工智能模型。

在大公司參與初創(chuàng)企業(yè)方面,可以看到微軟向OpenAI投資了10億美元,并幫助他們開(kāi)發(fā)模型;同樣,谷歌在2014年收購(gòu)了Deepmind。

在大學(xué)方面,VisualGPT是由阿卜杜拉國(guó)王科技大學(xué)(KAUST)、卡內(nèi)基梅隆大學(xué)和南洋理工大學(xué)開(kāi)發(fā)的,Human Motion Diffusion模型是由以色列特拉維夫大學(xué)開(kāi)發(fā)的。

同樣,其他項(xiàng)目也是由一家公司與一所大學(xué)合作開(kāi)發(fā)的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大學(xué)合作開(kāi)發(fā);Soundify由Runway和卡內(nèi)基梅隆大學(xué)合作開(kāi)發(fā);DreamFusion由谷歌和加州大學(xué)伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI開(kāi)發(fā)的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實(shí)、逼真的圖像和藝術(shù),而且OpenAI已經(jīng)對(duì)外提供了API來(lái)訪問(wèn)該模型。

DALL-E 2特別之處在于它能夠?qū)⒏拍睢傩院筒煌L(fēng)格結(jié)合起來(lái),其能力源于語(yǔ)言-圖像預(yù)訓(xùn)練模型CLIP神經(jīng)網(wǎng)絡(luò),從而可以用自然語(yǔ)言來(lái)指示最相關(guān)的文本片段。

圖片

具體來(lái)說(shuō),CLIP embedding有幾個(gè)理想的屬性:能夠?qū)D像分布進(jìn)行穩(wěn)定的轉(zhuǎn)換;具有強(qiáng)大的zero-shot能力;并且在微調(diào)后實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

為了獲得一個(gè)完整的圖像生成模型,CLIP圖像embedding解碼器模塊與一個(gè)先驗(yàn)?zāi)P拖嘟Y(jié)合,從一個(gè)給定的文本標(biāo)題中生成相關(guān)CLIP圖像embedding

圖片

其他的模型還包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

對(duì)于某些行業(yè),僅能生成2D圖像還無(wú)法完成自動(dòng)化,比如游戲領(lǐng)域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research開(kāi)發(fā),使用預(yù)先訓(xùn)練好的2D文本到圖像的擴(kuò)散模型來(lái)進(jìn)行文本到3D的合成。

Dreamfusion使用一個(gè)從二維擴(kuò)散模型的蒸餾中得到的損失取代了CLIP技術(shù),即擴(kuò)散模型可以作為一個(gè)通用的連續(xù)優(yōu)化問(wèn)題中的損失來(lái)生成樣本。

圖片

相比其他方法主要是對(duì)像素進(jìn)行采樣,在參數(shù)空間的采樣比在像素空間的采樣要難得多,DreamFusion使用了一個(gè)可微的生成器,專注于創(chuàng)建從隨機(jī)角度渲染圖像的三維模型。

圖片

其他模型如Magic3D由英偉達(dá)公司開(kāi)發(fā)。

Image-to-Text模型

獲得一個(gè)描述圖像的文本也是很有用的,相當(dāng)于圖像生成的逆版本。

Flamingo

該模型由Deepmind開(kāi)發(fā),在開(kāi)放式的視覺(jué)語(yǔ)言任務(wù)上,只需通過(guò)一些輸入/輸出例子的提示,即可進(jìn)行few-shot學(xué)習(xí)。

圖片

具體來(lái)說(shuō),F(xiàn)lamingo的輸入包含視覺(jué)條件下的自回歸文本生成模型,能夠接收與圖像或視頻交錯(cuò)的文本token序列,并生成文本作為輸出。

用戶可以向模型輸入query,并附上一張照片或一段視頻,模型就會(huì)用文本答案來(lái)回答。

圖片

Flamingo模型利用了兩個(gè)互補(bǔ)的模型:一個(gè)是分析視覺(jué)場(chǎng)景的視覺(jué)模型,一個(gè)是執(zhí)行基本推理形式的大型語(yǔ)言模型。

VisualGPT

VisualGPT是一個(gè)由OpenAI開(kāi)發(fā)的圖像描述模型,能夠利用預(yù)訓(xùn)練語(yǔ)言模型GPT-2中的知識(shí)。

為了彌合不同模態(tài)之間的語(yǔ)義差距,研究人員設(shè)計(jì)了一個(gè)全新的編碼器-解碼器注意力機(jī)制,具有整流門控功能。

圖片

VisualGPT最大的優(yōu)點(diǎn)是它不需要像其他圖像到文本模型那樣多的數(shù)據(jù),能夠提高圖像描述模型的數(shù)據(jù)效率,能夠在小眾領(lǐng)域得到應(yīng)用或?qū)ι僖?jiàn)的物體的進(jìn)行描述。

Text-to-Video模型

Phenaki

該模型由Google Research開(kāi)發(fā)制作,可以在給定一連串文字提示的情況下,進(jìn)行真實(shí)的視頻合成。

Phenaki是第一個(gè)能夠從開(kāi)放域時(shí)間變量提示中生成視頻的模型。

為了解決數(shù)據(jù)問(wèn)題,研究人員在一個(gè)大型的圖像-文本對(duì)數(shù)據(jù)集以及數(shù)量較少的視頻-文本例子上進(jìn)行聯(lián)合訓(xùn)練,最終獲得了超越視頻數(shù)據(jù)集中的泛化能力。

主要是圖像-文本數(shù)據(jù)集往往有數(shù)十億的輸入數(shù)據(jù),而文本-視頻數(shù)據(jù)集則小得多,并且對(duì)不同長(zhǎng)度的視頻進(jìn)行計(jì)算也是一個(gè)難題。

圖片

Phenaki模型包含三個(gè)部分:C-ViViT編碼器、訓(xùn)練Transformer和視頻生成器。

圖片

將輸入token轉(zhuǎn)換為embedding后,接著經(jīng)過(guò)時(shí)序Transformer和空間Transformer,再使用一個(gè)沒(méi)有激活的單一線性投影,將token映射回像素空間。

最終模型可以生成以開(kāi)放域提示為條件的時(shí)間連貫性和多樣性的視頻,甚至能夠處理一些數(shù)據(jù)集中不存在的新概念。

相關(guān)模型包括Soundify.

Text-to-Audio模型

對(duì)于視頻生成來(lái)說(shuō),聲音也是必不可缺的部分。

AudioLM

該模型是由谷歌開(kāi)發(fā),可用于生成高質(zhì)量的音頻,并具有長(zhǎng)距離一致性。

AudioLM的特別之處在于將輸入的音頻映射成一個(gè)離散的token序列,并將音頻生成作為該表示空間的語(yǔ)言建模任務(wù)。

通過(guò)對(duì)原始音頻波形的大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,AudioLM成功學(xué)會(huì)了在簡(jiǎn)短的提示下生成自然和連貫的連續(xù)的語(yǔ)音。這種方法甚至可以擴(kuò)展到人聲之外的語(yǔ)音,比如連續(xù)的鋼琴音樂(lè)等等,而不需要在訓(xùn)練時(shí)添加符號(hào)表示。

圖片

由于音頻信號(hào)涉及多個(gè)尺度(scale)的抽象,所以音頻合成時(shí)使得多尺度在顯示一致性的同時(shí)實(shí)現(xiàn)高音頻質(zhì)量非常具有挑戰(zhàn)性。AudioLM模型通過(guò)結(jié)合神經(jīng)音頻壓縮、自監(jiān)督表示學(xué)習(xí)和語(yǔ)言建模方面的最新進(jìn)展來(lái)實(shí)現(xiàn)。

在主觀評(píng)價(jià)方面,評(píng)分者被要求聽(tīng)一個(gè)10秒的樣本,并決定它是人類講話還是合成的語(yǔ)音?;谑占降?000個(gè)評(píng)分,比率為51.2%,與隨機(jī)分配標(biāo)簽沒(méi)有統(tǒng)計(jì)學(xué)差異,即人類無(wú)法區(qū)分合成和真實(shí)的樣本。

其他相關(guān)模型包括Jukebox和Whisper

Text-to-Text模型

問(wèn)答任務(wù)常用。

ChatGPT

廣受歡迎的ChatGPT由OpenAI開(kāi)發(fā),以對(duì)話的方式與用戶進(jìn)行互動(dòng)。

用戶提出一個(gè)問(wèn)題,或是提示文本的前半部分,模型會(huì)補(bǔ)全后續(xù)部分,并且能夠識(shí)別出不正確的輸入前提并拒絕不恰當(dāng)?shù)恼?qǐng)求。

具體來(lái)說(shuō),ChatGPT背后的算法是Transformer,訓(xùn)練過(guò)程主要是人類反饋的強(qiáng)化學(xué)習(xí)。

圖片

最初的模型是使用監(jiān)督學(xué)習(xí)下的微調(diào)來(lái)訓(xùn)練的,然后由人類來(lái)提供對(duì)話,在對(duì)話中他們互相扮演用戶和人工智能助理,然后由人修正模型返回的回復(fù),并用正確的答案幫助模型改進(jìn)。

將制作的數(shù)據(jù)集與InstructGPT的數(shù)據(jù)集混合在一起,轉(zhuǎn)換為對(duì)話格式。

其他相關(guān)模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text類似,只不過(guò)生成的是特殊類型的文本,即代碼。

Codex

該模型由OpenAI開(kāi)發(fā),可以將文本翻譯成代碼。

Codex是一種通用的編程模型,基本上可以應(yīng)用于任何編程任務(wù)。

人類在編程時(shí)的活動(dòng)可以分為兩部分:1)將一個(gè)問(wèn)題分解成更簡(jiǎn)單的問(wèn)題;2)將這些問(wèn)題映射到已經(jīng)存在的現(xiàn)有代碼(庫(kù)、API或函數(shù))中。

其中第二部分是對(duì)程序員來(lái)說(shuō)最浪費(fèi)時(shí)間的部分,也是Codex最擅長(zhǎng)的地方。

圖片

訓(xùn)練數(shù)據(jù)于2020年5月從GitHub上托管的公共軟件庫(kù)中進(jìn)行收集,包含179GB的Python文件,并在GPT-3的基礎(chǔ)上進(jìn)行微調(diào),其中已經(jīng)包含了強(qiáng)大的自然語(yǔ)言表征。

相關(guān)模型還包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目標(biāo)之一,但要取得成果仍然有很長(zhǎng)的路要走。

Galactica

該模型是由Meta AI和Papers with Code聯(lián)合開(kāi)發(fā)的,可用于自動(dòng)組織科學(xué)文本的大型模型。

Galactica的主要優(yōu)勢(shì)在于即便進(jìn)行多個(gè)episode的訓(xùn)練后,模型仍然不會(huì)過(guò)擬合,并且上游和下游的性能會(huì)隨著token的重復(fù)使用而提高。

并且數(shù)據(jù)集的設(shè)計(jì)對(duì)該方法至關(guān)重要,因?yàn)樗械臄?shù)據(jù)都是以通用的markdown格式處理的,從而能夠混合不同來(lái)源的知識(shí)。

圖片

引文(citations)通過(guò)一個(gè)特定的token來(lái)處理,使得研究人員可以在任何輸入上下文中預(yù)測(cè)一個(gè)引文。Galactica模型預(yù)測(cè)引文的能力會(huì)隨著規(guī)模的提升而提高。

此外,該模型在僅有解碼器的設(shè)置中使用了一個(gè)Transformer架構(gòu),對(duì)所有尺寸的模型進(jìn)行了GeLU激活,從而可以執(zhí)行涉及SMILES化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù),

Minerva

Minerva的主要目的就是解決決數(shù)學(xué)和科學(xué)問(wèn)題,為此收集了大量的訓(xùn)練數(shù)據(jù),并解決了定量推理問(wèn)題,大規(guī)模模型開(kāi)發(fā)問(wèn)題,還采用了一流的推理技術(shù)。

Minerva采樣語(yǔ)言模型架構(gòu)通過(guò)使用step-by-step推理來(lái)解決輸入的問(wèn)題,即輸入是需要包含計(jì)算和符號(hào)操作,而不用引入外部工具。

其他模型

還有一些模型不屬于前面提到的類別。

AlphaTensor

由Deepmind公司開(kāi)發(fā),因其發(fā)現(xiàn)新算法的能力,在業(yè)界是一個(gè)完全革命性的模型。

在已公布的例子中,AlphaTensor創(chuàng)造了一種更有效的矩陣乘法算法。這種算法非常重要,從神經(jīng)網(wǎng)絡(luò)到科學(xué)計(jì)算程序都可以從這種高效率的乘法計(jì)算中受益。

圖片

該方法基于深度強(qiáng)化學(xué)習(xí)方法,其中智能體AlphaTensor的訓(xùn)練過(guò)程就是玩一個(gè)單人游戲,目標(biāo)是在有限的因子空間內(nèi)尋找張量分解。

在TensorGame的每一步,玩家需要選擇如何結(jié)合矩陣的不同entries來(lái)進(jìn)行乘法,并根據(jù)達(dá)到正確的乘法結(jié)果所需的操作數(shù)量來(lái)獲得獎(jiǎng)勵(lì)分?jǐn)?shù)。AlphaTensor使用一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)利用合成訓(xùn)練游戲(synthetic training game)的對(duì)稱性。

GATO

該模型是由Deepmind開(kāi)發(fā)的通用智能體,它可以作為一個(gè)多模態(tài)、多任務(wù)或多embodiment泛化策略來(lái)使用。

具有相同權(quán)重的同一個(gè)網(wǎng)絡(luò)可以承載非常不同的能力,從玩雅達(dá)利游戲、描述圖片、聊天、堆積木等等。

圖片

在所有任務(wù)中使用單一的神經(jīng)序列模型有很多好處,減少了手工制作具有自身歸納偏見(jiàn)策略模型的需要,并增加了訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

這種通用智能體在大量任務(wù)中都取得了成功,并且可以用很少的額外數(shù)據(jù)進(jìn)行調(diào)整,以便在更多的任務(wù)中取得成功。

目前GATO大約有1.2B個(gè)參數(shù),可以實(shí)時(shí)控制現(xiàn)實(shí)世界機(jī)器人的模型規(guī)模。

圖片

其他已發(fā)表的生成性人工智能模型包括生成human motion等。

參考資料:https://arxiv.org/abs/2301.04655

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-09-04 16:19:06

語(yǔ)言模型統(tǒng)計(jì)語(yǔ)言模型

2020-01-07 14:24:18

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-01-04 14:59:50

AIAI技術(shù)機(jī)器學(xué)習(xí)

2020-01-30 10:30:32

AI 數(shù)據(jù)人工智能

2022-07-26 00:00:03

語(yǔ)言模型人工智能

2025-03-04 09:10:00

RAG大模型AI

2024-05-29 12:13:50

2022-04-29 14:35:05

模型自然語(yǔ)言計(jì)算機(jī)

2024-09-13 17:02:29

2023-09-12 07:02:19

騰訊混元大模型

2024-08-05 13:00:00

2024-09-19 09:12:50

RAG系統(tǒng)技術(shù)

2024-12-11 12:58:57

2023-05-16 12:11:22

2023-12-27 14:03:48

2024-05-11 08:18:49

2023-04-10 11:35:31

評(píng)估模型業(yè)務(wù)流程

2025-04-07 08:40:00

開(kāi)源Llama 4大模型

2022-07-03 08:25:09

OSITCP/IP

2023-04-18 23:33:46

分類模型辨別式模型生成式模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)