自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT引領(lǐng)AIGC!Lehigh最新《AI生成內(nèi)容》全面綜述,44頁詳述GAN到ChatGPT發(fā)展歷程

人工智能 新聞
最近,ChatGPT與DALL-E-2和Codex一起受到了社會(huì)的廣泛關(guān)注。因此,許多人對(duì)相關(guān)資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。

ChatGPT和其他生成式AI (GAI)技術(shù)屬于人工智能生成內(nèi)容(AIGC)的范疇,它涉及通過AI模型創(chuàng)建數(shù)字內(nèi)容,如圖像、音樂和自然語言。AIGC的目標(biāo)是使內(nèi)容創(chuàng)建過程更加高效和可訪問,允許以更快的速度生產(chǎn)高質(zhì)量的內(nèi)容。AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據(jù)其知識(shí)和意圖信息生成內(nèi)容來實(shí)現(xiàn)的。

近年來,大規(guī)模模型在AIGC中變得越來越重要,因?yàn)樗鼈兲峁┝烁玫囊鈭D提取,從而改善了生成結(jié)果。隨著數(shù)據(jù)和模型規(guī)模的增長(zhǎng),模型可以學(xué)習(xí)的分布變得更加全面和接近現(xiàn)實(shí),從而產(chǎn)生更加真實(shí)和高質(zhì)量的內(nèi)容。

本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進(jìn)展,從單模態(tài)交互和多模態(tài)交互。從單模態(tài)的角度,介紹了文本和圖像的生成任務(wù)和相關(guān)模型。從多模態(tài)的角度出發(fā),介紹上述模態(tài)之間的交叉應(yīng)用。最后討論了AIGC存在的開放問題和未來的挑戰(zhàn)。

圖片

論文地址:https://arxiv.org/abs/2303.04226

引言

近年來,人工智能生成內(nèi)容(Artificial Intelligence Generated Content, AIGC)受到了計(jì)算機(jī)科學(xué)界以外的廣泛關(guān)注,全社會(huì)開始關(guān)注大型科技公司[3]構(gòu)建的各種內(nèi)容生成產(chǎn)品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級(jí)生成AI (GAI)技術(shù)生成的內(nèi)容,而不是由人類作者創(chuàng)建的內(nèi)容,AIGC可以在短時(shí)間內(nèi)自動(dòng)創(chuàng)建大量?jī)?nèi)容。例如,ChatGPT是OpenAI開發(fā)的用于構(gòu)建對(duì)話式人工智能系統(tǒng)的語言模型,可以有效地理解并以有意義的方式響應(yīng)人類的語言輸入。此外,DALL-E-2是另一個(gè)最先進(jìn)的GAI模型,也是由OpenAI開發(fā)的,它能夠在幾分鐘內(nèi)從文本描述中創(chuàng)建獨(dú)特的高質(zhì)量圖像,如圖1所示的“一個(gè)宇航員以逼真的風(fēng)格騎馬”。隨著AIGC的卓越成就,許多人認(rèn)為這將是人工智能的新時(shí)代,并將對(duì)整個(gè)世界產(chǎn)生重大影響。

圖片

從技術(shù)上講,AIGC是指給定人工指令,可以幫助教學(xué)和指導(dǎo)模型完成任務(wù),利用GAI算法生成滿足指令的內(nèi)容。該生成過程通常包括兩個(gè)步驟:從人工指令中提取意圖信息和根據(jù)提取的意圖生成內(nèi)容。然而,如之前的研究[6,7]所示,包含上述兩個(gè)步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進(jìn)展是在更大的數(shù)據(jù)集上訓(xùn)練更復(fù)雜的生成模型,使用更大的基礎(chǔ)模型架構(gòu),并能夠訪問廣泛的計(jì)算資源。例如,GPT-3的主框架保持與GPT-2相同,但預(yù)訓(xùn)練數(shù)據(jù)大小從WebText [8](38GB)增長(zhǎng)到CommonCrawl[9](過濾后570GB),基礎(chǔ)模型大小從1.5B增長(zhǎng)到175B。因此,在人類意圖提取等任務(wù)上,GPT-3比GPT-2具有更好的泛化能力。

除了數(shù)據(jù)量和計(jì)算能力增加帶來的好處,研究人員還在探索將新技術(shù)與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)[10-12]來確定給定指令的最適當(dāng)響應(yīng),從而隨著時(shí)間的推移提高模型的可靠性和準(zhǔn)確性。這種方法使ChatGPT能夠更好地理解人類在長(zhǎng)對(duì)話中的偏好。同時(shí),在計(jì)算機(jī)視覺領(lǐng)域,由Stability提出了穩(wěn)定擴(kuò)散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴(kuò)散模型可以通過控制探索和利用之間的權(quán)衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓(xùn)練數(shù)據(jù)的相似性和諧地結(jié)合起來。

結(jié)合這些進(jìn)展,模型在AIGC任務(wù)上取得了顯著進(jìn)展,并被應(yīng)用于各個(gè)行業(yè),包括藝術(shù)[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續(xù)成為機(jī)器學(xué)習(xí)的一個(gè)重要研究領(lǐng)域。因此,對(duì)過去的研究進(jìn)行廣泛的調(diào)研并確定該領(lǐng)域的開放問題至關(guān)重要。對(duì)AIGC領(lǐng)域的核心技術(shù)和應(yīng)用進(jìn)行了綜述。

這是對(duì)AIGC的首次全面綜述,從技術(shù)和應(yīng)用兩個(gè)方面對(duì)GAI進(jìn)行了總結(jié)。之前的研究從不同的角度關(guān)注GAI,包括自然語言生成[17],圖像生成[18],多模態(tài)機(jī)器學(xué)習(xí)中的生成[7,19]。然而,之前的工作只關(guān)注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎(chǔ)技術(shù)。進(jìn)一步對(duì)先進(jìn)的GAI算法進(jìn)行了全面的總結(jié),包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應(yīng)用和潛在挑戰(zhàn)。最后指出了該領(lǐng)域存在的問題和未來的研究方向。綜上所述,本文的主要貢獻(xiàn)如下:

  • 據(jù)我們所知,我們是第一個(gè)為AIGC和AI增強(qiáng)生成過程提供正式定義和徹底調(diào)研的人。
  • 回顧了AIGC的歷史和基礎(chǔ)技術(shù),并從單模態(tài)生成和多模態(tài)生成的角度對(duì)GAI任務(wù)和模型的最新進(jìn)展進(jìn)行了全面分析。
  • 討論了AIGC面臨的主要挑戰(zhàn)以及AIGC未來的研究趨勢(shì)。

調(diào)研的其余部分組織如下。第二節(jié)主要從視覺模態(tài)和語言模態(tài)兩個(gè)方面回顧了AIGC的歷史。第3節(jié)介紹了目前在GAI模型訓(xùn)練中廣泛使用的基本組件。第4節(jié)總結(jié)了GAI模型的最新進(jìn)展,其中第4.1節(jié)從單模態(tài)角度回顧了進(jìn)展,第4.2節(jié)從多模態(tài)生成的角度回顧了進(jìn)展。在多模態(tài)生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節(jié)和第6節(jié)介紹了GAI模型在AIGC中的應(yīng)用以及與該領(lǐng)域相關(guān)的一些重要研究。第7、8節(jié)揭示了AIGC技術(shù)存在的風(fēng)險(xiǎn)、存在的問題和未來的發(fā)展方向。最后,我們?cè)?中總結(jié)了我們的研究。

生成式人工智能的歷史

生成模型在人工智能領(lǐng)域有著悠久的歷史,可以追溯到20世紀(jì)50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發(fā)展。這些模型生成了語音和時(shí)間序列等順序數(shù)據(jù)。然而,直到深度學(xué)習(xí)的出現(xiàn),生成模型才在性能上看到了顯著的改進(jìn)。

圖片

在早期的深度生成模型中,不同的領(lǐng)域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統(tǒng)的生成句子的方法是使用N-gram語言建模[22]學(xué)習(xí)單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應(yīng)長(zhǎng)句子。為了解決這個(gè)問題,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[23]后來被引入到語言建模任務(wù)中,允許對(duì)相對(duì)較長(zhǎng)的依賴關(guān)系進(jìn)行建模。隨后,長(zhǎng)短期記憶(LSTM)[24]和門控循環(huán)單元(GRU)[25]的發(fā)育,它們利用門控機(jī)制在訓(xùn)練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個(gè)標(biāo)記,與N-gram語言模型相比,這是一個(gè)顯著的改進(jìn)。

同時(shí),在計(jì)算機(jī)視覺(CV)領(lǐng)域,在基于深度學(xué)習(xí)的方法出現(xiàn)之前,傳統(tǒng)的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術(shù)。這些算法基于手工設(shè)計(jì)的特征,在生成復(fù)雜多樣的圖像方面能力有限。2014年,生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應(yīng)用中取得了令人印象深刻的結(jié)果,是該領(lǐng)域的一個(gè)重要里程碑。變分自動(dòng)編碼器(vae)[30]和其他方法,如擴(kuò)散生成模型[31],也已開發(fā)用于對(duì)圖像生成過程進(jìn)行更細(xì)粒度的控制和生成高質(zhì)量圖像的能力

生成模型在不同領(lǐng)域的發(fā)展遵循不同的路徑,但最終出現(xiàn)了交叉的問題:transformer架構(gòu)[32]。Vaswani等人在2017年引入了NLP任務(wù),Transformer后來被應(yīng)用于CV中,然后成為不同領(lǐng)域許多生成模型的主要骨干[9,33,34]。在NLP領(lǐng)域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構(gòu)作為其主要的構(gòu)建塊,比之前的構(gòu)建塊(如LSTM和GRU)具有優(yōu)勢(shì)。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構(gòu)與視覺組件相結(jié)合,進(jìn)一步發(fā)展了這一概念,使其可以應(yīng)用于基于圖像的下游。除了transformer給單個(gè)模態(tài)帶來的改進(jìn)之外,這種交叉還使來自不同領(lǐng)域的模型能夠融合在一起,以完成多模態(tài)任務(wù)。多模態(tài)模型的一個(gè)例子是CLIP[37]。CLIP是一種視覺-語言聯(lián)合模型,將transformer架構(gòu)與視覺組件相結(jié)合,允許它在大量文本和圖像數(shù)據(jù)上進(jìn)行訓(xùn)練。由于它在預(yù)訓(xùn)練時(shí)結(jié)合了視覺和語言知識(shí),因此也可以作為多模態(tài)提示生成中的圖像編碼器??偠灾趖ransformer的模型的出現(xiàn)徹底改變了人工智能的產(chǎn)生,并導(dǎo)致了大規(guī)模訓(xùn)練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術(shù)。例如,在NLP中,人們有時(shí)喜歡少樣本提示[38],而不是微調(diào),這是指在提示中包括從數(shù)據(jù)集中選擇的一些示例,以幫助模型更好地理解任務(wù)需求。在視覺語言中,研究人員經(jīng)常將特定模態(tài)模型與自監(jiān)督對(duì)比學(xué)習(xí)目標(biāo)相結(jié)合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會(huì)有越來越多的技術(shù)被引入,讓這個(gè)領(lǐng)域充滿活力。

圖片

生成式人工智能

我們將介紹最先進(jìn)的單模態(tài)生成模型。這些模型被設(shè)計(jì)為接受特定的原始數(shù)據(jù)模態(tài)作為輸入,例如文本或圖像,然后以與輸入相同的模態(tài)生成預(yù)測(cè)。我們將討論這些模型中使用的一些最有前途的方法和技術(shù),包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

圖片

多模態(tài)模型

多模態(tài)生成是當(dāng)今AIGC的重要組成部分。多模態(tài)生成的目標(biāo)是通過學(xué)習(xí)數(shù)據(jù)[7]的多模態(tài)連接和交互來學(xué)習(xí)生成原始模態(tài)的模型。模態(tài)之間的這種連接和相互作用有時(shí)是非常復(fù)雜的,這使得多模態(tài)表示空間與單模態(tài)表示空間相比很難學(xué)習(xí)。然而,隨著前面提到的強(qiáng)大的特定于模式的基礎(chǔ)架構(gòu)的出現(xiàn),越來越多的方法被提出來應(yīng)對(duì)這一挑戰(zhàn)。在本節(jié)中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進(jìn)的多模態(tài)模型。由于大多數(shù)多模態(tài)生成模型總是與實(shí)際應(yīng)用高度相關(guān),本節(jié)主要從下游任務(wù)的角度進(jìn)行介紹。

圖片

應(yīng)用


圖片

效率

在過去的十年中,具有神經(jīng)網(wǎng)絡(luò)的深度生成式人工智能模型一直主導(dǎo)著機(jī)器學(xué)習(xí)領(lǐng)域,其崛起歸功于2012年的ImageNet競(jìng)賽[210],這導(dǎo)致了一場(chǎng)創(chuàng)建更深入和更復(fù)雜模型的競(jìng)賽。這種趨勢(shì)也出現(xiàn)在自然語言理解領(lǐng)域,像BERT和GPT-3這樣的模型已經(jīng)開發(fā)出了大量參數(shù)。然而,不斷增加的模型占用空間和復(fù)雜性,以及訓(xùn)練和部署所需的成本和資源,給現(xiàn)實(shí)世界中的實(shí)際部署帶來了挑戰(zhàn)。核心挑戰(zhàn)是效率,可以分解如下:

  • 推理效率: 這與部署用于推理的模型的實(shí)際考慮有關(guān),即為給定的輸入計(jì)算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關(guān)。
  • 訓(xùn)練效率: 這涵蓋了影響訓(xùn)練模型的速度和資源需求的因素,如訓(xùn)練時(shí)間、內(nèi)存占用和跨多個(gè)設(shè)備的可伸縮性。它還可能包括考慮在給定任務(wù)上實(shí)現(xiàn)最佳性能所需的數(shù)據(jù)量。
責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-03-30 13:51:42

AIChatGPT

2023-02-28 11:19:35

CHATGPT人工智能

2023-02-28 13:09:53

訓(xùn)練模型

2023-12-07 11:11:01

2023-02-07 13:24:42

應(yīng)用學(xué)習(xí)

2023-06-03 21:06:05

2024-01-09 12:53:40

數(shù)據(jù)模型

2023-10-17 08:42:13

ChatGPT定制指令

2023-03-07 07:45:28

2023-02-20 09:29:30

ChatGPTAI

2023-09-05 06:34:36

2023-05-06 08:23:36

ChatGPT自然語言技術(shù)

2023-04-10 10:28:33

ChatGPTAI風(fēng)險(xiǎn)管理計(jì)劃

2023-02-08 10:57:16

模型技術(shù)

2010-01-11 17:21:18

2022-12-06 13:56:03

AI模型

2023-02-22 15:06:44

AI智能

2023-04-03 15:05:00

自然語言AI

2023-04-25 10:09:55

人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)