系統(tǒng)回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴散模型和Transformer系列 精華
ChatGPT的推出引起了全球關注,標志著生成人工智能領域的一個重要里程碑。盡管生成人工智能在過去十年中一直存在,但ChatGPT的引入引發(fā)了人工智能領域的新一輪研究和創(chuàng)新浪潮。這種興趣的激增導致了許多先進工具的開發(fā)和發(fā)布,如Bard、Stable Diffusion、DALL-E、Make-A-Video、Runway ML和Jukebox等。這些工具展示了卓越的能力,涵蓋了從文本生成和音樂創(chuàng)作,圖像創(chuàng)建,視頻制作,代碼生成,甚至科學工作等各種任務。它們建立在各種先進模型的基礎上,包括Stable Diffusion、變分自動編碼器、生成對抗網(wǎng)絡以及像GPT-3(最近的GPT-4)這樣的Transformer模型。生成人工智能的這一進展提供了豐富的令人興奮的機會,同時也帶來了前所未有的挑戰(zhàn)。在本文中,探討了這些先進模型,它們能夠完成的各種任務,它們帶來的挑戰(zhàn),以及生成人工智能充滿希望的未來。
引言
ChatGPT于2022年11月30日發(fā)布,引發(fā)了生成人工智能(GAI)在公眾中的突破性和廣泛的流行,標志著人工智能領域的一個顯著成就。這一卓越的成就可以追溯到1956年由麥卡錫主持的達特茅斯學院夏季項目,標志著人工智能的起源。這一努力的目標是開發(fā)具有執(zhí)行通常需要人類智能的任務的機器,包括計算機視覺、自然語言處理、機器人技術等。從那時以來,在使機器具備像人類一樣說話、行走、思考和行動的能力方面取得了重大進展。值得注意的是,一系列算法,包括回歸模型、感知器算法、決策樹、K最近鄰算法、樸素貝葉斯分類器、反向傳播、支持向量機(SVM)和隨機森林已經(jīng)出現(xiàn)。這些算法通常被稱為經(jīng)典/傳統(tǒng)機器學習算法,大多數(shù)在2000年之前開發(fā)。此外,深度學習算法也有了進展,包括20世紀80年代卷積神經(jīng)網(wǎng)絡(CNNs)的發(fā)展,20世紀85年循環(huán)神經(jīng)網(wǎng)絡(RNNs),1997年長短期記憶(LSTM)以及雙向長短期記憶(BiLSTM)。然而,直到最近,廣泛關注主要受到計算資源和數(shù)據(jù)集可用性限制的限制。
為了解決數(shù)據(jù)集有限的限制,斯坦福大學、普林斯頓大學和哥倫比亞大學的研究人員于2010年共同推出了ImageNet大規(guī)模視覺識別挑戰(zhàn)。這次競賽在推動神經(jīng)網(wǎng)絡架構方面發(fā)揮了關鍵作用,特別關注卷積神經(jīng)網(wǎng)絡(CNNs)。從那時起,CNN已經(jīng)被確立為圖像分類和計算機視覺的算法。2012年AlexNet的突破性成就標志著深度學習在計算機視覺任務中的實際應用取得了重要進展。ImageNet競賽的成功引發(fā)了對深度學習研究的興趣和投資的激增。
這種新發(fā)熱潮導致了不斷發(fā)展的改進架構創(chuàng)新,包括ResNet、DenseNet、MobileNet和EfficientNet等模型。這些模型為各種尖端技術設立了標桿,例如遷移學習、持續(xù)學習、注意機制、自監(jiān)督學習和生成人工智能。
在2014年之前,所有現(xiàn)有的深度學習模型主要是描述性的,側重于總結或表示現(xiàn)有數(shù)據(jù)的模式和關系。這些模型旨在解釋數(shù)據(jù)模式并基于現(xiàn)有信息進行預測。然而,Goodfellow等人在2014年引入了生成對抗網(wǎng)絡(GAN),開啟了生成人工智能(GAI)實現(xiàn)的新時代。與它們的描述性對應物不同,生成模型(例如GANs)的設計目標是學習數(shù)據(jù)的概率分布。它們的主要目標是生成新的數(shù)據(jù)樣本,這些樣本與訓練數(shù)據(jù)中觀察到的模式密切相似。
GAN的突破標志著與傳統(tǒng)深度學習方法的顯著分離,為生成人工智能帶來了令人興奮的可能性。由于其在生活的各個領域產(chǎn)生的轉變性影響,GAI自那時以來一直引起廣泛關注。它為復雜問題提供了優(yōu)雅的解決方案,使合成數(shù)據(jù)、藝術內容和逼真模擬成為可能。這種對人工智能技術的范式轉變深刻影響了對人工智能的新認知、實施和利用,引發(fā)了跨行業(yè)的創(chuàng)新和新的應用機會。
GAI的出現(xiàn)引發(fā)了許多問題,促使對其進行全面探討。在這方面,本文旨在深入探討GAI的最新技術,包括模型、任務分類、應用領域、影響領域、挑戰(zhàn)和前景。為了實現(xiàn)這一目標,將介紹當代生成模型,生成人工智能中的各種任務。以及審視生成人工智能的各種應用,并深入探討了生成人工智能的前景。最后,提供結論。
生成模型
在當代,研究人員的關注已從判別學習轉向生成學習。出現(xiàn)了多個生成模型,具有生成新數(shù)據(jù)點的能力,這些數(shù)據(jù)點類似于基于學習它們的分布的訓練數(shù)據(jù)輸入。討論下生成模型的當前最先進的理論和數(shù)學基礎。
自編碼器
自編碼器是一種無監(jiān)督的機器學習神經(jīng)網(wǎng)絡模型,它使用編碼器將輸入數(shù)據(jù)編碼成低維表示(編碼),然后使用解碼器將其解碼回原始形式(解碼),同時減少重構誤差。該模型最初被設計用于降維、特征提取、圖像去噪、圖像壓縮、圖像搜索、異常檢測和缺失值填補。
該模型的編碼器和解碼器都是神經(jīng)網(wǎng)絡,分別寫成輸入的函數(shù)和碼層的通用函數(shù)。根據(jù)下圖1,
自編碼器由四個組件組成,即:
? 編碼器:該組件將輸入數(shù)據(jù)降維壓縮為較低維度。由于其輸出,它創(chuàng)建了一個稱為“碼”的新層。
? 碼/瓶頸:包含輸入數(shù)據(jù)表示的壓縮和可能的最低維度的層??紤]下面的方程1。
其中是應用于輸入的用戶定義參數(shù)的函數(shù)f后的碼層。
? 解碼器:從較低維度的表示重構碼層到輸入。
其中 是編碼器輸出后的第二個通用函數(shù)到碼層。
? 重構損失:定義解碼器的最終輸出,衡量輸出與原始輸入的相似程度。
自編碼器的訓練涉及最小化輸入和輸出之間的不相似性,如方程3所示。
編碼器和解碼器由全連接的前饋神經(jīng)網(wǎng)絡組成,其中輸入、碼和輸出層分別由用戶定義的單個神經(jīng)網(wǎng)絡層構成。與其他標準神經(jīng)網(wǎng)絡一樣,自編碼器應用激活函數(shù),如sigmoid和ReLU。存在各種自編碼器的變體,例如收縮、去噪和稀疏自編碼器。通常,前面提到的普通自編碼器不是生成型的,因為它們不生成新數(shù)據(jù),而是復制輸入。然而,變分自編碼器是一種生成型的變體。
變分自編碼器
變分自編碼器(VAE)是由Kingma等人引入變分推理(一種用于近似復雜分布的統(tǒng)計技術)到自編碼器(AE)而演變而來的。它是一種生成模型,利用變分貝葉斯推理來描述使用概率分布生成數(shù)據(jù)。
與傳統(tǒng)的AE不同,VAE除了有一個編碼器和解碼器層外,還有一個額外的采樣層,如下圖2所示。
訓練VAE模型涉及將輸入編碼為潛在空間上的分布,并從分布采樣生成潛在向量。然后,解碼潛在向量,計算重構誤差,并通過網(wǎng)絡進行反向傳播。在訓練過程中,明確引入正則化以防止過擬合。
概率上,VAE由潛在表示 z 組成,如下圖3所示,
從先驗分布 p(z) 中抽取,數(shù)據(jù) x 從條件概率分布 p(x|z) 中抽取,該分布被稱為概率解碼器,可以表示為:
模型的推理通過使用貝葉斯定理計算潛在向量的后驗概率來進行檢驗,如方程5所示。
對于任何分布變體,如高斯分布,變分推理可以近似后驗概率,其近似的可靠性可以通過度量在近似過程中丟失的信息的Kullback-Leibler(KL)散度來評估。正如下表1所示,這個模型在各個領域都產(chǎn)生了顯著影響,突出顯示了使用VAE的一些杰出的最新技術示例。
Transformer
Vaswani等人在Google Brain團隊的開創(chuàng)性工作中提出的"Attention Is All You Need"引入了一種可以分析大規(guī)模數(shù)據(jù)集的Transformer模型。Transformer最初是為自然語言處理(NLP)而開發(fā)的,但隨后被改編用于機器學習的其他領域,如計算機視覺。該模型旨在解決循環(huán)神經(jīng)網(wǎng)絡(RNNs)和卷積神經(jīng)網(wǎng)絡(CNNs)的缺陷,如長距離依賴性、梯度消失、梯度爆炸、需要更大的訓練步驟以達到局部/全局極小值,以及不允許并行計算的事實。因此,提出的解決方案呈現(xiàn)了一種處理神經(jīng)網(wǎng)絡任務的新穎方式,如翻譯、內容生成和情感分析。
「Transformer架構」
?
Vaswani等人在他們的研究中引入了下圖4所示的三個主要概念,包括自注意力(self-attention),允許模型根據(jù)其重要性評估輸入序列,從而減少長距離依賴性;多頭注意力(multi-head attention),允許模型學習輸入序列的多個表示方式;以及詞嵌入(word embedding),將輸入轉化為向量。
「編碼器和解碼器」值得一提的是,Transformer架構(圖4)繼承了編碼器-解碼器結構,利用了堆疊的自注意力和point-wise層,以及編碼器和解碼器的全連接層。編碼器由N = 6個相同層的堆疊組成,每個層都有兩個子層,包括一個多頭自注意力機制和一個全連接的前饋網(wǎng)絡。解碼器類似于編碼器,但有一個額外的子層,用于屏蔽多頭注意力。編碼器和解碼器都對子層應用殘差連接,然后對層進行歸一化。
「自注意力」
注意力描述了通過關注句子或任何輸入的關鍵部分來更好地理解單詞上下文的機制。它涉及將查詢向量和一組鍵值對映射到輸出向量。根據(jù),自注意力是指縮放的點積注意力,包括查詢和鍵的維度 ,以及根據(jù)以下公式計算的值的維度 :
圖5描述了結構注意力,其中SoftMax激活函數(shù)用于計算值的權重。
「多頭注意力」
?
多頭注意力機制提出,自注意力可以以并行模式運行多次,通過查詢、鍵和值的不同表示子空間結合相同注意力池的知識。然后,獨立的注意力輸出被串聯(lián)并線性轉換為期望的維度,如方程7和圖6所示。
其中,
自從Transformer被發(fā)明以來,已經(jīng)開發(fā)了多個變體,用于解決計算機視覺和自然語言處理中的不同機器學習任務。值得注意的是,現(xiàn)代最先進的模型都是基于Transformer架構構建的。
1)生成預訓練Transformer(GPT)
生成預訓練Transformer(GPT)描述了基于Transformer的大語言模型(LLM),利用深度學習技術生成類似人類的文本。該模型由OpenAI于2018年引入,在Google于2017年發(fā)明Transformer之后。它由一堆Transformer解碼器組成。他們提出了一個模型,包括兩個階段:從大量文本語料庫中學習高容量語言模型,然后在判別任務期間使用帶標簽的數(shù)據(jù)進行微調,如下圖7所示。
GPT或GPT-1是在BooksCorpus數(shù)據(jù)集上訓練的,該數(shù)據(jù)集包含超過7,000本不同流派的未發(fā)表書籍,如冒險、奇幻和言情小說,所有書籍都有長段連續(xù)文本,使生成模型能夠學習長距離信息。該模型的訓練規(guī)格包括以下內容:
- 12層僅解碼器Transformer。
- 掩碼自注意頭(768維狀態(tài)和12個注意頭)。
- 位置逐層前饋網(wǎng)絡。
- Adam優(yōu)化。
- 學習速率:2.5e-4。
- 3072維內部狀態(tài)。
模型的評估任務來自自然語言處理(NLP)中的四個主要類別,包括自然語言推理、問答和常識推理、語義相似性和分類。在初始發(fā)布之后,OpenAI推出了一系列稱為GPT-n系列的變體模型,其中每個后繼模型都比前身更為重大和高效。GPT-4是最近在2023年3月發(fā)布的變體。
2)GPT-2
在GPT-1取得巨大成功后,OpenAI于2019年發(fā)布了第二個版本(GPT-2),具有15億個可學習參數(shù),比其在WebText上訓練的前身的預訓練語料庫和參數(shù)多十倍。因此,該模型能夠處理復雜問題,并在廣泛的主題和風格上生成連貫且上下文相關的文本。
3)GPT-3
這個版本于2020年發(fā)布,有2048 tokens的上下文,1750億可學習參數(shù),比其前身多100倍以上,并需要800GB的存儲。使用CommonCrawl對模型進行訓練,在NLP的所有領域進行了測試,并具有有希望的few-short和zero-shot性能。這個版本進一步改進為GPT 3.5,用于開發(fā)ChatGPT。已進行了大量的研究工作,涵蓋了從GPT-1到GPT-3.5的各種任務,如語音識別、文本生成、密碼學、計算機視覺和問答。
4)GPT-4
在2023年3月,OpenAI發(fā)布了最新的GPT模型,名為GPT-4。這是一個多模態(tài)Transformer模型,是一個大規(guī)模的語言模型,接受圖像和文本輸入并生成文本輸出。在許多專業(yè)和學術基準測試中,包括在高水平通過法律和醫(yī)學考試等,GPT-4表現(xiàn)出與人類相當?shù)母咝阅?。該模型是使用公開可用的互聯(lián)網(wǎng)數(shù)據(jù)和從第三方獲得的數(shù)據(jù)進行訓練的,然后通過使用來自人類反饋的強化學習(RLHF)進行微調。它與使用測量大規(guī)模多任務語言理解(MMLU)的最先進模型進行了比較,該任務涵蓋了初等數(shù)學、美國歷史、計算機科學、法律等57個任務,并在所有任務中表現(xiàn)出色。
生成對抗網(wǎng)絡(GAN)
1)GAN概述
生成對抗網(wǎng)絡(GAN)是一種無監(jiān)督的生成模型,由兩個神經(jīng)網(wǎng)絡組成:一個生成器和一個判別器。生成器試圖制造與真實數(shù)據(jù)無法區(qū)分的新數(shù)據(jù)(偽造數(shù)據(jù)),而判別器則試圖區(qū)分真實數(shù)據(jù)和偽造數(shù)據(jù)。下圖8展示了GAN的原理架構(也稱為普通GAN)。
生成器網(wǎng)絡以噪聲作為輸入并生成偽造數(shù)據(jù)。判別器網(wǎng)絡以真實數(shù)據(jù)和偽造數(shù)據(jù)作為輸入,并使用Sigmoid激活函數(shù)和二元交叉熵損失將它們分類為真實或偽造。由于生成器沒有直接訪問真實圖像,它只能通過與判別器的交互進行學習;判別器可以訪問合成和真實圖像。在完成分類后,進行反向傳播以優(yōu)化訓練過程。此過程重復進行,直到真實數(shù)據(jù)和偽造數(shù)據(jù)樣本之間的差異可以忽略不計。
根據(jù)Goodfellow等人的研究,生成器(G)和判別器(D)一起在一個極小極大博弈(零和博弈)中進行訓練。如方程8所示,在這個博弈中,G試圖最大化D錯誤分類其輸出為真實數(shù)據(jù)的概率,而D試圖最小化其錯誤分類G輸出的概率。
其中E表示期望值,是真實數(shù)據(jù)分布,(??)表示噪聲數(shù)據(jù)分布。
2)GAN 挑戰(zhàn)
盡管 GAN 具有強大的特性,但傳統(tǒng) GAN 存在一些局限,例如:
「模式崩潰(Mode Collapse)」:
在這種現(xiàn)象中,生成器只能生成單一類型的輸出或有限數(shù)量的輸出 。這是因為生成器陷入了特定的模式或模式,無法生成覆蓋整個數(shù)據(jù)范圍的多樣化輸出 。主要原因包括災難性遺忘 和鑒別器過擬合,導致生成器損失消失。
「不收斂和不穩(wěn)定」:
上面方程 8 中的損失函數(shù)可能導致生成器出現(xiàn)梯度消失的問題 。當鑒別器學習得太快,可以輕松區(qū)分真實和偽造的樣本時,就會發(fā)生這種情況,而生成器可能具有較低的學習率并且無法跟上。這可能導致訓練過程停滯,因為生成器無法從鑒別器提供的反饋中學習。GAN 也對超參數(shù)的選擇敏感,這意味著一點點的超參數(shù)更改可能會顯著影響結果。
為了解決梯度消失問題,可以使用不同的損失函數(shù),例如 Wasserstein 損失。
Wasserstein 損失對鑒別器的學習率不太敏感,可以防止生成器的梯度消失。另一個解決方案是使用學習率較小的生成器,以避免大權重導致的梯度消失。對于生成器,必須使用良好的初始化技術。通過這種方式,生成器將有一個良好的起點,訓練過程可能會成功。
?
3)GAN 變體
針對上述 GAN 挑戰(zhàn),已經(jīng)開發(fā)了各種變體來解決這些弱點并優(yōu)化模型。以下是自 2014 年以來 GAN 的一些最著名的變體:
?
「有條件生成對抗網(wǎng)絡 (cGAN)」
由 Mirza 等人于 2014 年引入,cGAN 通過將額外的輔助信息引入生成器和鑒別器網(wǎng)絡中,如類別標簽或風格屬性,從而增強了經(jīng)典 GAN 。通過引入一個包含條件信息輸入到生成器的額外層,指導生成器生成什么。
?
「深度卷積生成對抗網(wǎng)絡 (DCGAN)」
該框架使用卷積神經(jīng)網(wǎng)絡 (CNN) 作為鑒別器和生成器組件,省略了傳統(tǒng)的在卷積特征之上的全連接層。Batch Normalization 增強了訓練的穩(wěn)定性,對每個神經(jīng)單元的輸入進行規(guī)范化。DCGAN 使用步進卷積和分數(shù)步進卷積代替池化層。ReLU 和 Leaky ReLU 分別用作生成器和鑒別器的激活函數(shù)。
?
「Wasserstein GAN (WGAN)」
Wasserstein GAN(WGAN)是一種GAN變體,采用Wasserstein距離(也稱為推土機距離)作為其損失函數(shù),與傳統(tǒng)的GAN不同,后者通常使用Jensen-Shannon或Kullback-Leibler散度。Wasserstein距離(WD)衡量了真實樣本和生成樣本分布之間的相似性,其基礎是一個稱為運輸問題的經(jīng)典優(yōu)化問題的解。在這個背景下,假設存在多個供應商,每個都具有一定數(shù)量的商品,任務是將其交付給多個消費者,每個消費者都有特定的容量限制。每對供應商-消費者會產(chǎn)生運輸單個商品的成本。運輸問題的目標是找到從供應商到消費者的最具成本效益的商品分配。
WD由方程 9 表示, 和 分別表示真實樣本和生成樣本的概率分布。利普希茨約束被用于對鑒別器進行權重截斷。這一措施增強了訓練的穩(wěn)定性,緩解了模式崩潰和飽和損失等挑戰(zhàn)。
?
「Cycle GAN」
Cycle GAN 是一種自動訓練圖像到圖像翻譯模型的方法,無需配對的示例,利用了 GAN 架構。它利用來自不同源和目標域的不相關圖像集合(例如,域 X 和域 Y)。模型結構包括兩個生成器:Generator-X 為域 X 創(chuàng)造圖像,Generator-Y 為域 Y 生成圖像。每個生成器都有一個相應的鑒別器進行二進制分類。
該變體包含三個損失函數(shù):首先,循環(huán)一致性損失確保域之間的轉換保持一個連貫的循環(huán),返回到其原始點;其次,對抗損失將生成器與其相應的鑒別器對立起來,生成器努力生成特定于域的圖像,而鑒別器區(qū)分轉換和真實樣本;第三,ID損失鼓勵生成器忠實地保留輸入和輸出之間的色彩組合,增強了翻譯的保真度。
?
「StarGAN」
StarGAN 利用 GAN 架構進行多領域圖像到圖像翻譯。正如 Choi 等人所述,這個創(chuàng)新的生成對抗網(wǎng)絡巧妙地學習了多個領域之間的映射,只使用一個生成器和鑒別器,并有效地訓練了跨足所有領域的圖像。該模型利用對抗損失使生成的圖像與真實圖像幾乎無法區(qū)分,使用領域分類損失來確保鑒別器的精確分類,以及重建損失,最小化對抗和分類損失。
?
「總結:」 本節(jié)深入探討了多個生成對抗網(wǎng)絡(GANs)的變體。然而,值得注意的是,GANs 領域涵蓋了許多其他變體,這些變體在基礎 GAN 框架之上取得了顯著的進展。這些顯著的進展包括 2017 年的 Progressive GAN(PGAN),2018 年的 BigGAN ,2019 年的 StyleGAN 和 StyleGAN 2 ,以及較早的創(chuàng)新,如 InfoGAN ,Stacked GAN ,2016 年的雙向 GAN(BiGAN)。
Diffusion 模型
擴散模型的特點是一個兩步生成過程。首先,在訓練數(shù)據(jù)中引入高斯噪聲,稱為前向擴散過程。隨后進行逆擴散過程,通常稱為去噪,以重構原始數(shù)據(jù)。隨著時間的推移,模型逐漸學會消除添加的噪聲。
生成式 AI 任務
生成式AI涵蓋了各種任務,包括語音生成(文本轉語音)、圖像生成(文本轉圖像)、文本生成(文本到文本)、代碼生成(文本到代碼)、音樂生成(文本到音樂)、視頻生成(文本到視頻)和科學內容生成(文本到科學)。各種先進的工具支持這些任務,如下表2所示,其中谷歌擁有最多的生成工具,其次是Meta AI和OpenAI,如表2所示。這些工具大多數(shù)在2023年推出,其中有一些是早些時候引入的。
文本生成
文本生成涉及將文本作為輸入并生成相應的基于文本的響應。這個任務通常與問答對話系統(tǒng)相關,通常被稱為聊天機器人。許多著名的生成式AI工具屬于這一類別,ChatGPT是其中的一個開創(chuàng)性例子。其他顯著的工具包括谷歌的Bard、OpenAI的ChatGPT Plus、Wordtune Spice和Cohere的Generate。
對兩個著名的文本到文本工具Bard和ChatGPT進行了全面的性能評估。它們都被提供了相同的查詢:“提供Bard的簡要描述一段”,“提供ChatGPT的簡要描述一段”,以及一個斯瓦希里語的問題,“Habari za saa hizi”。如圖9所示的結果明確顯示,ChatGPT在提供更精確的答案方面優(yōu)于Bard。
圖像生成
這是一個涵蓋了利用文本提示或視覺信息生成相應圖像的過程,涵蓋了各種視覺領域,包括圖形、照片和藝術作品。作為文本到圖像概念的示例,使用了Adobe的'Firefly'和Stability的'Stable Diffusion'進行實驗。通過使用“大學生編程”來提示這些模型,獲得了它們各自的輸出,如下圖10所示。結果清楚地表明,雖然'Firefly'在提供與輸入更精確匹配的輸出方面表現(xiàn)出色,但相較于其對手,Stable Diffusion展示了更高的圖像分辨率。
另一個情景的圖像生成涉及根據(jù)提供的文本描述將圖像從一種形式轉換為另一種形式。在這個領域,許多工具展示了實現(xiàn)這種轉換的有望能力。特別地,我們已經(jīng)探索了RoomGPT和Runaway的性能,分別如圖11和圖12所示。
視頻生成
這個任務涉及根據(jù)文本或視覺輸入生成新的視頻,其中視覺包括各種內容,包括圖像和視頻。在這個領域,有一些顯著的工具專門設計為接受純文本描述作為輸入。一個典型的例子是Google的'Parti'和openAI的'DALL E-2',它們是專注于僅從文本提示中創(chuàng)建視頻的高效工具。盡管如此,視頻生成領域仍然在不斷發(fā)展。工具如RunwayML的'Gen-2'、Google的'Imagen Video'和Meta的'Make-A-Video'已經(jīng)成為先驅。這些先進的平臺不僅擁有出色的能力,可以接受文本描述,而且還可以無縫集成圖像和視頻作為輸入,超越了傳統(tǒng)的邊界。它們的卓越之處在于它們擅長將這些輸入轉化為全新的視頻作品,從而展示了生成式AI在創(chuàng)意領域中視頻制作的激動人心潛力。
代碼生成
代碼生成工具是專門的軟件實用程序,能夠根據(jù)提供的文本描述自動生成各種編程語言的碼塊。這些工具利用在廣泛公開可用的碼庫上進行訓練的復雜模型,擁有數(shù)十億個參數(shù)。它們的主要目標是通過理解簡單的英語并將其翻譯成功能性代碼來協(xié)助人類開發(fā)人員。這類工具的顯著例子包括StarCoder 、Codex 、CoPilot、Codey和Code Interpreter。此外,值得注意的是,包括ChatGPT和Bard在內的一些文本到文本工具,如圖13所示,也具備生成代碼的能力。
音樂生成
這是一個迷人的生成任務,涉及全新音樂的創(chuàng)作。這個創(chuàng)新的過程以各種形式的輸入為基礎,包括文本描述、音樂音符序列,甚至音頻樣本。其目標是利用這些輸入,并將它們轉化為新鮮的音樂作品,涵蓋了節(jié)奏、旋律、和諧的和弦以及多樣的樂器。著名的工具如MuseNet 和Jukebox是音樂生成的杰出例子。這些創(chuàng)新平臺利用生成式AI的力量,創(chuàng)作涵蓋各種流派和風格的音樂作品。它們在為音樂藝術注入創(chuàng)造力方面表現(xiàn)出色,為藝術家和愛好者開辟了探索和享受的新途徑。
語音生成
產(chǎn)生類似人類的語音或聲音取決于文本或音頻輸入。文本輸入可以包括書面文本,如句子、段落或整個文檔,涵蓋多種語言,包括標點符號、特殊符號和格式說明。語音生成模型,如SpeechGAN,進行一系列步驟,涉及語音合成、增強和轉換。增強過程包括噪聲處理、音調調制、情感傳達和其他微妙的特征。在這個領域已經(jīng)開發(fā)了許多工具來促進語音生成,其中一些包括Whisper、Speechelo、Synthesys、Voice Over和WaveNet。這些工具在生成緊密模仿自然語言的語音或言語方面表現(xiàn)出色,有效地模糊了人類和人工語音合成之間的界線。
科學內容生成
科學內容生成是一個多方面的過程,涵蓋了在數(shù)學、物理、化學和生物等各個科學領域創(chuàng)建信息豐富和學術性內容的過程。這項工作旨在利用生成式AI的力量生成準確而富有洞察力的內容,有助于傳播科學知識。在這一領域的一項顯著研究由Rodriguez等人進行,探討了基于文本輸入生成科學圖表的創(chuàng)新方式。這項開創(chuàng)性研究利用擴散模型,將文本描述無縫轉化為視覺上具有信息性的科學圖表,從而簡化了科學溝通和可視化的過程。此外,谷歌進行中的研究項目Minerva是解決定量推理問題的重要進展。該項目利用大語言模型(LLM)的能力來解決復雜的定量挑戰(zhàn),從而增進我們對數(shù)學及其在科學領域的實際應用的理解。與此同時,Meta AI開發(fā)的先進工具Galactica 在科學寫作中發(fā)揮著重要作用。這個平臺為科學家和研究人員提供了強大的工具,幫助他們簡化表達他們的科學發(fā)現(xiàn)、理論和見解的過程。
生成式AI的工業(yè)應用
生成式AI技術在當前和未來的相關性不可或缺。目前,生成式AI正對各個行業(yè)產(chǎn)生指數(shù)級的影響,本節(jié)將深入探討受影響最大的領域。
媒體和娛樂
在娛樂產(chǎn)業(yè)中,生成式AI模型盡管仍處于早期階段,但開始產(chǎn)生顯著影響。它們的影響涵蓋了各種娛樂領域,包括為小說、戲劇和電影進行劇本編寫和故事板設計,涉及音頻制作,包括作曲、編曲和混音,游戲設計和角色創(chuàng)建,創(chuàng)造引人入勝的虛擬世界,營銷活動以及生成動態(tài)和靜態(tài)圖像。值得注意的是,許多易于獲取的工具,如表3所示,使生成內容,如短片、笑話和圖像更容易。這些工具中許多價格實惠,甚至免費,為傳統(tǒng)的內容創(chuàng)作方法提供了替代方案。作為其潛力的一個例證,2022年,RunwayAI在創(chuàng)作奧斯卡獲獎影片《Everything Everywhere All at Once》中發(fā)揮了作用,該影片獲得了七項奧斯卡獎的認可。
教育和研究
生成式AI正在迅速改變教育領域的格局,提供創(chuàng)新解決方案,提升學生和教育者的學習體驗。在教育中,生成式AI的一個重要影響是個性化內容生成工具的出現(xiàn)。這些工具,如GPT-3、GPT-4和Bard,使教育工作者能夠制作定制的學習材料,包括互動課程、測驗和學習指南,精確滿足個別學生和教師的獨特需求。此外,由AI驅動的聊天機器人和虛擬導師為學生提供實時支持,提供解釋、解答問題和提供個性化反饋。這種變革性的技術有望重新定義學生如何獲取和參與教育內容,促進根據(jù)每位學習者的特定偏好提供的可訪問性和適應性。
生成式AI還打開了研究和學術探索的新途徑。生成式AI工具的快速發(fā)展引起了全球研究人員和學者的興趣,引發(fā)了一系列研究機會??萍季揞^和研究機構正在投入大量資源,探索和發(fā)明這一領域的新工具和技術。這在生成式AI相關的論文激增的現(xiàn)象上表現(xiàn)得很明顯,無論是在像IEEE這樣的同行評審數(shù)據(jù)庫,還是在arXiv這樣的非評審平臺上,生成式AI的主題都得到了突顯。教育與生成式AI的融合不僅轉變了學習體驗,還催生了一個蓬勃發(fā)展的學術領域,承諾持續(xù)增長和創(chuàng)新。
醫(yī)療保健
生成式AI在醫(yī)療保健領域取得了重大進展,特別是在醫(yī)學影像方面。它在克服與有限數(shù)據(jù)集相關的挑戰(zhàn)方面發(fā)揮著關鍵作用,通過實現(xiàn)新數(shù)據(jù)的合成,最終提高了醫(yī)學圖像的質量和多樣性。這一創(chuàng)新將徹底改變疾病檢測和診斷,為醫(yī)療專業(yè)人員提供更準確和詳細的信息。此外,生成式AI正在改變患者護理的行政方面。通過簡化行政流程并提供虛擬健康助手,它簡化了醫(yī)療管理并提供個性化的健康建議、用藥提醒和情感支持。此外,生成式AI正在革新治療規(guī)劃。利用患者特定的數(shù)據(jù),它可以生成根據(jù)個體的基因組、生活方式和病史定制的治療計劃。這種方法對精準醫(yī)學表示了重大飛躍,確?;颊攉@得最有效和個性化的治療。
此外,生成式AI在藥物開發(fā)和發(fā)現(xiàn)領域發(fā)揮著關鍵作用。通過生成分子結構和預測建模,它加速了新型治療化合物的識別。這些進步可以解決先前難以治療的疾病,為全球無數(shù)患者帶來希望。值得注意的是,NVIDIA與Evozyne合作實施生成式AI,特別是ProT-VAE,標志著人工智能與醫(yī)療保健領域之間的顯著協(xié)同作用。通過使用蛋白Transformer變分自編碼器,他們已經(jīng)為合成蛋白質的創(chuàng)造奠定了基礎,為在對抗性不治之癥的斗爭中提供新途徑。另一個值得注意的例子是谷歌與Cognizant的合作研究項目。他們的共同努力旨在構建專為醫(yī)療應用定制的大型語言模型(LLM),專注于增強醫(yī)療保健行政任務。這一努力利用了谷歌云及其框架的能力,為醫(yī)療保健領域創(chuàng)建了先進的生成式AI解決方案。
商業(yè)
生成式AI已經(jīng)在商業(yè)領域牢牢樹立了存在。下表3中列出的許多應用程序采用訂閱模式,反映了這些工具不斷增長的商業(yè)性質。彭博智庫預測,生成式AI(GAI)將在2023年創(chuàng)造1370億美元的價值,并預計到2030年將激增至1.3萬億美元。這種深遠的影響橫跨各個行業(yè),從制造和批發(fā)到零售企業(yè)、銀行業(yè)、農業(yè)等等。生成式AI的影響范圍從創(chuàng)建新產(chǎn)品和自動化財務數(shù)據(jù)分析到生成個性化廣告活動,為客戶提供定制產(chǎn)品推薦,并生成產(chǎn)品描述和新聞文章。越來越明顯的是,生成式AI正在重塑商業(yè)格局,并在未來具有巨大的經(jīng)濟潛力。
例如,亞馬遜積極利用生成式AI的能力,通過對產(chǎn)品的簡短描述,為賣家打造引人入勝、有說服力且有效的產(chǎn)品清單。亞馬遜利用生成式AI生成高質量內容,賣家可以進一步完善或直接提交以豐富亞馬遜的產(chǎn)品目錄。
生成式AI的未來
生成式AI無疑具有重要而有前途的未來,在各個領域提供豐富而變革性的可能性。然而,它同樣伴隨著相當程度的不確定性和一系列值得深入探討的問題。本節(jié)旨在探討生成式AI的多方面,包括其潛力以及前方的挑戰(zhàn)和不確定性。
第五次工業(yè)革命(5IR)的先鋒
生成式AI代表著第五次工業(yè)革命(5IR)的前沿,這是一股力量,注定要革命第四次工業(yè)革命,并在各個領域引發(fā)變革性變化。這種轉變得以實現(xiàn),得益于互聯(lián)網(wǎng)基礎設施、大規(guī)模數(shù)據(jù)集和超越地理界限的分布式計算資源的深刻相互連接。多個行業(yè),包括醫(yī)療保健、安全、網(wǎng)絡基礎設施、娛樂和教育,都在因生成式AI的能力而面臨重大顛覆的邊緣。然而,關鍵是要認識到這種顛覆潛力可能也會帶來跨多個領域的基礎設施改革,可能導致各種職業(yè)領域的高度自動化和優(yōu)化。
在醫(yī)療保健行業(yè)中,正如我們所見,生成式AI已經(jīng)在藥物發(fā)現(xiàn)方面發(fā)揮著關鍵作用,特別強調探索蛋白質分子。這項技術在藥物開發(fā)領域的潛力巨大,來自主要技術公司的大量投資強調了不久的將來預期的進展。然而,生成式AI的影響不僅限于藥物開發(fā),因為預計它將從根本上轉變醫(yī)療保健領域的患者體驗。通過利用患者的病歷數(shù)據(jù),它可以通過分析年齡、性別和潛在醫(yī)療狀況等元數(shù)據(jù)自主診斷醫(yī)療狀況。此外,它可以篩選大量患者數(shù)據(jù)以識別模式、做出預測并建議適當?shù)乃幬?。這一轉變旨在優(yōu)先考慮以患者為中心的臨床體驗,推動成本效益,最終實現(xiàn)醫(yī)療保健協(xié)議的顯著增強。
在娛樂行業(yè)中,未來可預見的是,我們正站在一個變革性時代的門檻,生成式AI很可能主導娛樂和媒體領域的內容創(chuàng)作。從精心設計的劇本和敘述到細致安排的場景和栩栩如生的角色,生成式AI的影響力將滲透到這些行業(yè)內容生成的每個方面。此外,潛在的影響是如此深遠,以至于它甚至可能挑戰(zhàn)生命和藝術的界限。已故藝術家可能會繼續(xù)發(fā)布新的專輯和創(chuàng)作,有效地超越了生命的限制。這不僅將開啟藝術探索的新時代,而且承諾顯著的成本節(jié)省,徹底改變電影和音樂制作的經(jīng)濟學。自動化場景創(chuàng)建和內容生成將降低開支并使創(chuàng)作過程更加高效。
在教育領域,AI聊天機器人(如ChatGPT和Google Bard)的出現(xiàn),以及其他創(chuàng)新工具,為生成式AI在教育行業(yè)的民主化提供了令人信服的證據(jù)。這一顯著進展使當前的教育體系和資源變得過時,尤其是在發(fā)達國家。它預示著對教育系統(tǒng)的全面改革,包括教學資源,以適應生成式AI時代的指數(shù)增長,旨在提供高度個性化和適應性的學習體驗。
在先進制造業(yè)中,在生成式AI出現(xiàn)之前,機器人技術已經(jīng)展示了令人印象深刻的能力。然而,隨著生成式AI的整合,可以期待真正顯著的進步。設想一下將生成式AI融入軍事技術的后果,我們可能會看到生成核武器的發(fā)展,化學配方的制定用于飲料、清潔劑和各種工業(yè)產(chǎn)品,以及自動駕駛汽車的廣泛采用。可能性的范圍是廣泛的,它無疑標志著一個新時代的開始——一場工業(yè)革命,承諾在眾多行業(yè)領域實現(xiàn)徹底變革的景觀和創(chuàng)新方法。
工作市場的變革
生成式AI對勞動力市場的影響是雙重的:
首先,它引入了新的就業(yè)機會,涉及新興領域,如AI可解釋性和生成式AI工程。麥肯錫的分析表明,與生成式AI有關的職業(yè)的工作機會逐漸增加,這一趨勢預計將持續(xù)到2030年左右。值得注意的是,美國工作人口中有84%的人占據(jù)的職位有潛力利用生成式AI自動執(zhí)行大部分重復性任務,從而導致整體生產(chǎn)力的顯著提升。有47%的美國高管對整合生成式AI表示信心,認為這將提高各行各業(yè)的生產(chǎn)力 。
相反,工作惡化;優(yōu)化和自動化業(yè)務流程預計將用創(chuàng)造性和生成式AI功能替代許多現(xiàn)有的職業(yè)。生成式AI對勞動力市場的影響有望改變就業(yè)格局,逐漸用先進技術替代許多傳統(tǒng)角色。根據(jù)世界經(jīng)濟論壇的報告,被大語言模型(LLM)自動化的潛力最高的任務是例行和重復的任務。這些任務包括信用授權人員、核對員、文員、管理分析師、電話營銷人員、統(tǒng)計助手和出納員。因此,個體必須優(yōu)先考慮重新培訓技能和增強適應性,以有效準備未來的人工智能驅動的工作。
隱私和安全顧慮
網(wǎng)絡安全基礎設施領域目前正在經(jīng)歷深刻而迅速的變革,主要是由于生成式AI的整合。這一重大變化引發(fā)了一系列迫切的關切和未來的挑戰(zhàn):
- 復雜的網(wǎng)絡戰(zhàn)爭:目前,我們正在目睹惡意活動的顯著增長,這一趨勢預計將繼續(xù)上升,同時變得更為錯綜復雜。例如,先進的網(wǎng)絡威脅工具如WormGPT和FraudGPT 的出現(xiàn)迅速確立了它們自己作為網(wǎng)絡威脅的開創(chuàng)性元素,它們經(jīng)過精心設計,非常復雜和難以察覺。此外,由生成式AI提供動力的自動化和復雜的惡意軟件和勒索軟件的出現(xiàn)對顛覆現(xiàn)有加密方法具有威脅性。這主要是由于生成式AI固有的巨大計算能力。隨著這些惡意實體的持續(xù)發(fā)展,它們對網(wǎng)絡安全格局構成了巨大挑戰(zhàn),測試著當代網(wǎng)絡安全系統(tǒng)和協(xié)議的韌性和穩(wěn)健性的極限。這些發(fā)展的后果是深遠的,可能對一個國家的關鍵基礎設施造成毀滅性的影響,特別是在涉及國家贊助或惡意的網(wǎng)絡恐怖主義的情景中。
- 增加的冒名頂替和虛假信息:人工智能在各個領域——視覺、語音、音頻和文本——的進步大大提高了有關個人隱私侵犯和冒名行騙的擔憂。一個相關的例子是音樂行業(yè),AI驅動的“幽靈寫手”發(fā)布了模仿全球音樂巨星(如德雷克和The Weeknd)聲音的偽造音軌。這些音軌,如“Heart on My Sleeve”和“Cuff It”,展示了Rihanna和Beyoncé聲音的AI生成版本,因其極具說服力的模仿而引起關注。因此,創(chuàng)意產(chǎn)業(yè)面臨著重大威脅,尤其是那些依賴先進人工智能的行業(yè)。據(jù)報道,這些技術可能會危及娛樂行業(yè)內的職業(yè)。
結論
總的來說,生成式AI為一個充滿前所未有的機遇和固有風險的世界打開了大門。需要進一步深入研究,以更好地理解其在各個領域的多方面影響,并制定有效的緩解策略。在潛在的利益和生成式AI可能帶來的威脅之間取得平衡對于最好地滿足人類需求至關重要。
在本文中,我們深入研究了先進模型,探討了它們的數(shù)學基礎,調查了它們的架構復雜性,并預測了它們在未來的發(fā)展。還研究了突出的任務,將先進工具與生成式AI進行了基準測試,并評估了它們在現(xiàn)實世界中的應用。生成式AI的影響、挑戰(zhàn)和未來前景都得到了全面的討論。
實現(xiàn)生成式AI的充分潛力的道路仍在進行中,需要監(jiān)管機構迅速而慎重地采取行動,以確保在AI技術迅猛發(fā)展的同時保持秩序和與之協(xié)調。在這一背景下,可解釋性AI、響應性AI和隱私保護AI的作用變得日益重要。未來充滿希望,但在前進的過程中,保持生成式AI所呈現(xiàn)的機遇和風險之間的微妙平衡對于充分發(fā)揮其效用并確保其有效服務于人類至關重要。
本文轉自 AI生成未來 ,作者:AIGCer
