自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列 精華

發(fā)布于 2024-9-5 12:27
瀏覽
0收藏

ChatGPT的推出引起了全球關(guān)注,標(biāo)志著生成人工智能領(lǐng)域的一個(gè)重要里程碑。盡管生成人工智能在過去十年中一直存在,但ChatGPT的引入引發(fā)了人工智能領(lǐng)域的新一輪研究和創(chuàng)新浪潮。這種興趣的激增導(dǎo)致了許多先進(jìn)工具的開發(fā)和發(fā)布,如Bard、Stable Diffusion、DALL-E、Make-A-Video、Runway ML和Jukebox等。這些工具展示了卓越的能力,涵蓋了從文本生成和音樂創(chuàng)作,圖像創(chuàng)建,視頻制作,代碼生成,甚至科學(xué)工作等各種任務(wù)。它們建立在各種先進(jìn)模型的基礎(chǔ)上,包括Stable Diffusion、變分自動(dòng)編碼器、生成對(duì)抗網(wǎng)絡(luò)以及像GPT-3(最近的GPT-4)這樣的Transformer模型。生成人工智能的這一進(jìn)展提供了豐富的令人興奮的機(jī)會(huì),同時(shí)也帶來了前所未有的挑戰(zhàn)。在本文中,探討了這些先進(jìn)模型,它們能夠完成的各種任務(wù),它們帶來的挑戰(zhàn),以及生成人工智能充滿希望的未來。

引言

ChatGPT于2022年11月30日發(fā)布,引發(fā)了生成人工智能(GAI)在公眾中的突破性和廣泛的流行,標(biāo)志著人工智能領(lǐng)域的一個(gè)顯著成就。這一卓越的成就可以追溯到1956年由麥卡錫主持的達(dá)特茅斯學(xué)院夏季項(xiàng)目,標(biāo)志著人工智能的起源。這一努力的目標(biāo)是開發(fā)具有執(zhí)行通常需要人類智能的任務(wù)的機(jī)器,包括計(jì)算機(jī)視覺、自然語言處理、機(jī)器人技術(shù)等。從那時(shí)以來,在使機(jī)器具備像人類一樣說話、行走、思考和行動(dòng)的能力方面取得了重大進(jìn)展。值得注意的是,一系列算法,包括回歸模型、感知器算法、決策樹、K最近鄰算法、樸素貝葉斯分類器、反向傳播、支持向量機(jī)(SVM)和隨機(jī)森林已經(jīng)出現(xiàn)。這些算法通常被稱為經(jīng)典/傳統(tǒng)機(jī)器學(xué)習(xí)算法,大多數(shù)在2000年之前開發(fā)。此外,深度學(xué)習(xí)算法也有了進(jìn)展,包括20世紀(jì)80年代卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的發(fā)展,20世紀(jì)85年循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs),1997年長短期記憶(LSTM)以及雙向長短期記憶(BiLSTM)。然而,直到最近,廣泛關(guān)注主要受到計(jì)算資源和數(shù)據(jù)集可用性限制的限制。


為了解決數(shù)據(jù)集有限的限制,斯坦福大學(xué)、普林斯頓大學(xué)和哥倫比亞大學(xué)的研究人員于2010年共同推出了ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)。這次競賽在推動(dòng)神經(jīng)網(wǎng)絡(luò)架構(gòu)方面發(fā)揮了關(guān)鍵作用,特別關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNNs)。從那時(shí)起,CNN已經(jīng)被確立為圖像分類和計(jì)算機(jī)視覺的算法。2012年AlexNet的突破性成就標(biāo)志著深度學(xué)習(xí)在計(jì)算機(jī)視覺任務(wù)中的實(shí)際應(yīng)用取得了重要進(jìn)展。ImageNet競賽的成功引發(fā)了對(duì)深度學(xué)習(xí)研究的興趣和投資的激增。


這種新發(fā)熱潮導(dǎo)致了不斷發(fā)展的改進(jìn)架構(gòu)創(chuàng)新,包括ResNet、DenseNet、MobileNet和EfficientNet等模型。這些模型為各種尖端技術(shù)設(shè)立了標(biāo)桿,例如遷移學(xué)習(xí)、持續(xù)學(xué)習(xí)、注意機(jī)制、自監(jiān)督學(xué)習(xí)和生成人工智能。


在2014年之前,所有現(xiàn)有的深度學(xué)習(xí)模型主要是描述性的,側(cè)重于總結(jié)或表示現(xiàn)有數(shù)據(jù)的模式和關(guān)系。這些模型旨在解釋數(shù)據(jù)模式并基于現(xiàn)有信息進(jìn)行預(yù)測。然而,Goodfellow等人在2014年引入了生成對(duì)抗網(wǎng)絡(luò)(GAN),開啟了生成人工智能(GAI)實(shí)現(xiàn)的新時(shí)代。與它們的描述性對(duì)應(yīng)物不同,生成模型(例如GANs)的設(shè)計(jì)目標(biāo)是學(xué)習(xí)數(shù)據(jù)的概率分布。它們的主要目標(biāo)是生成新的數(shù)據(jù)樣本,這些樣本與訓(xùn)練數(shù)據(jù)中觀察到的模式密切相似。


GAN的突破標(biāo)志著與傳統(tǒng)深度學(xué)習(xí)方法的顯著分離,為生成人工智能帶來了令人興奮的可能性。由于其在生活的各個(gè)領(lǐng)域產(chǎn)生的轉(zhuǎn)變性影響,GAI自那時(shí)以來一直引起廣泛關(guān)注。它為復(fù)雜問題提供了優(yōu)雅的解決方案,使合成數(shù)據(jù)、藝術(shù)內(nèi)容和逼真模擬成為可能。這種對(duì)人工智能技術(shù)的范式轉(zhuǎn)變深刻影響了對(duì)人工智能的新認(rèn)知、實(shí)施和利用,引發(fā)了跨行業(yè)的創(chuàng)新和新的應(yīng)用機(jī)會(huì)。


GAI的出現(xiàn)引發(fā)了許多問題,促使對(duì)其進(jìn)行全面探討。在這方面,本文旨在深入探討GAI的最新技術(shù),包括模型、任務(wù)分類、應(yīng)用領(lǐng)域、影響領(lǐng)域、挑戰(zhàn)和前景。為了實(shí)現(xiàn)這一目標(biāo),將介紹當(dāng)代生成模型,生成人工智能中的各種任務(wù)。以及審視生成人工智能的各種應(yīng)用,并深入探討了生成人工智能的前景。最后,提供結(jié)論。

生成模型

在當(dāng)代,研究人員的關(guān)注已從判別學(xué)習(xí)轉(zhuǎn)向生成學(xué)習(xí)。出現(xiàn)了多個(gè)生成模型,具有生成新數(shù)據(jù)點(diǎn)的能力,這些數(shù)據(jù)點(diǎn)類似于基于學(xué)習(xí)它們的分布的訓(xùn)練數(shù)據(jù)輸入。討論下生成模型的當(dāng)前最先進(jìn)的理論和數(shù)學(xué)基礎(chǔ)。

自編碼器

自編碼器是一種無監(jiān)督的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,它使用編碼器將輸入數(shù)據(jù)編碼成低維表示(編碼),然后使用解碼器將其解碼回原始形式(解碼),同時(shí)減少重構(gòu)誤差。該模型最初被設(shè)計(jì)用于降維、特征提取、圖像去噪、圖像壓縮、圖像搜索、異常檢測和缺失值填補(bǔ)。


該模型的編碼器和解碼器都是神經(jīng)網(wǎng)絡(luò),分別寫成輸入的函數(shù)和碼層的通用函數(shù)。根據(jù)下圖1,

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

自編碼器由四個(gè)組件組成,即:

? 編碼器:該組件將輸入數(shù)據(jù)降維壓縮為較低維度。由于其輸出,它創(chuàng)建了一個(gè)稱為“碼”的新層。

? 碼/瓶頸:包含輸入數(shù)據(jù)表示的壓縮和可能的最低維度的層。考慮下面的方程1。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

? 重構(gòu)損失:定義解碼器的最終輸出,衡量輸出與原始輸入的相似程度。

自編碼器的訓(xùn)練涉及最小化輸入和輸出之間的不相似性,如方程3所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

編碼器和解碼器由全連接的前饋神經(jīng)網(wǎng)絡(luò)組成,其中輸入、碼和輸出層分別由用戶定義的單個(gè)神經(jīng)網(wǎng)絡(luò)層構(gòu)成。與其他標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)一樣,自編碼器應(yīng)用激活函數(shù),如sigmoid和ReLU。存在各種自編碼器的變體,例如收縮、去噪和稀疏自編碼器。通常,前面提到的普通自編碼器不是生成型的,因?yàn)樗鼈儾簧尚聰?shù)據(jù),而是復(fù)制輸入。然而,變分自編碼器是一種生成型的變體。

變分自編碼器

變分自編碼器(VAE)是由Kingma等人引入變分推理(一種用于近似復(fù)雜分布的統(tǒng)計(jì)技術(shù))到自編碼器(AE)而演變而來的。它是一種生成模型,利用變分貝葉斯推理來描述使用概率分布生成數(shù)據(jù)。

與傳統(tǒng)的AE不同,VAE除了有一個(gè)編碼器和解碼器層外,還有一個(gè)額外的采樣層,如下圖2所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

訓(xùn)練VAE模型涉及將輸入編碼為潛在空間上的分布,并從分布采樣生成潛在向量。然后,解碼潛在向量,計(jì)算重構(gòu)誤差,并通過網(wǎng)絡(luò)進(jìn)行反向傳播。在訓(xùn)練過程中,明確引入正則化以防止過擬合。

概率上,VAE由潛在表示 z 組成,如下圖3所示,

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

從先驗(yàn)分布 p(z) 中抽取,數(shù)據(jù) x 從條件概率分布 p(x|z) 中抽取,該分布被稱為概率解碼器,可以表示為:

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

模型的推理通過使用貝葉斯定理計(jì)算潛在向量的后驗(yàn)概率來進(jìn)行檢驗(yàn),如方程5所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

對(duì)于任何分布變體,如高斯分布,變分推理可以近似后驗(yàn)概率,其近似的可靠性可以通過度量在近似過程中丟失的信息的Kullback-Leibler(KL)散度來評(píng)估。正如下表1所示,這個(gè)模型在各個(gè)領(lǐng)域都產(chǎn)生了顯著影響,突出顯示了使用VAE的一些杰出的最新技術(shù)示例。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

Transformer

Vaswani等人在Google Brain團(tuán)隊(duì)的開創(chuàng)性工作中提出的"Attention Is All You Need"引入了一種可以分析大規(guī)模數(shù)據(jù)集的Transformer模型。Transformer最初是為自然語言處理(NLP)而開發(fā)的,但隨后被改編用于機(jī)器學(xué)習(xí)的其他領(lǐng)域,如計(jì)算機(jī)視覺。該模型旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的缺陷,如長距離依賴性、梯度消失、梯度爆炸、需要更大的訓(xùn)練步驟以達(dá)到局部/全局極小值,以及不允許并行計(jì)算的事實(shí)。因此,提出的解決方案呈現(xiàn)了一種處理神經(jīng)網(wǎng)絡(luò)任務(wù)的新穎方式,如翻譯、內(nèi)容生成和情感分析。

「Transformer架構(gòu)」

Vaswani等人在他們的研究中引入了下圖4所示的三個(gè)主要概念,包括自注意力(self-attention),允許模型根據(jù)其重要性評(píng)估輸入序列,從而減少長距離依賴性;多頭注意力(multi-head attention),允許模型學(xué)習(xí)輸入序列的多個(gè)表示方式;以及詞嵌入(word embedding),將輸入轉(zhuǎn)化為向量。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

「編碼器和解碼器」值得一提的是,Transformer架構(gòu)(圖4)繼承了編碼器-解碼器結(jié)構(gòu),利用了堆疊的自注意力和point-wise層,以及編碼器和解碼器的全連接層。編碼器由N = 6個(gè)相同層的堆疊組成,每個(gè)層都有兩個(gè)子層,包括一個(gè)多頭自注意力機(jī)制和一個(gè)全連接的前饋網(wǎng)絡(luò)。解碼器類似于編碼器,但有一個(gè)額外的子層,用于屏蔽多頭注意力。編碼器和解碼器都對(duì)子層應(yīng)用殘差連接,然后對(duì)層進(jìn)行歸一化。

「自注意力」

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

圖5描述了結(jié)構(gòu)注意力,其中SoftMax激活函數(shù)用于計(jì)算值的權(quán)重。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

「多頭注意力」

多頭注意力機(jī)制提出,自注意力可以以并行模式運(yùn)行多次,通過查詢、鍵和值的不同表示子空間結(jié)合相同注意力池的知識(shí)。然后,獨(dú)立的注意力輸出被串聯(lián)并線性轉(zhuǎn)換為期望的維度,如方程7和圖6所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

其中,

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

自從Transformer被發(fā)明以來,已經(jīng)開發(fā)了多個(gè)變體,用于解決計(jì)算機(jī)視覺和自然語言處理中的不同機(jī)器學(xué)習(xí)任務(wù)。值得注意的是,現(xiàn)代最先進(jìn)的模型都是基于Transformer架構(gòu)構(gòu)建的。

1)生成預(yù)訓(xùn)練Transformer(GPT)

生成預(yù)訓(xùn)練Transformer(GPT)描述了基于Transformer的大語言模型(LLM),利用深度學(xué)習(xí)技術(shù)生成類似人類的文本。該模型由OpenAI于2018年引入,在Google于2017年發(fā)明Transformer之后。它由一堆Transformer解碼器組成。他們提出了一個(gè)模型,包括兩個(gè)階段:從大量文本語料庫中學(xué)習(xí)高容量語言模型,然后在判別任務(wù)期間使用帶標(biāo)簽的數(shù)據(jù)進(jìn)行微調(diào),如下圖7所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

GPT或GPT-1是在BooksCorpus數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集包含超過7,000本不同流派的未發(fā)表書籍,如冒險(xiǎn)、奇幻和言情小說,所有書籍都有長段連續(xù)文本,使生成模型能夠?qū)W習(xí)長距離信息。該模型的訓(xùn)練規(guī)格包括以下內(nèi)容:

  • 12層僅解碼器Transformer。
  • 掩碼自注意頭(768維狀態(tài)和12個(gè)注意頭)。
  • 位置逐層前饋網(wǎng)絡(luò)。
  • Adam優(yōu)化。
  • 學(xué)習(xí)速率:2.5e-4。
  • 3072維內(nèi)部狀態(tài)。

模型的評(píng)估任務(wù)來自自然語言處理(NLP)中的四個(gè)主要類別,包括自然語言推理、問答和常識(shí)推理、語義相似性和分類。在初始發(fā)布之后,OpenAI推出了一系列稱為GPT-n系列的變體模型,其中每個(gè)后繼模型都比前身更為重大和高效。GPT-4是最近在2023年3月發(fā)布的變體。

2)GPT-2

在GPT-1取得巨大成功后,OpenAI于2019年發(fā)布了第二個(gè)版本(GPT-2),具有15億個(gè)可學(xué)習(xí)參數(shù),比其在WebText上訓(xùn)練的前身的預(yù)訓(xùn)練語料庫和參數(shù)多十倍。因此,該模型能夠處理復(fù)雜問題,并在廣泛的主題和風(fēng)格上生成連貫且上下文相關(guān)的文本。

3)GPT-3

這個(gè)版本于2020年發(fā)布,有2048 tokens的上下文,1750億可學(xué)習(xí)參數(shù),比其前身多100倍以上,并需要800GB的存儲(chǔ)。使用CommonCrawl對(duì)模型進(jìn)行訓(xùn)練,在NLP的所有領(lǐng)域進(jìn)行了測試,并具有有希望的few-short和zero-shot性能。這個(gè)版本進(jìn)一步改進(jìn)為GPT 3.5,用于開發(fā)ChatGPT。已進(jìn)行了大量的研究工作,涵蓋了從GPT-1到GPT-3.5的各種任務(wù),如語音識(shí)別、文本生成、密碼學(xué)、計(jì)算機(jī)視覺和問答。

4)GPT-4

在2023年3月,OpenAI發(fā)布了最新的GPT模型,名為GPT-4。這是一個(gè)多模態(tài)Transformer模型,是一個(gè)大規(guī)模的語言模型,接受圖像和文本輸入并生成文本輸出。在許多專業(yè)和學(xué)術(shù)基準(zhǔn)測試中,包括在高水平通過法律和醫(yī)學(xué)考試等,GPT-4表現(xiàn)出與人類相當(dāng)?shù)母咝阅堋T撃P褪鞘褂霉_可用的互聯(lián)網(wǎng)數(shù)據(jù)和從第三方獲得的數(shù)據(jù)進(jìn)行訓(xùn)練的,然后通過使用來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行微調(diào)。它與使用測量大規(guī)模多任務(wù)語言理解(MMLU)的最先進(jìn)模型進(jìn)行了比較,該任務(wù)涵蓋了初等數(shù)學(xué)、美國歷史、計(jì)算機(jī)科學(xué)、法律等57個(gè)任務(wù),并在所有任務(wù)中表現(xiàn)出色。

生成對(duì)抗網(wǎng)絡(luò)(GAN)

1)GAN概述

生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種無監(jiān)督的生成模型,由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:一個(gè)生成器和一個(gè)判別器。生成器試圖制造與真實(shí)數(shù)據(jù)無法區(qū)分的新數(shù)據(jù)(偽造數(shù)據(jù)),而判別器則試圖區(qū)分真實(shí)數(shù)據(jù)和偽造數(shù)據(jù)。下圖8展示了GAN的原理架構(gòu)(也稱為普通GAN)。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

生成器網(wǎng)絡(luò)以噪聲作為輸入并生成偽造數(shù)據(jù)。判別器網(wǎng)絡(luò)以真實(shí)數(shù)據(jù)和偽造數(shù)據(jù)作為輸入,并使用Sigmoid激活函數(shù)和二元交叉熵?fù)p失將它們分類為真實(shí)或偽造。由于生成器沒有直接訪問真實(shí)圖像,它只能通過與判別器的交互進(jìn)行學(xué)習(xí);判別器可以訪問合成和真實(shí)圖像。在完成分類后,進(jìn)行反向傳播以優(yōu)化訓(xùn)練過程。此過程重復(fù)進(jìn)行,直到真實(shí)數(shù)據(jù)和偽造數(shù)據(jù)樣本之間的差異可以忽略不計(jì)。


根據(jù)Goodfellow等人的研究,生成器(G)和判別器(D)一起在一個(gè)極小極大博弈(零和博弈)中進(jìn)行訓(xùn)練。如方程8所示,在這個(gè)博弈中,G試圖最大化D錯(cuò)誤分類其輸出為真實(shí)數(shù)據(jù)的概率,而D試圖最小化其錯(cuò)誤分類G輸出的概率。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

其中E表示期望值,是真實(shí)數(shù)據(jù)分布,(??)表示噪聲數(shù)據(jù)分布。

2) GAN 挑戰(zhàn)

盡管 GAN 具有強(qiáng)大的特性,但傳統(tǒng) GAN 存在一些局限,例如:

「模式崩潰(Mode Collapse)」

在這種現(xiàn)象中,生成器只能生成單一類型的輸出或有限數(shù)量的輸出 。這是因?yàn)樯善飨萑肓颂囟ǖ哪J交蚰J?,無法生成覆蓋整個(gè)數(shù)據(jù)范圍的多樣化輸出 。主要原因包括災(zāi)難性遺忘  和鑒別器過擬合,導(dǎo)致生成器損失消失。

「不收斂和不穩(wěn)定」

上面方程 8 中的損失函數(shù)可能導(dǎo)致生成器出現(xiàn)梯度消失的問題 。當(dāng)鑒別器學(xué)習(xí)得太快,可以輕松區(qū)分真實(shí)和偽造的樣本時(shí),就會(huì)發(fā)生這種情況,而生成器可能具有較低的學(xué)習(xí)率并且無法跟上。這可能導(dǎo)致訓(xùn)練過程停滯,因?yàn)樯善鳠o法從鑒別器提供的反饋中學(xué)習(xí)。GAN 也對(duì)超參數(shù)的選擇敏感,這意味著一點(diǎn)點(diǎn)的超參數(shù)更改可能會(huì)顯著影響結(jié)果。


為了解決梯度消失問題,可以使用不同的損失函數(shù),例如 Wasserstein 損失。

Wasserstein 損失對(duì)鑒別器的學(xué)習(xí)率不太敏感,可以防止生成器的梯度消失。另一個(gè)解決方案是使用學(xué)習(xí)率較小的生成器,以避免大權(quán)重導(dǎo)致的梯度消失。對(duì)于生成器,必須使用良好的初始化技術(shù)。通過這種方式,生成器將有一個(gè)良好的起點(diǎn),訓(xùn)練過程可能會(huì)成功。

3) GAN 變體

針對(duì)上述 GAN 挑戰(zhàn),已經(jīng)開發(fā)了各種變體來解決這些弱點(diǎn)并優(yōu)化模型。以下是自 2014 年以來 GAN 的一些最著名的變體:

「有條件生成對(duì)抗網(wǎng)絡(luò) (cGAN)」

由 Mirza 等人于 2014 年引入,cGAN 通過將額外的輔助信息引入生成器和鑒別器網(wǎng)絡(luò)中,如類別標(biāo)簽或風(fēng)格屬性,從而增強(qiáng)了經(jīng)典 GAN 。通過引入一個(gè)包含條件信息輸入到生成器的額外層,指導(dǎo)生成器生成什么。

「深度卷積生成對(duì)抗網(wǎng)絡(luò) (DCGAN)」

該框架使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 作為鑒別器和生成器組件,省略了傳統(tǒng)的在卷積特征之上的全連接層。Batch Normalization 增強(qiáng)了訓(xùn)練的穩(wěn)定性,對(duì)每個(gè)神經(jīng)單元的輸入進(jìn)行規(guī)范化。DCGAN 使用步進(jìn)卷積和分?jǐn)?shù)步進(jìn)卷積代替池化層。ReLU 和 Leaky ReLU 分別用作生成器和鑒別器的激活函數(shù)。

「Wasserstein GAN (WGAN)」

Wasserstein GAN(WGAN)是一種GAN變體,采用Wasserstein距離(也稱為推土機(jī)距離)作為其損失函數(shù),與傳統(tǒng)的GAN不同,后者通常使用Jensen-Shannon或Kullback-Leibler散度。Wasserstein距離(WD)衡量了真實(shí)樣本和生成樣本分布之間的相似性,其基礎(chǔ)是一個(gè)稱為運(yùn)輸問題的經(jīng)典優(yōu)化問題的解。在這個(gè)背景下,假設(shè)存在多個(gè)供應(yīng)商,每個(gè)都具有一定數(shù)量的商品,任務(wù)是將其交付給多個(gè)消費(fèi)者,每個(gè)消費(fèi)者都有特定的容量限制。每對(duì)供應(yīng)商-消費(fèi)者會(huì)產(chǎn)生運(yùn)輸單個(gè)商品的成本。運(yùn)輸問題的目標(biāo)是找到從供應(yīng)商到消費(fèi)者的最具成本效益的商品分配。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

「Cycle GAN」

Cycle GAN 是一種自動(dòng)訓(xùn)練圖像到圖像翻譯模型的方法,無需配對(duì)的示例,利用了 GAN 架構(gòu)。它利用來自不同源和目標(biāo)域的不相關(guān)圖像集合(例如,域 X 和域 Y)。模型結(jié)構(gòu)包括兩個(gè)生成器:Generator-X 為域 X 創(chuàng)造圖像,Generator-Y 為域 Y 生成圖像。每個(gè)生成器都有一個(gè)相應(yīng)的鑒別器進(jìn)行二進(jìn)制分類。


該變體包含三個(gè)損失函數(shù):首先,循環(huán)一致性損失確保域之間的轉(zhuǎn)換保持一個(gè)連貫的循環(huán),返回到其原始點(diǎn);其次,對(duì)抗損失將生成器與其相應(yīng)的鑒別器對(duì)立起來,生成器努力生成特定于域的圖像,而鑒別器區(qū)分轉(zhuǎn)換和真實(shí)樣本;第三,ID損失鼓勵(lì)生成器忠實(shí)地保留輸入和輸出之間的色彩組合,增強(qiáng)了翻譯的保真度。

「StarGAN」

StarGAN 利用 GAN 架構(gòu)進(jìn)行多領(lǐng)域圖像到圖像翻譯。正如 Choi 等人所述,這個(gè)創(chuàng)新的生成對(duì)抗網(wǎng)絡(luò)巧妙地學(xué)習(xí)了多個(gè)領(lǐng)域之間的映射,只使用一個(gè)生成器和鑒別器,并有效地訓(xùn)練了跨足所有領(lǐng)域的圖像。該模型利用對(duì)抗損失使生成的圖像與真實(shí)圖像幾乎無法區(qū)分,使用領(lǐng)域分類損失來確保鑒別器的精確分類,以及重建損失,最小化對(duì)抗和分類損失。


「總結(jié):」 本節(jié)深入探討了多個(gè)生成對(duì)抗網(wǎng)絡(luò)(GANs)的變體。然而,值得注意的是,GANs 領(lǐng)域涵蓋了許多其他變體,這些變體在基礎(chǔ) GAN 框架之上取得了顯著的進(jìn)展。這些顯著的進(jìn)展包括 2017 年的 Progressive GAN(PGAN),2018 年的 BigGAN ,2019 年的 StyleGAN  和 StyleGAN 2 ,以及較早的創(chuàng)新,如 InfoGAN ,Stacked GAN ,2016 年的雙向 GAN(BiGAN)。

Diffusion 模型

擴(kuò)散模型的特點(diǎn)是一個(gè)兩步生成過程。首先,在訓(xùn)練數(shù)據(jù)中引入高斯噪聲,稱為前向擴(kuò)散過程。隨后進(jìn)行逆擴(kuò)散過程,通常稱為去噪,以重構(gòu)原始數(shù)據(jù)。隨著時(shí)間的推移,模型逐漸學(xué)會(huì)消除添加的噪聲。

生成式 AI 任務(wù)

生成式AI涵蓋了各種任務(wù),包括語音生成(文本轉(zhuǎn)語音)、圖像生成(文本轉(zhuǎn)圖像)、文本生成(文本到文本)、代碼生成(文本到代碼)、音樂生成(文本到音樂)、視頻生成(文本到視頻)和科學(xué)內(nèi)容生成(文本到科學(xué))。各種先進(jìn)的工具支持這些任務(wù),如下表2所示,其中谷歌擁有最多的生成工具,其次是Meta AI和OpenAI,如表2所示。這些工具大多數(shù)在2023年推出,其中有一些是早些時(shí)候引入的。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

文本生成

文本生成涉及將文本作為輸入并生成相應(yīng)的基于文本的響應(yīng)。這個(gè)任務(wù)通常與問答對(duì)話系統(tǒng)相關(guān),通常被稱為聊天機(jī)器人。許多著名的生成式AI工具屬于這一類別,ChatGPT是其中的一個(gè)開創(chuàng)性例子。其他顯著的工具包括谷歌的Bard、OpenAI的ChatGPT Plus、Wordtune Spice和Cohere的Generate。


對(duì)兩個(gè)著名的文本到文本工具Bard和ChatGPT進(jìn)行了全面的性能評(píng)估。它們都被提供了相同的查詢:“提供Bard的簡要描述一段”,“提供ChatGPT的簡要描述一段”,以及一個(gè)斯瓦希里語的問題,“Habari za saa hizi”。如圖9所示的結(jié)果明確顯示,ChatGPT在提供更精確的答案方面優(yōu)于Bard。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

圖像生成

這是一個(gè)涵蓋了利用文本提示或視覺信息生成相應(yīng)圖像的過程,涵蓋了各種視覺領(lǐng)域,包括圖形、照片和藝術(shù)作品。作為文本到圖像概念的示例,使用了Adobe的'Firefly'和Stability的'Stable Diffusion'進(jìn)行實(shí)驗(yàn)。通過使用“大學(xué)生編程”來提示這些模型,獲得了它們各自的輸出,如下圖10所示。結(jié)果清楚地表明,雖然'Firefly'在提供與輸入更精確匹配的輸出方面表現(xiàn)出色,但相較于其對(duì)手,Stable Diffusion展示了更高的圖像分辨率。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

另一個(gè)情景的圖像生成涉及根據(jù)提供的文本描述將圖像從一種形式轉(zhuǎn)換為另一種形式。在這個(gè)領(lǐng)域,許多工具展示了實(shí)現(xiàn)這種轉(zhuǎn)換的有望能力。特別地,我們已經(jīng)探索了RoomGPT和Runaway的性能,分別如圖11和圖12所示。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

視頻生成

這個(gè)任務(wù)涉及根據(jù)文本或視覺輸入生成新的視頻,其中視覺包括各種內(nèi)容,包括圖像和視頻。在這個(gè)領(lǐng)域,有一些顯著的工具專門設(shè)計(jì)為接受純文本描述作為輸入。一個(gè)典型的例子是Google的'Parti'和openAI的'DALL E-2',它們是專注于僅從文本提示中創(chuàng)建視頻的高效工具。盡管如此,視頻生成領(lǐng)域仍然在不斷發(fā)展。工具如RunwayML的'Gen-2'、Google的'Imagen Video'和Meta的'Make-A-Video'已經(jīng)成為先驅(qū)。這些先進(jìn)的平臺(tái)不僅擁有出色的能力,可以接受文本描述,而且還可以無縫集成圖像和視頻作為輸入,超越了傳統(tǒng)的邊界。它們的卓越之處在于它們擅長將這些輸入轉(zhuǎn)化為全新的視頻作品,從而展示了生成式AI在創(chuàng)意領(lǐng)域中視頻制作的激動(dòng)人心潛力。

代碼生成

代碼生成工具是專門的軟件實(shí)用程序,能夠根據(jù)提供的文本描述自動(dòng)生成各種編程語言的碼塊。這些工具利用在廣泛公開可用的碼庫上進(jìn)行訓(xùn)練的復(fù)雜模型,擁有數(shù)十億個(gè)參數(shù)。它們的主要目標(biāo)是通過理解簡單的英語并將其翻譯成功能性代碼來協(xié)助人類開發(fā)人員。這類工具的顯著例子包括StarCoder 、Codex 、CoPilot、Codey和Code Interpreter。此外,值得注意的是,包括ChatGPT和Bard在內(nèi)的一些文本到文本工具,如圖13所示,也具備生成代碼的能力。

一文回顧生成式AI的發(fā)展:GANs、GPT、自編碼器、擴(kuò)散模型和Transformer系列-AI.x社區(qū)

音樂生成

這是一個(gè)迷人的生成任務(wù),涉及全新音樂的創(chuàng)作。這個(gè)創(chuàng)新的過程以各種形式的輸入為基礎(chǔ),包括文本描述、音樂音符序列,甚至音頻樣本。其目標(biāo)是利用這些輸入,并將它們轉(zhuǎn)化為新鮮的音樂作品,涵蓋了節(jié)奏、旋律、和諧的和弦以及多樣的樂器。著名的工具如MuseNet 和Jukebox是音樂生成的杰出例子。這些創(chuàng)新平臺(tái)利用生成式AI的力量,創(chuàng)作涵蓋各種流派和風(fēng)格的音樂作品。它們在為音樂藝術(shù)注入創(chuàng)造力方面表現(xiàn)出色,為藝術(shù)家和愛好者開辟了探索和享受的新途徑。

語音生成

產(chǎn)生類似人類的語音或聲音取決于文本或音頻輸入。文本輸入可以包括書面文本,如句子、段落或整個(gè)文檔,涵蓋多種語言,包括標(biāo)點(diǎn)符號(hào)、特殊符號(hào)和格式說明。語音生成模型,如SpeechGAN,進(jìn)行一系列步驟,涉及語音合成、增強(qiáng)和轉(zhuǎn)換。增強(qiáng)過程包括噪聲處理、音調(diào)調(diào)制、情感傳達(dá)和其他微妙的特征。在這個(gè)領(lǐng)域已經(jīng)開發(fā)了許多工具來促進(jìn)語音生成,其中一些包括Whisper、Speechelo、Synthesys、Voice Over和WaveNet。這些工具在生成緊密模仿自然語言的語音或言語方面表現(xiàn)出色,有效地模糊了人類和人工語音合成之間的界線。

科學(xué)內(nèi)容生成

科學(xué)內(nèi)容生成是一個(gè)多方面的過程,涵蓋了在數(shù)學(xué)、物理、化學(xué)和生物等各個(gè)科學(xué)領(lǐng)域創(chuàng)建信息豐富和學(xué)術(shù)性內(nèi)容的過程。這項(xiàng)工作旨在利用生成式AI的力量生成準(zhǔn)確而富有洞察力的內(nèi)容,有助于傳播科學(xué)知識(shí)。在這一領(lǐng)域的一項(xiàng)顯著研究由Rodriguez等人進(jìn)行,探討了基于文本輸入生成科學(xué)圖表的創(chuàng)新方式。這項(xiàng)開創(chuàng)性研究利用擴(kuò)散模型,將文本描述無縫轉(zhuǎn)化為視覺上具有信息性的科學(xué)圖表,從而簡化了科學(xué)溝通和可視化的過程。此外,谷歌進(jìn)行中的研究項(xiàng)目Minerva是解決定量推理問題的重要進(jìn)展。該項(xiàng)目利用大語言模型(LLM)的能力來解決復(fù)雜的定量挑戰(zhàn),從而增進(jìn)我們對(duì)數(shù)學(xué)及其在科學(xué)領(lǐng)域的實(shí)際應(yīng)用的理解。與此同時(shí),Meta AI開發(fā)的先進(jìn)工具Galactica 在科學(xué)寫作中發(fā)揮著重要作用。這個(gè)平臺(tái)為科學(xué)家和研究人員提供了強(qiáng)大的工具,幫助他們簡化表達(dá)他們的科學(xué)發(fā)現(xiàn)、理論和見解的過程。

生成式AI的工業(yè)應(yīng)用

生成式AI技術(shù)在當(dāng)前和未來的相關(guān)性不可或缺。目前,生成式AI正對(duì)各個(gè)行業(yè)產(chǎn)生指數(shù)級(jí)的影響,本節(jié)將深入探討受影響最大的領(lǐng)域。

媒體和娛樂

在娛樂產(chǎn)業(yè)中,生成式AI模型盡管仍處于早期階段,但開始產(chǎn)生顯著影響。它們的影響涵蓋了各種娛樂領(lǐng)域,包括為小說、戲劇和電影進(jìn)行劇本編寫和故事板設(shè)計(jì),涉及音頻制作,包括作曲、編曲和混音,游戲設(shè)計(jì)和角色創(chuàng)建,創(chuàng)造引人入勝的虛擬世界,營銷活動(dòng)以及生成動(dòng)態(tài)和靜態(tài)圖像。值得注意的是,許多易于獲取的工具,如表3所示,使生成內(nèi)容,如短片、笑話和圖像更容易。這些工具中許多價(jià)格實(shí)惠,甚至免費(fèi),為傳統(tǒng)的內(nèi)容創(chuàng)作方法提供了替代方案。作為其潛力的一個(gè)例證,2022年,RunwayAI在創(chuàng)作奧斯卡獲獎(jiǎng)影片《Everything Everywhere All at Once》中發(fā)揮了作用,該影片獲得了七項(xiàng)奧斯卡獎(jiǎng)的認(rèn)可。

教育和研究

生成式AI正在迅速改變教育領(lǐng)域的格局,提供創(chuàng)新解決方案,提升學(xué)生和教育者的學(xué)習(xí)體驗(yàn)。在教育中,生成式AI的一個(gè)重要影響是個(gè)性化內(nèi)容生成工具的出現(xiàn)。這些工具,如GPT-3、GPT-4和Bard,使教育工作者能夠制作定制的學(xué)習(xí)材料,包括互動(dòng)課程、測驗(yàn)和學(xué)習(xí)指南,精確滿足個(gè)別學(xué)生和教師的獨(dú)特需求。此外,由AI驅(qū)動(dòng)的聊天機(jī)器人和虛擬導(dǎo)師為學(xué)生提供實(shí)時(shí)支持,提供解釋、解答問題和提供個(gè)性化反饋。這種變革性的技術(shù)有望重新定義學(xué)生如何獲取和參與教育內(nèi)容,促進(jìn)根據(jù)每位學(xué)習(xí)者的特定偏好提供的可訪問性和適應(yīng)性。


生成式AI還打開了研究和學(xué)術(shù)探索的新途徑。生成式AI工具的快速發(fā)展引起了全球研究人員和學(xué)者的興趣,引發(fā)了一系列研究機(jī)會(huì)。科技巨頭和研究機(jī)構(gòu)正在投入大量資源,探索和發(fā)明這一領(lǐng)域的新工具和技術(shù)。這在生成式AI相關(guān)的論文激增的現(xiàn)象上表現(xiàn)得很明顯,無論是在像IEEE這樣的同行評(píng)審數(shù)據(jù)庫,還是在arXiv這樣的非評(píng)審平臺(tái)上,生成式AI的主題都得到了突顯。教育與生成式AI的融合不僅轉(zhuǎn)變了學(xué)習(xí)體驗(yàn),還催生了一個(gè)蓬勃發(fā)展的學(xué)術(shù)領(lǐng)域,承諾持續(xù)增長和創(chuàng)新。

醫(yī)療保健

生成式AI在醫(yī)療保健領(lǐng)域取得了重大進(jìn)展,特別是在醫(yī)學(xué)影像方面。它在克服與有限數(shù)據(jù)集相關(guān)的挑戰(zhàn)方面發(fā)揮著關(guān)鍵作用,通過實(shí)現(xiàn)新數(shù)據(jù)的合成,最終提高了醫(yī)學(xué)圖像的質(zhì)量和多樣性。這一創(chuàng)新將徹底改變疾病檢測和診斷,為醫(yī)療專業(yè)人員提供更準(zhǔn)確和詳細(xì)的信息。此外,生成式AI正在改變患者護(hù)理的行政方面。通過簡化行政流程并提供虛擬健康助手,它簡化了醫(yī)療管理并提供個(gè)性化的健康建議、用藥提醒和情感支持。此外,生成式AI正在革新治療規(guī)劃。利用患者特定的數(shù)據(jù),它可以生成根據(jù)個(gè)體的基因組、生活方式和病史定制的治療計(jì)劃。這種方法對(duì)精準(zhǔn)醫(yī)學(xué)表示了重大飛躍,確保患者獲得最有效和個(gè)性化的治療。


此外,生成式AI在藥物開發(fā)和發(fā)現(xiàn)領(lǐng)域發(fā)揮著關(guān)鍵作用。通過生成分子結(jié)構(gòu)和預(yù)測建模,它加速了新型治療化合物的識(shí)別。這些進(jìn)步可以解決先前難以治療的疾病,為全球無數(shù)患者帶來希望。值得注意的是,NVIDIA與Evozyne合作實(shí)施生成式AI,特別是ProT-VAE,標(biāo)志著人工智能與醫(yī)療保健領(lǐng)域之間的顯著協(xié)同作用。通過使用蛋白Transformer變分自編碼器,他們已經(jīng)為合成蛋白質(zhì)的創(chuàng)造奠定了基礎(chǔ),為在對(duì)抗性不治之癥的斗爭中提供新途徑。另一個(gè)值得注意的例子是谷歌與Cognizant的合作研究項(xiàng)目。他們的共同努力旨在構(gòu)建專為醫(yī)療應(yīng)用定制的大型語言模型(LLM),專注于增強(qiáng)醫(yī)療保健行政任務(wù)。這一努力利用了谷歌云及其框架的能力,為醫(yī)療保健領(lǐng)域創(chuàng)建了先進(jìn)的生成式AI解決方案。

商業(yè)

生成式AI已經(jīng)在商業(yè)領(lǐng)域牢牢樹立了存在。下表3中列出的許多應(yīng)用程序采用訂閱模式,反映了這些工具不斷增長的商業(yè)性質(zhì)。彭博智庫預(yù)測,生成式AI(GAI)將在2023年創(chuàng)造1370億美元的價(jià)值,并預(yù)計(jì)到2030年將激增至1.3萬億美元。這種深遠(yuǎn)的影響橫跨各個(gè)行業(yè),從制造和批發(fā)到零售企業(yè)、銀行業(yè)、農(nóng)業(yè)等等。生成式AI的影響范圍從創(chuàng)建新產(chǎn)品和自動(dòng)化財(cái)務(wù)數(shù)據(jù)分析到生成個(gè)性化廣告活動(dòng),為客戶提供定制產(chǎn)品推薦,并生成產(chǎn)品描述和新聞文章。越來越明顯的是,生成式AI正在重塑商業(yè)格局,并在未來具有巨大的經(jīng)濟(jì)潛力。


例如,亞馬遜積極利用生成式AI的能力,通過對(duì)產(chǎn)品的簡短描述,為賣家打造引人入勝、有說服力且有效的產(chǎn)品清單。亞馬遜利用生成式AI生成高質(zhì)量內(nèi)容,賣家可以進(jìn)一步完善或直接提交以豐富亞馬遜的產(chǎn)品目錄。

生成式AI的未來

生成式AI無疑具有重要而有前途的未來,在各個(gè)領(lǐng)域提供豐富而變革性的可能性。然而,它同樣伴隨著相當(dāng)程度的不確定性和一系列值得深入探討的問題。本節(jié)旨在探討生成式AI的多方面,包括其潛力以及前方的挑戰(zhàn)和不確定性。

第五次工業(yè)革命(5IR)的先鋒

生成式AI代表著第五次工業(yè)革命(5IR)的前沿,這是一股力量,注定要革命第四次工業(yè)革命,并在各個(gè)領(lǐng)域引發(fā)變革性變化。這種轉(zhuǎn)變得以實(shí)現(xiàn),得益于互聯(lián)網(wǎng)基礎(chǔ)設(shè)施、大規(guī)模數(shù)據(jù)集和超越地理界限的分布式計(jì)算資源的深刻相互連接。多個(gè)行業(yè),包括醫(yī)療保健、安全、網(wǎng)絡(luò)基礎(chǔ)設(shè)施、娛樂和教育,都在因生成式AI的能力而面臨重大顛覆的邊緣。然而,關(guān)鍵是要認(rèn)識(shí)到這種顛覆潛力可能也會(huì)帶來跨多個(gè)領(lǐng)域的基礎(chǔ)設(shè)施改革,可能導(dǎo)致各種職業(yè)領(lǐng)域的高度自動(dòng)化和優(yōu)化。


在醫(yī)療保健行業(yè)中,正如我們所見,生成式AI已經(jīng)在藥物發(fā)現(xiàn)方面發(fā)揮著關(guān)鍵作用,特別強(qiáng)調(diào)探索蛋白質(zhì)分子。這項(xiàng)技術(shù)在藥物開發(fā)領(lǐng)域的潛力巨大,來自主要技術(shù)公司的大量投資強(qiáng)調(diào)了不久的將來預(yù)期的進(jìn)展。然而,生成式AI的影響不僅限于藥物開發(fā),因?yàn)轭A(yù)計(jì)它將從根本上轉(zhuǎn)變醫(yī)療保健領(lǐng)域的患者體驗(yàn)。通過利用患者的病歷數(shù)據(jù),它可以通過分析年齡、性別和潛在醫(yī)療狀況等元數(shù)據(jù)自主診斷醫(yī)療狀況。此外,它可以篩選大量患者數(shù)據(jù)以識(shí)別模式、做出預(yù)測并建議適當(dāng)?shù)乃幬铩_@一轉(zhuǎn)變旨在優(yōu)先考慮以患者為中心的臨床體驗(yàn),推動(dòng)成本效益,最終實(shí)現(xiàn)醫(yī)療保健協(xié)議的顯著增強(qiáng)。


在娛樂行業(yè)中,未來可預(yù)見的是,我們正站在一個(gè)變革性時(shí)代的門檻,生成式AI很可能主導(dǎo)娛樂和媒體領(lǐng)域的內(nèi)容創(chuàng)作。從精心設(shè)計(jì)的劇本和敘述到細(xì)致安排的場景和栩栩如生的角色,生成式AI的影響力將滲透到這些行業(yè)內(nèi)容生成的每個(gè)方面。此外,潛在的影響是如此深遠(yuǎn),以至于它甚至可能挑戰(zhàn)生命和藝術(shù)的界限。已故藝術(shù)家可能會(huì)繼續(xù)發(fā)布新的專輯和創(chuàng)作,有效地超越了生命的限制。這不僅將開啟藝術(shù)探索的新時(shí)代,而且承諾顯著的成本節(jié)省,徹底改變電影和音樂制作的經(jīng)濟(jì)學(xué)。自動(dòng)化場景創(chuàng)建和內(nèi)容生成將降低開支并使創(chuàng)作過程更加高效。


在教育領(lǐng)域,AI聊天機(jī)器人(如ChatGPT和Google Bard)的出現(xiàn),以及其他創(chuàng)新工具,為生成式AI在教育行業(yè)的民主化提供了令人信服的證據(jù)。這一顯著進(jìn)展使當(dāng)前的教育體系和資源變得過時(shí),尤其是在發(fā)達(dá)國家。它預(yù)示著對(duì)教育系統(tǒng)的全面改革,包括教學(xué)資源,以適應(yīng)生成式AI時(shí)代的指數(shù)增長,旨在提供高度個(gè)性化和適應(yīng)性的學(xué)習(xí)體驗(yàn)。


在先進(jìn)制造業(yè)中,在生成式AI出現(xiàn)之前,機(jī)器人技術(shù)已經(jīng)展示了令人印象深刻的能力。然而,隨著生成式AI的整合,可以期待真正顯著的進(jìn)步。設(shè)想一下將生成式AI融入軍事技術(shù)的后果,我們可能會(huì)看到生成核武器的發(fā)展,化學(xué)配方的制定用于飲料、清潔劑和各種工業(yè)產(chǎn)品,以及自動(dòng)駕駛汽車的廣泛采用??赡苄缘姆秶菑V泛的,它無疑標(biāo)志著一個(gè)新時(shí)代的開始——一場工業(yè)革命,承諾在眾多行業(yè)領(lǐng)域?qū)崿F(xiàn)徹底變革的景觀和創(chuàng)新方法。

工作市場的變革

生成式AI對(duì)勞動(dòng)力市場的影響是雙重的:

首先,它引入了新的就業(yè)機(jī)會(huì),涉及新興領(lǐng)域,如AI可解釋性和生成式AI工程。麥肯錫的分析表明,與生成式AI有關(guān)的職業(yè)的工作機(jī)會(huì)逐漸增加,這一趨勢預(yù)計(jì)將持續(xù)到2030年左右。值得注意的是,美國工作人口中有84%的人占據(jù)的職位有潛力利用生成式AI自動(dòng)執(zhí)行大部分重復(fù)性任務(wù),從而導(dǎo)致整體生產(chǎn)力的顯著提升。有47%的美國高管對(duì)整合生成式AI表示信心,認(rèn)為這將提高各行各業(yè)的生產(chǎn)力 。


相反,工作惡化;優(yōu)化和自動(dòng)化業(yè)務(wù)流程預(yù)計(jì)將用創(chuàng)造性和生成式AI功能替代許多現(xiàn)有的職業(yè)。生成式AI對(duì)勞動(dòng)力市場的影響有望改變就業(yè)格局,逐漸用先進(jìn)技術(shù)替代許多傳統(tǒng)角色。根據(jù)世界經(jīng)濟(jì)論壇的報(bào)告,被大語言模型(LLM)自動(dòng)化的潛力最高的任務(wù)是例行和重復(fù)的任務(wù)。這些任務(wù)包括信用授權(quán)人員、核對(duì)員、文員、管理分析師、電話營銷人員、統(tǒng)計(jì)助手和出納員。因此,個(gè)體必須優(yōu)先考慮重新培訓(xùn)技能和增強(qiáng)適應(yīng)性,以有效準(zhǔn)備未來的人工智能驅(qū)動(dòng)的工作。

隱私和安全顧慮

網(wǎng)絡(luò)安全基礎(chǔ)設(shè)施領(lǐng)域目前正在經(jīng)歷深刻而迅速的變革,主要是由于生成式AI的整合。這一重大變化引發(fā)了一系列迫切的關(guān)切和未來的挑戰(zhàn):

  1. 復(fù)雜的網(wǎng)絡(luò)戰(zhàn)爭:目前,我們正在目睹惡意活動(dòng)的顯著增長,這一趨勢預(yù)計(jì)將繼續(xù)上升,同時(shí)變得更為錯(cuò)綜復(fù)雜。例如,先進(jìn)的網(wǎng)絡(luò)威脅工具如WormGPT和FraudGPT 的出現(xiàn)迅速確立了它們自己作為網(wǎng)絡(luò)威脅的開創(chuàng)性元素,它們經(jīng)過精心設(shè)計(jì),非常復(fù)雜和難以察覺。此外,由生成式AI提供動(dòng)力的自動(dòng)化和復(fù)雜的惡意軟件和勒索軟件的出現(xiàn)對(duì)顛覆現(xiàn)有加密方法具有威脅性。這主要是由于生成式AI固有的巨大計(jì)算能力。隨著這些惡意實(shí)體的持續(xù)發(fā)展,它們對(duì)網(wǎng)絡(luò)安全格局構(gòu)成了巨大挑戰(zhàn),測試著當(dāng)代網(wǎng)絡(luò)安全系統(tǒng)和協(xié)議的韌性和穩(wěn)健性的極限。這些發(fā)展的后果是深遠(yuǎn)的,可能對(duì)一個(gè)國家的關(guān)鍵基礎(chǔ)設(shè)施造成毀滅性的影響,特別是在涉及國家贊助或惡意的網(wǎng)絡(luò)恐怖主義的情景中。
  2. 增加的冒名頂替和虛假信息:人工智能在各個(gè)領(lǐng)域——視覺、語音、音頻和文本——的進(jìn)步大大提高了有關(guān)個(gè)人隱私侵犯和冒名行騙的擔(dān)憂。一個(gè)相關(guān)的例子是音樂行業(yè),AI驅(qū)動(dòng)的“幽靈寫手”發(fā)布了模仿全球音樂巨星(如德雷克和The Weeknd)聲音的偽造音軌。這些音軌,如“Heart on My Sleeve”和“Cuff It”,展示了Rihanna和Beyoncé聲音的AI生成版本,因其極具說服力的模仿而引起關(guān)注。因此,創(chuàng)意產(chǎn)業(yè)面臨著重大威脅,尤其是那些依賴先進(jìn)人工智能的行業(yè)。據(jù)報(bào)道,這些技術(shù)可能會(huì)危及娛樂行業(yè)內(nèi)的職業(yè)。

結(jié)論

總的來說,生成式AI為一個(gè)充滿前所未有的機(jī)遇和固有風(fēng)險(xiǎn)的世界打開了大門。需要進(jìn)一步深入研究,以更好地理解其在各個(gè)領(lǐng)域的多方面影響,并制定有效的緩解策略。在潛在的利益和生成式AI可能帶來的威脅之間取得平衡對(duì)于最好地滿足人類需求至關(guān)重要。

在本文中,我們深入研究了先進(jìn)模型,探討了它們的數(shù)學(xué)基礎(chǔ),調(diào)查了它們的架構(gòu)復(fù)雜性,并預(yù)測了它們在未來的發(fā)展。還研究了突出的任務(wù),將先進(jìn)工具與生成式AI進(jìn)行了基準(zhǔn)測試,并評(píng)估了它們在現(xiàn)實(shí)世界中的應(yīng)用。生成式AI的影響、挑戰(zhàn)和未來前景都得到了全面的討論。


實(shí)現(xiàn)生成式AI的充分潛力的道路仍在進(jìn)行中,需要監(jiān)管機(jī)構(gòu)迅速而慎重地采取行動(dòng),以確保在AI技術(shù)迅猛發(fā)展的同時(shí)保持秩序和與之協(xié)調(diào)。在這一背景下,可解釋性AI、響應(yīng)性AI和隱私保護(hù)AI的作用變得日益重要。未來充滿希望,但在前進(jìn)的過程中,保持生成式AI所呈現(xiàn)的機(jī)遇和風(fēng)險(xiǎn)之間的微妙平衡對(duì)于充分發(fā)揮其效用并確保其有效服務(wù)于人類至關(guān)重要。

本文轉(zhuǎn)自 AI生成未來  ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/Ucb2QZPsZJWo8NlfRKLg7w??

標(biāo)簽
已于2024-9-5 14:05:58修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦