【GPT-4理論篇】GPT-4核心技術(shù)探秘
前言
GPT-4已經(jīng)發(fā)布有一段時間了,但是出于安全性等各種原因,OpenAI并沒有公布GPT-4的技術(shù)細節(jié)和代碼,而是僅僅給出了一個長達100頁的技術(shù)報告[1]。
這個技術(shù)報告著重介紹了GPT-4的強大之處,僅僅給出了幾個技術(shù)方向的概括,對于想了解技術(shù)細節(jié)的我們遠遠不夠。
在本文中,我將結(jié)合GPT-4的技術(shù)報告、GPT-4相對于GPT 3.5/ChatGPT的提升、GPT-4和ChatGPT的對比、OpenAI的近期工作,大語言模型(Large Language Model,LLM)模型的科研進展,多模態(tài)模型的科研進展等多方面的信息,深入分析GPT-4的技術(shù)細節(jié)。
因為并沒有明確的證據(jù)證明GPT-4就是這么做的,所以我們在這里主要討論要實現(xiàn)GPT-4的這些能力,OpenAI可能使用了哪些技術(shù)。所以如果我的推測有所錯誤,也歡迎各位讀者在評論區(qū)探討。接下來讓我們一起化身福爾摩斯,開始分析GPT-4背后的原理吧。
1. GPT-4的提升
GPT-4是在ChatGPT基礎(chǔ)上迭代出來的,關(guān)于ChatGPT的原理我再這里就不再贅述,需要了解的移步我在《ChatGPT/InstructGPT詳解》一文中給的介紹。這篇文章中,我們先討論GPT-4相對于ChatGPT做了哪些改進,即GPT-4相對于ChatGPT有哪些功能上的提升。接下來我們討論OpenAI為了做到這些提升,在GPT-4中可能應(yīng)用了哪些技術(shù)。最后我們討論其它大語言模型以及使用GPT-4的一些感想。
1.1 zero-shot及few-shot的學(xué)習(xí)能力
當我們在使用GPT-4進行文本生成時,我們會驚喜的發(fā)現(xiàn)GPT-4幾乎可以非常完美的回答你各種刁鉆的問題,這說明了GPT-4具有非常強大的無監(jiān)督學(xué)習(xí)的能力。
此外,GPT-4的技術(shù)報告中也給出了大量的無監(jiān)督學(xué)習(xí)的例子,甚至在有些場景逼近甚至超過了有監(jiān)督的SOTA方法。例如在HumanEval[3]的代碼生成數(shù)據(jù)集上,甚至超過了著名的代碼生成工具CodeX[3]。此外,在評估正確性的問答數(shù)據(jù)集TruthfulQA [26]上,GPT-4逼近了SOTA的 Anthropic-LM[4]。
1.2 邏輯推理能力
GPT-4的技術(shù)報告中著重強調(diào)的是它相對于ChatGPT在諸多學(xué)術(shù)考試上的提升,如圖1。學(xué)術(shù)測試評估反映的是GPT-4比ChatGPT有更強的邏輯推理能力。@岳玉濤 Max通過19個問題橫向?qū)Ρ攘薌PT-4和ChatGPT的邏輯推理問題[2],其中ChatGPT的正確率是37%,GPT-4的正確率是100%,從對比的例子中我們明顯可以看出GPT-4在邏輯推理上有著質(zhì)的飛躍。
圖1:GPT-4與ChatGPT在諸多學(xué)術(shù)考試中的成績對比
我這里也找了一個簡單的邏輯推理問題,可以看出在這個過橋的例子中ChatGPT雖然給出了過橋順序,但是時間計算錯誤,而GPT-4則簡單又清晰的解決了這個問題。
**問題:**四個人 ABCD 過橋,一次最多能過兩個人,他們的手電能維持十七分鐘,每個人所需的時間分別為 1、2、5、10;求最快可以多長時間全部過橋?
**ChatGPT:**為了讓四個人盡快過橋,我們需要讓速度最慢的人盡快過橋。因此,我們可以先讓速度最慢的兩個人 A 和 B 過橋,然后讓 A 返回,再讓速度次慢的人 C 和 D 過橋,最后讓 B 返回,這樣就完成了全部過橋的過程。
具體來說,我們可以按照以下步驟進行:
A 和 B 過橋,花費時間為 10 分鐘。
A 返回,花費時間為 1 分鐘。
C 和 D 過橋,花費時間為 5 分鐘。
B 返回,花費時間為 2 分鐘。
A 和 B 過橋,花費時間為 10 分鐘。
因此,總共花費的時間為 10 + 1 + 5 + 2 + 10 = 28 分鐘。這就是最快可以多長時間全部過橋的時間。
GPT-4:為了使四個人 ABCD 最快地全部過橋,我們可以采取以下策略:
A 和 B 一起過橋,用時 2 分鐘。
A 返回,用時 1 分鐘。
C 和 D 一起過橋,用時 10 分鐘。
B 返回,用時 2 分鐘。
A 和 B 一起過橋,用時 2 分鐘。
總共用時:2 + 1 + 10 + 2 + 2 = 17 分鐘。
所以最快可以在 17 分鐘內(nèi)使所有人過橋。
1.3 理解圖表能力
GPT-4的一個重大提升是開始涉及多模態(tài),鑒于GPT-4的圖像接口還未開放,我們這里借用GPT-4的技術(shù)報告中給的例子。在圖2中,GPT-4能夠精確的理解VGA口Lightning口的不協(xié)調(diào)之處。這個例子說明GPT-4不僅僅是簡單的理解圖像中的內(nèi)容,它最厲害的點在于能夠識別圖像中的特殊點。
圖2:GPT-4具有強大的圖、表理解能力
1.4 更安全的文本生成能力
GPT-4的技術(shù)報告中重點討論了GPT-4和之前的模型一樣有安全問題,但GPT-4的安全性已經(jīng)大幅提升。技術(shù)報告中指出,ChatGPT生成有害內(nèi)容的概率大概是GPT-4的10倍。圖3舉了大量的早期GPT-4和成熟GPT-4在有風(fēng)險提示下生成的內(nèi)容,可以看出成熟GPT-4的危險性大大降低,但這并不意味著GPT-4就是一個完全無害的模型。
圖3:早期GPT-4和成熟GPT-4在生成內(nèi)容安全性上的示例
GPT-4做了大量的工作來保證模型的安全性,首先它們聘請了50余位不同方向的領(lǐng)域?qū)<疫M行對抗測試和紅隊測試,二是訓(xùn)練了一個基于規(guī)則的獎勵模型(Rule-Based Reward Models, RBRMs)來輔助模型的訓(xùn)練,關(guān)于這一部分的實現(xiàn)細節(jié),我們將會在后面詳細展開。
1.5 更強的編程能力
GPT-4的技術(shù)報告中另外一個重要的對比項是它和ChatGPT在LeetCode上易中難三個不同難度上的代碼生成能力。在無監(jiān)督的情況下,GPT-4在HumanEval數(shù)據(jù)集上的評估準確率由ChatGPT的48.1%提升至67.0%。GPT-4的技術(shù)報告中指出,ChatGPT在LeetCode的166道編程題中僅對了20道,而GPT-4則回答對了55道。表1是GPT-4和ChatGPT在LeetCode的這166道編程題的具體分布。
GPT-4 | GPT-4 (no vision) | ChatGPT | |
LeetCode(easy) | 31 / 41 | 31 / 41 | 12 / 41 |
LeetCode(medium) | 21 / 80 | 21 / 80 | 8 / 80 |
LeetCode(hard) | 3 / 45 | 3 / 45 | 0 / 45 |
表1:GPT-4和ChatGPT在LeetCode編程題上的表現(xiàn)效果
1.6 處理其它語言的能力
GPT-4在英語以及非英語上都有了大幅提升,在大多數(shù)語種上都超過了ChatGPT在英語上的表現(xiàn),這里我們分別讓ChatGPT和GPT-4分別應(yīng)《讓子彈飛》中湯師爺?shù)囊髮懸皇自?,要求是“要有風(fēng),要有肉;要有火鍋,要有霧;要有美女,要有驢!”。對比兩首詩,ChatGPT寫的像是沒有什么文采的現(xiàn)代詩,而GPT-4生成的內(nèi)容除了前面兩居字數(shù)過多之外,基本像一首中國古詩了,甚至還在一定程度上保證了押韻。
ChatGPT:
風(fēng)吹過山崗,肉香四溢
火鍋熱氣騰騰,霧氣繚繞
美女婀娜多姿,驢兒歡快奔騰
這是一幅獨特的畫卷,讓人心曠神怡
風(fēng)肆意地吹拂,肉香撲鼻而來
火鍋里的食材,讓人垂涎欲滴
霧氣彌漫,讓人感到神秘
美女的容顏,讓人陶醉其中
驢兒的歡快,讓人感受到生命的活力
這是一幅充滿生命力的畫卷,讓人心馳神往
GPT-4:
翻滾的風(fēng)肆意掠過山澗,
火鍋涮肉錦上添花。
炊煙裊裊繞霧纏,
美女佳驢共同游。
美女翩翩拂驢背,
吹散煩憂與世界。
嬉戲胭脂笑顏醉,
驢兒踏歌奔山外。
火紅蘑菇熱情翻,
辣椒牛肉峰水澹。
鴛鴦火鍋歡歌笑,
時光荏苒留夢間。
霧濛濛滌凈塵緣,
蓑衣柴扉任風(fēng)險。
驢蹄踏碎人間俗,
飛鴻蹄印留輝煌。
1.7 處理更長序列的能力
ChatGPT能處理的最大序列是4K個token,而OpenAI開放了8k和32k的兩個模型,其中每個漢字大概占用2到2.5個token。GPT-4的token根據(jù)指示和回應(yīng)分別計價(表2),其中32k的價格是8k的兩倍,對比ChatGPT的每1000token的0.02美元,GPT-4要貴了15倍左右。
模型 | Prompt | Completion |
8K context | $0.03 / 1K tokens | $0.06 / 1K tokens |
32K context | $0.06 / 1K tokens | $0.12 / 1K tokens |
表2:GPT-4的收費細節(jié)
關(guān)于GPT-4的更多能力的探測,微軟雷蒙德研究院機器學(xué)習(xí)理論組負責(zé)人Sébastien Bubeck在他們最新發(fā)布的長達155頁的文章[25]中進行了廣泛的討論。
他們指出GPT-4表現(xiàn)出了遠超文本生成模型理論上能表現(xiàn)的效果,成為了點燃通用人工智能(AGI)烈焰的星星之火,GPT-4已經(jīng)具備了非常強的推理、計劃、解決問題、抽象思考、理解復(fù)雜想法、快速學(xué)習(xí)以及從經(jīng)驗中學(xué)習(xí)的能力。
2. GPT-4技術(shù)方案猜測
有了我們發(fā)現(xiàn)的GPT的這些提升,我們便可以結(jié)合當前LLM的進展以及OpenAI的工作猜測GPT-4可能的技術(shù)方案。因為我們只能依靠公布的算法進行推測,不排除OpenAI內(nèi)部使用未開放的算法作為解決方案,所以如果我的猜測有誤,您就姑且當做學(xué)習(xí)到了幾個獨立的算法。
- zero-shot及few-shot的學(xué)習(xí)能力:這個提升的理論依據(jù)很大可能是因為大模型的涌現(xiàn)能力(emergent ability)[5];
- 邏輯推理能力:用到了大模型的思維鏈(Chain of Thought,CoT)[6]以及自提升能力(Self-Improve Ability)[7];
- 理解圖像能力:推測借鑒了OpenAI著名的多模態(tài)模型CLIP[8]或者是微軟的多模態(tài)模型KOSMOS-1[12];
- 更安全的文本生成能力:這一部分技術(shù)報告中介紹的比較多,主要是專家測試,幻覺檢測以及RBRM;
- 更強的編程能力:推測這一部分借鑒了OpenAI的著名的代碼生成模型:CodeX;
- 處理其它語言的能力:推測可能借鑒了XLM [9]等跨語言預(yù)訓(xùn)練模型的思想,或是因為涌現(xiàn)能力強化了GPT-4在其它語種上的表現(xiàn)效果;
- 處理更長序列的能力:推測這一部分用到了處理長輸入的模型Transformer-XL [10]或者OpenAI提出的可以降低長數(shù)據(jù)復(fù)雜度的Sparse Transformer [11];
下面我們介紹我們的推測依據(jù)以及對這些推測的技術(shù)進行簡單的介紹。
2.1 涌現(xiàn)能力
涌現(xiàn)能力(emergent ability)是LLM取得突破性進展最重要的核心技術(shù),涌現(xiàn)能力指的是一種模型在訓(xùn)練過程中,自動地學(xué)習(xí)到一些高級的、復(fù)雜的功能或行為,而這些功能或行為并沒有被直接編碼或指定。
這種能力可以使得模型在處理新的、未知的任務(wù)時表現(xiàn)更加出色,因為它可以自適應(yīng)地學(xué)習(xí)到新的功能或行為,而不需要重新訓(xùn)練或修改模型。圖4展示了包括GPT-3在內(nèi)的諸多LLM都展現(xiàn)了非常強的涌現(xiàn)能力,即模型的參數(shù)量等指標突破某個指標后,它的性能會快速提升。這里我們可以斷定GPT-4的zero-shot和few-shot的學(xué)習(xí)能力是源自大模型的涌現(xiàn)能力。
模型產(chǎn)生涌現(xiàn)能力主要是取決四點,它們分別是:
- 模型超大的參數(shù)量;
- 模型的架構(gòu);
- 高質(zhì)量的訓(xùn)練數(shù)據(jù);
- 更先進的訓(xùn)練策略。
其中模型的參數(shù)量是最為重要的因素。
圖4:GPT-3等諸多大模型在多個任務(wù)上都展示出了涌現(xiàn)的能力
2.1.1 模型參數(shù)量
GPT-4的參數(shù)量是一個大家都在討論的話題,考慮到GPT-4比ChatGPT更強的涌現(xiàn)能力以及額外添加的圖像編碼模塊,GPT-4的參數(shù)量應(yīng)該不會比ChatGPT小。圖5是方舟投資(ARK Invest)統(tǒng)計的ChatGPT Turbo和GPT-4的預(yù)測每個token的時間,其中GPT-4的時間大概是ChatGPT的4倍左右。而且GPT-4很有可能使用了一些策略加速模型的推理速度,所以GPT-4的文本模型參數(shù)部分大概是千億級別但是非常接近萬億。
如果GPT-4使用了CLIP做圖像編碼,據(jù)OpenAI論文公布,目前最大的圖像編碼器是擴大了64倍的殘差網(wǎng)絡(luò),那么GPT-4的圖像編碼大概有16億。當然,我們無法排除GPT-4采用了其它圖像編碼結(jié)構(gòu),例如同樣是利用Transformer的KOSMOS-1[12]就是一個不錯的選擇,那么圖像部分的參數(shù)量如何就只能等更多相關(guān)內(nèi)容公開了。
圖5:ARK Invest統(tǒng)計的ChatGPT和GPT-4在預(yù)測每個token上的時間占比
2.1.2 模型的架構(gòu)
我們可以確定的是,GPT-4的技術(shù)報告中指出GPT-4采用了以Transformer為基礎(chǔ)的架構(gòu),即核心架構(gòu)還是采用了GPT系列的Decoder-only的結(jié)構(gòu)。對于GPT-4模型的內(nèi)部細節(jié),我們可以確認的點不多,考慮到GPT-4的速度以及處理長文本的能力,它的內(nèi)部結(jié)構(gòu)但有這兩種可能性:
- 因為GPT-4大幅提升了對長文本的能力,GPT-4有一定概率使用了Transformer-XL或者Sparse Transformer;
- 因為GPT-4更有可能是在ChatGPT基礎(chǔ)上迭代出來的,它可能還是使用了原生的Transformer,并增加了更多的層數(shù),head數(shù)以及隱層節(jié)點數(shù)。
因為GPT-4還支持圖像輸入,那么其中一定有關(guān)于圖像編碼的部分,我們將這部分內(nèi)容放在2.3節(jié)詳細展開。
2.1.3 訓(xùn)練策略和訓(xùn)練數(shù)據(jù)
GPT-4的基本保持了和ChatGPT相同的訓(xùn)練策略,即基本遵循了預(yù)訓(xùn)練+提示+預(yù)測的范式,如圖6。我們這里主要介紹GPT-4的改進,主要有三點。
- 引入了基于規(guī)則的獎勵模型(Rule Based Reward Model,RBRM);
- 引入了多模態(tài)的提示學(xué)習(xí);
- 引入了思維鏈。
圖6:ChatGPT的模型訓(xùn)練步驟
GPT-4的第一個改進則是引入了RBRM,RBRM是根據(jù)規(guī)則編寫的一個四分類模型,它的四個類別是:
- 期望樣式的拒絕;
- 不期望樣式的拒絕;
- 包含了不允許的內(nèi)容;
- 安全,不拒絕的響應(yīng)。
GPT-4被用在了圖6中Step 3的PPO階段。為了提升模型的安全性,ChatGPT在Step 3使用了人工反饋的強化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)來訓(xùn)練模型。ChatGPT的這部分數(shù)據(jù)來源于GPT-3的API用戶,GPT-4則在這里添加了RBRM,目的是通過正確的獎勵引導(dǎo)模型的訓(xùn)練,來拒絕生成有害的請求以及不拒絕無害的請求。
使用規(guī)則構(gòu)建NLP模型由來已久,其實NLP的最早期的模型就是基于規(guī)則的模型,然后才是基于概率的模型以及基于神經(jīng)網(wǎng)絡(luò)的模型。
例如香農(nóng)把離散馬爾可夫過程的概率模型用于描述語言的自動機,以及我們經(jīng)常使用的正則表達式都是典型的基于規(guī)則的文本模型?;谝?guī)則的模型的優(yōu)點是我們不需要訓(xùn)練數(shù)據(jù),缺點是它往往是需要領(lǐng)域?qū)<襾碓O(shè)計規(guī)則,并且往往只能解決一定領(lǐng)域內(nèi)的問題。我在這里猜測RBRM是由領(lǐng)域?qū)<以O(shè)計的,由一系列例如正則表達式,有限狀態(tài)機等文本規(guī)則編寫的一個零樣本分類器。
基于規(guī)則的強化學(xué)習(xí)在近年來也被廣泛提及,強化學(xué)習(xí)的一個重要優(yōu)化目標是減少搜索空間的范圍,而這項工作恰好可以交給規(guī)則的約束來完成。在經(jīng)過規(guī)則的約束后,再通過強化學(xué)習(xí)在剩余的空間中進行搜索,這樣就減少強化學(xué)習(xí)的搜索空間,可以有效提升收斂速度。GPT-4的RBRM的工作原理大致如圖7。
圖7:RBRM的工作原理
2)多模態(tài)提示學(xué)習(xí)
GPT-4并沒有對它的多模態(tài)能力的技術(shù)細節(jié)進行詳細介紹,而且它的圖像接口沒有開放公測。但是我們可以看下多模態(tài)領(lǐng)域有沒有類似GPT-4的報告中類似的工作。巧合的是微軟在今年年初公布的KOSMOS-1[12]擁有非常強的多模態(tài)QA的能力,它的思想也和GPT-4非常類似,我們這里可以推測GPT-4使用了和KOSMOS-1類似的多模態(tài)提示方法。
KOSMOS-1支持三種類型的數(shù)據(jù)集,分別是文本生成,圖像描述(Image Caption)生成以及多模態(tài)QA,圖8是KOSMOS-1在圖像描述生成以及QA生成上的例子。在圖8.(a)的圖像描述生成中,模型的輸入是圖像的Embedding,輸出是預(yù)測的圖像描述。在圖8.(b)的多模態(tài)QA中,KOSMOS-1將圖像嵌入與文本嵌入共同作為輸入,然后用于預(yù)測問題的答案。
圖8:KOSMOS-1的多模態(tài)輸入示例
3)思維鏈
GPT-4的擁有比ChatGPT明顯強的邏輯推理能力,在訓(xùn)練模型時應(yīng)該是使用思維鏈的方式構(gòu)建提示樣本。思維鏈不僅支持純文本輸入,還支持圖文多模態(tài)輸入,我們接下來用一節(jié)的篇幅來介紹這個重要的內(nèi)容。
4)能力預(yù)測
在我們在某個特定任務(wù)上訓(xùn)練一個模型時,我們希望能夠預(yù)測模型在這個任務(wù)上的最終表現(xiàn),這就是模型的能力預(yù)測(Capability Prediction)。在自然語言處理和大型語言模型領(lǐng)域,能力預(yù)測通常是指預(yù)測和評估一個模型在特定任務(wù)、領(lǐng)域或場景下的表現(xiàn)能力。
能力預(yù)測的目的是為了更好地了解模型的性能,以便優(yōu)化、調(diào)整或改進模型。通過對模型的能力預(yù)測,我們可以更好地理解模型的優(yōu)勢和局限,從而為模型的進一步發(fā)展和改進提供有價值的反饋。GPT-4在訓(xùn)練時也使用了能力預(yù)測,這讓他們能夠更準確的評估模型的效果,節(jié)約了訓(xùn)練成本。
2.2 邏輯推理能力
OpenAI為了提升GPT-4的推理能力,很有可能使用了近年來LLM非常重要的思維鏈以及自提升能力。它們可以看做是提示學(xué)習(xí)在邏輯推理能力上的針對性優(yōu)化,下面我們分別介紹它們。從GPT-4的技術(shù)報告中,我們可以發(fā)現(xiàn)很多GPT-4的訓(xùn)練使用了思維鏈或者自提升的證據(jù)。
2.2.1 思維鏈
思維鏈(Chain of Thought)是指人們在進行思考時,由于某個觀點、想法或感知刺激而引發(fā)的一系列相關(guān)思維聯(lián)想和關(guān)聯(lián)。這些關(guān)聯(lián)可以通過人們的記憶、經(jīng)驗、知識、情感和意識等方面來建立和加強,最終形成了一個有機的思維鏈,幫助人們理解和解決問題,做出決策和行動。思維鏈是人類思維活動的重要組成部分,它反映了人們的思考方式、思考習(xí)慣和思考效率。通過構(gòu)建和加強思維鏈,可以幫助人們更好地理解和把握事物的本質(zhì)和規(guī)律,更加有效地解決問題和做出決策。
在人工智能領(lǐng)域,研究人員也在探索如何利用機器學(xué)習(xí)和自然語言處理等技術(shù),來模擬人類的思維鏈,建立機器的思維鏈,幫助機器更好地理解和處理人類的語言和行為,實現(xiàn)更加智能化的應(yīng)用和系統(tǒng)。OpenAI的論文[6]是思維鏈方向具有重要意義的一篇文章,也是GPT-4很有可能使用的技術(shù)方案,在這篇文章中,他們提出了通過構(gòu)建思維鏈提示的方式來提升模型的推理能力。思維鏈也是一種涌現(xiàn)能力,它可以通過僅提供少量的樣本便大幅提升模型的邏輯推理能力。
思維鏈的與傳統(tǒng)提示學(xué)習(xí)的不同點是在提示中增加一個推理過程,構(gòu)建一個由輸入,思維鏈,輸出構(gòu)成的三元組。圖9是傳統(tǒng)提示和思維鏈提示的實例。
圖9:傳統(tǒng)提示學(xué)習(xí)和思維鏈提示學(xué)習(xí),思維鏈會在輸入中給出推理過程來幫助模型學(xué)習(xí)推理的能力
思維鏈也支持多模態(tài)的輸入,GPT-4的技術(shù)報告中也指出了GPT-4使用了多模態(tài)的思維鏈。圖13的GPT-4的例子便是一個經(jīng)典的因為使用思維鏈訓(xùn)練了模型而產(chǎn)生的包含推理過程的預(yù)測結(jié)果。圖10是上海交大和亞馬遜最新發(fā)表的一個多模態(tài)思維鏈的框架:Multimodel-COT [14]。
它包含兩個階段,兩個階段共享參數(shù)。在第一個階段,他們將圖像和文本輸入到模型中來生成理由,也就是思維鏈。在第二個階段,他們將原始輸入和生成的理由合在一起,輸入到模型中來生成答案。
圖10:Multimodel-COT的推理過程
2.2.2 自提升
谷歌在2022年發(fā)布的一篇文章[7]中指出,LLM和思維鏈的結(jié)合可以讓模型使用無監(jiān)督的數(shù)據(jù)進行自我提升(Self-Improve),它的核心方法如圖11所示。GPT-4也指出他們使用了[7]的方案來提升模型的遵循用戶意圖的能力。
圖11:LLM可以通過大模型進行自我提升
它的計算過程如下:
- 首先我們基于思維鏈構(gòu)建提示;
- 根據(jù)不同的溫度系數(shù),模型生成多個不同的包含推理過程的Path;
- 我們使用投票的方式選擇最有可能的正確答案;
- 將包含這個正確答案的所有Path用來優(yōu)化LLM。
你可能已經(jīng)發(fā)現(xiàn)這個方法得到的答案并不一定是正確的答案。作者通過實驗得出了兩個重要結(jié)論:
- 答案的正確率和它的置信度是高度相關(guān)的,也就是說通過投票得到的答案很有可能是生成的答案中最正確的那個;
- 即使答案是錯誤的,將它們加入到訓(xùn)練數(shù)據(jù)中也有助于模型的訓(xùn)練。
在得到了推理Path之后,作者根據(jù)這個Path構(gòu)建了四種不同的輸入數(shù)據(jù),它們分別是:
- 標準的思維鏈提示,即構(gòu)建(問題,思維鏈,答案)三元對;
- 傳統(tǒng)的提示學(xué)習(xí),即只有問題和答案;
- 輸入是問題,添加“Let's think step by step”提示,讓模型預(yù)測推理步驟;
- 傳統(tǒng)的QA,即輸入問題,預(yù)測答案。
最后,為了豐富數(shù)據(jù)集,作者提出了兩個方案來擴充數(shù)據(jù):一是隨機組合兩個問題,然后讓模型生成新的問題;二是讓模型生成推理步驟,并將它加入到訓(xùn)練集中。
2.3 理解圖表能力
因為GPT-4是支持圖像格式的圖表輸入的,OpenAI著名的多模態(tài)算法CLIP[8]講的是我們可以通過對比學(xué)習(xí)將圖像和文本映射到同一特征空間,如圖12。那么結(jié)合CLIP的圖像編碼器便可以實現(xiàn)GPT-4的圖像輸入,這時我們需要訓(xùn)練一個可以和GPT的文字特征對齊的圖像編碼器,然后將CLIP的圖像編碼器的輸出作為圖像token,最后再加一個embedding層將這個token編碼為GPT-4的特征向量。
圖12:CLIP的結(jié)構(gòu),它通過對比學(xué)習(xí)將圖像和文本投影到相同的特征空間
GPT-4除了可以理解圖2中這種照片的例子,最神奇的是GPT-4還可以理解圖13這種包含了很多細節(jié)的學(xué)術(shù)圖片。因為在一個學(xué)術(shù)圖片中,圖中代指的符號,目標之間的位置關(guān)系都是十分重要的,如果GPT-4僅僅通過一個圖像編碼就能捕獲這些細節(jié)信息,那么這個圖像編碼器一定也展現(xiàn)出了非常強的涌現(xiàn)能力,這個圖像編碼器也大概率是千億規(guī)模的參數(shù)量。
圖13:GPT-4具有理解學(xué)術(shù)圖像中具體細節(jié)的能力
GPT-4的多模態(tài)能力還有一種可能是類似多模態(tài)大語言模型(Multimodel Large Language Model,MLLM)。其中微軟的KOSMOS-1展示了和GPT-4類似的多模態(tài)語言模型的能力,KOSMOS-1在多模態(tài)問答上也展示出了非常強的涌現(xiàn)能力,如圖14。
KOSMOS-1是一個基于Transformer解碼器的多模態(tài)模型,它將不同模態(tài)的數(shù)據(jù)拼接到一起,例如<s>和</s>表示文本輸入,<image>和<\image>表示圖像輸入,其中圖像嵌入使用的是微軟的METALM[13]計算得到的特征向量。我們推測GPT-4有可能借鑒了KOSMO-1S的思想,然后結(jié)合了OpenAI自身的一些多模態(tài)的工作。
圖14:微軟的KOSMOS-1涌現(xiàn)出了非常強的圖像理解能力
關(guān)于GPT-4的多模態(tài)的更多技術(shù)細節(jié),我們可以等GPT-4的圖像接口開放之后多多測試才能發(fā)現(xiàn)。
2.4 更安全的輸出
現(xiàn)有的深度學(xué)習(xí)模型的思想均是使用大模型擬合訓(xùn)練集,對于一個生成模型來說,它的輸出內(nèi)容并不是完全可控的,GPT-4也不例外。GPT-4的技術(shù)報告中指出文本模型會存在下面幾類的風(fēng)險輸出,例如幻覺、有害內(nèi)容、歧視、虛假信息、暴力、隱私、網(wǎng)絡(luò)安全等。GPT-4做了大量工作來緩解這個問題。
GPT-4的第一個緩解風(fēng)險輸出的問題是聘請了50余名來自不同領(lǐng)域?qū)<野缪菁t隊進行對抗測試。紅隊的工作是提出有危險性的問題,以測試GPT-4給出的輸出,并嘗試攻克它。通過領(lǐng)域?qū)<业膶?,OpenAI也采集了大量不同方向的領(lǐng)域?qū)<覕?shù)據(jù)來提升GPT-4的安全性。
2.4.1 幻覺
幻覺(hallicination)是生成模型都非常難以解決的問題,它指的是模型產(chǎn)生的荒謬的或者不真實的內(nèi)容,也就是一本正經(jīng)的胡說八道。隨著模型生成的內(nèi)容語句越來越通順,內(nèi)容越來越具有說服力,那么這種幻覺行為將是特別有害的。模型產(chǎn)生幻覺可以歸納為下面幾個原因:
- 數(shù)據(jù)偏差:訓(xùn)練集可能存在某些偏差,例如數(shù)據(jù)的確實,錯誤可能會影響模型對于自然語言的理解;
- 數(shù)據(jù)稀疏:訓(xùn)練集可能在某一方面數(shù)據(jù)比較少,導(dǎo)致模型在這一方面生成的能力不可控;
- 模型結(jié)構(gòu):模型的結(jié)構(gòu)以及參數(shù)量可能會影響模型的泛化能力和表示能力,導(dǎo)致模型在某些方面產(chǎn)生幻覺的現(xiàn)象。
GPT-4采用了兩個策略來解決這個問題:
第一種方法是利用ChatGPT的數(shù)據(jù)進行訓(xùn)練。這個方法的優(yōu)點是ChatGPT在當時已經(jīng)具有了一定程度拒絕生成有害內(nèi)容的能力,比在網(wǎng)上爬取的數(shù)據(jù)具有更高的可靠性。但它的問題是可能會將ChatGPT的問題繼承到GPT-4中。而且依靠一個模型的生成內(nèi)容作為另一個模型的訓(xùn)練數(shù)據(jù),可能會導(dǎo)致模型的過擬合。
第二種方法是采用NLP技術(shù)來檢測模型產(chǎn)生的幻覺樣本,包括自動評估和人工評估。這個方法的優(yōu)點是可以有效的檢測和糾正模型產(chǎn)生的幻覺問題。它的缺點是依靠自動評估的方法可能會因為評估模型的缺陷漏掉一些幻覺樣本,而人工評估的最大問題是人工成本是非常高昂的。
在幻覺檢測方面,Meta有著非常重要的貢獻。一方面他們提出了幻覺檢測任務(wù)并制作了針對這個任務(wù)的幻覺檢測數(shù)據(jù)集HADES[15],另一方面他們提出了一個幻覺檢測方法 [16],這個方法通過合成幻覺數(shù)據(jù)來對預(yù)訓(xùn)練模型進行微調(diào)。該模型可以檢測一個句子中出現(xiàn)的幻覺詞,來對生成內(nèi)容的真實性進行評估,從而減輕幻覺出現(xiàn)的概率。圖15是該方法在機器翻譯中的一個例子,標簽為1的部分對應(yīng)了生成的幻覺內(nèi)容。這里猜測OpenAI可能采用了和Meta類似的方法或數(shù)據(jù)。
圖15:FAIR提出的幻覺檢測方法在機器翻譯中的示例
具體的講,OpenAI設(shè)計了一個多步驟的過程,使用GPT-4本身來生成是否有幻覺的比較數(shù)據(jù),并將它們并入到圖6步驟2的獎勵模型的訓(xùn)練集中:
- 將提示p輸入到GPT-4中并得到一個響應(yīng)r1;
- 將p和r1輸入到GPT-4中,并指示它列出所有的幻覺token。如果沒有幻覺,則繼續(xù)生成,直到有它列出幻覺h1;
- 將p,r1和h1輸入到GPT-4中,并指示它生成一個沒有幻覺的響應(yīng)r2;
- 將p和r2輸入到GPT-4中,讓它列出所有的幻覺token,如果沒有檢測到幻覺,則可以將r1和r2作為一個對比樣本對放入獎勵模型的訓(xùn)練集中了。
2.4.2 其它問題
對于可能出現(xiàn)的其它風(fēng)險輸出,OpenAI并沒有詳細的介紹它的技術(shù)方案,不過從他們的技術(shù)方案中,我們可以看出他們大概使用了下面幾類方法:
- 使用RBRM來檢測可能出現(xiàn)的風(fēng)險;
- 通過提示學(xué)習(xí)讓模型學(xué)習(xí)拒絕回答此類問題;
- 利用紅隊發(fā)現(xiàn)這些可能存在的問題;
- 過濾訓(xùn)練數(shù)據(jù),刪除可能出發(fā)風(fēng)險問題的樣本;
- 訓(xùn)練獎勵模型,讓模型懲罰有危害的輸出內(nèi)容;
2.5 編程能力
GPT-4在編程能力上比ChatGPT有了巨大的提升,一方面他可能因為思維鏈掌握了更強的邏輯分析能力,另一方面它很有可能借鑒了OpenAI著名的代碼生成算法CodeX[3]。CodeX是GPT-3在代碼生成領(lǐng)域的衍生版本,也是Copilot插件背后的基礎(chǔ)算法。CodeX采用了GPT系列的Decoder-only的架構(gòu)體系,模型的參數(shù)量有從12M到12B等多個不同的版本。CodeX的訓(xùn)練分成預(yù)訓(xùn)練和微調(diào)兩個階段。
在預(yù)訓(xùn)練階段,OpenAI首先從Github上爬取了大量的Python文件,經(jīng)過清洗后得到了一個大小為159GB的訓(xùn)練集。因為CodeX是一個代碼生成模型,所以它并沒有使用GPT-3訓(xùn)練好的權(quán)重,也沒有完全照搬GPT-3的模型超參,而是重新訓(xùn)練了一個代碼生成模型。
在微調(diào)階段,OpenAI從競賽網(wǎng)站,面試網(wǎng)站,Github的單元測試腳本中收集了大約40000條數(shù)據(jù)。在評估代碼正確性上,CodeX并沒有使用傳統(tǒng)的BLEU分數(shù),而是使用了代碼能夠通過多少比例的單元測試作為評估標準,并建立了評估測試集HumanEval和評估標準pass@k。
為了避免數(shù)據(jù)泄露,HumanEval的數(shù)據(jù)全部是由人類親自構(gòu)造的,總共包含164個題目和大量的測試用例。HumanEval將每個函數(shù)劃分為四類,即函數(shù)簽名(function signature),函數(shù)注釋,函數(shù)主體以及單元測試樣本組成。在進行提示學(xué)習(xí)時,函數(shù)簽名和函數(shù)注釋作為輸入的提示,函數(shù)主體作為要求的輸出,單元測試用于評估生成代碼的效果。
CodeX的評估標注和Leetcode類似,即有多少比例的測試用例通過測試了,CodeX的評估標準pass@k表示從模型的所有生成答案中隨機抽取k個,從這k個答案里得到正確答案的概率。它的計算方式如式(1)。其中n是每個問題生成的答案,k是從n個答案中隨機抽取的k個,c是n個答案里通過單元測試的答案數(shù)。
CodeX和GPT-4都是GPT-3的下一代模型,讓GPT-4使用CodeX現(xiàn)成的思想和數(shù)據(jù),并提高模型的編程能力,是再合理不過的工作了。
2.6 多語言能力
關(guān)于GPT-4的在其它語種上的能力的大幅提升,OpenAI并沒有給出介紹,我也沒有查到相關(guān)解釋。這里我根據(jù)目前的技術(shù)積累,猜測一下OpenAI可能使用的技術(shù)方案:
- 提升了其它語種的訓(xùn)練數(shù)據(jù);
- 更大規(guī)模的模型讓GPT-4在小語種上涌現(xiàn)了更多的能力;
- 加入了針對小語種的任務(wù),例如利用現(xiàn)有平行語料構(gòu)建基于提示學(xué)習(xí)的機器翻譯任務(wù),使用機器翻譯引擎將部分數(shù)據(jù)翻譯成小語種等。
這一部分的相關(guān)資料確實不多,也歡迎大家在評論區(qū)給出自己的猜測。
2.7 長序列能力
這里的長序列包含兩個方面,一方面是GPT-4是支持多輪對話的,另一方面是GPT-4支持更長的輸入數(shù)據(jù),下面我們來討論它們可能使用的技術(shù)。
2.7.1 多輪對話
ChatGPT和GPT-4都支持連續(xù)對話,但OpenAI一直也沒有給出連續(xù)對話能力的背后技術(shù)方案。如果在每一輪對話時都粗暴的把之前的對話重新作為輸入提供給模型。雖然理論上講是行得通的,但這種方式的最大問題是隨著對話輪數(shù)的增多,輸入的數(shù)據(jù)也會快速增加,進而導(dǎo)致ChatGPT或者GPT-4的預(yù)測速度越來越慢,但是我在使用ChatGPT和GPT-4的多輪對話時并沒有發(fā)現(xiàn)這種速度逐漸變慢的現(xiàn)象。
如果要從模型角度解決這個問題,我們恰好有一個算法可以解決這個問題,它就是Transformer-XL[10]。Transformer-XL的重要改進是提出了片段遞歸的機制,如圖16。片段遞歸機制類似于Transformer和RNN的結(jié)合體,它的核心思想是對于一個長度不限的變長數(shù)據(jù),在計算的時候也是固定每個片段的長度并計算這個片段的特征,然在計算下個片段時將前面片段的特征加到當前片段上,從而讓模型可以處理任意長度的特征。
圖16:Transformer-XL的片段遞歸機制
反應(yīng)到ChatGPT和GPT-4的多輪對話中,我推測OpenAI借鑒了Transformer-XL的片段遞歸的思想。即GPT-4然后在進行第$t$輪的計算時,會將緩存的第t-1輪的特征和第t輪的特征相加,共同用于當前輪次的計算。因為第t-1輪也考慮了第t-2輪的特征,理論上這個方式可以在不影響預(yù)測時間的前提下獲得之前很多輪之前的對話內(nèi)容。
2.7.2 長序列輸入
傳統(tǒng)的Transformer并不擅長處理長序列問題,因為輸入長度為n的Transformer的復(fù)雜度為O(n^2)。Transformer的默認輸入長度是512,對于長度大于512的輸入數(shù)據(jù)Transformer的解決方案是將它拆分成多個長度為512的文本塊,但是這種會造成上下文碎片的問題,上一節(jié)介紹的Transformer-XL便是用來解決這個問題的。
這里我們介紹OpenAI自家的用來解決長序列輸入的算法:Sparse Transformer[11],因為GPT-3就是使用的普通Transformer和Sparse Transformer的混合模式,所以Sparse Transformer也是非常有可能被GPT-4用來處理長輸入文本的一個模型,但它和普通Transformer是如何混合的就不得而知了。Sparse Transformer的特點是只關(guān)注Top-k個貢獻最大的特征的狀態(tài),它使用稀疏注意力機制替代了Transformer的密集注意力,將計算注意力的復(fù)雜度降到了O(n\sqrt n)。傳統(tǒng)Transformer的密集注意力核被分解為了跨步注意力(Stried Attention)和固定注意力(Fixed Attention),每個注意力核又分為行注意力核和列注意力核。分解后的注意力核都是稀疏的,因此大幅降低了模型的復(fù)雜度,如圖17。
圖17:密集注意力和稀疏注意力
因為GPT-4支持更長序列的數(shù)據(jù),我在這里也列出了用于高效處理長數(shù)據(jù)的Transformer的兩個變體。因為GPT-4的技術(shù)報告太過點到為止,到底GPT-4的網(wǎng)絡(luò)結(jié)構(gòu)如何,我們只能等待OpenAI的官方公布了。
2.8 技術(shù)方案總結(jié)
這一節(jié)我們討論了很多技術(shù)方案,有的具有比較高的可信度,有的則猜測程度較高。下面這個表給出了各個方案的可信度(從1到5逐漸增高)。
涌現(xiàn)能力 | 思維鏈 | 自提升 | CLIP | KOSMOS-1 | CodeX | XLM | Trans-XL | Sparse Transf |
5 | 5 | 3 | 3 | 3 | 4 | 1 | 1 | 4 |
根據(jù)我們的上述推測,我們可以猜測GPT-4的技術(shù)方案大致如下:
- 第一階段: 搭建多模態(tài)預(yù)訓(xùn)練模型,并進行微調(diào),這一階段主要目的是根據(jù)爬取的海量數(shù)據(jù)訓(xùn)練具有一定能力的初版GPT-4,訓(xùn)練方式類似GPT-3。它的工作重點有兩個:一是仿照KOSMOS-1或是其它多模態(tài)模型搭建多模態(tài)預(yù)訓(xùn)練模型,使用Transformer-XL等解決長文本的高復(fù)雜度問題;二是收集數(shù)據(jù),包含海量爬取數(shù)據(jù),單模態(tài),多模態(tài),傳統(tǒng)提示學(xué)習(xí)數(shù)據(jù),思維鏈提示學(xué)習(xí)數(shù)據(jù),代碼數(shù)據(jù)等對模型進行訓(xùn)練。
- 第二階段:GPT-4行為對齊,這一階段的主要目的是根據(jù)人工打標實現(xiàn)模型行為與人類行為的對齊,減弱模型的風(fēng)險性。這一階段需要產(chǎn)出的模型有兩個,一個是根據(jù)專家知識設(shè)計基于規(guī)則的獎勵模型RBRM,另一個是根據(jù)人工打標的數(shù)據(jù),幻覺檢測模型的產(chǎn)出數(shù)據(jù)訓(xùn)練基于深度學(xué)習(xí)的獎勵模型RM。
- 第三階段:使用RBRM和RM作為獎勵函數(shù),使用RLHF訓(xùn)練模型。第二階段和第三階段的訓(xùn)練方式類似ChatGPT。
- 第四階段:模型自提升,GPT-4的訓(xùn)練可能是一個循環(huán)迭代,不斷提示的訓(xùn)練過程。在這一階段,GPT-4會自動生成更多數(shù)據(jù),例如使用模型自提升產(chǎn)出的訓(xùn)練數(shù)據(jù),專家紅隊反饋的測試案例等,使用這些數(shù)據(jù)返回第一階段再對模型進行訓(xùn)練。
3. GPT-4的發(fā)展方向
最近我也將GPT-4和ChatGPT應(yīng)用到了日常工作中,深刻的被GPT-4強大的能力所震撼。它不僅能輔助我完成日常的編程,文章撰寫工作,也能夠幫我解決一些日?,嵤拢蠓嵘宋业墓ぷ餍?。關(guān)于GPT-4的各種贊賞與批評的文章網(wǎng)上已數(shù)不勝數(shù),我在這里結(jié)合我們分析的技術(shù)方案,探討一下GPT-4為了的發(fā)展方向,或者說是預(yù)測下GPT-5可能的樣子。
3.1 GPT-4的優(yōu)化方向
盡管GPT-4在文本生成,代碼生成,圖像理解,邏輯推理能力展現(xiàn)了強大的能力,但它依舊有很大的進步空間的,未來的工作可能有下面幾個重點方向:
- GPT-4現(xiàn)在的使用成本還是非常高的,與GPT-4進行一輪對話的成本大約在1元左右。ChatGPT的維護成本每天就有將近100萬美元,我們預(yù)測GPT-4的參數(shù)量可能將近萬億規(guī)模,由此推測它的維護成本可能在500萬美元左右。如何輕量化模型,讓GPT-4能夠被更多人使用,甚至讓更多人能夠訓(xùn)練自己的GPT-4將是未來一段時間都會研究的方向。
- GPT-4并不是絕對安全的,GPT-4依舊具有幻覺問題。GPT-4的幻覺檢測,紅隊對抗,RBRM等不是解決安全問題的最終方案。雖然說沒有絕對安全的系統(tǒng),但OpenAI已經(jīng)還會在安全性上加大投入,以減輕他們可能面臨的法律風(fēng)險。
- GPT-4還是個離線模型,GPT-4不能代替搜索引擎的一個重要原因是它的知識并不是實時更新的。它的知識水平取決于它爬取數(shù)據(jù)的截止日期,這將使得它無法解決截止日期之后出現(xiàn)的新聞,概念,事件等。
- GPT-4還是多模態(tài)的初探,多模態(tài)和LLM可能是未來幾年AGI最重要的兩個方向,OpenAI本身也有很多在多模態(tài)方向非常精彩的工作。如何進一步挖掘GPT-4在多模態(tài)方向的能力,涉及更多模態(tài),更多應(yīng)用將是OpenAI接下來的重點工作。
3.2 GPT-4的應(yīng)用
GPT-4憑借其強大的生成能力和邏輯推理能力,能夠極大的影響我們的工作方式。相信這篇文章的讀者很多是從事算法相關(guān)的科研和工作的人,我鼓勵每個人都用上GPT-4哪怕是ChatGPT,那么GPT-4的哪些功能對我們非常有幫助呢。這里我根據(jù)我的使用經(jīng)驗,列出幾個我認為比較有幫助的方向:
- 撰寫功能代碼,讓GPT-4編寫一個滿足特定功能復(fù)雜框架可能需要你向其提供復(fù)雜的提示,并且你也需要核對它生成的代碼。但是如果讓GPT-4實現(xiàn)一些難度較低的功能函數(shù),例如搭建一個網(wǎng)絡(luò),或是實現(xiàn)一個功能性函數(shù),GPT-4生成的代碼的可用性還是非常高的。
- 做文本潤色,作為一個技術(shù)研發(fā)人員,我們的文筆可能并不好,這時候我們可以使用GPT-4幫我們對我們寫的文章做潤色。尤其是當我們用英語寫論文或者郵件時,GPT-4能幫我們解決Chinglish的問題。
- 閱讀論文,GPT-4不僅是一個非常棒的機器翻譯工具,經(jīng)試用,它翻譯的效果在專業(yè)性,連貫性等遠超傳統(tǒng)的機器翻譯模型。此外GPT-4還可以做一些總結(jié),概括,提取類的工作,能讓我們快速了解一篇論文的核心技術(shù)?;贑hatGPT制作的ChatPDF是我們閱讀論文有個非常得力的助手,圖18是我使用ChatGPT幫助我閱讀GPT-4的生成內(nèi)容。
圖18:ChatPDF根據(jù)GPT-4的技術(shù)報告生成的GPT-4在提高安全性上做的工作 - 日常工作,GPT-4非常擅長寫一些官方通告,發(fā)言稿,感謝信之類的內(nèi)容,也非常擅長做一些總結(jié)概括類的工作,它可以在這些方面提高我們的人效。對于沒有思路的事情,我也會嘗試問一下GPT-4,它經(jīng)常能夠幫我打開思路。
注意GPT-4并沒有徹底解決幻覺等安全性問題,面對GPT-4生成的內(nèi)容,我們最好在使用之前進行嚴格的審核,否則可能會發(fā)生一些不可解釋的問題。也是因為這個原因,GPT-4并不能取代從事這方面的專業(yè)工作人員,因為在GPT-4的安全性問題解決之前,始終需要專業(yè)人士為其把關(guān),而GPT-4的安全性問題可能將會伴隨生成模型的整個生命周期。
4. 其它LLM
隨著ChatGPT和GPT-4的提出,國內(nèi)外的公司快速跟進,掀起了一股LLM模型的研發(fā)熱潮,也有很多公司提出了自己的LLM.
其中國內(nèi)具有代表性的工作有下面這些工作。
- 百度的文心一言:百度的文心一言(ERNIE-Bot)是國內(nèi)最早跟進的預(yù)訓(xùn)練大模型,但是百度對他們的工作技術(shù)卻一直諱莫如深。不過從他的演示demo以及很多測試人員的測試效果來看,文心一言像是百度很多AI工作的工程化組合;
- 阿里的通義千問:通義千問是一個用Transformer-XL搭建的,擁有20億參數(shù)的文本生成模型。根據(jù)拿到邀請碼的網(wǎng)友反饋來看,通義千問的文本生成效果略差于文心一言。
- 商湯的日日新:從發(fā)布會的展示效果來看,商湯的日日新是目前國內(nèi)最好的LLM,甚至達到了和ChatGPT類似的效果。日日新包含“商量”,“秒畫”“如影”“瓊宇”“格物”五個主要功能,其中和GPT-4對齊的是“商量”。
- 清華大學(xué)的GLM:GLM[17]是清華和智譜AI聯(lián)合推出的一個使用英語和漢語訓(xùn)練的開源雙語語言模型,最大參數(shù)規(guī)模達到了1300億,GLM-130B的效果介于GPT-3和ChatGPT之間。GLM后續(xù)還推出了ChatGLM以及可以在單機運行和微調(diào)的GLM-6B,是目前效果最好的開源中文預(yù)訓(xùn)練大模型。
- 復(fù)旦大學(xué)的MOSS:MOSS是復(fù)旦大學(xué)NLP實驗室的邱錫鵬老師團隊,并與近期開源了相關(guān)代碼。從目前效果來看,MOSS并不非常成熟,但可喜的是邱老師的團隊還一直在對MOSS進行優(yōu)化。
不僅國內(nèi)快速跟進,國外的頭部公司也推出了自己的LLM,其中具有代表性的有:
- MetaAI的LLaMA:LLaMA[19]的參數(shù)量有70億,130億,330億和650億四種規(guī)模。不同于OpenAI的是,MetaAI開源了它們的代碼和模型,并支持單機的部署。雖然LLaMA的效果不如GPT-4,但他開源以及單機可運行的特性也吸引了很多機構(gòu)和個人的二次開發(fā)。
- 谷歌的PaLM和LaMDA:PaLM[20]是谷歌提出的結(jié)構(gòu)類似GPT系列,總參數(shù)量達到5400億的語言模型,谷歌在最近又推出了結(jié)合圖像能力的多模態(tài)模型PaLM-E [21]。LaMDA[22]是谷歌推出的用于生成更自然,更具人性的語言模型,具有更接近人類的表達方式,LaMDA在GPT-3的基礎(chǔ)上進行了改進,增加了更多的對話場景和情感理解能力,能更好的模擬人類的對話和思考。甚至谷歌的研究員 Blake Lemoine 在測試了LaMDA一段時間后感嘆:LaMDA可能已經(jīng)具有人格了。
- Anthropic的Claude:Anthropic是由OpenAI的離職員工成立,得到谷歌研發(fā)支持的一個人工智能公司。它們最近也推出了它們的LLM:Claude。目前Cluade的效果略強于ChatGPT,但明顯弱于GPT-4。
除了上面介紹的,國外的LLM還有BigScience的BLOOM,斯坦福的Alpaca,上面介紹過的微軟的METALM,KOSMOS-1等,國內(nèi)的華為的盤古,騰訊的WeLM等等。除了這些通用模型,LLM也被用在細分領(lǐng)域,例如醫(yī)學(xué)領(lǐng)域的HuaTuo[23],金融領(lǐng)域的BloombergGPT[24]等。
5. 總結(jié)
GPT-4究竟會不會帶來第四次工業(yè)革命,這是一個需要時間驗證的話題,我也沒有資格在這給出結(jié)論,但GPT-4對與我個人的影響是巨大的。
首先,它一定程度上撼動了我對傳統(tǒng)人工智能的理解,就像宏觀物理的很多定理在微觀物理上是不成立的,我在傳統(tǒng)人工智能上積累的很多經(jīng)驗放在GPT-4里也是不成立的。它展現(xiàn)出的強大的零樣本學(xué)習(xí)能力,以及更高階的能力是遠遠超出我對深度學(xué)習(xí)的傳統(tǒng)認知的。
其次,GPT-4以及ChatGPT正成為日常工作中最得力的助手,在撰寫這篇文章時GPT-4也提供了非常大的幫助,它不僅可以幫助我寫代碼,改文章,甚至還能幫我解決一些非工作的問題。最后,如雨后春筍般涌現(xiàn)的諸多不同的大模型又讓我對日益看衰的深度學(xué)習(xí)注入了新的信心和活力。
對于GPT-4這門技術(shù),我建議每個人都要去了解并學(xué)會使用它。不管你的工作是否和計算機相關(guān),它都會給你帶來一些幫助,哪怕你是個廚子,它都可能給你生成一份美味的菜譜。在使用GPT-4時,我們也要理性的看待它生成的內(nèi)容,只有GPT-4有一絲的風(fēng)險問題,我們就不能放松對它的審核,以防幻覺問題給我們造成損失。
在未來的一段時間,GPT-4一定會給我們帶來諸多的影響。首先,互聯(lián)網(wǎng)上會快速涌現(xiàn)大量使用GPT-4生成的我們無法區(qū)分的內(nèi)容,大眾會不會被統(tǒng)一的GPT-4的行為模式所影響是值得深思的。其次,GPT-4將極大程度解放某些工作的生產(chǎn)力,甚至可以替代這些工作,我們能不能抓住這個機遇,在這個互卷的環(huán)境里看到新的機會非常重要。最后,GPT-4將以怎樣的形式影響到每一個人都是不同的,GPT-4如果真的帶來了AGI,我希望我的好友們你們都不要錯過。
Reference
- [1] https://cdn.openai.com/papers/gpt-4.pdf
- [2] https://zhuanlan.zhihu.com/p/614340292
- [3] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.
- [4] Bai, Yuntao, et al. "Training a helpful and harmless assistant with reinforcement learning from human feedback." arXiv preprint arXiv:2204.05862 (2022).
- [5] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
- [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022.
- [7] Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
- [8] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International Conference on Machine Learning. PMLR, 2021.
- [9] Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019.
- [10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.
- [11] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.
- [12] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).
- [13] Hao, Yaru, et al. "Language models are general-purpose interfaces." arXiv preprint arXiv:2206.06336 (2022).
- [14] Zhang, Zhuosheng, et al. "Multimodal chain-of-thought reasoning in language models." arXiv preprint arXiv:2302.00923 (2023).
- [15] Liu, Tianyu, et al. "A token-level reference-free hallucination detection benchmark for free-form text generation." arXiv preprint arXiv:2104.08704 (2021).
- [16] Zhou, Chunting, et al. "Detecting hallucinated content in conditional neural sequence generation." arXiv preprint arXiv:2011.02593 (2020).
- [17] Du, Zhengxiao, et al. "GLM: General language model pretraining with autoregressive blank infilling." Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022.
- [18] Zhao, Wayne Xin, et al. "A Survey of Large Language Models." arXiv preprint arXiv:2303.18223 (2023).
- [19] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).
- [20] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).
- [21] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).
- [22] Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." arXiv preprint arXiv:2201.08239 (2022).
- [23] Wang, Haochun, et al. "HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge." arXiv preprint arXiv:2304.06975 (2023).
- [24] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).
- [25] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).
- [26] Lin, Stephanie, Jacob Hilton, and Owain Evans. "Truthfulqa: Measuring how models mimic human falsehoods." arXiv preprint arXiv:2109.07958 (2021).
作者:京東零售 劉巖
內(nèi)容來源:京東云開發(fā)者社區(qū)