自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不會太大、密集的純文本模型,GPT-4的新一波預(yù)測來了

人工智能 新聞
分析師 Alberto Romero 對 GPT-4 作出了有理有據(jù)的推測。

2020 年 5 月,在 GPT-2 發(fā)布一年后 GPT-3 正式發(fā)布,而 GPT-2 也是在原始 GPT 論文發(fā)表一年后發(fā)布的。按照這種趨勢, GPT-4 早在一年前就該發(fā)布了,但至今尚未面世。

OpenAI 的首席執(zhí)行官 Sam Altman 幾個月前表示即將推出 GPT-4 ,預(yù)計將在 2022 年 7 月至 8 月發(fā)布。

GPT-3 的強大性能讓人們對 GPT-4 的期望頗高。然而關(guān)于 GPT-4 的公開信息甚少,Altman 在去年的一次 Q&A 中就 OpenAI 對 GPT-4 的想法給出了一些提示。他明確表示 GPT-4 不會有 100T 參數(shù)。

正因為 GPT-4 的公開信息很少,人們對其做出諸多預(yù)測?,F(xiàn)在,一位名為 Alberto Romero 分析師基于其 OpenAI 和 Sam Altman 透露的信息,以及當(dāng)前趨勢和語言 AI 的最新技術(shù),對 GPT-4 作出了一番新的預(yù)測,以下是他的預(yù)測原文。

模型大?。篏PT-4 不會非常大

GPT-4 不會成為最大的語言模型,Altman 曾說它不會比 GPT-3 大多少。它的大小可能在 GPT-3 和 Gopher 之間 (175B -280B)。

這個推測有充分的理由。

Nvidia 和微軟去年聯(lián)合創(chuàng)建的威震天 - 圖靈 NLG( MT-NLG)號稱是擁有 530B 參數(shù)的最大密集神經(jīng)網(wǎng)絡(luò),參數(shù)量已經(jīng)是 GPT-3 的 3 倍,而最近谷歌的 PaLM 已有 540B 參數(shù)。但值得注意的是,在 MT-NLG 之后出現(xiàn)的一些較小的模型反而達到了更高的性能水平。

這意味著:更大不一定更好。

業(yè)內(nèi)很多公司已經(jīng)意識到模型大小不是性能的決定因素,擴大模型也不是提升性能的最好方法。2020 年,OpenAI 的 Jared Kaplan 及其同事得出結(jié)論:當(dāng)計算預(yù)算的增加主要用于根據(jù)冪律關(guān)系擴展的參數(shù)量時,性能提升幅度最大。

然而,以超大規(guī)模的 MT-NLG 為例,它在性能方面并不是最好的。事實上,甚至在任何單一類別的基準測試中都不是最好的。較小的模型,如 Gopher (280B) 或 Chinchilla (70B) 在一些任務(wù)上比 MT-NLG 好得多。

顯然,模型大小并不是實現(xiàn)更好的語言理解性能的唯一因素。

業(yè)內(nèi)多家公司開始放棄「越大越好」的教條。擁有更多參數(shù)也會帶來一些副作用,例如計算成本過高、性能進入瓶頸期。當(dāng)能夠從較小的模型中獲得相似或更好的結(jié)果時,這些公司就會在構(gòu)建巨大模型之前三思而后行。

Altman 表示,他們不再專注于讓模型變得更大,而是讓更小的模型發(fā)揮最大的作用。OpenAI 是擴展假設(shè)(scaling hypothesis)的早期倡導(dǎo)者,但現(xiàn)在已經(jīng)意識到其他未探索的路徑也能改進模型。

因此,GPT-4 不會比 GPT-3 大很多。OpenAI 將把重點轉(zhuǎn)移到其他方面,例如數(shù)據(jù)、算法、參數(shù)化和價值對齊(alignment)等,這可能會帶來更顯著的改進。關(guān)于 100T 參數(shù)模型的功能,我們只能等待了。

優(yōu)化

語言模型在優(yōu)化方面存在一個關(guān)鍵限制,即訓(xùn)練成本非常高。以至于研發(fā)團隊不得不在準確性和成本之間進行權(quán)衡。這通常會導(dǎo)致模型明顯欠優(yōu)化。

GPT-3 只訓(xùn)練了一次,當(dāng)在一些用例中出現(xiàn)錯誤時就要重新進行訓(xùn)練。OpenAI 決定 GPT-4 不采取這種方式,因為成本太高,研究人員無法找到模型的最佳超參數(shù)集(例如學(xué)習(xí)率、批大小、序列長度等)。

高訓(xùn)練成本的另一個后果是對模型行為的分析要受到限制。Kaplan 的團隊得出模型大小是提高性能最相關(guān)的變量時,他們并沒有考慮訓(xùn)練 token 的數(shù)量,這需要大量的計算資源。

不得不承認,一些大型公司依照 Kaplan 團隊的結(jié)論,在擴大模型上「浪費」了數(shù)百萬美元?,F(xiàn)在,以 DeepMind 和 OpenAI 為首的公司正在探索其他方法。他們試圖找到最佳的模型,而不僅僅是更大的模型。

優(yōu)化參數(shù)

上個月,微軟和 OpenAI 證實用優(yōu)化后的超參數(shù)進行訓(xùn)練,GPT-3 能夠獲得較大的改進。他們發(fā)現(xiàn) 6.7B 版本的 GPT-3 性能大幅提升,可與最初的 13B GPT-3 相媲美。超參數(shù)調(diào)優(yōu)帶來的性能提升,相當(dāng)于參數(shù)數(shù)量增加了一倍。

他們利用一種稱為μP 的新型參數(shù)化方式,其中小模型的最佳超參數(shù)對于同系列的較大模型也是最佳的。因此,μP 能夠以一小部分訓(xùn)練成本優(yōu)化任意大小的模型,幾乎毫無成本地將超參數(shù)遷移到更大的模型中。

優(yōu)化計算模型

幾周前,DeepMind 重新審視了 Kaplan 等人的發(fā)現(xiàn),并意識到:與人們認為的相反,訓(xùn)練 token 的數(shù)量對性能的影響與模型大小的影響一樣大。DeepMind 得出結(jié)論:計算預(yù)算應(yīng)該平均分配給擴展參數(shù)和數(shù)據(jù)。他們用大型語言模型 4 倍的數(shù)據(jù)量(1.4T token)訓(xùn)練 Chinchilla(70B)證明了這個假設(shè)。

圖源:DeepMind

結(jié)果很明確,Chinchilla 在許多語言基準測試中「顯著」優(yōu)于 Gopher、GPT-3、MT-NLG 等語言模型,這表明當(dāng)前的大模型訓(xùn)練不足且規(guī)模過大。

根據(jù) DeepMind 的發(fā)現(xiàn),GPT-4 將比 GPT-3 略大,它達到計算最優(yōu)所需的訓(xùn)練 token 數(shù)量將約為 5 萬億,比當(dāng)前數(shù)據(jù)集高出一個數(shù)量級。為了最小化訓(xùn)練損失,訓(xùn)練 GPT-4 所需的 FLOP 將是 GPT-3 的約 10-20 倍(參照 Gopher 的計算量)。

Altman 曾在 Q&A 中表示 GPT-4 的計算量將比 GPT-3 更大,他可能指的就是這一點。

可以肯定的是,OpenAI 將致力于優(yōu)化模型大小以外的其他變量。找到最佳的超參數(shù)集以及最佳的計算模型大小和參數(shù)數(shù)量,這可能會讓模型在所有基準測試中獲得令人難以置信的提升。

多模態(tài):GPT-4 將是純文本模型

人類的大腦是多感官的,因為我們生活在一個多模態(tài)的世界中。一次只以一種模態(tài)感知世界極大地限制了人工智能理解世界的能力。因此,人們認為深度學(xué)習(xí)的未來是多模態(tài)模型。

然而,良好的多模態(tài)模型比良好的純語言或純視覺模型更難構(gòu)建。將視覺和文本信息組合成單一的表征是一項非常艱巨的任務(wù)。我們對大腦如何做到這一點的認知還非常有限,難以在神經(jīng)網(wǎng)絡(luò)中實現(xiàn)它。

大概也是出于此原因,Altman 在 Q&A 中也表示,GPT-4 不會是多模態(tài)的,而是純文本模型。我猜測在轉(zhuǎn)向下一代多模態(tài) AI 之前,他們正試圖通過調(diào)整模型和數(shù)據(jù)集大小等因素達到語言模型的極限。

稀疏性:GPT-4 將是一個密集模型

稀疏模型利用條件計算,使用模型的不同部分來處理不同類型的輸入,近來取得了巨大成功。這些模型可以輕松擴展到超過 1T 的參數(shù) mark 上,而不會導(dǎo)致過高的計算成本,從而在模型大小和計算預(yù)算之間構(gòu)建出正交關(guān)系。然而,這種 MoE 方法的優(yōu)勢在非常大的模型上會減弱。

鑒于 OpenAI 一直專注于密集語言模型,我們有理由預(yù)期 GPT-4 也將是一個密集模型。

不過,人類的大腦嚴重依賴于稀疏處理,稀疏性與多模態(tài)類似,很可能會主導(dǎo)未來幾代神經(jīng)網(wǎng)絡(luò)。

GPT-4 將比 GPT-3 更加對齊

OpenAI 為解決 AI 價值對齊(alignment)的問題付出了諸多努力:如何讓語言模型遵循我們的意圖并遵守我們的價值觀。這不僅需要數(shù)學(xué)上讓 AI 實現(xiàn)更準確的理解,而且需要在哲學(xué)方面考量不同人類群體之間的價值觀。OpenAI 已嘗試在 InstructGPT 上接受人工反饋訓(xùn)練以學(xué)會遵循指令。

InstructGPT 的主要突破在于,無論其在語言基準上的結(jié)果如何,它都被人類評估者一致認為是一比 GPT-3 更好的模型。這表明使用基準測試作為評估 AI 能力的唯一指標是不合適的。人類如何看待模型同樣重要,甚至更重要。

鑒于 Altman 和 OpenAI 對有益 AGI 的承諾,我相信 GPT-4 將基于他們從 InstructGPT 中獲得的發(fā)現(xiàn)。

他們將改進對齊模型的方式,因為 GPT-3 只采用了英文語料和注釋。真正的對齊應(yīng)該包含來自不同性別、種族、國籍、宗教等方面的信息特征。這是一個巨大的挑戰(zhàn),朝著這個目標邁出一步將是意義重大的。

綜上,我關(guān)于 GPT-4 的預(yù)測大致包括以下幾個方面:

模型大?。篏PT-4 會比 GPT-3 大,但不會很大。模型大小不會是其顯著特征;

優(yōu)化:GPT-4 將使用比 GPT-3 更多的計算,它將在參數(shù)化(最優(yōu)超參數(shù))和擴展定律(訓(xùn)練 token 的數(shù)量與模型大小一樣重要)方面做出新的改進;

多模態(tài):GPT-4 將是純文本模型,OpenAI 正試圖將語言模型發(fā)揮到極致,然后再轉(zhuǎn)變成像 DALL·E 這樣的多模態(tài)模型;

稀疏性:GPT-4 遵循 GPT-2 和 GPT-3 的趨勢,將是一個密集模型,但稀疏性未來將占據(jù)主導(dǎo)地位;

對齊:GPT-4 將比 GPT-3 更符合人們的價值要求,它將應(yīng)用從 InstructGPT 中學(xué)到的經(jīng)驗。

Alberto Romero 根據(jù) Altman 和 OpenAI 給出的信息作出了有理有據(jù)的推測,我們期待這些預(yù)測在幾個月后即將面世的 GPT-4 中得到印證。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-05-20 10:43:30

AI模型

2021-04-05 09:32:37

新冠疫苗惡意軟件Emotet

2023-03-16 19:17:57

2022-04-20 10:47:46

AIGPT-4

2023-03-28 08:23:38

2011-08-23 08:56:30

2010-10-14 10:55:37

2019-02-26 10:23:24

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2013-05-13 14:23:24

2024-08-29 14:48:42

2016-12-06 08:00:27

科技新聞早報

2023-03-13 00:17:15

GPT-4模型API

2023-06-08 11:27:10

模型AI

2023-04-09 16:17:05

ChatGPT人工智能

2021-01-01 09:03:44

故障HAProxy服務(wù)器

2024-02-04 12:22:47

AI數(shù)據(jù)

2021-08-06 11:06:35

欺詐攻擊垃圾郵件廣告

2024-01-18 13:38:00

AI數(shù)據(jù)

2023-06-19 08:19:50

2023-08-31 21:44:07

點贊
收藏

51CTO技術(shù)棧公眾號