自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI科學(xué)家最新演講:GPT-4即將超越拐點,1000倍性能必定涌現(xiàn)!

人工智能
GPT-4參數(shù)規(guī)模擴大1000倍,如何實現(xiàn)?OpenAI科學(xué)家最新演講,從第一性原理出發(fā),探討了2023年大模型發(fā)展現(xiàn)狀。

「GPT-4即將超越拐點,并且性能實現(xiàn)顯著跳躍」。

這是OpenAI科學(xué)家Hyung Won Chung在近來的演講中,對大模型參數(shù)規(guī)模擴大能力飆升得出的論斷。

在他看來,我們所有人需要改變觀點。LLM實則蘊藏著巨大的潛力,只有參數(shù)量達到一定規(guī)模時,能力就會浮現(xiàn)。

圖片圖片

Hyung Won Chung將這次演講題目定為「2023年的大型語言模型」,旨對LLM領(lǐng)域的發(fā)展做一個總結(jié)。

在這個領(lǐng)域中,真正重要的是什么?雖然「模型擴展」無疑是突出的,但其深遠(yuǎn)的意義卻更為微妙和細(xì)膩。

圖片圖片

在近一個小時的演講中,Hyung Won Chung從三個方面分享了自己過去4年從業(yè)以來對「擴展」的思考。

都有哪些亮點?

參數(shù)規(guī)模越大,LLM勢必「涌現(xiàn)」

Hyung Won Chung強調(diào)的核心點是,「持續(xù)學(xué)習(xí),更新認(rèn)知,采取以“規(guī)模”為先的視角非常重要」。

因為只有在模型達到一定規(guī)模時,某些能力才會浮現(xiàn)。

多項研究表明,小模型無法解決一些任務(wù),有時候還得需要依靠隨機猜測,但當(dāng)模型達到一定規(guī)模時,就一下子解決了,甚至有時表現(xiàn)非常出色。

因此,人們將這種現(xiàn)象稱之為「涌現(xiàn)」。

圖片圖片

即便當(dāng)前一代LLM還無法展現(xiàn)出某些能力,我們也不應(yīng)該輕言「它不行」。相反,我們應(yīng)該思考「它還沒行」。

一旦模型規(guī)模擴大,許多結(jié)論都會發(fā)生改變。

這促使許多研究人員能夠以一個新的視角去看待這個問題,即推理思路的根本性轉(zhuǎn)變,從「一些方法現(xiàn)在不起作用」,到「一些方法只是在當(dāng)前不起作用」。

也就是,最新方法可能不適用于當(dāng)前模型,但是3-5年后,可能變得有效。

圖片

有著新穎視角的AI新人,通??梢詭ё龀鲇杏绊懥ρ芯?。那是因為他們不受一種直覺和想法的束縛,即經(jīng)驗豐富的人可能已經(jīng)嘗試過但發(fā)現(xiàn)不成功的方法。

Hyung Won Chung表示,自己平時在實驗過程中,會記錄下失敗的過程。每當(dāng)有了新的模型,他就會再次運行實驗,再來查驗?zāi)男┦浅晒Φ模男┦鞘〉?,以此往?fù)。

這樣一來,就可以不斷更新和糾正自我認(rèn)知和理解,適應(yīng)技術(shù)的日新月異。

目前,GPT-3和GPT-4之間的能力仍然存在顯著差距,嘗試去彌合與當(dāng)前模型的差距可能是無效的。

圖片圖片

那么,已經(jīng)有了規(guī)模的發(fā)展性觀點后,我們該如何擴大參數(shù)規(guī)模?

第一性原理看Transformer

迄今為止,所有大模型背后的架構(gòu)都是基于Transformer搭建的。想必很多人已經(jīng)對下圖的樣子熟記于心。

圖片圖片

這里,Hyung Won Chung從第一性原理出發(fā)探討Transformer的核心思想,并強調(diào)了Transformer內(nèi)部架構(gòu)細(xì)節(jié)并非關(guān)注重點。

他注意到,許多LLM的研究者不熟悉擴展的具體操作。因此,這部分內(nèi)容主要是為那些想要理解大型模型訓(xùn)練含義的技術(shù)人員準(zhǔn)備的。

從功能性角度來看,可以把Transformer看作帶有矩陣乘法一種簡潔的序列到序列的映射,并可以進行相應(yīng)數(shù)組轉(zhuǎn)換。

圖片圖片

所以,擴大Transformer的規(guī)模就是,讓很多很多機器高效地進行矩陣乘法。

圖片圖片

通過將注意力機制拆分為單獨的頭,利用多臺機器和芯片,并使用GSP MD方法進行無需通信的并行化。

然后借助Jax的前端工具PJ將陣列軸映射到硬件,可以實現(xiàn)大型語言模型的并行化。

預(yù)訓(xùn)練模型的規(guī)模將跨越數(shù)量級,縮放法則是用小規(guī)模模型開發(fā)的。

圖片圖片

1萬倍GPT-4,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù)

再進一步擴展模型規(guī)模時,設(shè)想是GPT-4的10000倍,應(yīng)該考慮什么?

對Hyung Won Chung來說,擴展不只是用更多的機器做同樣的事情,更關(guān)鍵的是找到限制進一步擴展的「歸納偏差」(inductive bias)。

總之,擴展并不能解決所有問題,我們還需要在這大規(guī)模工程的工作中做更多研究,也就是在后訓(xùn)練中的工作。

你不能直接與預(yù)訓(xùn)練模型對話,但它會在提示后繼續(xù)生成,而不是回答問題。即使提示是惡意的,也會繼續(xù)生成。

模型后訓(xùn)練的階段的步驟包括,指令調(diào)優(yōu)——獎勵模型訓(xùn)練——策略模型訓(xùn)練,這也就是我們常說的RLHF。

圖片圖片

盡管RLHF有著一些弊端,比如獎勵模型容易受到「獎勵」的影響,還有開放的研究問題需要解決,但是我們還是要繼續(xù)研究RLHF。

因為,最大似然法歸納偏差太大;學(xué)習(xí)目標(biāo)函數(shù)(獎勵模型)以釋放縮放中的歸納偏差,是一種不同的范式,有很大的改進空間。

圖片圖片

另外,RLHF是一種有原則的算法 ,需要繼續(xù)研究,直到成功為止。

總之,在Hyung Won Chung認(rèn)為,最大似然估計目標(biāo)函數(shù),是實現(xiàn)GPT-4 10000倍規(guī)模的瓶頸。

使用富有表達力的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù),將是下一個更加可擴展的范式。隨著計算成本的指數(shù)級下降,可擴展的方法終將勝出。

圖片圖片

「不管怎么說,從第一原理出發(fā)理解核心思想是唯一可擴展的方法」。

參考資料:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496


責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-03-16 17:26:09

AI模型

2024-05-15 09:28:01

2023-03-29 14:58:04

GPT-4技術(shù)

2023-10-16 12:51:32

2023-03-21 15:17:34

AI性能

2023-10-12 14:18:06

2024-05-28 14:40:00

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2012-12-06 15:36:55

CIO

2023-03-22 10:24:14

AI智能

2023-09-04 10:05:01

GPT-4AI模型

2023-07-24 14:26:58

OpenAIGPT-4Karpathy

2024-09-09 09:40:00

OpenAIGPT-4

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-07 09:32:57

GPT-4OpenAI

2022-11-03 14:13:24

騰訊科學(xué)家

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型
點贊
收藏

51CTO技術(shù)棧公眾號