自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強LLaMA突然來襲!只改一個超參數(shù),實現(xiàn)上下文3.2萬token,多個任務(wù)打敗ChatGPT、Claude 2

人工智能
LLaMA 2 Long使用了4000億token語料加持下,并進(jìn)行位置編碼修改。所以LLaMA 2 Long究竟是如何誕生的?與LLaMA 2相比,LLaMA 2 Long的變化并不多。一是訓(xùn)練參數(shù)上,采用了高達(dá)4000億token的數(shù)據(jù)源。二是架構(gòu)上,與LLaMA 2保持不變,但對位置編碼進(jìn)行了一個非常小的必要修改,以此完成高達(dá)3.2億token的上下文窗口支持。

悄無聲息,羊駝家族“最強版”來了!

與GPT-4持平,上下文長度達(dá)3.2萬token的LLaMA 2 Long,正式登場。

圖片

在性能上全面超越LLaMA 2。

圖片

和競爭對手相比,在指令微調(diào)MMLU (5-shot)等測試集上,表現(xiàn)超過ChatGPT。

圖片

在人類評估(human evaluation)上甚至優(yōu)于10萬token的Claude 2,這個話題還在Reddit上引發(fā)了討論。

圖片

要知道,這些對比版本中,LLaMA 2 Long使用的最大版本也只有70B,遠(yuǎn)小于其他大模型。

這讓人不禁感慨:Meta確實還是有兩下子的。

圖片

也有人覺得,這才是最近Meta發(fā)布會的最大新聞啊,比Meta版ChatGPT要更令人興奮。

圖片

論文介紹,LLaMA 2 Long使用了4000億token語料加持下,并進(jìn)行位置編碼修改。

所以LLaMA 2 Long究竟是如何誕生的?

只對位置編碼進(jìn)行了一個非常小的改動

與LLaMA 2相比,LLaMA 2 Long的變化并不多。

一是訓(xùn)練參數(shù)上,采用了高達(dá)4000億token的數(shù)據(jù)源。

——相反,原始LLaMA 2包含多個變體,但最多的版本也只有700億。

二是架構(gòu)上,與LLaMA 2保持不變,但對位置編碼進(jìn)行了一個非常小的必要修改,以此完成高達(dá)3.2億token的上下文窗口支持。

在LLaMA 2中,它的位置編碼采用的是旋轉(zhuǎn)編碼RoPE方法。

它是目前大模型中應(yīng)用最廣的一種相對位置編碼,通過旋轉(zhuǎn)矩陣來實現(xiàn)位置編碼的外推。

本質(zhì)上來說,RoPE就是將表示單詞、數(shù)字等信息的token embeddings映射到3D圖表上,給出它們相對于其他token的位置——即使在旋轉(zhuǎn)時也如此。

這就能夠使模型產(chǎn)生準(zhǔn)確且有效的響應(yīng),并且比其他方法需要的信息更少,因此占用的計算存儲也更小。

在此,Meta的研究人員通過對70億規(guī)模的LLaMA 2進(jìn)行實驗,確定了LLaMA 2中的RoPE方法的一個關(guān)鍵限制:

即,阻止注意力模塊聚集遠(yuǎn)處token的信息。

為此,Meta想出了一個非常簡單的破解辦法:

減少每個維度的旋轉(zhuǎn)角度。

具體而言就是將超參數(shù)“基頻(base frequency) b”從10000增加到500000。

這一改動立刻奏效,縮小了RoPE對遠(yuǎn)端token的衰減效應(yīng),并且在擴展LLAMA的上下文長度上優(yōu)于一項類似的名為“位置插值”的方法(如下圖所示,RoPE PI,衰減效果較為“隱含”)

圖片

Ps. 圖中RoPE表示基線方法,RoPE ABF為Meta此次發(fā)明的新方法,xPos是另一種應(yīng)用了該方法的旋轉(zhuǎn)編碼變體。

一個問題是,通過上面這個可視化結(jié)果,Meta觀察到RoPE在長程區(qū)域出現(xiàn)了較大的“振蕩”,這對于語言建模來說可能不是個好消息。

不過,通過報告幾種方法在長序列困惑度和FIRST-SENTENCE-RETRIEVAL兩個任務(wù)上的表現(xiàn)來看,問題不大。

圖片

而且,尤其在后者任務(wù)上,他們提出的RoPE ABF是唯一一個可以始終保持性能的變體。

圖片

在附錄中,Meta還通過可視化為螺旋圖這一非常有趣的方式,將RoPE ABF與RoPE PI的差異進(jìn)行了理論分析。

結(jié)果是,與RoPE PI相比,RoPE ABF的優(yōu)勢主要體現(xiàn)在它能以更大的粒度分配嵌入向量(the embedded vectors),從而使模型更容易區(qū)分位置。

圖片

此外,他們還觀察到,嵌入向量之間的相對距離既對RoPE PI的關(guān)鍵參數(shù)有線性依賴性,也對RoPE ABF的關(guān)鍵參數(shù)也有對數(shù)依賴性。

這也就是為什么我們可以很容易地對基頻這一超參數(shù)“下手”。

最終,LLaMA 2 Long憑借著這一改動,達(dá)成了3.2萬的上下文token,并通過長下文連續(xù)預(yù)訓(xùn)練的共同作用,獲得了開頭所示的好成績:

除了全面超越LLaMA 2、在特定任務(wù)上超越Claude 2和ChatGPT,Meta也給出了它和一些開源長下文模型的對比。

結(jié)果也相當(dāng)不賴。

圖片

One More Thing

值得一提的是,這個最新的版本,是用LLaMA2生成的文本內(nèi)容來進(jìn)行訓(xùn)練的。

圖片

官方會不會正式發(fā)布這一版本,現(xiàn)在還沒有更明確的消息,模型的網(wǎng)址也還沒有找到。

不過已經(jīng)有人提前興奮起來了:

這對可商用微調(diào)大模型來說太有用了!

圖片

而在此之前,已經(jīng)有非官方版本實現(xiàn)了3.2萬token上下文,也是開源可商用。

“長頸鹿(Giraffe)”基于13B版本的LLaMA2打造。

研究團隊提出了一種稱為“截斷(truncation)”的方法,對原始RoPE編碼進(jìn)行變換。

圖片

llama-2-7b-32k-instruct也可以支持3.2萬上下文,模型規(guī)模是7B。

論文:https://arxiv.org/pdf/2309.16039.pdf。

參考鏈接:
[1]https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/。
[2]https://twitter.com/_akhaliq/status/1707569241191285207。
[3]https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/。
[4]https://news.ycombinator.com/item?id=37698604。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2023-10-21 12:53:27

數(shù)據(jù)研究

2023-11-22 16:51:53

2023-08-10 14:04:15

代碼模型

2023-10-11 13:21:12

模型數(shù)據(jù)

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-03-18 10:34:33

2025-04-07 09:35:00

Meta模型開源

2012-12-31 10:01:34

SELinuxSELinux安全

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2023-08-07 12:52:04

模型免費商用技術(shù)

2022-09-14 13:13:51

JavaScript上下文

2024-05-06 13:01:21

數(shù)據(jù)模型

2023-08-29 13:26:55

ChatGPT企業(yè)版任務(wù)

2017-06-27 18:52:05

TensorFlow深度學(xué)習(xí)

2023-10-05 12:22:43

AI模型

2025-01-15 13:09:12

2012-08-10 13:32:08

.NETAOP架構(gòu)

2023-08-29 12:45:32

2023-05-14 14:15:00

GPT-4AI
點贊
收藏

51CTO技術(shù)棧公眾號