自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

羊駝家族大模型集體進(jìn)化!32k上下文追平GPT-4,田淵棟團(tuán)隊(duì)出品

人工智能 算法
Meta AI這篇?jiǎng)倓偺峤坏恼撐谋硎?,LLaMA上下文窗口從2k擴(kuò)展到32k后只需要小于1000步的微調(diào)。

開源羊駝大模型LLaMA上下文追平GPT-4,只需要一個(gè)簡(jiǎn)單改動(dòng)!

Meta AI這篇?jiǎng)倓偺峤坏恼撐谋硎?,LLaMA上下文窗口從2k擴(kuò)展到32k后只需要小于1000步的微調(diào)。

與預(yù)訓(xùn)練相比,成本忽略不計(jì)。

圖片

擴(kuò)展上下文窗口,就意味著AI的“工作記憶”容量增加,具體來說可以:

  • 支持更多輪對(duì)話,減少遺忘現(xiàn)象,如更穩(wěn)定的角色扮演
  • 輸入更多資料完成更復(fù)雜的任務(wù),如一次處理更長(zhǎng)文檔或多篇文檔

更重要的意義在于,所有基于LLaMA的羊駝大模型家族豈不是可以低成本采用此方法,集體進(jìn)化?

羊駝是目前綜合能力最強(qiáng)的開源基礎(chǔ)模型,已經(jīng)衍生出不少完全開源可商用大模型和垂直行業(yè)模型。

圖片

論文通信作者田淵棟也激動(dòng)地在朋友圈分享這一新進(jìn)展。

圖片

基于RoPE的大模型都能用

新方法名為位置插值(Position Interpolation),對(duì)使用RoPE(旋轉(zhuǎn)位置編碼)的大模型都適用。

RoPE早在2021年就由追一科技團(tuán)隊(duì)提出,到現(xiàn)在已成為大模型最常見的位置編碼方法之一。

圖片

但在此架構(gòu)下直接使用外推法(Extrapolation)擴(kuò)展上下文窗口,會(huì)完全破壞自注意力機(jī)制。

具體來說,超出預(yù)訓(xùn)練上下文長(zhǎng)度之外的部分,會(huì)使模型困惑度(perplexity)飆升至和未經(jīng)訓(xùn)練的模型相當(dāng)。

新方法改成線性地縮小位置索引,擴(kuò)展前后位置索引和相對(duì)距離的范圍對(duì)齊。

圖片

用圖表現(xiàn)二者的區(qū)別更加直觀。

圖片

實(shí)驗(yàn)結(jié)果顯示,新方法對(duì)從7B到65B的LLaMA大模型都有效。

在長(zhǎng)序列語(yǔ)言建模(Long Sequence Language Modeling)、密鑰檢索(Passkey Retrieval)、長(zhǎng)文檔摘要(Long Document Summarization)中性能都沒有明顯下降。

圖片

除了實(shí)驗(yàn)之外,論文附錄中也給出了對(duì)新方法的詳細(xì)證明。

圖片

Three More Thing

上下文窗口曾經(jīng)是開源大模型與商業(yè)大模型之間一個(gè)重要差距。

比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高達(dá)100k。

與此同時(shí)許多開源大模型如LLaMA和Falcon還停留在2k。

現(xiàn)在,Meta AI的新成果直接把這一差距抹平了。

擴(kuò)展上下文窗口也是近期大模型研究的焦點(diǎn)之一,除了位置插值方法之外,還有很多嘗試引起業(yè)界關(guān)注。

1、開發(fā)者kaiokendev在一篇技術(shù)博客中探索了一種將LLaMa上下文窗口擴(kuò)展到8k的方法。

圖片

2、數(shù)據(jù)安全公司Soveren機(jī)器學(xué)習(xí)負(fù)責(zé)人Galina Alperovich在一篇文章中總結(jié)了擴(kuò)展上下文窗口的6個(gè)技巧。

圖片

3、來自Mila、IBM等機(jī)構(gòu)的團(tuán)隊(duì)還在一篇論文中嘗試了在Transformer中完全去掉位置編碼的方法。

圖片

有需要的小伙伴可以點(diǎn)擊下方鏈接查看~

Meta論文:https://arxiv.org/abs/2306.15595

Extending Context is Hard…but not Impossiblehttps://kaiokendev.github.io/context

The Secret Sauce behind 100K context window in LLMshttps://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

無位置編碼論文https://arxiv.org/abs/2305.19466

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-08-24 15:57:41

模型文檔檢索

2023-06-30 09:49:23

模型Meta

2023-03-17 08:28:17

GPT-4AI

2023-05-19 10:16:27

AIGPT-4

2023-08-29 12:45:32

2024-01-08 12:47:02

代碼模型Mistral

2024-03-25 00:05:00

開源模型AI

2024-02-26 00:20:00

AI模型

2023-11-17 18:06:15

2023-05-14 14:15:00

GPT-4AI

2024-12-19 09:48:07

2023-12-07 06:51:18

AI模型

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-03-14 08:11:45

模型RoPELlama

2024-04-12 17:41:28

GPT-4TurboClaude

2024-06-03 14:24:00

2023-08-14 08:04:13

2024-02-07 12:39:00

AI數(shù)據(jù)

2023-08-25 13:27:00

模型開源

2023-12-11 13:20:00

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)