羊駝家族大模型集體進(jìn)化!32k上下文追平GPT-4,田淵棟團(tuán)隊(duì)出品
開源羊駝大模型LLaMA上下文追平GPT-4,只需要一個(gè)簡(jiǎn)單改動(dòng)!
Meta AI這篇?jiǎng)倓偺峤坏恼撐谋硎?,LLaMA上下文窗口從2k擴(kuò)展到32k后只需要小于1000步的微調(diào)。
與預(yù)訓(xùn)練相比,成本忽略不計(jì)。
擴(kuò)展上下文窗口,就意味著AI的“工作記憶”容量增加,具體來說可以:
- 支持更多輪對(duì)話,減少遺忘現(xiàn)象,如更穩(wěn)定的角色扮演
- 輸入更多資料完成更復(fù)雜的任務(wù),如一次處理更長(zhǎng)文檔或多篇文檔
更重要的意義在于,所有基于LLaMA的羊駝大模型家族豈不是可以低成本采用此方法,集體進(jìn)化?
羊駝是目前綜合能力最強(qiáng)的開源基礎(chǔ)模型,已經(jīng)衍生出不少完全開源可商用大模型和垂直行業(yè)模型。
論文通信作者田淵棟也激動(dòng)地在朋友圈分享這一新進(jìn)展。
基于RoPE的大模型都能用
新方法名為位置插值(Position Interpolation),對(duì)使用RoPE(旋轉(zhuǎn)位置編碼)的大模型都適用。
RoPE早在2021年就由追一科技團(tuán)隊(duì)提出,到現(xiàn)在已成為大模型最常見的位置編碼方法之一。
但在此架構(gòu)下直接使用外推法(Extrapolation)擴(kuò)展上下文窗口,會(huì)完全破壞自注意力機(jī)制。
具體來說,超出預(yù)訓(xùn)練上下文長(zhǎng)度之外的部分,會(huì)使模型困惑度(perplexity)飆升至和未經(jīng)訓(xùn)練的模型相當(dāng)。
新方法改成線性地縮小位置索引,擴(kuò)展前后位置索引和相對(duì)距離的范圍對(duì)齊。
用圖表現(xiàn)二者的區(qū)別更加直觀。
實(shí)驗(yàn)結(jié)果顯示,新方法對(duì)從7B到65B的LLaMA大模型都有效。
在長(zhǎng)序列語(yǔ)言建模(Long Sequence Language Modeling)、密鑰檢索(Passkey Retrieval)、長(zhǎng)文檔摘要(Long Document Summarization)中性能都沒有明顯下降。
除了實(shí)驗(yàn)之外,論文附錄中也給出了對(duì)新方法的詳細(xì)證明。
Three More Thing
上下文窗口曾經(jīng)是開源大模型與商業(yè)大模型之間一個(gè)重要差距。
比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高達(dá)100k。
與此同時(shí)許多開源大模型如LLaMA和Falcon還停留在2k。
現(xiàn)在,Meta AI的新成果直接把這一差距抹平了。
擴(kuò)展上下文窗口也是近期大模型研究的焦點(diǎn)之一,除了位置插值方法之外,還有很多嘗試引起業(yè)界關(guān)注。
1、開發(fā)者kaiokendev在一篇技術(shù)博客中探索了一種將LLaMa上下文窗口擴(kuò)展到8k的方法。
2、數(shù)據(jù)安全公司Soveren機(jī)器學(xué)習(xí)負(fù)責(zé)人Galina Alperovich在一篇文章中總結(jié)了擴(kuò)展上下文窗口的6個(gè)技巧。
3、來自Mila、IBM等機(jī)構(gòu)的團(tuán)隊(duì)還在一篇論文中嘗試了在Transformer中完全去掉位置編碼的方法。
有需要的小伙伴可以點(diǎn)擊下方鏈接查看~
Meta論文:https://arxiv.org/abs/2306.15595
Extending Context is Hard…but not Impossiblehttps://kaiokendev.github.io/context
The Secret Sauce behind 100K context window in LLMshttps://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c