兩行代碼,「三體」一次讀完!港中文賈佳亞團隊聯(lián)手MIT發(fā)布超長文本擴展技術(shù),打破LLM遺忘魔咒
中途迷失、模型偷懶、上下文越長大模型越笨……
體驗過LLM的人,多少都會對文本輸入長度帶來的限制有所感觸:
想和大模型討論一些稍長的內(nèi)容,就需要拆分輸入,而前面輸入的要點,很快就會被大模型忘記。
實際上,這些都是典型的大語言模型對話缺陷。就像先天有注意力缺陷的兒童,難以專注看完一本新書。而缺陷的關(guān)鍵,在于模型缺乏長文本處理能力。
如今,這個局面已經(jīng)被打破了!
就在近日,由賈佳亞團隊聯(lián)合MIT發(fā)布的新技術(shù)和新模型,悄然登上各大開源網(wǎng)站的熱榜:
Hugging Face熱榜第一、Papers With Code熱度第一,Github全部Python項目熱度第五、Github Stars一周內(nèi)破千,Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬......
論文地址:https://arxiv.org/abs/2309.12307
代碼和Demo地址:https://github.com/dvlab-research/LongLoRA
GitHub Stars已達1.3k
Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬
這項名為LongLoRA的技術(shù)實用但卻簡單得令人驚訝:
只需兩行代碼、一臺8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。
同時,該研究團隊還發(fā)布了首個擁有70B參數(shù)量的長文本對話大語言模型LongAlpaca。
全球首個70B長文本大語言模型發(fā)布
LongLoRA的提出,讓全球大語言模型的對話缺陷第一次得到解決,自此,幾十頁的論文、幾百頁的報告、鴻篇巨制不再成為大模型盲區(qū)。
對此,有專業(yè)人士激動地表示,LongLoRA是大語言模型迷宮中的希望之燈!
它代表著業(yè)界對長文本大語言模型的重新思考和關(guān)注,有效擴展了大語言模型的上下文窗口,允許模型考慮和處理較長的文本序列,是大語言模型的革新性發(fā)明。
除了技術(shù)革新外,大語言模型處理長文本問題的一大難點還在于缺少公開的長文本對話數(shù)據(jù)。
為此,研究團隊特意收集了9k條長文本問答語料對,包含針對名著、論文、深度報道甚至財務報表的各類問答。
光會回答長問題還不夠,該團隊又挑選了3k的短問答語料與9K的長問答語料混合訓練,讓長文本大模型同時具備短文本對話能力。這個完整的數(shù)據(jù)集被稱為LongAlpaca-12k,目前已經(jīng)開源。
在LongAlpaca-12k數(shù)據(jù)集基礎(chǔ)上,研究團隊對不同參數(shù)大小7B、13B、70B進行了訓練和評測,開源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。
看小說、改論文、指點經(jīng)濟堪稱全能王
話不多說,盲選幾個demo,一起看看應用了LongLoRA技術(shù)疊加12K問答語料的大模型LongAlpaca效果。
讓系統(tǒng)新讀一篇論文,并根據(jù)ICLR的審查指南,對其提出修改意見,從而提升該論文的接收率:
LongAlpaca的意見是:通過更精確地闡明新穎性,提供更嚴格和更有對比性的實驗結(jié)果(包括具體的數(shù)據(jù)集和指標)、更廣泛的應用和未來發(fā)展方向,重點呈現(xiàn)關(guān)鍵貢獻和影響,論文被接受的機會將得到提高。
現(xiàn)在,讓系統(tǒng)讀兩篇新的不同的論文,讓LongAlpaca概括ICLR和CVPR兩個會議之間的風格區(qū)別:
LongAlpaca總結(jié)認為,CVPR論文傾向更具結(jié)構(gòu)性和實驗性的風格,專注于實用性和技術(shù)性。而ICLR的論文風格更加靈活,側(cè)重關(guān)鍵的理論分析和數(shù)學推導,而非標準格式。
可以看出,經(jīng)過訓練的LongAlpaca模型已經(jīng)可以很輕松地接受新的長篇學術(shù)論文,在學術(shù)相關(guān)問題的回答上相當精準。
接下來,再看看LongAlpaca模型在頗高閱讀和理解門檻的經(jīng)濟領(lǐng)域的解讀表現(xiàn)。
根據(jù)國際貨幣基金組織從2012年到2023年的全球經(jīng)濟展望的概述合集,對經(jīng)濟形勢進行逐年總結(jié)以及對未來經(jīng)濟趨勢進行預測:
LongAlpaca告訴我們,2023年全球經(jīng)濟形勢不明朗,跟2022年相比,增長預計放緩;未來幾年,全球經(jīng)濟擴張速度偏溫和并將低于預期,而地緣政治緊張、金融市場波動等大的挑戰(zhàn)依然存在,需通過多邊合作和結(jié)構(gòu)性改革小心應對。
此外,LongAlpaca還可以讀新的長篇小說,讀完后對內(nèi)容進行分析。
下面選取的對比模型是13B參數(shù)的LongAlpaca和Llama2,且看各自表現(xiàn)。
名著《西游記》中,為什么孫悟空在大鬧天宮時很厲害,但取經(jīng)路上卻屢屢受挫?
LongAlpaca給出了5點原因,大概可總結(jié)為:「孫悟空的不成熟、強大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導致了他在旅途中的失敗。但隨著時間推移,他獲得了智慧、經(jīng)驗和戰(zhàn)友,使他最終戰(zhàn)勝了最強大的敵人?!?/span>
而Llama2并沒有給出正確答案:「雖然他確實大鬧天宮,但說他代表著不敗的力量并不一定準確。事實上,他最終在西游記中被強大的唐三藏打敗?!?/span>
這一次讓系統(tǒng)新讀一次《三體》,然后問第一部中,葉文潔為什么要聯(lián)系外星人,而后期又為什么后悔?
LongAlpaca認為,葉文潔最初接觸外星人是出于理想主義和復仇,但隨著時間的推移,她對人類的看法發(fā)生了變化,意識到自己可能給全人類帶來的危險,她的悔恨與日俱增?;卮鸬檬智逦?。
而Llama2的回答則是,「通過與外星人的互動,她希望能更深入地了解宇宙的本質(zhì),以及自己在宇宙中的位置。葉文潔逐漸意識到,外星人和他們的技術(shù)并不能解決她的問題。」回答籠統(tǒng),之后開始對小說整體進行評論,答非所問。
從模型給出的答案可發(fā)現(xiàn),一些模型如Llama2[2]可能在預訓練過程中見過相關(guān)小說,但如果在提問時進行僅根據(jù)小說題目進行短文本提問的話,回答并不理想。
兩個模型的回答對比,高下立見。LongAlpaca改學術(shù)論文、點評全球經(jīng)濟大勢和讀小說,都是一把好手,完勝Llama2。
兩行代碼和三個關(guān)鍵結(jié)論
Llama2可以說是AI社區(qū)內(nèi)最強大的開源大模型之一,行業(yè)位置領(lǐng)先,LongAlpaca居然可以完勝。其背后的LongLoRA技術(shù)成功引起網(wǎng)友們的注意,到底是怎么做到的?
原來大語言模型對長文本處理過程中,計算量的主要開銷集中在自注意力機制(self-attention),其開銷隨著文本長度成平方次地增加。
針對這個問題,研究團隊提出LongLoRA技術(shù),并用分組和偏移的方式來對全局自注意力機制進行模擬。
簡單來說,就是將長文本對應的tokens拆分成不同的組,在每組內(nèi)部做自注意力計算,而分組的方式在不同注意力頭(attention head)上有所偏移。
這樣的方式既可以大幅度節(jié)約計算量,又可以維持全局感受野的傳遞。
而且,這個實現(xiàn)方法也非常簡潔,僅兩行代碼即可完成!
除此之外,LongLoRA還探索了低秩訓練的方式。
原有的低秩訓練方式,如LoRA[5],無法在文本長度遷移上取得良好的效果。
而LongLoRA在低秩訓練的基礎(chǔ)上,引入嵌入層(Embedding layer和 Normalization layers)進行微調(diào),從而達到可以和全參數(shù)微調(diào)(Full fine-tune)逼近的效果。
進行不同長度文本擴展和訓練時,LongLoRA、LoRA和全參數(shù)微調(diào)不同技術(shù)的具體效果如何,可以參考三個維度表現(xiàn):
- 在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數(shù)微調(diào)都能在各種文本長度下維持很好的效果;
- 在顯存消耗上,相比于全參數(shù)微調(diào),LongLoRA和原有LoRA都有大幅度的節(jié)省。例如,對于8k長度的模型訓練,相比于全參數(shù)微調(diào),LongLoRA將顯存消耗從46.3GB降低到25.6GB。
- 在訓練時間上,對于64k長度的模型訓練,相比于常規(guī)LoRA,LongLoRA將訓練時間從90~100小時左右降低到52.4小時,而全參數(shù)微調(diào)超過1000小時。
極簡的訓練方法、極少的計算資源和時間消耗,以及極佳的準確性,令LongLoRA大規(guī)模推廣成為可能。
目前,相關(guān)技術(shù)與模型已全部開源,感興趣的用戶們可以自己部署感受。
值得一提的是,這是賈佳亞團隊繼8月9日發(fā)布的「可以分割一切」的多模態(tài)大模型LISA后的又一力作。
相距不過短短兩個月,不得不說,這研究速度和能力跟LongLoRA一樣驚人。