自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用

開(kāi)發(fā) 前端
近日,來(lái)自得克薩斯農(nóng)工大學(xué)等機(jī)構(gòu)的華人學(xué)者們發(fā)布了全新的大模型窗口擴(kuò)展方法SelfExtended(簡(jiǎn)稱SE)。在Mistral上,研究者在24k長(zhǎng)度的文本中隨機(jī)插入5位數(shù)字讓模型搜索,結(jié)果經(jīng)SE處理后,呈現(xiàn)出了全綠(通過(guò))的測(cè)試結(jié)果。

無(wú)需微調(diào),只要四行代碼就能讓大模型窗口長(zhǎng)度暴增,最高可增加3倍!

而且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗(yàn)成功。

有了這項(xiàng)技術(shù),大模型(LargeLM)就能搖身一變,成為L(zhǎng)ongLM。

圖片

近日,來(lái)自得克薩斯農(nóng)工大學(xué)等機(jī)構(gòu)的華人學(xué)者們發(fā)布了全新的大模型窗口擴(kuò)展方法SelfExtended(簡(jiǎn)稱SE)。

在Mistral上,研究者在24k長(zhǎng)度的文本中隨機(jī)插入5位數(shù)字讓模型搜索,結(jié)果經(jīng)SE處理后,呈現(xiàn)出了全綠(通過(guò))的測(cè)試結(jié)果。

而未經(jīng)處理的版本,在6k長(zhǎng)度時(shí)就已經(jīng)開(kāi)始“見(jiàn)紅”了。

圖片圖片

GitHub Copilot主創(chuàng)Alex Graveley也激動(dòng)地宣布,在Llama2上進(jìn)行的實(shí)驗(yàn)同樣取得了成功。

圖片圖片

在網(wǎng)友的進(jìn)一步詢問(wèn)之下,Alex解釋了推文中“work”的具體含義:原先在4k長(zhǎng)度時(shí)就會(huì)出現(xiàn)的噪聲,現(xiàn)在已經(jīng)消失了。

圖片圖片

而對(duì)于SE窗口長(zhǎng)度的極限,一位根據(jù)論文復(fù)現(xiàn)SE代碼的大佬表示,理論上(只要算力足夠)可以達(dá)到無(wú)限長(zhǎng)。

圖片圖片

那么,SE具體能達(dá)到什么樣的效果呢?

長(zhǎng)文本能力顯著增強(qiáng)

在窗口長(zhǎng)度從4096增長(zhǎng)到16384的過(guò)程中,Llama 2的困惑度從一開(kāi)始變飆升了兩個(gè)數(shù)量級(jí)。

但使用SE后,文本長(zhǎng)度變成了原來(lái)的4倍,困惑度卻只增加了0.4。

而在Mistral上,SE比Mistral自身采用的滑動(dòng)窗口(SWA)機(jī)制帶來(lái)了更低的困惑度。

圖片圖片

△左下圖使用對(duì)數(shù)坐標(biāo)

在專為長(zhǎng)文本模型設(shè)計(jì)的LongBench數(shù)據(jù)集中,SE處理后的模型在單/多文檔問(wèn)答、總結(jié)、少樣本學(xué)習(xí)、代碼等任務(wù)中,評(píng)分均相比起原始版本有所提升。

特別是在一個(gè)名為SOLAR的模型上,處理后的模型在16k長(zhǎng)度下的表現(xiàn)比原始版本在4k長(zhǎng)度下的表現(xiàn)還要優(yōu)異。

SOLAR由兩個(gè)羊駝掐頭去尾拼接而成,這種拼接的方式,使得其注意力層結(jié)構(gòu)與其他基于Transformer的模型形成了一定差異。

圖片

同時(shí),在GSM等由考試題組成的閉域問(wèn)答任務(wù)中,SE優(yōu)化后的模型也都相比原始版本取得了更高的平均成績(jī),在Mistral上稍遜于其自身的SWA方法。

圖片圖片

而長(zhǎng)文本能力的增強(qiáng),并沒(méi)有帶來(lái)模型在短文本上的能力下降。

在HuggingFace的OpenLLM基準(zhǔn)下,SE版Llama2的測(cè)評(píng)成績(jī)相比原版均為發(fā)生顯著降低。

圖片圖片

目前,SE的開(kāi)箱即用版支持Phi、Llama和Mistral三種模型,在這三種模型上只需4行代碼就能進(jìn)行窗口擴(kuò)增。

對(duì)于其他模型,則需要對(duì)代碼進(jìn)行一定修改。

圖片圖片

那么,SE是如何給模型增加窗口長(zhǎng)度的呢?

兩種注意力機(jī)制共同作用

研究者認(rèn)為,長(zhǎng)文本能力是大模型本身就具有的,但需要通過(guò)一定方法激發(fā)才能實(shí)現(xiàn)。

其中最主要的問(wèn)題是,大模型在處理長(zhǎng)文本時(shí),會(huì)遇到相對(duì)位置編碼超出訓(xùn)練時(shí)所見(jiàn)范圍的情況。

針對(duì)這一情況,作者采用了FLOOR注意力機(jī)制作為解決策略。

FLOOR對(duì)輸入的文本序列進(jìn)行分組,然后用組數(shù)對(duì)某一token的絕對(duì)位置做取整除,就可以長(zhǎng)距離將映射到較短的范圍。

然后,對(duì)這些映射值進(jìn)行注意力運(yùn)算,就解決了位置編碼超限的問(wèn)題,實(shí)現(xiàn)了長(zhǎng)文本的處理。

圖片圖片

而在處理中短長(zhǎng)度文本時(shí),仍然使用模型原有的注意力機(jī)制,從而確保了模型不會(huì)“顧此失彼”,避免因長(zhǎng)文本能力的增長(zhǎng)導(dǎo)致短文本能力損失。

此外,在Mistral上復(fù)現(xiàn)SE的作者還坦言,目前該模型并不完美,可能存在計(jì)算量暴增的問(wèn)題。

圖片圖片

同時(shí),SE的原作者也說(shuō),目前SE方法的確還沒(méi)有做過(guò)效率方面的優(yōu)化,未來(lái)計(jì)劃通過(guò)引入FlashAttention機(jī)制等策略來(lái)解決這一問(wèn)題。

圖片

論文地址:https://arxiv.org/abs/2401.01325

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2023-08-24 15:57:41

模型文檔檢索

2024-05-06 13:01:21

數(shù)據(jù)模型

2023-06-28 18:10:27

羊駝家族大模型集體進(jìn)化

2024-03-14 08:11:45

模型RoPELlama

2025-01-14 12:22:06

2023-10-04 10:38:38

模型方法

2023-05-22 09:28:30

模型AI

2025-03-18 09:23:22

2025-03-18 08:14:05

2024-04-07 08:50:00

谷歌框架

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2023-08-10 14:04:15

代碼模型

2024-03-25 00:05:00

開(kāi)源模型AI

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2012-12-31 10:01:34

SELinuxSELinux安全

2022-04-19 07:45:40

代碼Python美圖秀秀

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2022-09-14 13:13:51

JavaScript上下文

2024-07-19 12:45:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)