Qwen2.5更新百萬超長上下文,推理速度4.3倍加速,網(wǎng)友:RAG要過時(shí)了
國產(chǎn)大模型,最近有點(diǎn)卷。
這不,剛在寫代碼這事兒上刷新SOTA,Qwen2.5系列又雙叒突然更新了——
一口氣讀三本《三體》不費(fèi)事,并且45秒左右就能完整總結(jié)出這69萬token的主要內(nèi)容,be like:
還真不是糊弄事兒,“大海撈針”實(shí)驗(yàn)顯示,這個(gè)全新的Qwen2.5-Turbo在100萬token上下文中有全綠的表現(xiàn)。
也就是說,這100萬上下文里,有細(xì)節(jié)Qwen2.5-Turbo是真能100%捕捉到。
沒錯(cuò),Qwen2.5系列新成員Qwen2.5-Turbo,這回主打的就是支持超長上下文,并且把性價(jià)比卷出了花兒:
- 上下文長度從128k擴(kuò)展到1M,相當(dāng)于100萬個(gè)英文單詞或150萬個(gè)漢字,也就是10部長篇小說、150小時(shí)語音記錄、30000行代碼的量。
- 更快的推理速度:基于稀疏注意力機(jī)制,處理百萬上下文時(shí),首字返回時(shí)間從4.9分鐘降低到了68秒,實(shí)現(xiàn)了4.3倍加速。
- 關(guān)鍵是還便宜:0.3元/1M tokens。這意味著,在相同成本下,Qwen2.5-Turbo可以處理的token數(shù)量是GPT-4o-mini的3.6倍。
看到這波更新,不少網(wǎng)友直接爆出了***:
有人直言:這么長的上下文這么快的速度下,RAG已經(jīng)過時(shí)了。
還有人開啟大贊特贊模式:現(xiàn)在在開源領(lǐng)域,Qwen比Llama還值得期待了。
上下文能力擴(kuò)展不影響性能
除了一口氣啃下3本長篇小說,Qwen官方還展示了Qwen2.5-Turbo超長上下文的更多實(shí)用功能。
比如快速掌握一整個(gè)代碼庫的信息。
如Demo所演示,上傳包含Qwen-Agent倉庫中所有代碼文件的文本文件(13.3萬token),只需幾秒鐘,大模型就能讀完全部代碼并準(zhǔn)確輸出各種細(xì)節(jié)。
用戶:這個(gè)存儲(chǔ)庫中有哪些Agent子類?提供它們的文件路徑。
Qwen2.5-Turbo:
一口氣讀7篇論文,完成論文分類、論文摘要,也不在話下:
我們也實(shí)際測(cè)試了一下??梢钥吹?,在沒有給任何提示的情況下,Qwen2.5-Turbo能準(zhǔn)確掌握不同論文的細(xì)節(jié)信息,并完成對(duì)比分析。
除了大海撈針實(shí)驗(yàn)之外,Qwen團(tuán)隊(duì)還在更復(fù)雜的長文本任務(wù)上測(cè)試了Qwen2.5-Turbo的能力。
包括:
- RULER:基于大海撈針的擴(kuò)展基準(zhǔn),任務(wù)包括在無關(guān)上下文中查找多“針”或回答多個(gè)問題,或找到上下文中出現(xiàn)最多或最少的詞。數(shù)據(jù)的上下文長度最長為128K。
- LV-Eval:要求同時(shí)理解眾多證據(jù)片段的基準(zhǔn)測(cè)試。Qwen團(tuán)隊(duì)對(duì)LV-Eval原始版本中的評(píng)估指標(biāo)進(jìn)行了調(diào)整,避免因?yàn)檫^于嚴(yán)苛的匹配規(guī)則所導(dǎo)致的假陰性結(jié)果。數(shù)據(jù)的上下文長度最長為128K。
- Longbench-Chat:一個(gè)評(píng)價(jià)長文本任務(wù)中人類偏好對(duì)齊的數(shù)據(jù)集。數(shù)據(jù)的上下文長度最長為100K。
結(jié)果顯示,在RULER基準(zhǔn)測(cè)試中,Qwen2.5-Turbo取得了93.1分,超過了GPT-4o-mini和GPT-4。
在LV-Eval、LongBench-Chat等更接近真實(shí)情況的長文本任務(wù)中,Qwen2.5-Turbo在多數(shù)維度上超越了GPT-4o-mini,并且能夠進(jìn)一步擴(kuò)展到超過128 tokens上下文的問題上。
值得一提的是,現(xiàn)有的上下文長度擴(kuò)展方案經(jīng)常會(huì)導(dǎo)致模型在處理短文本時(shí)出現(xiàn)比較明顯的性能下降。
Qwen團(tuán)隊(duì)也在短文本任務(wù)上對(duì)Qwen2.5-Turbo進(jìn)行了測(cè)試。
結(jié)果顯示,Qwen2.5-Turbo在大部分任務(wù)上顯著超越了其他上下文長度為1M tokens的開源模型。
和GPT-4o-mini以及Qwen2.5-14B-Instruct相比,Qwen2.5-Turbo在短文本任務(wù)上的能力并不遜色,但同時(shí)能hold住8倍于前兩個(gè)模型的上下文。
此外,在推理速度方面,利用稀疏注意力機(jī)制,Qwen2.5-Turbo將注意力部分的計(jì)算量壓縮到了原來的2/25,在不同硬件配置下實(shí)現(xiàn)了3.2-4.3倍的加速比。
現(xiàn)在,在HuggingFace和魔搭社區(qū),Qwen2.5-Turbo均提供了可以在線體驗(yàn)的Demo。
API服務(wù)也已上線阿里云大模型服務(wù)平臺(tái),跟OpenAI API是兼容的。
至于模型權(quán)重什么時(shí)候開源?
阿里通義開源負(fù)責(zé)人林俊旸的說法是:目前還沒有開源計(jì)劃,但正在努力中。
反正HuggingFace聯(lián)合創(chuàng)始人Thomas Wolf是幫咱催上了(手動(dòng)狗頭)。
Demo傳送門:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo