自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球最強(qiáng)長文本大模型,一次可讀35萬漢字:Baichuan2-192K上線

人工智能 新聞
Baichuan2-192K 可以一次性讀完一本《三體 2》,是全球處理上下文窗口長度最長的大模型。此外,它也在文本生成質(zhì)量、上下文理解、問答能力等多個維度的評測中顯著領(lǐng)先對手。

國內(nèi)大模型創(chuàng)業(yè)公司,正在技術(shù)前沿創(chuàng)造新的記錄。

10 月 30 日,百川智能正式發(fā)布 Baichuan2-192K 長窗口大模型,將大語言模型(LLM)上下文窗口的長度一舉提升到了 192K token。

這相當(dāng)于讓大模型一次處理約 35 萬個漢字,長度達(dá)到了 GPT-4(32K token,約 2.5 萬字)的 14 倍,Claude 2.0(100K token,約 8 萬字) 的 4.4 倍。

換句話說,Baichuan2-192K 可以一次性讀完一本《三體 2》,是全球處理上下文窗口長度最長的大模型。此外,它也在文本生成質(zhì)量、上下文理解、問答能力等多個維度的評測中顯著領(lǐng)先對手。

能夠一次理解超長文本的大模型,究竟能做哪些事?百川智能進(jìn)行了一番簡單演示。

上傳一整部《三體 2:黑暗森林》的 PDF 文件,百川大模型統(tǒng)計(jì)出來是 30 萬字。接下來,如果你詢問有關(guān)這本小說里的任何問題,大模型都可以給出簡潔準(zhǔn)確的答案。

圖片

有時候我們尋求 AI 的幫助,并不是希望他們發(fā)揮想象力,而是要提取準(zhǔn)確信息。有了 Baichuan2-192K,我們可以快速解讀幾十頁,甚至幾百頁的合同文件,讓 AI 快速給出簡明摘要,四舍五入就是量子速讀了:

圖片

那么如果我突然接到新任務(wù),有一堆文件要看呢?

直接打包一起上傳就可以了,百川大模型可以輕松把五篇新聞?wù)铣梢黄?/span>

圖片

大模型能夠理解的內(nèi)容變長之后,應(yīng)用的方向會越來越多。眾所周知,長文本建模能力是很多場景能夠應(yīng)用落地的前提條件。這一次,百川做到了業(yè)內(nèi)領(lǐng)先。

從幾萬字到幾十萬字,頭部創(chuàng)業(yè)公司都在搶灘「長窗口」

如果你關(guān)注大模型在文本理解方向的應(yīng)用,或許會注意到一個現(xiàn)象:一開始,大家用來測評模型能力的文本可能都是一些財(cái)報(bào)、技術(shù)報(bào)告,這些文本通常有十幾頁到幾十頁不等,字?jǐn)?shù)通常也就幾萬字。但后來,測試文本逐漸演變?yōu)閹讉€小時的會議記錄,或者幾十萬字的長篇小說,競爭越來越激烈,難度也越來越大。

圖片

與此同時,宣稱能理解更長上下文的大模型公司也越來越受關(guān)注。比如前段時間,宣稱能實(shí)現(xiàn) 100K token 上下文窗口的大模型 ——Claude 背后的公司 Anthropic 先后拿到了微軟和谷歌數(shù)十億美元的融資,將大模型軍備競賽推向了新的層面。

為什么這些公司都在挑戰(zhàn)長文本?

首先從應(yīng)用的角度來看,使用大模型來提高生產(chǎn)力的很多工作者都不免要處理很長的文本,比如律師、分析師、咨詢師等,上下文窗口越大,這些人能用大模型做的事情就越廣泛;其次,從技術(shù)的角度來看,窗口所能容納的信息越多,模型在生成下一個字時可以參考的信息就越多,「幻覺」發(fā)生的可能性就越小,生成的信息就越準(zhǔn)確,這是大模型技術(shù)落地的必要條件。所以,在想辦法提升模型性能的同時,各家公司也在比拼誰能把上下文窗口做得更大,從而投放到更多的應(yīng)用場景。

從前面展示的一些例子中可以看到,Baichuan2-192K 在文本生成質(zhì)量和上下文理解方面表現(xiàn)都很出色。而且,在這些定性結(jié)果之外,我們還可以從一些定量評估數(shù)據(jù)中看到這一點(diǎn)。

Baichuan2-192K:文件越長,優(yōu)勢越明顯

在文本生成質(zhì)量評估中,一個很重要的指標(biāo)叫「困惑度」:當(dāng)我們將符合人類自然語言習(xí)慣的高質(zhì)量文檔作為測試集時,模型生成測試集中文本的概率越高,模型的困惑度就越小,模型也就越好。

用來測試百川大模型困惑度的測試集名叫 PG-19。這個數(shù)據(jù)集由 DeepMind 的研究人員制作,用來制作該數(shù)據(jù)集的資料來自古騰堡計(jì)劃的圖書,因此 PG-19 具有書本級的質(zhì)量。

測試結(jié)果如下圖所示??梢钥吹?,在初始階段(橫軸左側(cè),上下文長度比較短的階段),Baichuan2-192K 的困惑度便處于較低的水準(zhǔn)。隨著上下文長度的增加,它的優(yōu)勢變得愈發(fā)明顯,甚至呈現(xiàn)出困惑度持續(xù)下降的狀態(tài)。這說明,在長上下文的場景中,Baichuan2-192K 更能保持書本級的文本生成質(zhì)量。

圖片

在上下文理解能力上,Baichuan2-192K 的表現(xiàn)也非常亮眼。

這項(xiàng)能力的評估采用了權(quán)威的長窗口文本理解評測基準(zhǔn) LongEval。LongEval 是由加州大學(xué)伯克利分校聯(lián)合其他高校發(fā)布的針對長窗口模型評測的榜單,主要衡量模型對長窗口內(nèi)容的記憶和理解能力,模型得分越高越好。

從下圖的評估結(jié)果中可以看到,隨著上下文長度的增加,Baichuan2-192K 一直能夠保持穩(wěn)定的高性能,在窗口長度超過 100K 之后也是如此。相比之下,Claude 2 在窗口長度超過 80K 后整體效果下降就已經(jīng)非常嚴(yán)重。

圖片

此外,模型還在 Dureader、NarrativeQA、TriviaQA、LSHT 等多個中英文長文本問答、摘要的評測集上經(jīng)歷了測試。結(jié)果顯示,Baichuan2-192K 同樣表現(xiàn)優(yōu)異,在大部分長文本評測任務(wù)中都遠(yuǎn)超其他模型。

圖片

簡而言之,處理的內(nèi)容越長,百川的大模型相對性能就越好。

192K 超長上下文,百川是怎么做到的?

擴(kuò)大上下文窗口能有效提升大模型性能是人工智能行業(yè)的共識,但是超長上下文窗口意味著更高的算力需求和更大的顯存壓力。

為了緩解這種壓力,業(yè)內(nèi)出現(xiàn)了一些折中的方法,比如把模型做??;讓模型通過滑動窗口等方式主動拋棄前文,只保留對最新輸入的注意力機(jī)制;通過對上下文的降采樣或者 RAG(檢索增強(qiáng)的生成),只保留對部分輸入的注意力機(jī)制等等。

這些方式雖然能提升上下文窗口長度,但對模型的性能均有不同程度的損害。換言之,它們都是通過犧牲模型其他方面的性能來換取上下文窗口長度,比如模型無法基于全文信息回答復(fù)雜問題,難以跨多個文本綜合考慮答案等。

而本次百川發(fā)布的 Baichaun2-192K 通過算法和工程的極致優(yōu)化,實(shí)現(xiàn)了窗口長度和模型性能之間的平衡,做到了窗口長度和模型性能的同步提升。

算法方面,百川智能提出了一種針對 RoPE 和 ALiBi 的動態(tài)位置編碼的外推方案,該方案能夠?qū)Σ煌直媛实?ALiBi_mask 進(jìn)行不同程度的 Attention-mask 動態(tài)內(nèi)插,在保證分辨率的同時增強(qiáng)了模型對長序列依賴的建模能力。

工程方面,在自主開發(fā)的分布式訓(xùn)練框架基礎(chǔ)上,百川智能整合了目前市場上所有先進(jìn)的優(yōu)化技術(shù),包括張量并行、流水并行、序列并行、重計(jì)算以及 Offload 功能等,獨(dú)創(chuàng)了一套全面的 4D 并行分布式方案。該方案能夠根據(jù)具體的負(fù)載情況,自動尋找最適合的分布式策略,極大地降低了長窗口推理過程中的顯存占用。

打大模型之戰(zhàn),速度要快

成立于今年 4 月的百川智能,幾乎可以說是業(yè)內(nèi)技術(shù)迭代最快的大模型創(chuàng)業(yè)公司。在成立僅半年的時間里,這家公司就已經(jīng)發(fā)布了 Baichuan-7B/13B、Baichuan2-7B/13B 四款開源可免費(fèi)商用的大模型,以及 Baichuan-53B、Baichuan2-53B 兩款閉源大模型。

平均下來,每個月就發(fā)布一款新的大模型。

Baichuan 系列大模型融合了意圖理解、信息檢索以及強(qiáng)化學(xué)習(xí)技術(shù),結(jié)合有監(jiān)督微調(diào)與人類意圖對齊,在知識問答、文本創(chuàng)作領(lǐng)域表現(xiàn)突出。這些大模型也因?yàn)槠淠芰υ跇I(yè)內(nèi)備受青睞:Baichuan 系列開源模型在各大開源社區(qū)的累積下載量已突破六百萬次;Baichuan 2 更是在各維度全面領(lǐng)先 Llama 2,引領(lǐng)了中國開源生態(tài)發(fā)展。

8 月 31 日,百川智能率先通過《生成式人工智能服務(wù)管理暫行辦法》,是首批 8 家公司中唯一一家今年創(chuàng)立的大模型公司。9 月 25 日,百川智能開放 Baichuan API 接口,正式進(jìn)軍 To B 領(lǐng)域,開啟商業(yè)化進(jìn)程。

可以說,從技術(shù)研發(fā)到落地,百川的速度都足夠快

剛剛發(fā)布的 Baichuan2-192K 已經(jīng)正式開啟內(nèi)測,將以 API 調(diào)用的方式開放給核心合作伙伴。百川表示,其已經(jīng)與財(cái)經(jīng)類媒體及律師事務(wù)所等機(jī)構(gòu)達(dá)成了合作,把 Baichuan2-192K 領(lǐng)先的長上下文能力應(yīng)用到了傳媒、金融、法律等具體場景當(dāng)中,不久后將以 API 調(diào)用和私有化部署的方式提供給企業(yè)用戶。

以 API 的形式全面開放之后,Baichuan2-192K 能夠與大量垂直場景深度結(jié)合,在人們的工作、生活、學(xué)習(xí)中發(fā)揮作用,助力行業(yè)用戶大幅提升效率。Baichuan2-192K 能夠一次性處理和分析數(shù)百頁的材料,對于長篇文檔關(guān)鍵信息提取與分析,長文檔摘要、長文檔審核、長篇文章或報(bào)告編寫、復(fù)雜編程輔助等真實(shí)場景都有巨大的助力作用。

圖片


圖片

此前,百川智能創(chuàng)始人、CEO 王小川曾透露,今年下半年,百川將推出千億級的大模型,明年預(yù)計(jì)會有 C 端的超級應(yīng)用部署。

面對與 OpenAI 的差距,王小川坦言,在理想方面我們和 OpenAI 確實(shí)存在差距,OpenAI 的目標(biāo)是探索智能的天花板,他們甚至希望設(shè)計(jì)出將 1000 萬顆 GPU 連在一塊的技術(shù)。但是,在應(yīng)用方面我們比美國走得更快,互聯(lián)網(wǎng)時代積累下來的應(yīng)用和生態(tài)的經(jīng)驗(yàn),能讓我們走的更快也更遠(yuǎn),所以百川做大模型的理念,叫做「理想上慢一步,落地上快三步」。

由此來看,Baichuan2-192K 正是這種理念的延展,全球最長的上下文窗口無疑也將加速百川智能大模型技術(shù)落地的進(jìn)程。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-05-07 08:04:09

代碼格式化工具

2023-11-06 11:23:20

2023-09-06 19:44:26

昇騰

2023-10-11 13:21:12

模型數(shù)據(jù)

2023-02-24 08:20:57

DDR5內(nèi)存系統(tǒng)

2012-03-09 15:55:05

新版

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2023-10-18 17:07:21

AI 工具Claude 2

2023-07-05 14:53:49

模型黑馬項(xiàng)目Github

2024-11-21 13:02:42

2020-10-27 10:35:38

優(yōu)化代碼項(xiàng)目

2023-02-28 08:00:24

2024-02-19 14:06:00

AI數(shù)據(jù)

2023-05-09 11:13:09

IO模型語言

2025-01-14 12:22:06

2020-12-11 10:40:13

PostgreSQL數(shù)據(jù)庫GitLab

2023-11-03 08:27:46

2020-09-04 16:38:01

網(wǎng)絡(luò)攻擊勒索軟件數(shù)據(jù)泄露
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號