自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“大海撈針”out!“數(shù)星星”成測(cè)長(zhǎng)文本能力更精準(zhǔn)方法,來自鵝廠

人工智能 新聞
騰訊MLPD實(shí)驗(yàn)室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測(cè)試。相比之下,新方法更注重對(duì)模型處理長(zhǎng)依賴關(guān)系能力的考察,對(duì)模型的評(píng)估更加全面精準(zhǔn)。

大模型長(zhǎng)文本能力測(cè)試,又有新方法了!

騰訊MLPD實(shí)驗(yàn)室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測(cè)試。

相比之下,新方法更注重對(duì)模型處理長(zhǎng)依賴關(guān)系能力的考察,對(duì)模型的評(píng)估更加全面精準(zhǔn)。

圖片

利用這種方法,研究人員對(duì)GPT-4和國(guó)內(nèi)知名的Kimi Chat進(jìn)行了“數(shù)星星”測(cè)試。

結(jié)果,在不同的實(shí)驗(yàn)條件下,兩款模型各有勝負(fù),但都體現(xiàn)出了很強(qiáng)的長(zhǎng)文本能力。

圖片

△橫軸系以2為底的對(duì)數(shù)坐標(biāo)

那么,“數(shù)星星”究竟是怎樣的一種測(cè)試呢?

比“大海撈針”更加精準(zhǔn)

首先,研究人員選擇了一段長(zhǎng)文本做為上下文,測(cè)試過程中長(zhǎng)度逐漸遞增,最大為128k。

然后,根據(jù)不同的測(cè)試難度需求,整段文本會(huì)被劃分成N段,并向其中插入M個(gè)包含“星星”的句子。

圖片

實(shí)驗(yàn)過程中,研究人員選擇了《紅樓夢(mèng)》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個(gè)句子中的x都各不相同。

圖片

然后,模型會(huì)被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。

圖片

得到模型的輸出之后,研究人員會(huì)將這些數(shù)字和Ground Truth進(jìn)行對(duì)比,最終計(jì)算出模型輸出的正確率。

相比于之前的“大海撈針”測(cè)試,這種“數(shù)星星”的方法更能體現(xiàn)出模型處理長(zhǎng)依賴關(guān)系能力。

簡(jiǎn)而言之,“大海撈針”中插入多個(gè)“針”就是插入多個(gè)線索,然后讓大模型找到并串聯(lián)推理多個(gè)線索,并獲得最終答案。

但實(shí)際的“大海撈多針”測(cè)試中,模型并不需要找到所有“針”才能答對(duì)問題,甚至有時(shí)只需要找到最后一根就可以了。

圖片

但“數(shù)星星”則不同——因?yàn)槊烤湓捴小靶切恰钡臄?shù)量都不一樣,模型必須把所有星星都找到才能把問題答對(duì)。

所以,雖然看似簡(jiǎn)單,但至少在多“針”任務(wù)上,“數(shù)星星”對(duì)模型長(zhǎng)文本能力有著更為精準(zhǔn)的體現(xiàn)。

那么,有哪些大模型最先接受了“數(shù)星星”測(cè)試呢?

GPT-4與Kimi難分高下

參加這場(chǎng)測(cè)試的大模型分別是GPT-4和國(guó)內(nèi)以長(zhǎng)文本能力而知名的大模型Kimi。

在“星星”數(shù)量和文本粒度均為32時(shí),GPT-4的準(zhǔn)確率達(dá)到了96.8%,Kimi則有86.4%。

圖片

但當(dāng)“星星”增加到64顆時(shí),Kimi則以93.1%的準(zhǔn)確率超過了準(zhǔn)確率為89.7%的GPT-4.

圖片

減少到16時(shí),也是Kimi的表現(xiàn)略勝于GPT-4。

圖片

而劃分的顆粒度也會(huì)對(duì)模型的表現(xiàn)造成一些影響,在“星星”同樣出現(xiàn)32次時(shí),顆粒度從32變?yōu)?6,GPT-4的成績(jī)有所上升,而Kimi則有所下降。

圖片

需要注意的是,在以上的測(cè)試中,“星星”的數(shù)量是依次遞增的,但研究人員很快發(fā)現(xiàn),這種情況下大模型很喜歡“偷懶”——

當(dāng)模型發(fā)現(xiàn)星星數(shù)量是遞增的的時(shí)候,即使區(qū)間內(nèi)的數(shù)字是隨機(jī)生成,也會(huì)引起大模型的敏感度增加。

例如:模型對(duì)3、9、10、24、1145、114514這樣的遞增序列會(huì)比24、10、3、1145、9、114514更加敏感

所以,研究人員又特意將數(shù)字的順序進(jìn)行了打亂,重新進(jìn)行了一次測(cè)試。

圖片

結(jié)果在打亂之后,GPT-4和Kimi的表現(xiàn)都出現(xiàn)了明顯下降,不過準(zhǔn)確率仍在60%以上,兩者相差8.6個(gè)百分點(diǎn)。

圖片

One More Thing

這個(gè)方法的準(zhǔn)確性可能還需要時(shí)間檢驗(yàn),但不得不說名字起得真的很有一手。

圖片

△英文系同名歌曲Counting Stars歌詞

網(wǎng)友也不禁感嘆,現(xiàn)在關(guān)于大模型的研究,真的是越來越魔幻了。

圖片

但魔幻的背后,也體現(xiàn)出人們對(duì)于大模型長(zhǎng)語(yǔ)境處理能力和性能的了解還不夠充分。

就在前些天,先后有多家大模型廠商宣布推出能夠處理超長(zhǎng)文本的模型(雖然不全是基于上下文窗口實(shí)現(xiàn)),最高可達(dá)上千萬(wàn),但實(shí)際表現(xiàn)還是未知數(shù)。

而Counting Stars的出現(xiàn),或許正好有助于我們了解這些模型的真實(shí)表現(xiàn)。

那么,你還想看看哪些模型的測(cè)試成績(jī)呢?

論文地址:https://arxiv.org/abs/2403.11802
GitHub:https://github.com/nick7nlp/Counting-Stars

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-01-11 09:37:37

搜索引擎排序

2009-04-29 11:45:31

Java面試主考官

2016-07-18 10:48:16

華為

2022-11-10 16:08:13

程序員代碼

2024-04-22 12:57:47

2021-07-12 14:20:09

SQL數(shù)據(jù)庫(kù)異常檢測(cè)

2024-10-09 13:22:10

2023-12-08 13:21:00

模型訓(xùn)練

2015-09-25 09:25:34

數(shù)據(jù)分析

2024-11-11 08:00:00

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-10-28 16:05:12

2025-03-17 09:40:00

2021-04-25 15:41:45

Python視頻信息

2024-03-06 13:36:16

AI意識(shí)

2012-11-19 16:08:21

病毒攻擊AVAR

2018-05-07 14:52:27

區(qū)塊鏈扶貧

2024-02-02 16:25:01

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)