自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="frzit"></p>

<ruby id="frzit"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌DeepMind全新ToT基準(zhǔn)：全面評估LLM時(shí)間推理能力

作者：新智元 2024-07-05 15:06:00

人工智能新聞

近日，來自谷歌DeepMind的研究人員，推出了專門用于評估大語言模型時(shí)間推理能力的基準(zhǔn)測試——Test of Time（ToT），從兩個(gè)獨(dú)立的維度分別考察了LLM的時(shí)間理解和算術(shù)能力。

大語言模型的時(shí)間推理能力怎么樣？

我們先來看一道幼兒園的題目：

給出切爾西歷年的主教練名單，向模型提問：Pochettino之前的教練是誰？

此時(shí)，LLM能夠給出正確的回答（Lampard），——貌似有點(diǎn)實(shí)力？

但是，如果我們把人名來個(gè)變量代換（E1~E5），其他內(nèi)容保持不變，LLM瞬間就降智了：

事實(shí)上，在第一次的題干里，我們并沒有說明Lampard教練叫什么名字，而答案里直接就出現(xiàn)了Frank。

所以LLM有可能只是碰到了原題？

于是小編用這兩道題分別測試了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。

從結(jié)果來看，上面被公開處刑的應(yīng)該是ChatGPT。

而Gemini 1.0 pro和Claude 3 Sonnet甚至還不如ChatGPT，兩題全錯(cuò)（雖然也給出了全名），估計(jì)是刷題的時(shí)候懈怠了。

相比之下，Llama 3的回答則呈現(xiàn)出智力上的優(yōu)越：

在如此簡單的問題上，不同的LLM卻「各顯神通」，看來是時(shí)候搞個(gè)權(quán)威的考核指導(dǎo)一下了。

近日，來自谷歌DeepMind的研究人員，推出了專門用于評估大語言模型時(shí)間推理能力的基準(zhǔn)測試——Test of Time（ToT）。

論文地址：https://arxiv.org/pdf/2406.09170

值得注意的是，ToT是基準(zhǔn)測試的名字，不是顏文字表情

ToT由兩門考試組成：

第一關(guān)：ToT-semantic，考驗(yàn)LLM在進(jìn)行時(shí)間推理時(shí)，對于語義和邏輯的理解。
第二關(guān)：ToT-arithmetic，考驗(yàn)LLM進(jìn)行時(shí)間相關(guān)算術(shù)的能力。

ToT-semantic中的問題是合成的，保證LLM在考試中不會遇見原題；

而ToT-arithmetic采取眾包的形式，保證了問題的深度和廣度。

基準(zhǔn)測試和數(shù)據(jù)集：https://huggingface.co/datasets/baharef/ToT

ToT的數(shù)據(jù)集分為三個(gè)子集：ToT-semantic包含1850個(gè)示例，ToT-arithmetic包含2800個(gè)示例，另外還有一個(gè)ToT-semantic-large，包含46480個(gè)示例，能夠在更大的尺度上衡量時(shí)間理解的語義和邏輯。

ToT的使用方法很簡單，先安裝Huggingface數(shù)據(jù)集，然后兩行代碼導(dǎo)入即可：

from datasets import load_dataset
dataset = load_dataset("baharef/ToT")

數(shù)據(jù)格式

ToT-semantic和ToT-semantic-large數(shù)據(jù)集包含以下字段：

question：包含問題的文本。
graph_gen_algorithm：圖生成器算法的名稱。
question_type：對應(yīng)于數(shù)據(jù)集中的7種問題類型之一。
sorting_type：對應(yīng)用于事實(shí)的排序類型。
prompt：包含用于評估LLM任務(wù)的完整提示文本。
label: 問題的標(biāo)準(zhǔn)答案。

而ToT-arithmetic數(shù)據(jù)集包含question、question_type和label三個(gè)字段。

Test of Time

LLM的時(shí)間推理最近獲得了極大的關(guān)注，許多研究集中在增強(qiáng)LLM對時(shí)間概念的理解上，通過預(yù)訓(xùn)練和微調(diào)策略來提高他們的時(shí)間推理能力。

而相應(yīng)的基準(zhǔn)測試則大多以知識圖譜為中心：比如TempTabQA提供了基于維基百科信息框的眾包問題，而TGQA是一個(gè)源自YAGO11k知識圖譜的數(shù)據(jù)集。

為防止數(shù)據(jù)泄露，TGQA將每個(gè)實(shí)體名稱更改為GPT3.5生成的名稱，保證名稱與實(shí)體類型一致，并且不會以其他方式出現(xiàn)在YAGO11k中。

但這種策略有兩個(gè)問題：首先是會引入虛假的實(shí)體名稱相關(guān)性，其次可能會產(chǎn)生事實(shí)不正確或違反常識的聲明。

于是，本文選擇了合成數(shù)據(jù)的方式來建立LLM的評估基準(zhǔn)。

同時(shí)，研究人員將時(shí)間推理能力拆分成兩個(gè)不同的維度：理解時(shí)間的語義和邏輯，以及執(zhí)行準(zhǔn)確的時(shí)間算術(shù)。

兩個(gè)維度分別建立任務(wù)，獨(dú)立進(jìn)行評估，能夠更好地展現(xiàn)LLM的優(yōu)勢和劣勢。

ToT-semantic

ToT-semantic能夠分離和分析一個(gè)LLM的核心推理能力，同時(shí)避免依賴預(yù)先存在的知識。

ToT-semantic的創(chuàng)建過程如下圖所示：

第 1 步：生成隨機(jī)結(jié)構(gòu)，然后使用這些結(jié)構(gòu)來創(chuàng)建時(shí)間問題。為了確保隨機(jī)結(jié)構(gòu)的多樣化，這里參考圖結(jié)構(gòu)的生成。

研究人員采用幾種現(xiàn)有的算法來生成具有不同屬性的圖結(jié)構(gòu)，包括ER圖、無標(biāo)度網(wǎng)絡(luò)（SFN）、遵循BA模型和隨機(jī)塊模型（SBM）的圖，以及星形圖。

每種圖生成算法都表現(xiàn)出不同的屬性，對應(yīng)于不同的應(yīng)用場景。例如，ER圖通常是稀疏的，平均度數(shù)較低，而BA圖是密集的，表現(xiàn)出冪律分布。

建立出世的圖結(jié)構(gòu)之后，我們就為邊緣分配關(guān)系。對于每個(gè)圖，我們首先確定要分配給邊的多個(gè)關(guān)系類型，并將這些關(guān)系類型中的每個(gè)類型分配給一對一、一對多、多對一和多對多之一。

第 2 步：問題生成。這里考慮了以下八種類型的問題，常見于日常生活中，以及各種基準(zhǔn)測試中。

EventAtTimeT：詢問在T時(shí)刻哪個(gè)實(shí)體與實(shí)體E有某種關(guān)系R
EventAtWhatTime：詢問兩個(gè)實(shí)體E1和E2之間的關(guān)系R在什么時(shí)間開始/結(jié)束
NumberOfEventsInTimeInterval：詢問有多少實(shí)體在T1到T2之間與實(shí)體E有關(guān)系R
BeforeAfter：詢問在E1之前/之后哪個(gè)實(shí)體與E2有關(guān)系R
EventAtTimeOfAnotherEvent：詢問當(dāng)E1與E2有關(guān)系R1時(shí)，哪個(gè)實(shí)體與E3有關(guān)系R2
FirstLast：詢問哪個(gè)實(shí)體是第一個(gè)與E建立關(guān)系R的實(shí)體
RelationDuration：詢問E1和E2之間第k次建立關(guān)系R時(shí)，持續(xù)了多長時(shí)間
Timeline：要求按時(shí)間順序?qū)εcE有關(guān)系R的實(shí)體進(jìn)行排序

ToT-Arithmetic

ToT-Arithmetic將任務(wù)從合成數(shù)據(jù)轉(zhuǎn)移到了現(xiàn)實(shí)世界。

創(chuàng)建ToT-Arithmetic數(shù)據(jù)集的步驟如下圖所示：

下面分別介紹每個(gè)步驟的工作：

種子集：檢查現(xiàn)有基準(zhǔn)中出現(xiàn)的時(shí)間算術(shù)問題類型，并通過網(wǎng)絡(luò)搜索，來收集一小部分初始問題。

擴(kuò)展：向15名注釋者展示種子集，注釋者負(fù)責(zé)提出不在種子集中的新問題，或者提供與其他場景或問題模板相對應(yīng)的問題。

過濾器：人工瀏覽所有問題，并過濾那些專注于極端情況、或者需要廣泛知識的問題。

分類：將合格的問題分為七類，如下表所示：

AddSubtract：從日期或時(shí)間中添加或減去一個(gè)數(shù)字
Compare：按時(shí)間順序比較以不同格式提供的日期/時(shí)間
Duration：計(jì)算兩個(gè)日期/時(shí)間之間的差值
Schedule：在多塊時(shí)間內(nèi)找到相互空閑點(diǎn)
Timezone：涉及處理不同的時(shí)區(qū)
Trick：有一點(diǎn)腦筋急轉(zhuǎn)彎
MultiOp：涉及需要上述多個(gè)操作的問題

函數(shù)化：將問題寫成函數(shù)，以便為每個(gè)問題抽取不同的值并根據(jù)這些值進(jìn)行求解。

抽樣：從函數(shù)中抽取問題和答案，保證樣本數(shù)量與屬于每個(gè)類別的不同問題的數(shù)量成正比。

具體來說，AddSubtract采樣了350個(gè)，Compare采樣了350個(gè)，Duration采樣了200個(gè)，Schedule采樣了250個(gè)，Timezone采樣了100個(gè)，Trick采樣了250個(gè)，MultiOp采樣了350個(gè)——構(gòu)成了總共包含1850個(gè)問題的數(shù)據(jù)集。

實(shí)驗(yàn)分析

實(shí)驗(yàn)評估了三個(gè)前沿的大語言模型，他們是：Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。

另外，由于ToT-Semantic任務(wù)需要較長的上下文，所以使用GPT4-Turbo代為出戰(zhàn)。

通過實(shí)驗(yàn)，我們可以探討以下幾個(gè)問題：

1：時(shí)間結(jié)構(gòu)對LLM性能有什么影響？
2：什么樣的時(shí)間問題更容易/更難回答？
3：模型提示中事實(shí)的順序有多重要，對事實(shí)進(jìn)行排序的最佳方式是什么？
4：前沿模型在時(shí)間推理的兩個(gè)方面（語義和算術(shù)）的表現(xiàn)如何？

如下表所示，時(shí)間關(guān)系的圖結(jié)構(gòu)會顯著影響LLM性能。

比如GPT-4的準(zhǔn)確率因圖的類型而異，從完整圖的40.25%到AWE圖的92%。

以前的研究基本上都盯著知識圖譜，而這個(gè)實(shí)驗(yàn)結(jié)果表明，圖的結(jié)構(gòu)很重要。

那么，不同的圖大小是否會影響結(jié)果呢？

如下圖所示，增加ToT-Semantic數(shù)據(jù)集中的邊或節(jié)點(diǎn)數(shù)量會導(dǎo)致LLM性能下降。

下面的實(shí)驗(yàn)研究了不同時(shí)間任務(wù)（類型）對LLM推理能力的影響。這里通過評估模型在各種任務(wù)中的性能來量化這種影響

與需要整合多個(gè)事實(shí)的任務(wù)相比，LLM在需要檢索單個(gè)事實(shí)的任務(wù)上始終表現(xiàn)出卓越的性能。

單事實(shí)問題主要依賴于相關(guān)信息的識別和提取，而多事實(shí)問題則要求對檢索到的信息進(jìn)行更深入的理解和綜合。

另外，即使在零階推理任務(wù)中，LLM也表現(xiàn)出不同程度的性能。例如，EventAtTimeT和EventAtWhatTime在結(jié)構(gòu)上相似，但LLM往往擅長后者。

原因可能是EventAtTimeT需要簡單的時(shí)間算術(shù)運(yùn)算來識別時(shí)間戳T落在時(shí)間間隔 [T1，T2]內(nèi)，而EventAtWhatTime不需要任何時(shí)間算術(shù)運(yùn)算。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="a7nnf"><rt id="a7nnf"></rt></em>

<sup id="a7nnf"><rt id="a7nnf"></rt></sup>