自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="hldsm"></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

指令跟隨大比拼！Meta發(fā)布多輪多語(yǔ)言基準(zhǔn)Multi-IF：覆蓋8種語(yǔ)言，超4500種任務(wù)

作者：新智元 2024-11-25 15:30:00

人工智能新聞

Meta全新發(fā)布的基準(zhǔn)Multi-IF涵蓋八種語(yǔ)言、4501個(gè)三輪對(duì)話任務(wù)，全面揭示了當(dāng)前LLM在復(fù)雜多輪、多語(yǔ)言場(chǎng)景中的挑戰(zhàn)。所有模型在多輪對(duì)話中表現(xiàn)顯著衰減，表現(xiàn)最佳的o1-preview模型在三輪對(duì)話的準(zhǔn)確率從87.7%下降到70.7%；在非拉丁文字語(yǔ)言上，所有模型的表現(xiàn)顯著弱于英語(yǔ)。

在大語(yǔ)言模型（LLMs）不斷發(fā)展的背景下，如何評(píng)估這些模型在多輪對(duì)話和多語(yǔ)言環(huán)境下的指令遵循（instruction following）能力，成為一個(gè)重要的研究方向。

現(xiàn)有評(píng)估基準(zhǔn)多集中于單輪對(duì)話和單語(yǔ)言任務(wù)，難以揭示復(fù)雜場(chǎng)景中的模型表現(xiàn)。

最近，Meta GenAI團(tuán)隊(duì)發(fā)布了一個(gè)全新基準(zhǔn)Multi-IF，專(zhuān)門(mén)用于評(píng)估LLM在多輪對(duì)話和多語(yǔ)言指令遵循(instruction following)中的表現(xiàn)，包含了4501個(gè)三輪對(duì)話的多語(yǔ)言指令任務(wù)，覆蓋英語(yǔ)、中文、法語(yǔ)、俄語(yǔ)等八種語(yǔ)言，以全面測(cè)試模型在多輪、跨語(yǔ)言場(chǎng)景下的指令執(zhí)行能力。

論文鏈接：https://arxiv.org/abs/2410.15553

Multi-IF下載鏈接：https://huggingface.co/datasets/facebook/Multi-IF

實(shí)驗(yàn)結(jié)果表明，多數(shù)LLM在多輪對(duì)話中表現(xiàn)出顯著的性能衰減。

例如，表現(xiàn)最佳的o1-preview模型在第一輪指令的平均準(zhǔn)確率為87.7%，但到第三輪下降至70.7%

此外，非拉丁文字語(yǔ)言（如印地語(yǔ)、俄語(yǔ)和中文）的錯(cuò)誤率明顯更高，反映出模型在多語(yǔ)言任務(wù)中的局限性。這些發(fā)現(xiàn)展示了當(dāng)前LLM在處理復(fù)雜多輪和多語(yǔ)言指令任務(wù)上的挑戰(zhàn)和改進(jìn)空間。

Multi-IF的發(fā)布為研究人員提供了更具挑戰(zhàn)性的評(píng)估基準(zhǔn)，有望推動(dòng)LLM在全球化、多語(yǔ)言應(yīng)用中的發(fā)展。

數(shù)據(jù)集構(gòu)建

Multi-IF數(shù)據(jù)集的構(gòu)建過(guò)程經(jīng)過(guò)了多輪精細(xì)的設(shè)計(jì)和篩選，既有模型也有人類(lèi)專(zhuān)家的參與。

多輪擴(kuò)展

首先，研究團(tuán)隊(duì)基于已有的單輪指令遵循數(shù)據(jù)集IFEval，將每個(gè)單輪指令擴(kuò)展為多輪指令序列。通過(guò)隨機(jī)采樣和模型生成，研究團(tuán)隊(duì)為每個(gè)初始指令增加了兩輪新指令，形成一個(gè)完整的三輪對(duì)話場(chǎng)景。

首先隨機(jī)采樣一個(gè)指令類(lèi)型（Intruction Type）比如「字?jǐn)?shù)限制」、「限制輸出格式為列表」、「添加特定關(guān)鍵短語(yǔ)」等等，然后將之前的指令和這個(gè)指令類(lèi)型提供給語(yǔ)言模型，讓它生成一個(gè)符合上下文的指令，比如「旅行計(jì)劃不超過(guò)400詞」；隨機(jī)采樣可能導(dǎo)致指令之間存在沖突。

為了確保多輪指令的邏輯一致性和層次遞進(jìn)性，研究團(tuán)隊(duì)設(shè)計(jì)了一套兩步?jīng)_突過(guò)濾機(jī)制：

1. 模型過(guò)濾：使用Llama 3.1 405B模型自動(dòng)檢測(cè)可能存在矛盾的指令組合。例如，如果第一輪要求生成詳細(xì)描述，而第二輪要求簡(jiǎn)潔總結(jié)，這種沖突指令會(huì)被篩選出來(lái)。

2. 人工審核：在初步過(guò)濾后，團(tuán)隊(duì)通過(guò)人工標(biāo)注對(duì)指令進(jìn)行細(xì)化和調(diào)整，以確保每一輪指令既具有挑戰(zhàn)性又保持邏輯連貫。

多語(yǔ)言擴(kuò)展

為了提高數(shù)據(jù)集的多語(yǔ)言適用性，研究團(tuán)隊(duì)采用了以下方法將數(shù)據(jù)集從英文擴(kuò)展至多語(yǔ)言版本：

1. 自動(dòng)翻譯：使用Llama 3.1 405B模型將原始英語(yǔ)指令翻譯為中文、法語(yǔ)、俄語(yǔ)、印地語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)和葡萄牙語(yǔ)七種語(yǔ)言。

2. 人工校對(duì)：翻譯結(jié)果經(jīng)過(guò)語(yǔ)言專(zhuān)家的人工審校，以確保在語(yǔ)義和語(yǔ)法上貼合各語(yǔ)言的自然使用習(xí)慣，同時(shí)消除因翻譯可能帶來(lái)的歧義或誤導(dǎo)。

這一多輪擴(kuò)展和多語(yǔ)言適配的構(gòu)建流程，使Multi-IF成為全面評(píng)估LLM指令遵循能力的強(qiáng)大工具。

總體實(shí)驗(yàn)結(jié)果

在Multi-IF基準(zhǔn)上，Meta團(tuán)隊(duì)對(duì)14種最先進(jìn)的大語(yǔ)言模型（LLMs）進(jìn)行了評(píng)估，涵蓋了OpenAI的o1-preview、o1-mini，GPT-4o，Llama 3.1（8B、70B和405B），Gemini 1.5系列，Claude 3系列，Qwen-2.5 72B，以及Mistral Large等。

實(shí)驗(yàn)顯示，整體上o1-preview和Llama 3.1 405B表現(xiàn)最佳，在平均準(zhǔn)確率上領(lǐng)先其他模型。特別是在多輪指令任務(wù)中，o1-preview和Llama 3.1 405B模型在三輪指令的平均準(zhǔn)確率分別為78.9%和78.1%，展現(xiàn)了較高的指令遵循能力。

多輪對(duì)話中的指令遵循

實(shí)驗(yàn)表明，所有模型在多輪對(duì)話中的指令遵循準(zhǔn)確率隨著輪次增加而顯著下降。這種下降在某些模型中尤為明顯，如Qwen-2.5 72B在第一輪準(zhǔn)確率較高，但在后續(xù)輪次中的表現(xiàn)迅速下滑。

相比之下，o1-preview和Llama 3.1 405B在多輪任務(wù)中的準(zhǔn)確率相對(duì)穩(wěn)定，展現(xiàn)出較強(qiáng)的持續(xù)指令遵循能力?？傮w而言，這些結(jié)果說(shuō)明，多輪對(duì)話對(duì)當(dāng)前LLM構(gòu)成了較大挑戰(zhàn)，模型在多輪次中遵循指令的能力有待提高。

多輪對(duì)話中的指令遺忘

在多輪對(duì)話中，模型往往出現(xiàn)「指令遺忘」現(xiàn)象，即在后續(xù)輪次中未能遵循前一輪成功執(zhí)行的指令，研究團(tuán)隊(duì)引入了「指令遺忘率」（Instruction Forgetting Ratio, IFR）來(lái)量化這種現(xiàn)象。

IFR值表明，高性能模型如o1-preview和Llama 3.1 405B在多輪對(duì)話中的遺忘率相對(duì)較低，而有些模型比如Gemini在IFR值上明顯偏高，表現(xiàn)出較高的指令遺忘傾向。

此外，對(duì)于Llama 3.1系列模型，隨著模型規(guī)模從8B擴(kuò)展到405B，其指令遺忘率（即IFR）逐漸降低。這表明，增大模型規(guī)模可以有效提升其在多輪對(duì)話中保持指令一致性的能力。

多輪對(duì)話中的自我糾正

模型在多輪任務(wù)中是否能夠糾正之前的錯(cuò)誤也是一個(gè)重要的性能衡量標(biāo)準(zhǔn)，實(shí)驗(yàn)通過(guò)計(jì)算「錯(cuò)誤自我修正率」（Error Correction Ratio, ECR）來(lái)評(píng)估這一能力。

結(jié)果顯示，o1-preview和o1-mini在錯(cuò)誤自我修正方面表現(xiàn)突出，能夠在后續(xù)輪次中糾正約25%的之前未遵循的指令。這些模型似乎能夠利用某種“反思”能力來(lái)提高指令執(zhí)行的水平。

相比之下，其他模型在自我修正方面表現(xiàn)一般，這一結(jié)果表明，具備反思能力的模型在多輪任務(wù)中能夠更好地處理錯(cuò)誤并提升指令遵循的穩(wěn)定性。

多語(yǔ)言指令遵循

在多語(yǔ)言環(huán)境下，模型的指令遵循能力表現(xiàn)出顯著的語(yǔ)言差異。實(shí)驗(yàn)顯示，英語(yǔ)的指令執(zhí)行準(zhǔn)確率普遍最高，尤其是在Llama 3.1 405B模型上，英語(yǔ)準(zhǔn)確率接近0.85。法語(yǔ)和意大利語(yǔ)的表現(xiàn)也較為接近英語(yǔ)，而俄語(yǔ)、印地語(yǔ)和中文等非拉丁文字的準(zhǔn)確率則明顯較低。

例如，o1-preview模型在俄語(yǔ)和印地語(yǔ)中的準(zhǔn)確率低于其在英語(yǔ)、法語(yǔ)等語(yǔ)言中的表現(xiàn)?？傮w而言，非拉丁文字語(yǔ)言的錯(cuò)誤率高于拉丁文字語(yǔ)言，這在多語(yǔ)言指令任務(wù)中尤為突出。

實(shí)驗(yàn)結(jié)果還表明，不同模型在多語(yǔ)言指令遵循中的表現(xiàn)存在一定差異。o1-preview在所有語(yǔ)言中的表現(xiàn)相對(duì)穩(wěn)定，并在中文、西班牙語(yǔ)、意大利語(yǔ)和印地語(yǔ)中稍勝Llama 3.1 405B，而GPT-4o的表現(xiàn)則略遜于前兩者。

平均而言，非拉丁文字的語(yǔ)言往往會(huì)出現(xiàn)更高的指令遵循錯(cuò)誤，表明當(dāng)前模型在多語(yǔ)言環(huán)境，尤其是對(duì)非拉丁文字的支持方面，仍有提升空間。

這些結(jié)果反映出，盡管現(xiàn)有的先進(jìn)LLM在多語(yǔ)言任務(wù)上已經(jīng)展現(xiàn)出一定的能力，但在處理俄語(yǔ)、印地語(yǔ)和中文等非拉丁文字語(yǔ)言的指令遵循任務(wù)時(shí)仍存在明顯的局限性。這也為未來(lái)多語(yǔ)言模型的改進(jìn)指出了明確的方向。

結(jié)論

綜上所述，Multi-IF基準(zhǔn)通過(guò)多輪對(duì)話和多語(yǔ)言環(huán)境的復(fù)雜指令任務(wù)，揭示了當(dāng)前大語(yǔ)言模型在指令遵循能力上的不足之處。

實(shí)驗(yàn)結(jié)果表明，多數(shù)模型在多輪任務(wù)中存在準(zhǔn)確率下降和指令遺忘的問(wèn)題，且在非拉丁文字的多語(yǔ)言任務(wù)中表現(xiàn)較差。Multi-IF為進(jìn)一步提升LLM的多輪對(duì)話和跨語(yǔ)言指令遵循能力提供了重要的參考。

作者介紹

通訊作者Yun He（賀赟）是Meta GenAI團(tuán)隊(duì)的一名研究科學(xué)家，博士畢業(yè)于Texas A&M University，專(zhuān)注于大語(yǔ)言模型Post-training的研究和應(yīng)用。

他的主要研究方向包括指令跟隨（instruction following）、推理能力（Reasoning）以及工具使用（tool usage），旨在推動(dòng)大語(yǔ)音模型在復(fù)雜多輪對(duì)話中的表現(xiàn)。

共同一作金帝是Meta GenAI Senior Research Scientist，負(fù)責(zé)Meta AI Agentic Code Execution和Data Analysis方向，博士畢業(yè)于MIT。主要研究方向?yàn)榇竽Ｐ秃笥?xùn)練對(duì)齊（RLHF，Alignment），模型推（Model Reasoning），和大模型智能體（Agent）方向。

責(zé)任編輯：張燕妮來(lái)源：新智元

語(yǔ)言模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)