自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="eax66"></blockquote>}

<sub id="eax66"><s id="eax66"><rp id="eax66"></rp></s></sub>

<center id="eax66"><style id="eax66"></style></center>

<tfoot id="eax66"></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？精華

大語(yǔ)言模型論文跟蹤

發(fā)布于 2024-9-10 12:10

瀏覽

0收藏

1. 背景

大語(yǔ)言模型在工業(yè)界應(yīng)用的一個(gè)主要障礙就是大語(yǔ)言模型（LLMs）不遵循標(biāo)準(zhǔn)化輸出格式。這種不一致性，使得輸出解析變得更為復(fù)雜，也削弱了這些模型的可靠性。

所以，大家普遍會(huì)采用結(jié)構(gòu)化輸出的方式來(lái)規(guī)避這一問(wèn)題，也就是使用格式化限制，比如以標(biāo)準(zhǔn)化格式進(jìn)行輸出，比如：Json、XML等。

這些限制可以通過(guò)多種方式來(lái)實(shí)現(xiàn)，比如指示模型遵循帶有格式限制指令的指定格式，或者使用像JSON模式這樣的標(biāo)準(zhǔn)解決方案。這些方案讓LLMs能夠更加順利的融入到實(shí)際AI應(yīng)用中去。

那么，這種格式限制指令，是否會(huì)影響LLMs生成內(nèi)容的質(zhì)量？

比如下圖，GPT-3.5-turbo 在這個(gè) GSM8K數(shù)學(xué)問(wèn)題上用標(biāo)準(zhǔn)自然語(yǔ)言輸出時(shí)，可以給出正確答案，但是一旦添加了格式限制，GPT-3.5-turbo就輸出了錯(cuò)誤答案。

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

1.1 對(duì)比的格式限制方法

為了系統(tǒng)性研究這個(gè)問(wèn)題，作者針對(duì)三種格式限制方法進(jìn)行對(duì)比研究：

? 約束性解碼（JSON模式，）：在生成階段添加超參的方式來(lái)實(shí)現(xiàn)的，確保模型生成的內(nèi)容符合預(yù)設(shè)的JSON格式。
? 格式限定指令（FRI，F(xiàn)ormat-Restricting Instructions）：通過(guò)提示詞來(lái)指導(dǎo)模型用JSON、XML、YAML等標(biāo)準(zhǔn)格式生成內(nèi)容，與約束性解碼相比，這種方法更為寬松。
? 自然語(yǔ)言轉(zhuǎn)格式（NL-to-Format）：首先指導(dǎo)大型語(yǔ)言模型以自然語(yǔ)言形式回答問(wèn)題，隨后再將其回答轉(zhuǎn)換為目標(biāo)格式的模式。

1.2 測(cè)試的數(shù)據(jù)集

作者對(duì)比了兩大類任務(wù)，分別是：推理任務(wù)和分類任務(wù)。

1.2.1 推理任務(wù)

? GSM8K ：數(shù)學(xué)問(wèn)題集合，測(cè)試大型語(yǔ)言模型生成必要的中間推理步驟。
? Last Letter Concatenation ：該任務(wù)要求大型語(yǔ)言模型通過(guò)串聯(lián)一系列單詞的最后字母來(lái)生成一個(gè)字符串，以此測(cè)試其符號(hào)推理能力。
? Shuffled Objects：評(píng)估在給定初始狀態(tài)和一系列打亂事件的情況下推斷最終狀態(tài)的能力。

1.2.2 分類任務(wù)

? DDXPlus ：醫(yī)療診斷數(shù)據(jù)集，大型語(yǔ)言模型必須依據(jù)給定的患者資料從 49 種可能的疾病中選出最合適的診斷。由
? MultiFin ：一個(gè)多項(xiàng)選擇的金融數(shù)據(jù)集，要求將給定的段落分類為五個(gè)類別之一。
? Sports Understanding ：用于測(cè)試大型語(yǔ)言模型判斷與體育相關(guān)的人工構(gòu)建句子是否合理的能力。
? NI - Task 280 ：基于給定段落的多項(xiàng)選擇刻板印象分類任務(wù)。納入此任務(wù)，是因?yàn)榘l(fā)現(xiàn)它對(duì)提示格式的變化較為敏感，性能變化高達(dá) 56% 。

1.3 測(cè)試的模型

對(duì) gpt-3.5-turbo-0125 、claude-3-haiku-20240307 、gemini-1.5-flash 進(jìn)行了比較。

對(duì)于開源模型，使用 LLaMA-3-8B-Instruct 和 Gemma-2-9B-Instruct ，并借助 Text-Generation-Server 進(jìn)行推理，因其支持 JSON 模式。

1.4 評(píng)估指標(biāo)

對(duì)于基于分類的任務(wù)（體育理解、DDXPlus、自然指令任務(wù) 280 和 MultiFin），將準(zhǔn)確率作為主要指標(biāo)。

對(duì)于Last Letter Concatenation和 GSM8K，使用精確匹配指標(biāo)，即最終答案必須與實(shí)際答案完全字符串匹配。

2. 格式限制對(duì)最終結(jié)果的影響

通過(guò)對(duì)比三種逐步放寬的提示方式——JSON 模式、FRI 以及 NL 到格式的轉(zhuǎn)換，來(lái)探究格式限制對(duì)大型語(yǔ)言模型（LLM）性能的影響。

2.1 推理任務(wù)

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

我們?cè)诰哂芯_匹配分?jǐn)?shù)的數(shù)據(jù)集上對(duì)這些方式進(jìn)行評(píng)估，如上圖中呈現(xiàn)的 GSM8K 和Last Letter Concatenation。

在Last Letter Concatenation任務(wù)中，JSON 模式的表現(xiàn)明顯遜于 FRI（JSON）。經(jīng)檢查，發(fā)現(xiàn) 100％的 GPT 3.5 Turbo JSON 模式響應(yīng)將“答案”鍵置于“原因”鍵之前，導(dǎo)致了零樣本直接回答，而非零樣本思維鏈推理。

將 NL 到格式與不受限制的自然語(yǔ)言響應(yīng)相比較，發(fā)現(xiàn)大多數(shù)模型的性能近乎相同，因?yàn)閮烧呔鶑南嗤某跏甲匀徽Z(yǔ)言響應(yīng)得出答案。然而，NL 到格式偶爾會(huì)引入生成錯(cuò)誤，致使 LLaMA 3 8B Instruct 的性能略低，而其他模型在兩種設(shè)定下保持了一致的分?jǐn)?shù)。

格式限制的程度和實(shí)施方式能夠顯著影響大型語(yǔ)言模型的性能，尤其在推理任務(wù)中。

結(jié)構(gòu)化輸出中的鍵的順序以及推理與格式遵循的解耦，成為在提供結(jié)構(gòu)化響應(yīng)的同時(shí)保持大型語(yǔ)言模型能力的重要因素。

2.2 分類任務(wù)

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

在評(píng)估分類數(shù)據(jù)集時(shí)，觀察到了與推理任務(wù)不同的趨勢(shì)，如上圖所示。值得注意的是，在 DDXPlus 數(shù)據(jù)集中，啟用 JSON 模式時(shí)，Gemini 1.5 Flash 的性能顯著提升。在其他分類數(shù)據(jù)集中，JSON 模式具有競(jìng)爭(zhēng)力，在某些情況下，超越了其他三種方法。

JSON 模式通過(guò)限制可能的答案從而減少答案選擇中的錯(cuò)誤，提高了分類任務(wù)的性能。

相反，自然語(yǔ)言響應(yīng)可能會(huì)引入干擾，導(dǎo)致解析錯(cuò)誤。

格式限制對(duì)大型語(yǔ)言模型性能的影響取決于任務(wù)：嚴(yán)格的格式可能會(huì)阻礙推理密集型任務(wù)，但能提高需要結(jié)構(gòu)化輸出的分類任務(wù)的準(zhǔn)確性。

2.3 對(duì)較寬松格式限制的影響

為進(jìn)一步探究格式限制所帶來(lái)的影響，考察了 Soft Restrict 設(shè)置的一種變體，即從提示描述中移除模式限制。不再提供特定的模式（比如：“以以下模式用 JSON 格式回復(fù)您的答案：{‘reason’：…，‘a(chǎn)nswer’：…}”），而是單純指示大型語(yǔ)言模型以目標(biāo)格式語(yǔ)言進(jìn)行輸出（比如：“以 JSON 格式回復(fù)您的答案?！保?/p>

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

上表展示了在 GSM8K 數(shù)據(jù)集上移除模式限制后的效果。對(duì)于 Claude 3 Haiku、GPT-3.5 Turbo 以及 LLaMA 3 8B Instruct 而言，在不同的提示擾動(dòng)下，平均得分顯著提升，標(biāo)準(zhǔn)差降低。

這些結(jié)果表明，雖然結(jié)構(gòu)化輸出對(duì)下游處理可能有益，但過(guò)于嚴(yán)格的模式可能會(huì)妨礙大型語(yǔ)言模型的性能，尤其在推理密集型任務(wù)中。

這一發(fā)現(xiàn)意味著，在希望獲得易于解析的結(jié)構(gòu)化輸出與保留大型語(yǔ)言模型固有推理能力之間，必須達(dá)成平衡。

在處理復(fù)雜推理任務(wù)時(shí)，或許應(yīng)考慮采用較寬松的格式限制，同時(shí)仍保持一定程度的結(jié)構(gòu)，以利于下游處理。

2.4 不同格式的比較

通過(guò)對(duì)比不僅是 JSON，還有 XML 和 YAML 格式來(lái)消融格式語(yǔ)言。由于這三種語(yǔ)言有著不同的語(yǔ)法規(guī)則和限制。推斷每個(gè)模型的表現(xiàn)可能各異，例如 Claude-3-Haiku 將 XML 用于工具使用模式，所以回過(guò)頭來(lái)看，未見到任何一種結(jié)構(gòu)格式能在所有模型中始終表現(xiàn)出色，如下圖。對(duì)于 Gemini 模型，發(fā)現(xiàn) JSON 更具一致性，但并非總是優(yōu)于其他格式。

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

發(fā)現(xiàn)在分類任務(wù)中，由于答案空間的限制，JSON 模式的表現(xiàn)比文本好很多。

然而，在推理相關(guān)任務(wù)中，JSON 模式未能遵循先推理后回答的順序，致使最終性能大幅下降。

2.5 結(jié)構(gòu)格式與解析錯(cuò)誤率

最初推測(cè)文本與結(jié)構(gòu)化格式之間的性能差距可能源于答案提取過(guò)程中的解析錯(cuò)誤。

然而，對(duì)不同格式和模型的錯(cuò)誤率分析表明，解析錯(cuò)誤并非主要因素。

實(shí)際上，Gemini 1.5 Flash 和 GPT 3.5 Turbo 在這三種格式中均幾乎不存在解析錯(cuò)誤。在 LLaMA 3 8B 的設(shè)置中，JSON 格式下 Last Letter 任務(wù)的解析錯(cuò)誤率僅為 0.148%，但卻存在高達(dá) 38.15%的性能差距。

表明格式間的性能差異主要并非源于解析錯(cuò)誤，而是格式限制對(duì)大型語(yǔ)言模型推理和生成過(guò)程的影響。

最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？-AI.x社區(qū) 圖片

通過(guò)提示 Claude-3-Haiku 為 Claude 3 Haiku 和 LLaMA 3 8B（解析錯(cuò)誤百分比最高的兩個(gè)模型）重新格式化任何存在解析錯(cuò)誤的輸出，觀察到 JSON 和 YAML 格式的得分有所提高，如上圖所示。這種方法展現(xiàn)了在不犧牲特定格式優(yōu)化優(yōu)勢(shì)的情況下提升結(jié)構(gòu)化輸出可靠性的潛力。

3. 結(jié)論

格式的限制，尤其是約束解碼（JSON 模式），會(huì)阻礙推理能力，卻能提升分類任務(wù)的準(zhǔn)確率。

較寬松的格式限制通常能提高性能，并減少推理任務(wù)中的差異。

解析錯(cuò)誤雖非性能差異的主因，但通過(guò)糾正提示可得以緩解。

在 LLM 應(yīng)用中平衡格式遵循、推理能力與成本效率的重要性。

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??，作者：HuggingAGI ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta等最新研究：多token預(yù)測(cè)，提升大模型推理效率

Aceryt ? 3556瀏覽 ? 0回復(fù)
【LLM】對(duì)大語(yǔ)言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3478瀏覽 ? 0回復(fù)
大模型訓(xùn)練完成之后可以直接使用嗎？該怎么使用訓(xùn)練好的大模型？

AI探索時(shí)代 ? 4304瀏覽 ? 0回復(fù)
如何在保證模型性能條件下優(yōu)化Prompt降低使用成本及響應(yīng)延遲？

Syrupup ? 2508瀏覽 ? 0回復(fù)
AI大模型性能最新排名

開發(fā)者阿橙 ? 3795瀏覽 ? 0回復(fù)
視覺語(yǔ)言模型能夠“看見”嗎？

lintoms ? 2112瀏覽 ? 0回復(fù)
模型崩潰！泛濫的AI會(huì)反噬自身！牛津大學(xué)研究發(fā)現(xiàn)：用AI生成數(shù)據(jù)來(lái)二次訓(xùn)練大模型會(huì)產(chǎn)生無(wú)意義的內(nèi)容！

51CTO技術(shù)棧 ? 2305瀏覽 ? 0回復(fù)
簡(jiǎn)潔思考：輸出長(zhǎng)度對(duì)大型語(yǔ)言模型推理和成本的影響

sbf_2000 ? 3483瀏覽 ? 0回復(fù)
Transformer，會(huì)笑到最后嗎？

51CTO技術(shù)棧 ? 1972瀏覽 ? 0回復(fù)
支持大模型流式輸出的JSON提取工具

恰似驚鴻 ? 2983瀏覽 ? 0回復(fù)
大模型落地應(yīng)用指北—大模型能吃嗎？

zhcs333 ? 2110瀏覽 ? 0回復(fù)
利用 Schemonic 優(yōu)化數(shù)據(jù)庫(kù)模式描述以降低大語(yǔ)言模型成本

AIGC前沿技術(shù)追蹤 ? 2170瀏覽 ? 0回復(fù)
10.1k高星 GitHub 庫(kù)：告別JSON錯(cuò)誤：Outlines如何提升大模型的結(jié)構(gòu)化輸出

凝固的雨_1 ? 3668瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語(yǔ)言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1962瀏覽 ? 0回復(fù)
Markdown + AI = 效率神器：10分鐘就能學(xué)會(huì)的大模型文本格式！

九歌AI大模型 ? 2768瀏覽 ? 0回復(fù)
為什么說(shuō)JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 1604瀏覽 ? 0回復(fù)
別讓大模型想太多了，過(guò)度思考會(huì)影響性能

Aceryt ? 1053瀏覽 ? 0回復(fù)
融合語(yǔ)言模型的多模態(tài)大模型研究

zhcs333 ? 1566瀏覽 ? 0回復(fù)

大語(yǔ)言模型論文跟蹤

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型 8天前發(fā)布
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門推薦

Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： iText2KG：顯著降低LLM構(gòu)建知識(shí)圖譜時(shí)的幻覺現(xiàn)象

下一篇： AgentRE：用智能體框架提升知識(shí)圖譜構(gòu)建效果，重點(diǎn)是開源！

社區(qū)精華內(nèi)容

目錄

<blockquote id="4w4di"><i id="4w4di"><tr id="4w4di"></tr></i></blockquote>

<cite id="4w4di"><track id="4w4di"></track></cite>