自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="4dax5"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM推理性能受輸出格式影響，JSON最嚴(yán)重

作者：量子位 2024-08-16 14:15:00

人工智能新聞

這是臺灣大學(xué)和Appier AI Research新研究中的一幕，他們發(fā)現(xiàn)——格式限制這玩意兒會降低LLMs的推理能力，且限制越嚴(yán)推理越差。

輸出格式不同，竟然還能影響大模型發(fā)揮？！

兩種提示下讓大語言模型（LLMs）解同一道數(shù)學(xué)題，問題如下：

Eliza每周工作的前40小時，每小時的工資是10美元，加班費每小時x1.2。如果Eliza這周工作了45小時，她這周的收入是多少？

思維鏈prompt：“按照以下格式提供輸出，逐步推理：…回答：最終答案是…”。

格式限制prompt：“按照以下有效的JSON格式提供輸出：…（具體JSON格式見圖）“。

正確答案是460，可以看出，思維鏈（讓模型一步步思考）奏效，格式限制（“以JSON格式輸出”）卻失敗了?。?/p>

這是臺灣大學(xué)和Appier AI Research新研究中的一幕，他們發(fā)現(xiàn)——

格式限制這玩意兒會降低LLMs的推理能力，且限制越嚴(yán)推理越差。（主打一個叛逆）

不過好消息是，能治。

他們發(fā)現(xiàn)，最佳解決方案是搞個“二次轉(zhuǎn)換”（倒?fàn)斒前桑?/span>，即LLMs首先用自然語言回答問題，然后再將答案轉(zhuǎn)換為目標(biāo)格式。

在這個過程中，他們對比了GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash等不同模型在生成不同格式數(shù)據(jù)時的性能差異，結(jié)果又發(fā)現(xiàn)：

GPT喜歡YAML、Claude喜歡XML、Gemini/Gemma喜歡JSON。（主打各有所愛）

看完研究，有網(wǎng)友點出了它對平衡結(jié)構(gòu)化生成和任務(wù)推理的意義：

格式限制會降低LLMs推理能力

上述研究已發(fā)表在arXiv上，論文主要揭示了，在格式限制下，LLMs的推理能力顯著下降，尤其是在JSON模式下。

一直以來，將LLMs納入工業(yè)應(yīng)用程序的一個主要障礙是它們?nèi)狈?biāo)準(zhǔn)化輸出格式的遵守。

一種常見解決方法是結(jié)構(gòu)化生成，即通過格式限制讓LLMs以JSON或XML等標(biāo)準(zhǔn)化格式提供輸出。

不過話說回來，雖然有多種方式可以實現(xiàn)這種限制，但后續(xù)影響卻無人研究。（限制是否影響模型性能呢?）

說干就干，研究人員采用3種常見方法來評估不同格式限制對下游性能的影響：

JSON-mode：通過預(yù)定義的標(biāo)記空間限制LLMs的輸出
FRI：指導(dǎo)LLMs生成符合特定模式的標(biāo)準(zhǔn)化格式響應(yīng)
NL-to-Format：兩步過程，首先用自然語言回答問題，然后轉(zhuǎn)換為目標(biāo)格式

對了，還要加上自然語言（NL），它是最不受限的格式，允許模型以自然語言自由地回答問題。

評估對象是GSM8K（包含自然語言環(huán)境中的數(shù)學(xué)問題）和Last Letter Concatenation（最后一個字母連接任務(wù)）這兩個需要精確匹配答案的數(shù)據(jù)集，以及Shuffled Objects（洗牌對象追蹤任務(wù)）。

他們發(fā)現(xiàn)，在這些涉及推理的任務(wù)中，更寬松的提示通常會得到更好的結(jié)果。

同時，JSON模式在大多數(shù)情況下表現(xiàn)最差，其次是格式限制指令（FRI），然后是自然語言到格式（NL to Format）轉(zhuǎn)換，以及自然語言（NL）提示。

研究還發(fā)現(xiàn)，不同的LLMs對不同的數(shù)據(jù)格式表現(xiàn)出不同的偏好。

例如，GPT更喜歡YAML格式，Claude更喜歡XML格式，而Gemini/Gemma則更傾向于JSON格式。

不過，在分類任務(wù)中，格式限制可能提高了準(zhǔn)確性，因為它減少了可能的答案選擇，從而降低了錯誤率。

他們進一步總結(jié)了格式限制會降低模型推理能力的原因，主要包括：

限制了模型生成必要中間推理步驟的能力。
強制的格式要求可能與模型自然生成答案的方式不兼容。
格式錯誤可能導(dǎo)致即使推理正確，答案也因為格式問題而被判定為錯誤。

好消息：能治

針對這一問題，他們提出了幾種應(yīng)對之策：

首先，前面提到了JSON模式在大多數(shù)情況下表現(xiàn)最差，最后才是自然語言到格式（NL to Format）轉(zhuǎn)換。

那么反過來說，解決格式限制的最佳方案就成了NL to Format，即LLMs首先用自然語言回答問題，然后再將答案轉(zhuǎn)換為目標(biāo)格式。這種方式允許推理與格式遵守分離，從而表現(xiàn)更佳。

此外，結(jié)構(gòu)化輸出中的鍵順序對LLMs的回答方式有重要影響。

例如在使用GPT-3.5 Turbo時，100%的JSON-mode響應(yīng)錯誤地將“answer” 鍵位于 “reasoning” 之前，這導(dǎo)致模型直接給出答案，而不是展示思考過程。

研究還表明，格式限制導(dǎo)致的解析錯誤不是性能差異的主要原因。

例如，在LLaMA 3 8B模型中，Last Letter任務(wù)的JSON格式解析錯誤率僅為0.15%，但與自然語言響應(yīng)相比，性能差距達到了38.15%。

而且可以通過糾正提示來減輕這些錯誤，例如對于Claude-3-Haiku模型，在Last Letter任務(wù)中，通過糾正步驟，JSON和YAML格式的準(zhǔn)確率分別提高了+2.8%和+44.8%。

以上也意味著，在應(yīng)用LLMs時，需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最后，研究人員在論文中提醒了：

相比于正則表達式，LLMs作為答案解析器能夠提供更加深入和準(zhǔn)確的文本理解，不僅僅局限于表面的模式匹配，而是能夠真正理解答案的含義和上下文。

論文：https://arxiv.org/abs/2408.02442

責(zé)任編輯：張燕妮來源：量子位

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="fvxck"></style>

<p id="fvxck"></p>

^{<blockquote id="fvxck"></blockquote>}

<sub id="fvxck"><rt id="fvxck"></rt></sub>