自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM推理性能受輸出格式影響,JSON最嚴(yán)重

人工智能 新聞
這是臺灣大學(xué)和Appier AI Research新研究中的一幕,他們發(fā)現(xiàn)——格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴(yán)推理越差。

輸出格式不同,竟然還能影響大模型發(fā)揮?!

兩種提示下讓大語言模型(LLMs)解同一道數(shù)學(xué)題,問題如下:

Eliza每周工作的前40小時,每小時的工資是10美元,加班費每小時x1.2。如果Eliza這周工作了45小時,她這周的收入是多少?

思維鏈prompt:“按照以下格式提供輸出,逐步推理:…回答:最終答案是…”。

格式限制prompt:“按照以下有效的JSON格式提供輸出:…(具體JSON格式見圖)“。

正確答案是460,可以看出,思維鏈(讓模型一步步思考)奏效,格式限制(“以JSON格式輸出”)卻失敗了?。?/p>

圖片

這是臺灣大學(xué)和Appier AI Research新研究中的一幕,他們發(fā)現(xiàn)——

格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴(yán)推理越差。(主打一個叛逆)

不過好消息是,能治。

他們發(fā)現(xiàn),最佳解決方案是搞個“二次轉(zhuǎn)換”(倒?fàn)斒前桑?/span>,即LLMs首先用自然語言回答問題,然后再將答案轉(zhuǎn)換為目標(biāo)格式。

在這個過程中,他們對比了GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash等不同模型在生成不同格式數(shù)據(jù)時的性能差異,結(jié)果又發(fā)現(xiàn)

GPT喜歡YAML、Claude喜歡XML、Gemini/Gemma喜歡JSON。(主打各有所愛)

看完研究,有網(wǎng)友點出了它對平衡結(jié)構(gòu)化生成和任務(wù)推理的意義:

圖片

格式限制會降低LLMs推理能力

上述研究已發(fā)表在arXiv上,論文主要揭示了,在格式限制下,LLMs的推理能力顯著下降,尤其是在JSON模式下。

圖片

一直以來,將LLMs納入工業(yè)應(yīng)用程序的一個主要障礙是它們?nèi)狈?biāo)準(zhǔn)化輸出格式的遵守。

一種常見解決方法是結(jié)構(gòu)化生成,即通過格式限制讓LLMs以JSON或XML等標(biāo)準(zhǔn)化格式提供輸出。

不過話說回來,雖然有多種方式可以實現(xiàn)這種限制,但后續(xù)影響卻無人研究。(限制是否影響模型性能呢?)

說干就干,研究人員采用3種常見方法來評估不同格式限制對下游性能的影響:

  • JSON-mode:通過預(yù)定義的標(biāo)記空間限制LLMs的輸出
  • FRI:指導(dǎo)LLMs生成符合特定模式的標(biāo)準(zhǔn)化格式響應(yīng)
  • NL-to-Format:兩步過程,首先用自然語言回答問題,然后轉(zhuǎn)換為目標(biāo)格式

對了,還要加上自然語言(NL),它是最不受限的格式,允許模型以自然語言自由地回答問題。

評估對象是GSM8K(包含自然語言環(huán)境中的數(shù)學(xué)問題)和Last Letter Concatenation(最后一個字母連接任務(wù))這兩個需要精確匹配答案的數(shù)據(jù)集,以及Shuffled Objects(洗牌對象追蹤任務(wù))。

圖片

他們發(fā)現(xiàn),在這些涉及推理的任務(wù)中,更寬松的提示通常會得到更好的結(jié)果。

同時,JSON模式在大多數(shù)情況下表現(xiàn)最差,其次是格式限制指令(FRI),然后是自然語言到格式(NL to Format)轉(zhuǎn)換,以及自然語言(NL)提示。

研究還發(fā)現(xiàn),不同的LLMs對不同的數(shù)據(jù)格式表現(xiàn)出不同的偏好

例如,GPT更喜歡YAML格式,Claude更喜歡XML格式,而Gemini/Gemma則更傾向于JSON格式。

不過,在分類任務(wù)中,格式限制可能提高了準(zhǔn)確性,因為它減少了可能的答案選擇,從而降低了錯誤率。

圖片

他們進一步總結(jié)了格式限制會降低模型推理能力的原因,主要包括:

  • 限制了模型生成必要中間推理步驟的能力。
  • 強制的格式要求可能與模型自然生成答案的方式不兼容。
  • 格式錯誤可能導(dǎo)致即使推理正確,答案也因為格式問題而被判定為錯誤。

好消息:能治

針對這一問題,他們提出了幾種應(yīng)對之策:

首先,前面提到了JSON模式在大多數(shù)情況下表現(xiàn)最差,最后才是自然語言到格式(NL to Format)轉(zhuǎn)換。

那么反過來說,解決格式限制的最佳方案就成了NL to Format,即LLMs首先用自然語言回答問題,然后再將答案轉(zhuǎn)換為目標(biāo)格式。這種方式允許推理與格式遵守分離,從而表現(xiàn)更佳。

此外,結(jié)構(gòu)化輸出中的鍵順序對LLMs的回答方式有重要影響。

例如在使用GPT-3.5 Turbo時,100%的JSON-mode響應(yīng)錯誤地將“answer” 鍵位于 “reasoning” 之前,這導(dǎo)致模型直接給出答案,而不是展示思考過程。

研究還表明,格式限制導(dǎo)致的解析錯誤不是性能差異的主要原因。

例如,在LLaMA 3 8B模型中,Last Letter任務(wù)的JSON格式解析錯誤率僅為0.15%,但與自然語言響應(yīng)相比,性能差距達到了38.15%。

圖片

而且可以通過糾正提示來減輕這些錯誤,例如對于Claude-3-Haiku模型,在Last Letter任務(wù)中,通過糾正步驟,JSON和YAML格式的準(zhǔn)確率分別提高了+2.8%和+44.8%。

圖片

以上也意味著,在應(yīng)用LLMs時,需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最后,研究人員在論文中提醒了:

相比于正則表達式,LLMs作為答案解析器能夠提供更加深入和準(zhǔn)確的文本理解,不僅僅局限于表面的模式匹配,而是能夠真正理解答案的含義和上下文。

論文:https://arxiv.org/abs/2408.02442

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-09 13:40:26

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2024-11-21 14:00:00

模型AI

2024-12-02 12:37:42

2025-04-21 09:07:00

2025-04-07 09:00:00

數(shù)據(jù)測試工具

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2023-09-10 12:37:38

模型英偉達

2019-10-14 09:58:00

機器學(xué)習(xí)人工智能計算機

2011-06-03 09:37:33

諾基亞Android蘋果

2024-01-08 13:33:00

數(shù)據(jù)訓(xùn)練

2020-05-29 15:40:40

NVIDIA

2025-03-19 10:10:43

2013-07-29 04:37:53

iOS開發(fā)iOS開發(fā)學(xué)習(xí)NSLog輸出格式

2024-08-29 12:58:35

2025-04-15 09:12:00

模型AI強化學(xué)習(xí)

2024-12-26 16:00:00

英特爾推理模型

2024-01-02 14:07:00

2025-02-07 09:00:00

2023-12-19 13:32:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號