自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模型調優(yōu)無需標注數據!將Llama 3.3 70B直接提升到GPT-4o水平

人工智能 新聞
最近,AI 公司 Databricks 推出了一種新的調優(yōu)方法 TAO,只需要輸入數據,無需標注數據即可完成。

現(xiàn)階段,微調大型語言模型(LLMs)的難點在于,人們通常沒有高質量的標注數據。

最近,AI 公司 Databricks 推出了一種新的調優(yōu)方法 TAO,只需要輸入數據,無需標注數據即可完成。更令人驚喜的是,TAO 在性能上甚至超過了基于標注數據的監(jiān)督微調。

圖片

眾所周知,LLM 很難適應新的企業(yè)級任務。提示(prompting)的方式容易出錯,且質量提升有限,而微調(fine-tuning)則需要大量的標注數據,而這些數據在大多數企業(yè)任務中是不可用的。

Databricks 提出的模型調優(yōu)方法,只需要未標注數據,企業(yè)就可以利用現(xiàn)有的數據來提升 AI 的質量并降低成本。

TAO(全稱 Test-time Adaptive Optimization)利用測試時計算(由 o1 和 R1 推廣)和強化學習(RL)算法,僅基于過去的輸入示例來教導模型更好地完成任務。

至關重要的是,盡管 TAO 使用了測試時計算,但它將其作為訓練模型過程的一部分;然后,該模型以較低的推理成本(即在推理時不需要額外的計算)直接執(zhí)行任務。

更令人驚訝的是,即使沒有標注數據,TAO 也能實現(xiàn)比傳統(tǒng)調優(yōu)模型更好的質量,并且它可以將像 Llama 這樣的開源模型提升到與專有模型(如 GPT-4o 和 o3-mini)相當的質量水平。

借助 TAO,Databricks 已經取得了三項突破性成果:

  • 在文檔問答和 SQL 生成等專業(yè)企業(yè)任務中,TAO 的表現(xiàn)優(yōu)于需要數千標注樣本的傳統(tǒng)微調方法。它讓 Llama 8B/70B 等高效開源模型達到了 GPT-4o/o3-mini1 等商業(yè)模型的同等水平,且無需任何標注數據;
  • 在零標注數據條件下,TAO 將 Llama 3.3 70B 模型在企業(yè)綜合基準測試中的表現(xiàn)提升了 2.4%;
  • 增加 TAO 訓練階段的算力投入,可以在相同數據條件下獲得更優(yōu)模型質量,且不會增加推理階段的成本消耗。

圖 1 展示了 TAO 在三個企業(yè)級任務中對 Llama 模型的提升效果:盡管僅使用原始輸入數據,TAO 不僅超越了需要數千標注樣本的傳統(tǒng)微調 (FT) 方法,更讓 Llama 系列模型達到了商業(yè)模型的性能水準。

圖片

圖片

圖 1:Llama 3.1 8B 與 Llama 3.3 70B 在三大企業(yè)級基準測試中應用 TAO 的效果對比。TAO 帶來顯著的性能提升,不僅超越傳統(tǒng)微調方法,更直指高價商業(yè)大語言模型的性能水平

TAO 工作原理

基于測試時計算與強化學習的模型調優(yōu)

TAO 的核心創(chuàng)新在于摒棄了人工標注數據,轉而利用測試時計算引導模型探索任務的可能響應,再通過強化學習根據響應評估結果更新模型參數。

該流程通過可擴展的測試時計算(而非昂貴的人工標注)實現(xiàn)質量提升,并能靈活融入領域知識(如定制規(guī)則)。令人驚訝的是,在高質量開源模型上應用該方法時,其效果往往優(yōu)于依賴人工標注的傳統(tǒng)方案。

圖片

TAO pipeline

TAO 包含四個核心階段:

  • 響應生成:該階段首先收集任務相關的輸入提示或查詢樣本。在 Databricks 平臺上,這些提示可通過 AI Gateway 自動采集;
  • 響應評分:系統(tǒng)化評估生成響應的階段。評分方法包含多種策略,例如基于獎勵模型、偏好評分,或利用 LLM 評判器及定制規(guī)則進行任務特異性驗證,確保每個響應都做到最優(yōu);
  • 強化學習(RL)訓練:最終階段采用基于強化學習的方法更新大語言模型,引導模型生成與高分響應高度契合的輸出。通過這一自適應學習過程,模型持續(xù)優(yōu)化預測能力以提升質量;
  • 持續(xù)改進:TAO 僅需 LLM 輸入樣本作為數據源。用戶與 LLM 的日常交互自然形成該數據 —— 一旦模型部署使用,即可自動生成下一輪 TAO 訓練數據。在 Databricks 平臺上,借助 TAO 機制,模型會隨著使用頻次增加而持續(xù)進化。

雖然 TAO 在訓練階段使用了測試時計算,但最終產出的模型在執(zhí)行任務時仍保持低推理成本。這意味著經過 TAO 調優(yōu)的模型在推理階段 —— 與原版模型相比 —— 具有完全相同的計算開銷和響應速度,顯著優(yōu)于 o1、o3 和 R1 等依賴測試時計算的模型。實驗表明:采用 TAO 訓練的高效開源模型,在質量上足以比肩頂尖的商業(yè)閉源模型。

TAO 為 AI 模型調優(yōu)提供了一種突破性方法:

  • 不同于耗時且易出錯的提示工程;
  • 也區(qū)別于需要昂貴人工標注數據的傳統(tǒng)微調;
  • TAO 僅需工程師提供任務相關的典型輸入樣本,即可實現(xiàn)卓越性能。

圖片

LLM 不同調優(yōu)方法比較

實驗及結果

接下來,文章深入探討了如何使用 TAO 針對專門的企業(yè)任務調優(yōu) LLM。本文選擇了三個具有代表性的基準。

圖片

表 2:該研究使用的基準測試概覽

如表 3 所示,在所有三個基準測試和兩種 Llama 模型中,TAO 顯著提升了基礎 Llama 的性能,甚至超過了微調的效果。

圖片

表 3:在三個企業(yè)級基準測試中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 實驗結果

與經典的測試時計算類似,當 TAO 能夠使用更多的計算資源時,它會產生更高質量的結果(見圖 3 中的示例)。然而,與測試時計算不同的是,這種額外的計算資源僅在調優(yōu)階段使用;最終的語言模型的推理成本與原始語言模型相同。例如,o3-mini 生成的輸出 token 數量比其他模型多 5-10 倍,因此其推理成本也相應更高,而 TAO 的推理成本與原始 Llama 模型相同。

圖片

利用 TAO 提高模型多任務性能

到目前為止,該研究已經使用 TAO 來提升語言模型在單一任務(例如 SQL 生成)上的表現(xiàn)。接下來,該研究展示了 TAO 如何廣泛提升模型在一系列企業(yè)任務中的性能。

結果如下,TAO 顯著提升了兩個模型的性能,將 Llama 3.3 70B 和 Llama 3.1 70B 分別提升了 2.4 和 4.0 個百分點。TAO 使 Llama 3.3 70B 在企業(yè)級任務上的表現(xiàn)顯著接近 GPT-4o,所有這些改進都沒有產生人工標注成本。

圖片


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-30 12:50:05

2023-07-21 12:51:32

2024-10-17 13:30:00

2020-12-09 22:15:40

物聯(lián)網IOT客戶關系

2024-05-17 17:25:44

2023-04-11 16:28:31

人工智能AI

2024-08-26 10:00:00

模型數據

2025-04-08 02:26:00

2023-11-27 15:41:16

物聯(lián)網數字孿生

2016-07-19 09:35:34

云計算

2024-12-13 14:03:44

模型訓練AI

2024-08-15 15:45:00

AI訓練

2024-06-05 08:33:29

2021-05-28 11:02:11

VR

2024-09-14 09:31:00

2025-03-12 10:38:05

2025-04-16 09:15:00

AI模型數據

2022-02-10 15:58:51

機器學習人工智能汽車

2024-07-11 11:53:56

2024-07-24 13:18:17

點贊
收藏

51CTO技術棧公眾號