自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微調已死,強化微調萬歲

原創(chuàng) 精選
人工智能
與傳統(tǒng)的微調不同,RFT 側重于教模型思考和推理問題,正如 OpenAI 的研究主管?Mark Chen?所解釋的那樣:“這不是標準的微調......它利用強化學習算法,將我們從高級高中水平提升到專家級博士水平。

編輯 | 言征 

出品 | 51CTO技術棧(微信號:blog51cto)

OpenAI第二天的直播,奧特曼沒有出鏡,幾位OpenAI的研究員帶了一場AI模型的定制魔法秀!

“這不是標準的微調......它利用強化學習算法,將我們從高級高中水平帶到專家級博士水平?!?/p>

1.12個樣本,就能讓定制o1超過滿血o1

標準的微調已經過時了,這次 OpenAI 打破了 AI 定制的界限。在其“OpenAI 12 天”直播系列的第二天首次為其 o1 模型提供強化微調 (RFT)。這一新的突破標志著我們所知道的傳統(tǒng)微調的終結。使用 RFT,模型不僅可以復制,還可以進行推理。

通過采用強化學習,OpenAI 希望使組織能夠為法律、醫(yī)療保健、金融等領域的復雜任務構建專家級 AI。這種新方法使組織能夠使用強化學習來訓練模型,以最少的數(shù)據(jù)(有時只有 12 個示例)處理特定于領域的任務。

通過使用參考答案來評估和優(yōu)化模型輸出,RFT 可以提高專家級任務的推理和準確性。OpenAI 通過微調 o1-mini 模型來演示這項技術,使其能夠比以前的版本更準確地預測遺傳疾病。

2.重新定義模型微調

與傳統(tǒng)的微調不同,RFT 側重于教模型思考和推理問題,正如 OpenAI 的研究主管 Mark Chen 所解釋的那樣:“這不是標準的微調......它利用強化學習算法,將我們從高級高中水平提升到專家級博士水平。

局限性:該方法并非沒有局限性。OpenAI 工程師 John Allard 解釋說,RFT 在結果“客觀正確且廣泛同意”的任務中表現(xiàn)出色,但在更難定義共識的主觀領域或創(chuàng)造性應用程序中可能會遇到困難。

然而,與傳統(tǒng)的完全微調相比,鋼筋微調 (RFT) 通常被認為在計算效率更高。批評者還指出,RFT 的性能在很大程度上取決于任務設計和訓練數(shù)據(jù)的質量。

有趣的是,使用 RFT,您只需幾十個示例即可實現(xiàn)顯著的性能改進,因為該模型從反饋中學習,而不需要查看所有可能的場景。

包括伯克利實驗室研究人員在內的早期采用者已經取得了顯著的成果。例如,微調的 o1-mini 模型在識別導致罕見疾病的基因突變方面優(yōu)于其基礎版本。

圖片圖片

OpenAI 已向選定的組織開放其 RFT alpha 計劃。參賽團隊將獲得 OpenAI 基礎設施的訪問權限,以訓練針對其獨特需求優(yōu)化的模型?!伴_發(fā)人員現(xiàn)在可以利用我們在內部使用的相同工具來構建特定于領域的專家模型,”Allard 說。

計算生物學家 Justin Reese 強調了 RFT 在醫(yī)療保健領域的變革潛力,特別是對于影響數(shù)百萬人的罕見疾病——“將領域專業(yè)知識與生物醫(yī)學數(shù)據(jù)的系統(tǒng)推理相結合的能力正在改變游戲規(guī)則”。

同樣,OpenAI 與湯森路透的合作已經證明在微調法律模型方面取得了成功,為在法律和保險等高風險領域增強 AI 應用鋪平了道路。

3.AI 定制新時代

OpenAI 計劃于 2025 年公開發(fā)布,旨在根據(jù)早期參與者的反饋改進 RFT。除了最初的應用之外,OpenAI 還設想了 RFT 模型推動數(shù)學、研究和基于代理的決策等領域的發(fā)展?!斑@是關于為人類最復雜的挑戰(zhàn)創(chuàng)建高度專業(yè)化的工具,”Chen 說。

簡而言之,這項技術將 OpenAI 的 o1 系列模型轉變?yōu)樘囟I域的專家,使它們能夠以無與倫比的準確性進行推理,并在復雜、高風險的任務中超越其基本版本。

定期微調通常涉及使用監(jiān)督學習在新數(shù)據(jù)集上訓練預訓練模型,其中模型根據(jù)數(shù)據(jù)集中提供的確切輸出或標簽調整其參數(shù)。

另一方面,RFT 使用強化學習,模型從對其性能的反饋中學習,而不僅僅是從直接示例中學習。

該模型不是從固定標簽中學習,而是根據(jù)預定義的評分量規(guī)或評分器根據(jù)它在任務中的表現(xiàn)進行評分。這使模型能夠探索不同的解決方案并從結果中學習,專注于提高推理能力。

4.用戶實測:ChatGPT o1 Pro 感覺就像買了一輛蘭博

在 OpenAI 12 Days 的第一天,該公司發(fā)布了完整版的 o1 和一款售價 200 美元的全新 ChatGPT Pro 機型。ChatGPT Pro 計劃包括 Plus 計劃的所有功能以及對附加 o1 Pro 模式的訪問,據(jù)說該模式使用“更多計算來最好地回答最難的問題”。此外,該計劃將提供對 o1、o1-mini 和 GPT-4o 的無限制訪問以及高級語音模式。

OpenAI 還宣布了該模型的以開發(fā)人員為中心的新功能。其中包括結構化輸出、函數(shù)調用、開發(fā)人員消息和 API 圖像理解。OpenAI 還表示,他們正在努力為 o1 模型提供 API 支持。

“為了更加明確:O1 在我們的 Plus 級別可用,每月 20 美元。使用新的 Pro Tier(每月 200 美元),它可以更努力地思考最困難的問題。大多數(shù)用戶會對 Plus Tier 中的 O1 感到非常滿意!“OpenAI 首席執(zhí)行官 Sam Altman 在 X 上發(fā)帖。

社區(qū)中的許多人認為 200 美元對于 ChatGPT Pro 訂閱來說太貴了?!安灰詾槲倚枰吭?200 美元的 o1 Pro。o1 對我來說就足夠了。哎呀,對我來說就足夠了,“X 上的一位用戶發(fā)帖說。

“ChatGPT o1 Pro 感覺就像買了一輛蘭博基尼?!?/p>

沃頓商學院的副教授 Ethan Mollick 可以提前接觸 o1,他分享了他的經驗,并將其與 Claude Sonnet 3.5 和 Gemini 進行了比較?!八梢越鉀Q一些博士級別的問題,在科學、金融等高價值領域有明顯的應用。發(fā)現(xiàn)用途需要真正的研發(fā)努力“。

他解釋說,雖然 o1 在解決 Sonnet 難以解決的特定難題方面優(yōu)于 Sonnet,但它并沒有在每個領域都超過 Sonnet。Sonnet 在其他領域仍然更強大。“作為作家而言,o1 表現(xiàn)得并沒有想象中地更好,不過它通常能夠比 Sonnet 更好地發(fā)展復雜的情節(jié),因為它可以更好地提前計劃。”

一位 Reddit 用戶在花了 8 小時在實際應用程序中測試 OpenAI 的 o1 Pro(200 美元)與 Claude Sonnet 3.5(20 美元)后分享了他們的經驗。

對于復雜的推理,o1 Pro 是贏家,它提供的結果略好,但每個響應的時間多了 20-30 秒。Claude Sonnet 3.5 雖然更快,但在這些任務上達到了 90% 的準確率。在代碼生成方面,Claude Sonnet 3.5 的性能優(yōu)于 o1 Pro,它生成的代碼更簡潔、更易于維護,文檔更好,而 o1 Pro 傾向于過度設計解決方案。

同樣,Abacus AI 首席執(zhí)行官 Bindu Reddy 表示,Sonnet 3.5 在編碼方面仍然優(yōu)于 o1,這是根據(jù)她進行的手動測試,因為 OpenAI 尚未發(fā)布 API。

“早期跡象表明,Sonnet 3.5 在編碼方面仍然占據(jù)主導地位。每當 OpenAI 選擇提供 API 時,我們都將能夠確認這一結果,“她說。

參考鏈接:https://analyticsindiamag.com/ai-origins-evolution/fine-tuning-is-dead-long-live-reinforcement-fine-tuning/

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2013-02-26 11:01:42

CIO信息化大數(shù)據(jù)云計算

2010-04-06 09:02:59

Solaris甲骨文Sun

2015-04-23 09:34:18

CoffeeScripJavaScript開

2024-10-15 11:16:18

2019-10-11 08:58:21

Hadoop開源

2013-03-29 10:13:22

lisp編譯器

2015-11-05 10:17:42

網(wǎng)絡工程師IT人員

2018-01-08 07:58:51

深度學習編程人工智能

2025-01-13 08:20:00

AI模型訓練

2023-10-07 10:41:54

語言模型微調BitFit

2024-07-22 08:17:00

模型性能

2013-11-21 11:03:29

Nginx性能優(yōu)化

2015-05-20 09:05:40

2024-12-09 09:50:00

數(shù)據(jù)模型

2024-06-06 08:25:30

2023-06-07 08:22:59

LLM微調技術

2024-04-15 12:50:00

大型語言模型ReFT

2025-03-25 10:27:14

SFT 指令微調

2011-01-07 10:18:28

RSSWeb

2011-05-11 09:01:29

面向對象技術函數(shù)式語言
點贊
收藏

51CTO技術棧公眾號