自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微調(diào)已死,強(qiáng)化微調(diào)萬(wàn)歲 原創(chuàng)

發(fā)布于 2024-12-10 09:06
瀏覽
0收藏

編輯 | 言征 

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

OpenAI第二天的直播,奧特曼沒(méi)有出鏡,幾位OpenAI的研究員帶了一場(chǎng)AI模型的定制魔法秀!

“這不是標(biāo)準(zhǔn)的微調(diào)......它利用強(qiáng)化學(xué)習(xí)算法,將我們從高級(jí)高中水平帶到專(zhuān)家級(jí)博士水平?!?/p>

1.12個(gè)樣本,就能讓定制o1超過(guò)滿(mǎn)血o1

標(biāo)準(zhǔn)的微調(diào)已經(jīng)過(guò)時(shí)了,這次 OpenAI 打破了 AI 定制的界限。在其“OpenAI 12 天”直播系列的第二天首次為其 o1 模型提供強(qiáng)化微調(diào) (RFT)。這一新的突破標(biāo)志著我們所知道的傳統(tǒng)微調(diào)的終結(jié)。使用 RFT,模型不僅可以復(fù)制,還可以進(jìn)行推理。

通過(guò)采用強(qiáng)化學(xué)習(xí),OpenAI 希望使組織能夠?yàn)榉?、醫(yī)療保健、金融等領(lǐng)域的復(fù)雜任務(wù)構(gòu)建專(zhuān)家級(jí) AI。這種新方法使組織能夠使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練模型,以最少的數(shù)據(jù)(有時(shí)只有 12 個(gè)示例)處理特定于領(lǐng)域的任務(wù)。

通過(guò)使用參考答案來(lái)評(píng)估和優(yōu)化模型輸出,RFT 可以提高專(zhuān)家級(jí)任務(wù)的推理和準(zhǔn)確性。OpenAI 通過(guò)微調(diào) o1-mini 模型來(lái)演示這項(xiàng)技術(shù),使其能夠比以前的版本更準(zhǔn)確地預(yù)測(cè)遺傳疾病。

2.重新定義模型微調(diào)

與傳統(tǒng)的微調(diào)不同,RFT 側(cè)重于教模型思考和推理問(wèn)題,正如 OpenAI 的研究主管 Mark Chen 所解釋的那樣:“這不是標(biāo)準(zhǔn)的微調(diào)......它利用強(qiáng)化學(xué)習(xí)算法,將我們從高級(jí)高中水平提升到專(zhuān)家級(jí)博士水平。

局限性:該方法并非沒(méi)有局限性。OpenAI 工程師 John Allard 解釋說(shuō),RFT 在結(jié)果“客觀正確且廣泛同意”的任務(wù)中表現(xiàn)出色,但在更難定義共識(shí)的主觀領(lǐng)域或創(chuàng)造性應(yīng)用程序中可能會(huì)遇到困難。

然而,與傳統(tǒng)的完全微調(diào)相比,鋼筋微調(diào) (RFT) 通常被認(rèn)為在計(jì)算效率更高。批評(píng)者還指出,RFT 的性能在很大程度上取決于任務(wù)設(shè)計(jì)和訓(xùn)練數(shù)據(jù)的質(zhì)量。

有趣的是,使用 RFT,您只需幾十個(gè)示例即可實(shí)現(xiàn)顯著的性能改進(jìn),因?yàn)樵撃P蛷姆答佒袑W(xué)習(xí),而不需要查看所有可能的場(chǎng)景。

包括伯克利實(shí)驗(yàn)室研究人員在內(nèi)的早期采用者已經(jīng)取得了顯著的成果。例如,微調(diào)的 o1-mini 模型在識(shí)別導(dǎo)致罕見(jiàn)疾病的基因突變方面優(yōu)于其基礎(chǔ)版本。

微調(diào)已死,強(qiáng)化微調(diào)萬(wàn)歲-AI.x社區(qū)圖片

OpenAI 已向選定的組織開(kāi)放其 RFT alpha 計(jì)劃。參賽團(tuán)隊(duì)將獲得 OpenAI 基礎(chǔ)設(shè)施的訪(fǎng)問(wèn)權(quán)限,以訓(xùn)練針對(duì)其獨(dú)特需求優(yōu)化的模型?!伴_(kāi)發(fā)人員現(xiàn)在可以利用我們?cè)趦?nèi)部使用的相同工具來(lái)構(gòu)建特定于領(lǐng)域的專(zhuān)家模型,”Allard 說(shuō)。

計(jì)算生物學(xué)家 Justin Reese 強(qiáng)調(diào)了 RFT 在醫(yī)療保健領(lǐng)域的變革潛力,特別是對(duì)于影響數(shù)百萬(wàn)人的罕見(jiàn)疾病——“將領(lǐng)域?qū)I(yè)知識(shí)與生物醫(yī)學(xué)數(shù)據(jù)的系統(tǒng)推理相結(jié)合的能力正在改變游戲規(guī)則”。

同樣,OpenAI 與湯森路透的合作已經(jīng)證明在微調(diào)法律模型方面取得了成功,為在法律和保險(xiǎn)等高風(fēng)險(xiǎn)領(lǐng)域增強(qiáng) AI 應(yīng)用鋪平了道路。

3.AI 定制新時(shí)代

OpenAI 計(jì)劃于 2025 年公開(kāi)發(fā)布,旨在根據(jù)早期參與者的反饋改進(jìn) RFT。除了最初的應(yīng)用之外,OpenAI 還設(shè)想了 RFT 模型推動(dòng)數(shù)學(xué)、研究和基于代理的決策等領(lǐng)域的發(fā)展?!斑@是關(guān)于為人類(lèi)最復(fù)雜的挑戰(zhàn)創(chuàng)建高度專(zhuān)業(yè)化的工具,”Chen 說(shuō)。

簡(jiǎn)而言之,這項(xiàng)技術(shù)將 OpenAI 的 o1 系列模型轉(zhuǎn)變?yōu)樘囟I(lǐng)域的專(zhuān)家,使它們能夠以無(wú)與倫比的準(zhǔn)確性進(jìn)行推理,并在復(fù)雜、高風(fēng)險(xiǎn)的任務(wù)中超越其基本版本。

定期微調(diào)通常涉及使用監(jiān)督學(xué)習(xí)在新數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型,其中模型根據(jù)數(shù)據(jù)集中提供的確切輸出或標(biāo)簽調(diào)整其參數(shù)。

另一方面,RFT 使用強(qiáng)化學(xué)習(xí),模型從對(duì)其性能的反饋中學(xué)習(xí),而不僅僅是從直接示例中學(xué)習(xí)。

該模型不是從固定標(biāo)簽中學(xué)習(xí),而是根據(jù)預(yù)定義的評(píng)分量規(guī)或評(píng)分器根據(jù)它在任務(wù)中的表現(xiàn)進(jìn)行評(píng)分。這使模型能夠探索不同的解決方案并從結(jié)果中學(xué)習(xí),專(zhuān)注于提高推理能力。

4.用戶(hù)實(shí)測(cè):ChatGPT o1 Pro 感覺(jué)就像買(mǎi)了一輛蘭博

在 OpenAI 12 Days 的第一天,該公司發(fā)布了完整版的 o1 和一款售價(jià) 200 美元的全新 ChatGPT Pro 機(jī)型。ChatGPT Pro 計(jì)劃包括 Plus 計(jì)劃的所有功能以及對(duì)附加 o1 Pro 模式的訪(fǎng)問(wèn),據(jù)說(shuō)該模式使用“更多計(jì)算來(lái)最好地回答最難的問(wèn)題”。此外,該計(jì)劃將提供對(duì) o1、o1-mini 和 GPT-4o 的無(wú)限制訪(fǎng)問(wèn)以及高級(jí)語(yǔ)音模式。

OpenAI 還宣布了該模型的以開(kāi)發(fā)人員為中心的新功能。其中包括結(jié)構(gòu)化輸出、函數(shù)調(diào)用、開(kāi)發(fā)人員消息和 API 圖像理解。OpenAI 還表示,他們正在努力為 o1 模型提供 API 支持。

“為了更加明確:O1 在我們的 Plus 級(jí)別可用,每月 20 美元。使用新的 Pro Tier(每月 200 美元),它可以更努力地思考最困難的問(wèn)題。大多數(shù)用戶(hù)會(huì)對(duì) Plus Tier 中的 O1 感到非常滿(mǎn)意!“OpenAI 首席執(zhí)行官 Sam Altman 在 X 上發(fā)帖。

社區(qū)中的許多人認(rèn)為 200 美元對(duì)于 ChatGPT Pro 訂閱來(lái)說(shuō)太貴了?!安灰詾槲倚枰吭?200 美元的 o1 Pro。o1 對(duì)我來(lái)說(shuō)就足夠了。哎呀,對(duì)我來(lái)說(shuō)就足夠了,“X 上的一位用戶(hù)發(fā)帖說(shuō)。

“ChatGPT o1 Pro 感覺(jué)就像買(mǎi)了一輛蘭博基尼?!?/p>

沃頓商學(xué)院的副教授 Ethan Mollick 可以提前接觸 o1,他分享了他的經(jīng)驗(yàn),并將其與 Claude Sonnet 3.5 和 Gemini 進(jìn)行了比較。“它可以解決一些博士級(jí)別的問(wèn)題,在科學(xué)、金融等高價(jià)值領(lǐng)域有明顯的應(yīng)用。發(fā)現(xiàn)用途需要真正的研發(fā)努力“。

他解釋說(shuō),雖然 o1 在解決 Sonnet 難以解決的特定難題方面優(yōu)于 Sonnet,但它并沒(méi)有在每個(gè)領(lǐng)域都超過(guò) Sonnet。Sonnet 在其他領(lǐng)域仍然更強(qiáng)大?!白鳛樽骷叶裕琽1 表現(xiàn)得并沒(méi)有想象中地更好,不過(guò)它通常能夠比 Sonnet 更好地發(fā)展復(fù)雜的情節(jié),因?yàn)樗梢愿玫靥崆坝?jì)劃?!?/p>

一位 Reddit 用戶(hù)在花了 8 小時(shí)在實(shí)際應(yīng)用程序中測(cè)試 OpenAI 的 o1 Pro(200 美元)與 Claude Sonnet 3.5(20 美元)后分享了他們的經(jīng)驗(yàn)。

對(duì)于復(fù)雜的推理,o1 Pro 是贏家,它提供的結(jié)果略好,但每個(gè)響應(yīng)的時(shí)間多了 20-30 秒。Claude Sonnet 3.5 雖然更快,但在這些任務(wù)上達(dá)到了 90% 的準(zhǔn)確率。在代碼生成方面,Claude Sonnet 3.5 的性能優(yōu)于 o1 Pro,它生成的代碼更簡(jiǎn)潔、更易于維護(hù),文檔更好,而 o1 Pro 傾向于過(guò)度設(shè)計(jì)解決方案。

同樣,Abacus AI 首席執(zhí)行官 Bindu Reddy 表示,Sonnet 3.5 在編碼方面仍然優(yōu)于 o1,這是根據(jù)她進(jìn)行的手動(dòng)測(cè)試,因?yàn)?OpenAI 尚未發(fā)布 API。

“早期跡象表明,Sonnet 3.5 在編碼方面仍然占據(jù)主導(dǎo)地位。每當(dāng) OpenAI 選擇提供 API 時(shí),我們都將能夠確認(rèn)這一結(jié)果,“她說(shuō)。

參考鏈接:https://analyticsindiamag.com/ai-origins-evolution/fine-tuning-is-dead-long-live-reinforcement-fine-tuning/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦