比DeepSeek、o1高3倍!首創(chuàng)無(wú)服務(wù)器強(qiáng)化微調(diào),只需十幾個(gè)數(shù)據(jù)點(diǎn)
今天凌晨,知名大模型訓(xùn)練、開(kāi)發(fā)平臺(tái)Predibase發(fā)布了,首個(gè)端到端強(qiáng)化微調(diào)平臺(tái)(RFT)。
與傳統(tǒng)的監(jiān)督式微調(diào)相比,RFT不依賴大量的標(biāo)注數(shù)據(jù),而是通過(guò)獎(jiǎng)勵(lì)和自定義函數(shù)來(lái)完成持續(xù)的強(qiáng)化學(xué)習(xí),同時(shí)支持無(wú)服務(wù)器和端到端訓(xùn)練方法,從數(shù)據(jù)管理、訓(xùn)練模型到應(yīng)用部署可以在同一個(gè)平臺(tái)全部完成。
也就是說(shuō),你只需要一個(gè)瀏覽器,設(shè)定微調(diào)目標(biāo)、上傳數(shù)據(jù)、就能完成以前非常復(fù)雜的大模型微調(diào)流程。
在線體驗(yàn)地址:https://predibase.com/reinforcement-fine-tuning-playground
為了展示RFT強(qiáng)大功能,Predibase根據(jù)阿里開(kāi)源的Qwen2.5-Coder-32B-instruct,微調(diào)了一個(gè)專門(mén)用于將PyTorch代碼翻譯為T(mén)riton的模型。
這是一個(gè)大多數(shù)LLM都難以完成的任務(wù),需要對(duì)兩個(gè)框架都有深入的理解,并且需要復(fù)雜的推理能力來(lái)考慮計(jì)算效率,并且Qwen2.5-Coder-32B-instruct在微調(diào)之前準(zhǔn)確率比較低。
通過(guò)RFT,Predibase在訓(xùn)練過(guò)程結(jié)合了冷啟動(dòng)監(jiān)督式微調(diào)、強(qiáng)化學(xué)習(xí)和課程學(xué)習(xí),并且只使用了十幾個(gè)標(biāo)記數(shù)據(jù)點(diǎn)。
在Kernelbench數(shù)據(jù)集上進(jìn)行的基準(zhǔn)測(cè)試顯示,Qwen2.5-Coder-32B-instruct經(jīng)過(guò)強(qiáng)化后,其正確率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的體量卻比這三個(gè)小很多。
目前,Predibase已經(jīng)開(kāi)源了微調(diào)后的Qwen2.5-Coder-32B-instruct模型。
開(kāi)源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT
技術(shù)優(yōu)勢(shì)方面,RFT不依賴大量標(biāo)注數(shù)據(jù),而傳統(tǒng)方法需要海量標(biāo)注數(shù)據(jù)來(lái)指導(dǎo)模型學(xué)習(xí),這些數(shù)據(jù)通常需要人工標(biāo)注,成本高昂且耗時(shí)。RFT則通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)模型學(xué)習(xí),無(wú)需大量標(biāo)注數(shù)據(jù),獎(jiǎng)勵(lì)函數(shù)可根據(jù)任務(wù)的特定需求評(píng)估模型輸出,來(lái)引導(dǎo)模型的優(yōu)化目標(biāo)。
RFT的適應(yīng)性與靈活性更強(qiáng)。傳統(tǒng)方法依賴于標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量,若標(biāo)注數(shù)據(jù)有限或不準(zhǔn)確,模型性能會(huì)受限。而RFT允許用戶根據(jù)具體任務(wù)需求自定義獎(jiǎng)勵(lì)函數(shù),靈活定義模型優(yōu)化目標(biāo)。
例如在代碼生成任務(wù)中,可定義獎(jiǎng)勵(lì)函數(shù)驗(yàn)證代碼正確性;在問(wèn)答任務(wù)中,可定義獎(jiǎng)勵(lì)函數(shù)評(píng)估答案相關(guān)性和準(zhǔn)確性。
RFT具備持續(xù)改進(jìn)能力。傳統(tǒng)方法通常是一次性過(guò)程,模型訓(xùn)練完成后難以繼續(xù)改進(jìn)。RFT則支持持續(xù)改進(jìn),隨著獎(jiǎng)勵(lì)函數(shù)優(yōu)化和更多反饋數(shù)據(jù)積累,模型能不斷學(xué)習(xí)和改進(jìn),適應(yīng)任務(wù)需求變化。
在訓(xùn)練與推理效率方面,傳統(tǒng)方法通常需在本地環(huán)境中進(jìn)行,對(duì)硬件資源要求高,且需手動(dòng)管理訓(xùn)練和部署過(guò)程。
而Predibase提供的RFT平臺(tái)是完全托管的無(wú)服務(wù)器平臺(tái),用戶無(wú)需管理底層服務(wù)器或基礎(chǔ)設(shè)施,平臺(tái)自動(dòng)處理訓(xùn)練、部署和推理全過(guò)程,大大降低了開(kāi)發(fā)和運(yùn)維復(fù)雜性。此外,RFT利用多LoRA框架和流式微批處理技術(shù),實(shí)現(xiàn)了高效的訓(xùn)練和推理。
RFT還支持復(fù)雜任務(wù)的課程學(xué)習(xí)。傳統(tǒng)方法在處理復(fù)雜任務(wù)時(shí),通常需大量標(biāo)注數(shù)據(jù)覆蓋各種情況,否則模型難以學(xué)習(xí)到有效策略。RFT則支持課程學(xué)習(xí),即從簡(jiǎn)單到復(fù)雜逐步訓(xùn)練模型,使其能處理更復(fù)雜任務(wù),這在需要深度推理的任務(wù)中特別有效。
在模型部署方面,傳統(tǒng)方法部署模型通常需額外工具和配置,且難以保證高性能。
Predibase的推理引擎原生支持RFT訓(xùn)練的模型,并提供高性能的無(wú)服務(wù)器部署解決方案,用戶可將訓(xùn)練好的模型快速部署到生產(chǎn)環(huán)境中,并獲得行業(yè)級(jí)服務(wù)水平支持。
RFT還具備更好的泛化能力。傳統(tǒng)方法可能會(huì)導(dǎo)致模型過(guò)度擬合標(biāo)注數(shù)據(jù),從而在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)不佳。RFT通過(guò)獎(jiǎng)勵(lì)函數(shù)引導(dǎo)模型學(xué)習(xí),使模型能更好地泛化到未見(jiàn)過(guò)的數(shù)據(jù)上,提升其在實(shí)際應(yīng)用中的魯棒性。
Predibase表示,DeepSeek在開(kāi)源R1之后,在全球AI領(lǐng)域產(chǎn)生了巨大影響,讓很多人意識(shí)到強(qiáng)化學(xué)習(xí)微調(diào)對(duì)訓(xùn)練大模型的重要性。受此啟發(fā),他們開(kāi)發(fā)了這個(gè)端到端無(wú)服務(wù)器強(qiáng)化微調(diào)平臺(tái)。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/Zd44VfksOseFpOh-Q-E9nA??????
