自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="dbxn5"><p id="dbxn5"><label id="dbxn5"></label></p></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

豆包大模型團(tuán)隊(duì)開源RLHF框架，訓(xùn)練吞吐量最高提升20倍

2024-11-02 10:28:03

近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與香港大學(xué)聯(lián)合提出 HybridFlow。這是一個(gè)靈活高效的 RL/RLHF 框架，可顯著提升訓(xùn)練吞吐量，降低開發(fā)和維護(hù)復(fù)雜度。

強(qiáng)化學(xué)習(xí)（RL）對(duì)大模型復(fù)雜推理能力提升有關(guān)鍵作用，但其復(fù)雜的計(jì)算流程對(duì)訓(xùn)練和部署也帶來了巨大挑戰(zhàn)。近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與香港大學(xué)聯(lián)合提出 HybridFlow。這是一個(gè)靈活高效的 RL/RLHF 框架，可顯著提升訓(xùn)練吞吐量，降低開發(fā)和維護(hù)復(fù)雜度。實(shí)驗(yàn)結(jié)果表明，HybridFlow 在各種模型規(guī)模和 RL 算法下，訓(xùn)練吞吐量相比其他框架提升了 1.5 倍至 20 倍。

在大模型后訓(xùn)練（Post-Training）階段引入 RL 方法，已成為提升模型質(zhì)量和對(duì)齊人類偏好的重要手段。然而，隨著模型規(guī)模的不斷擴(kuò)大，RL 算法在大模型訓(xùn)練中面臨著靈活性和性能的雙重挑戰(zhàn)。傳統(tǒng)的 RL/RLHF 系統(tǒng)在靈活性和效率方面存在不足，難以適應(yīng)不斷涌現(xiàn)的新算法需求，無法充分發(fā)揮大模型潛力。

據(jù)豆包大模型團(tuán)隊(duì)介紹，HybridFlow 采用混合編程模型，將單控制器的靈活性與多控制器的高效性相結(jié)合，解耦了控制流和計(jì)算流?；?Ray 的分布式編程、動(dòng)態(tài)計(jì)算圖、異構(gòu)調(diào)度能力，通過封裝單模型的分布式計(jì)算、統(tǒng)一模型間的數(shù)據(jù)切分，以及支持異步 RL 控制流，HybridFlow 能夠高效地實(shí)現(xiàn)和執(zhí)行各種 RL 算法，復(fù)用計(jì)算模塊和支持不同的模型部署方式，大大提升了系統(tǒng)的靈活性和開發(fā)效率。

實(shí)驗(yàn)結(jié)果顯示，無論 PPO 、ReMax 還是 Safe-RLHF 算法，HybridFlow 在所有模型規(guī)模下平均訓(xùn)練吞吐量均大幅領(lǐng)先于其他框架，提升幅度在 1.5 倍至 20 倍之間。隨著 GPU 集群規(guī)模擴(kuò)大，HybridFlow 吞吐量也獲得良好擴(kuò)展。這得益于其靈活的模型部署，充分利用硬件資源，實(shí)現(xiàn)高效并行計(jì)算。同時(shí)，HybridFlow 能夠支持多種分布式并行框架（Megatron-LM 、FSDP 、vLLM ），滿足不同模型規(guī)模的計(jì)算需求。

隨著 o1 模型誕生，大模型 Reasoning 能力和 RL 愈發(fā)受到業(yè)界關(guān)注。豆包大模型團(tuán)隊(duì)表示，將繼續(xù)圍繞相關(guān)場(chǎng)景進(jìn)行探索和實(shí)驗(yàn)。目前，HybridFlow 研究論文已入選學(xué)術(shù)頂會(huì) EuroSys 2025，代碼也已對(duì)外開源。

HybridFlow開源鏈接：https://github.com/volcengine/veRL

責(zé)任編輯：鳶瑋來源：字節(jié)跳動(dòng)

字節(jié)跳動(dòng)豆包大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="3awvt"><i id="3awvt"></i></sub>

<style id="3awvt"></style>

<style id="3awvt"></style>