自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="y6g6k"></strike>

<style id="y6g6k"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Llama版o1來(lái)了，來(lái)自上海AI Lab，強(qiáng)化學(xué)習(xí)代碼已開(kāi)源，基于A(yíng)lphaGo Zero范式

作者：量子位 2024-11-05 14:20:00

人工智能新聞

LLaMA版o1項(xiàng)目剛剛發(fā)布，來(lái)自上海AI Lab團(tuán)隊(duì)。

復(fù)刻O(píng)penAI o1推理大模型，開(kāi)源界傳來(lái)最新進(jìn)展：

LLaMA版o1項(xiàng)目剛剛發(fā)布，來(lái)自上海AI Lab團(tuán)隊(duì)。

簡(jiǎn)介中明確：使用了蒙特卡洛樹(shù)搜索，Self-Play強(qiáng)化學(xué)習(xí)，PPO，以及AlphaGo Zero的雙重策略范式（先驗(yàn)策略+價(jià)值評(píng)估）。

在2024年6月，o1發(fā)布之前，團(tuán)隊(duì)就開(kāi)始探索蒙特卡洛樹(shù)搜索提高大模型數(shù)學(xué)能力，積累了一些關(guān)注。

這次最新開(kāi)源代碼，也在開(kāi)發(fā)者社區(qū)引起熱議。

OpenAI o1系列發(fā)布后，團(tuán)隊(duì)開(kāi)始升級(jí)算法，專(zhuān)注于數(shù)學(xué)奧賽問(wèn)題，作為OpenAI草莓項(xiàng)目的開(kāi)源版本。

10月初，團(tuán)隊(duì)上傳新論文，使用成對(duì)優(yōu)化（不直接給出絕對(duì)分?jǐn)?shù)，而是比較兩個(gè)答案的相對(duì)優(yōu)劣）提高Llama模型數(shù)學(xué)奧賽能力。

在最難的AIME2024基準(zhǔn)測(cè)試30道題中，原版LLaMA-3.1-8B-Instruct做對(duì)2道，優(yōu)化后做對(duì)8道，超過(guò)了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。

10月底，團(tuán)隊(duì)宣布在基于A(yíng)lphaGo Zero架構(gòu)復(fù)刻O(píng)penAI o1的努力中取得了重大進(jìn)展：

已成功使模型在學(xué)習(xí)過(guò)程中通過(guò)與搜索樹(shù)交互獲得高級(jí)思維能力，無(wú)需人工標(biāo)注。

不到一周時(shí)間，項(xiàng)目便開(kāi)源了。

LLaMA版o1最新進(jìn)展

目前已開(kāi)源內(nèi)容包括：預(yù)訓(xùn)練數(shù)據(jù)集、預(yù)訓(xùn)練模型、強(qiáng)化學(xué)習(xí)訓(xùn)練代碼。

OpenLongCoT-Pretrain數(shù)據(jù)集，包含10萬(wàn)+條長(zhǎng)思維鏈數(shù)據(jù)。

每條數(shù)據(jù)包含一個(gè)完整的數(shù)學(xué)問(wèn)題推理過(guò)程，包含思考內(nèi)容和評(píng)分結(jié)果。

例如一個(gè)幾何問(wèn)題，包含了問(wèn)題描述、圖形坐標(biāo)、計(jì)算過(guò)程和結(jié)論推導(dǎo)等完整的推理鏈路，以及對(duì)各個(gè)推理步驟的批評(píng)和驗(yàn)證內(nèi)容，對(duì)推理過(guò)程進(jìn)行評(píng)價(jià)和指導(dǎo)。

在此數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練后，模型可讀取和輸出類(lèi)似o1的長(zhǎng)思維鏈過(guò)程。

預(yù)訓(xùn)練代碼尚未發(fā)布，目前推薦使用LLaMaFactory代替。

有意思的是雖然項(xiàng)目名為L(zhǎng)LaMA-O1，但目前官方給的預(yù)訓(xùn)練模型基于谷歌Gemma 2。

目前在預(yù)訓(xùn)練模型基礎(chǔ)上，可以繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，從代碼中可以看出訓(xùn)練過(guò)程如下：

使用蒙特卡洛樹(shù)搜索進(jìn)行自我對(duì)弈(self-play)以生成經(jīng)驗(yàn)
將經(jīng)驗(yàn)存儲(chǔ)在優(yōu)先經(jīng)驗(yàn)回放緩沖區(qū)中
從緩沖區(qū)采樣批次數(shù)據(jù)進(jìn)行訓(xùn)練
更新模型參數(shù)和經(jīng)驗(yàn)優(yōu)先級(jí)

論文中也給出了訓(xùn)練過(guò)程的圖示。

同時(shí)訓(xùn)練代碼中使用了以下關(guān)鍵技術(shù)點(diǎn)：

使用LoRA進(jìn)行參數(shù)高效微調(diào)
使用PPO算法作為策略?xún)?yōu)化方法
實(shí)現(xiàn)了GAE(Generalized Advantage Estimation)算法用于計(jì)算優(yōu)勢(shì)函數(shù)
使用優(yōu)先經(jīng)驗(yàn)回放提高訓(xùn)練效率

最后，LLaMA-O1代碼發(fā)布在名為SimpleBerry的GitHub賬號(hào)下，并沒(méi)有特別簡(jiǎn)介，還比較神秘。

其他與SimpleBerry有關(guān)的賬號(hào)和官網(wǎng)中，只能看出性質(zhì)是一個(gè)研究實(shí)驗(yàn)室，也并未透露更多研究方向信息。

其他o1復(fù)刻項(xiàng)目進(jìn)展

除LLaMA-O1之外，另一個(gè)公開(kāi)進(jìn)展的o1復(fù)刻項(xiàng)目O1-Journey來(lái)自上交大團(tuán)隊(duì)。

團(tuán)隊(duì)在十月初發(fā)布了第一份進(jìn)展報(bào)告，其中介紹了創(chuàng)新Journey Learning范式，以及第一個(gè)成功將搜索和學(xué)習(xí)整合到數(shù)學(xué)推理中的模型。

O1-Journey核心開(kāi)發(fā)團(tuán)隊(duì)主要由上交大大三、大四本科生，以及上交大GAIR實(shí)驗(yàn)室（生成式人工智能研究實(shí)驗(yàn)室）的一年級(jí)博士生組成。

指導(dǎo)教師包括上交大副教授劉鵬飛，姚班校友、斯隆獎(jiǎng)得主李遠(yuǎn)志等。

LLaMA-O1：https://github.com/SimpleBerry/LLaMA-O1
相關(guān)論文：https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884

O1-Journey：https://github.com/GAIR-NLP/O1-Journey/

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="uvlxz"></style>