自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

450美元訓(xùn)練一個(gè)「o1-preview」?UC伯克利開源32B推理模型Sky-T1,AI社區(qū)沸騰了

人工智能 新聞
近日,加州大學(xué)伯克利分校天空計(jì)算實(shí)驗(yàn)室的研究團(tuán)隊(duì) NovaSky 發(fā)布了 Sky-T1-32B-Preview。有趣的是,團(tuán)隊(duì)表示:「Sky-T1-32B-Preview 的訓(xùn)練成本不到 450 美元,這表明可以經(jīng)濟(jì)、高效地復(fù)制高級推理能力?!?/div>

450 美元的價(jià)格,乍一聽起來不算「小數(shù)目」。但如果,這是一個(gè) 32B 推理模型的全部訓(xùn)練成本呢?

是的,當(dāng)時(shí)間來到 2025 年,推理模型正變得越來越容易開發(fā),且成本迅速降低到我們此前無法想象的程度。

近日,加州大學(xué)伯克利分校天空計(jì)算實(shí)驗(yàn)室的研究團(tuán)隊(duì) NovaSky 發(fā)布了 Sky-T1-32B-Preview。有趣的是,團(tuán)隊(duì)表示:「Sky-T1-32B-Preview 的訓(xùn)練成本不到 450 美元,這表明可以經(jīng)濟(jì)、高效地復(fù)制高級推理能力?!?/span>

圖片


  • 項(xiàng)目主頁:https://novasky-ai.github.io/posts/sky-t1/
  • 開源地址:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

據(jù)官方信息,這款推理模型在多個(gè)關(guān)鍵基準(zhǔn)測試中與 OpenAI o1 的早期版本相媲美。

圖片

重點(diǎn)是,Sky-T1 似乎是第一個(gè)真正開源的推理模型,因?yàn)閳F(tuán)隊(duì)發(fā)布了訓(xùn)練數(shù)據(jù)集以及必要的訓(xùn)練代碼,任何人都可以從頭開始復(fù)制。

大家驚呼:「數(shù)據(jù)、代碼和模型權(quán)重,多么驚人的貢獻(xiàn)?!?/span>

圖片

不久前,訓(xùn)練一個(gè)具有同等性能的模型的價(jià)格往往高達(dá)數(shù)百萬美元。合成訓(xùn)練數(shù)據(jù)或由其他模型生成的訓(xùn)練數(shù)據(jù),讓成本實(shí)現(xiàn)了大幅降低。

此前,一家 AI 公司 Writer 發(fā)布的 Palmyra X 004 幾乎完全基于合成數(shù)據(jù)進(jìn)行訓(xùn)練,開發(fā)成本僅為 70 萬美元。

想象一下,以后我們可以在 Nvidia Project Digits AI 超級計(jì)算機(jī)上運(yùn)行此程序,該超級計(jì)算機(jī)售價(jià) 3000 美元(對于超級計(jì)算機(jī)來說很便宜),可以運(yùn)行多達(dá) 2000 億個(gè)參數(shù)的模型。而不久的將來,不到 1 萬億個(gè)參數(shù)的模型將由個(gè)人在本地運(yùn)行。

2025 年的大模型技術(shù)演進(jìn)正在加速,這感受確實(shí)很強(qiáng)烈。

模型概述

擅長推理的 o1 和 Gemini 2.0 flash thinking 等模型通過產(chǎn)生長長的內(nèi)部思維鏈,解決了復(fù)雜的任務(wù),并取得了其他方面的進(jìn)步。然而,技術(shù)細(xì)節(jié)和模型權(quán)重卻無法獲取,這對學(xué)術(shù)界和開源社區(qū)的參與構(gòu)成了障礙。

為此,在數(shù)學(xué)領(lǐng)域出現(xiàn)了一些訓(xùn)練開放權(quán)重推理模型的顯著成果,如 Still-2 和 Journey。與此同時(shí),加州大學(xué)伯克利分校的 NovaSky 團(tuán)隊(duì)一直在探索各種技術(shù),以發(fā)展基礎(chǔ)模型和指令調(diào)整模型的推理能力。

在 Sky-T1-32B-Preview 這項(xiàng)工作中,團(tuán)隊(duì)不僅在數(shù)學(xué)方面取得了有競爭力的推理性能,而且在同一模型的編碼方面也取得了有競爭力的推理性能。

圖片


為確保這項(xiàng)工作能「惠及更廣泛的社區(qū)」,團(tuán)隊(duì)開源了所有細(xì)節(jié)(如數(shù)據(jù)、代碼、模型權(quán)重),使社區(qū)能夠輕松復(fù)制和改進(jìn):

  •  基礎(chǔ)設(shè)施:在單一存儲庫中構(gòu)建數(shù)據(jù)、訓(xùn)練和評估模型;
  •  數(shù)據(jù):用于訓(xùn)練 Sky-T1-32B-Preview 的 17K 數(shù)據(jù);
  •  技術(shù)細(xì)節(jié):技術(shù)報(bào)告及 wandb 日志;
  •  模型權(quán)重:32B 模型權(quán)重。

圖片

技術(shù)細(xì)節(jié)

數(shù)據(jù)整理過程

為了生成訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)使用了 QwQ-32B-Preview,這是一個(gè)開源模型,其推理能力與 o1-preview 相當(dāng)。團(tuán)隊(duì)對數(shù)據(jù)混合進(jìn)行了整理,以涵蓋需要推理的不同領(lǐng)域,并采用拒絕采樣程序來提高數(shù)據(jù)質(zhì)量。

然后,團(tuán)隊(duì)受到 Still-2 的啟發(fā),用 GPT-4o-mini 將 QwQ trace 重寫為結(jié)構(gòu)規(guī)整的版本,以提高數(shù)據(jù)質(zhì)量并簡化解析。

他們發(fā)現(xiàn),解析的簡便性對推理模型尤其有利。它們被訓(xùn)練成以特定格式做出響應(yīng),而結(jié)果往往難以解析。例如,在 APPs 數(shù)據(jù)集上,如果不重新格式化,團(tuán)隊(duì)只能假設(shè)代碼是寫在最后一個(gè)代碼塊中的,而 QwQ 只能達(dá)到約 25% 的準(zhǔn)確率。但是,有時(shí)代碼可能寫在中間,經(jīng)過重新格式化后,準(zhǔn)確率會提高到 90% 以上。

拒絕采樣。根據(jù)數(shù)據(jù)集提供的解決方案,如果 QwQ 樣本不正確,團(tuán)隊(duì)就會將其丟棄。對于數(shù)學(xué)問題,團(tuán)隊(duì)會與 ground truth 解決方案進(jìn)行精確匹配。對于編碼問題,團(tuán)隊(duì)執(zhí)行數(shù)據(jù)集中提供的單元測試。團(tuán)隊(duì)的最終數(shù)據(jù)包含來自 APPs 和 TACO 的 5k 編碼數(shù)據(jù),以及來自 AIME、MATH 和 NuminaMATH 數(shù)據(jù)集的 Olympiads 子集的 10k 數(shù)學(xué)數(shù)據(jù)。此外,團(tuán)隊(duì)還保留了來自 STILL-2 的 1k 科學(xué)和謎題數(shù)據(jù)。

訓(xùn)練

團(tuán)隊(duì)使用訓(xùn)練數(shù)據(jù)來微調(diào) Qwen2.5-32B-Instruct,這是一個(gè)不具備推理能力的開源模型。該模型采用 3 個(gè) epoch、學(xué)習(xí)率 1e-5 和 96 的批大小進(jìn)行訓(xùn)練。使用 DeepSpeed Zero-3 offload(根據(jù) Lambda Cloud 的定價(jià)約為 450 美元),在 8 個(gè) H100 上用 19 個(gè)小時(shí)完成模型訓(xùn)練。團(tuán)隊(duì)使用了 Llama-Factory 進(jìn)行訓(xùn)練。

評估結(jié)果

Sky-T1 在 MATH500(「競賽級」數(shù)學(xué)挑戰(zhàn))上的表現(xiàn)優(yōu)于 o1 的早期預(yù)覽版本,還在一組來自 LiveCodeBench(一種編碼評估)的難題上擊敗了 o1 的預(yù)覽版本。然而,Sky-T1 不如 GPQA-Diamond 上的 o1 預(yù)覽版,后者包含博士畢業(yè)生應(yīng)該了解的物理、生物和化學(xué)相關(guān)問題。

圖片

不過,OpenAI 的 o1 GA 版本比 o1 的預(yù)覽版更強(qiáng)大,并且 OpenAI 預(yù)計(jì)將在未來幾周發(fā)布性能更佳的推理模型 o3。

值得重視的新發(fā)現(xiàn)

模型大小很重要。團(tuán)隊(duì)最初嘗試在較小的模型(7B 和 14B)上進(jìn)行訓(xùn)練,但觀察到的改進(jìn)不大。例如,在 APPs 數(shù)據(jù)集上訓(xùn)練 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的性能略有提高,從 42.6% 提高到 46.3%。然而,在手動檢查較小模型(小于 32B 的模型)的輸出時(shí),團(tuán)隊(duì)發(fā)現(xiàn)它們經(jīng)常生成重復(fù)內(nèi)容,從而限制了它們的有效性。

數(shù)據(jù)混合很重要。團(tuán)隊(duì)最初使用 Numina 數(shù)據(jù)集(由 STILL-2 提供)中的 3-4K 個(gè)數(shù)學(xué)問題訓(xùn)練 32B 模型,AIME24 的準(zhǔn)確率從 16.7% 顯著提高到 43.3%。然而,將 APPs 數(shù)據(jù)集生成的編程數(shù)據(jù)納入訓(xùn)練過程時(shí),AIME24 的準(zhǔn)確率下降到 36.7%??赡芤馕吨?,這種下降是由于數(shù)學(xué)和編程任務(wù)所需的推理方法不同。

編程推理通常涉及額外的邏輯步驟,如模擬測試輸入或內(nèi)部執(zhí)行生成的代碼,而數(shù)學(xué)問題的推理往往更為直接和結(jié)構(gòu)化。為了解決這些差異,團(tuán)隊(duì)使用 NuminaMath 數(shù)據(jù)集中具有挑戰(zhàn)性的數(shù)學(xué)問題和 TACO 數(shù)據(jù)集中復(fù)雜的編程任務(wù)來豐富訓(xùn)練數(shù)據(jù)。這種均衡的數(shù)據(jù)混合使模型在兩個(gè)領(lǐng)域都表現(xiàn)出色,在 AIME24 上恢復(fù)了 43.3% 的準(zhǔn)確率,同時(shí)也提高了其編程能力。

與此同時(shí),也有研究者表示了懷疑:

圖片

圖片


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2025-04-18 08:42:52

模型推理AI

2025-04-10 10:02:43

2025-04-30 09:09:00

2025-01-20 13:08:25

2023-04-07 09:28:31

模型訓(xùn)練

2025-02-11 16:17:42

2024-09-23 16:00:00

AI模型測評

2025-02-13 08:30:00

2024-09-24 11:01:03

2024-09-23 14:46:27

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 17:29:21

2024-12-20 14:30:00

2023-12-04 18:56:03

AI模型

2025-03-06 08:11:25

2023-08-05 13:45:46

模型AI

2024-03-04 08:15:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號