自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光

發(fā)布于 2025-1-22 11:58
瀏覽
0收藏

Kimi發(fā)布新一代多模態(tài)思考模型k1.5,在競賽數(shù)學(xué)、代碼能力及視覺思考等測試中,k1.5模型性能已達(dá)到全球領(lǐng)先模型OpenAI o1 正式版水平,月之暗面也成為OpenAI 之外,全球第二家到達(dá)該水平的人工智能企業(yè)。

    Kimi 1.5 long-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光-AI.x社區(qū)

long to short,用長鏈?zhǔn)剿伎技夹g(shù)改進(jìn)短鏈?zhǔn)剿伎寄P停诙替準(zhǔn)酵评硇阅軠y試中,k1.5模型在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力等方面到達(dá)或超越GPT-4o、Claude Sonnet 3.5等全球領(lǐng)先模型。

    Kimi 1.5 short-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光-AI.x社區(qū)

新模型發(fā)布的同時,kimi還首次對外公布了多模態(tài)模型技術(shù)訓(xùn)練報告,k1.5的訓(xùn)練包括這幾個階段:

預(yù)訓(xùn)練 -> SFT -> Long-CoT SFT -> RL

其中,預(yù)訓(xùn)練與SFT要點概況如下:

  • 預(yù)訓(xùn)練:k1.5 的預(yù)訓(xùn)練涉及多模態(tài)數(shù)據(jù)(文本、視覺、OCR 等),并分為三個階段:視覺-語言預(yù)訓(xùn)練、冷啟動階段和長文本激活階段。
  • 監(jiān)督微調(diào):使用高質(zhì)量的標(biāo)注數(shù)據(jù)進(jìn)行分階段學(xué)習(xí)率調(diào)整微調(diào),涵蓋問答、寫作、數(shù)學(xué)、編程和視覺-文本數(shù)據(jù)。

25頁的技術(shù)報告重點聚焦在強化學(xué)習(xí)部分

數(shù)據(jù)構(gòu)建 -> 預(yù)熱 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光-AI.x社區(qū)

1. RL數(shù)據(jù)構(gòu)建

數(shù)據(jù)質(zhì)量和多樣性對強化學(xué)習(xí)的效果至關(guān)重要。高質(zhì)量的提示集可以引導(dǎo)模型進(jìn)行穩(wěn)健的推理,并減少 reward hacking 和 overfitting 的風(fēng)險。

  • 多樣化覆蓋:涵蓋廣泛的學(xué)科領(lǐng)域(如 STEM、編程和通用推理),以增強模型的適應(yīng)性。
  • 難度平衡:包含不同難度級別的問題,以支持模型的逐步學(xué)習(xí)。
  • 可驗證性:答案和推理過程應(yīng)能夠被準(zhǔn)確驗證,避免模型通過錯誤的推理過程得出正確答案。

2、預(yù)熱-Long-CoT微調(diào)

通過構(gòu)建小的高質(zhì)量 Long-CoT 熱身數(shù)據(jù)集并進(jìn)行微調(diào),目的是讓模型內(nèi)化人類推理的關(guān)鍵認(rèn)知過程(如規(guī)劃、評估、反思和探索),從而提升其在復(fù)雜推理任務(wù)中的表現(xiàn)和邏輯連貫性。

3、強化學(xué)習(xí)

強化學(xué)習(xí)是 k1.5 的核心訓(xùn)練階段,無需依賴蒙特卡洛樹搜索(MCTS)、價值函數(shù)或過程獎勵模型等復(fù)雜技術(shù),通過長上下文擴(kuò)展和策略優(yōu)化實現(xiàn)高效學(xué)習(xí)。

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光-AI.x社區(qū)

  • 長上下文擴(kuò)展是k1.5的核心創(chuàng)新之一。通過將上下文窗口擴(kuò)展到128k,模型能夠處理更復(fù)雜的推理任務(wù)。背后的關(guān)鍵技術(shù)是 partial rollout ,它允許模型在訓(xùn)練過程中復(fù)用之前生成的軌跡片段,避免從頭開始生成新軌跡,從而顯著提高訓(xùn)練效率。
  • k1.5采用在線鏡像下降算法的變體進(jìn)行策略優(yōu)化,通過采樣策略、長度懲罰和數(shù)據(jù)配方優(yōu)化,進(jìn)一步提升模型性能。長度懲罰機制通過限制模型生成過長的推理過程,提高推理效率,同時避免“過度思考”問題。此外,模型還采用了curriculum sampling和 prioritized sampling 策略,優(yōu)先訓(xùn)練模型在困難問題上的表現(xiàn)。

4、Long2short

Long-CoT模型表現(xiàn)出色,但在測試時消耗的token數(shù)量比Short-CoT更多。有沒可能將Long-CoT推理模型的思維先驗轉(zhuǎn)移到Short-CoT推理模型中,從而即使在測試時的token預(yù)算有限的情況下,也能提升性能,答案是肯定,k1.5嘗試了以下方法:

  • 模型融合(Model Merging):通過平均權(quán)重合并Long-CoT 和Short-CoT 模型。?
  • 最短拒絕采樣(Shortest Rejection Sampling):從多次采樣中選擇最短的正確答案。?
  • 直接偏好優(yōu)化(DPO):通過正負(fù)樣本對訓(xùn)練Short-CoT 模型。?
  • Long2Short RL 訓(xùn)練:通過 RL 進(jìn)一步優(yōu)化Short-CoT 模型的性能。

Kimi思考模型k1.5是怎么練成的?細(xì)節(jié)曝光-AI.x社區(qū)

本文轉(zhuǎn)載自?? PaperAgent??,作者: PaperAgent


標(biāo)簽
已于2025-1-24 10:11:05修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦