解密o1推理過程!DeepSeek-R1-Lite預(yù)覽版上線
GPT-o1通過強化學習訓(xùn)練優(yōu)化決策策略,并模擬人類思維鏈以深入理解問題,提供更準確的答案,在多個推理任務(wù)相關(guān)的榜單上實現(xiàn)了巨大的突破。而o1的思維過程是隱藏的?;梅狡煜聡a(chǎn)大模型公司DeepSeek近期預(yù)發(fā)布了R1模型,使用了強化學習訓(xùn)練,回復(fù)里包含大量反思和驗證,思維鏈長度可達數(shù)萬字,并且沒有像o1一樣隱藏思維鏈。
Demo: ???https://chat.deepseek.com???
[模型和技術(shù)報告將會開源]
DeepSeek R1
DeepSeek R1 系列模型采用強化學習進行訓(xùn)練,具備深度反思和驗證能力,能夠構(gòu)建長達數(shù)萬字的思維鏈。在數(shù)學、編程和復(fù)雜邏輯推理等任務(wù)上,該系列模型展現(xiàn)出與o1-preview相媲美的推理能力,同時向用戶展示了o1未公開的完整思考路徑。
DeepSeek-R1-Lite預(yù)覽版在包括美國數(shù)學競賽(AMC)中最具挑戰(zhàn)性的AIME以及全球頂尖編程競賽(Codeforces)在內(nèi)的多個權(quán)威評測中表現(xiàn)突出,成績顯著優(yōu)于GPT-4o等知名模型。以下是DeepSeek-R1-Lite在這些評測中的得分情況:
DeepSeek-R1-Lite的推理過程不僅長,還涵蓋了廣泛的反思和驗證步驟。下面的圖表清晰地展示了該模型在數(shù)學競賽中的得分與其允許的思考長度之間存在密切的正相關(guān)關(guān)系。
紅色實線展示了模型所能達到的準確率與所給定的推理長度呈正相關(guān);相比傳統(tǒng)的多次采樣+投票,增加模型思維鏈長度似乎性價比更高。
正式版 DeepSeek-R1 模型將完全開源,技術(shù)報告也會公開。
思維鏈效果展示:
本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學 作者:思源Source
