自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

微軟開源 Phi-4 推理模型：啰嗦AI，反卷出圈

作者：文摘菌 2025-05-08 16:45:32

最近，微軟研究院開源了一款“小而強”的研究：Phi-4-reasoning-plus。這是一款專為深度結構化推理任務設計的開源語言模型。

AI圈子最有意思的事，已經(jīng)不是“誰家模型參數(shù)最多”，而是——誰家小模型，能把大模型打趴下。

最近，微軟研究院開源了一款“小而強”的研究：Phi-4-reasoning-plus。這是一款專為深度結構化推理任務設計的開源語言模型。

14B參數(shù)，不到DeepSeek 70B的五分之一，但數(shù)學、科學、代碼、邏輯推理的表現(xiàn)，都比較能打。

在AIME 2025數(shù)學考試上，14B的小模型，第一次嘗試的全題正確率，居然干過了70B的精煉大塊頭，甚至快摸到DeepSeek 671B的腳后跟。

圖片

微軟團隊用一串“推理鏈”打破了常規(guī)，讓AI學會慢下來、啰嗦一點、反復琢磨、允許自己犯錯，主要體現(xiàn)在：

推理鏈（Chain-of-Thought）成為核心訓練目標。不是像傳統(tǒng)大模型那樣直接給出答案，而是專門訓練模型寫“推理過程”；在訓練數(shù)據(jù)和輸出里，強制要求模型用<think>...</think>標簽，把自己的思考、分步推理、反復驗證詳細寫出來。這種推理鏈往往很“啰嗦”：不是一句話解決問題，而是像人類一樣，細致分解、逐步排查。

鼓勵“慢思考”，獎勵啰嗦的推理過程。在RL（強化學習）階段，獎勵機制被專門設計成：答錯時鼓勵更長推理鏈，答對時鼓勵簡潔；只要模型沒答對，就鼓勵它“多想兩步”，推理過程可以更長、更詳細，甚至反復自我否定和修正。

結果？不僅答案對，思路也清晰。

圖片

技術報告里有個細節(jié)特別有意思：Phi-4-reasoning的推理鏈，不是越長越好，也不是越短越強，而是“剛剛好”地模擬了人類的“思考長度”。

RL階段的獎勵模式具體是：“答對了要簡潔，答錯了反而鼓勵多思考”，而有些任務，答題過程還會“自我否定”，甚至推翻重來。當然，不是所有領域都大幅提升，比如生物、化學、離散數(shù)學，AI也會“卡殼”。

Phi-4-reasoning-plus在SFT（有監(jiān)督微調）之后，還加了一層基于規(guī)則的強化學習，獎勵設計也很精妙：

答對了鼓勵簡潔（獎勵簡短推理）
答錯了反而鼓勵啰嗦（獎勵多想一步）
輸出格式不對、思路紊亂要扣分
重復語句有懲罰，鼓勵多樣性和探索

這和傳統(tǒng)RLHF（基于人類反饋強化學習）不同，Phi-4團隊用的是可自動驗證的數(shù)學題，獎勵函數(shù)直接和推理鏈長度、答案正確性掛鉤，模型被訓練成“有錯就多想、多寫，多步反省”。

圖注：Phi-4推理模型在跨領域基準測試中的表現(xiàn)

報告里的評測結果，Phi-4-reasoning和plus不僅在AIME、OmniMath、GPQA等數(shù)學/科學基準上干翻了體量更大的Distill-Llama-70B、DeepSeek-R1，甚至在算法（TSP/3SAT）、規(guī)劃（BA-Calendar）、代碼（LiveCodeBench）等新領域也展現(xiàn)了極強的“遷移力”,而這些領域，模型訓練時根本沒專門覆蓋。

這就是推理鏈帶來的元能力：模型不僅會解題，更會“怎么推理”，新題型也能舉一反三，遇到?jīng)]見過的難題也能慢慢推、反復試。對比傳統(tǒng)大模型“一步到位”的完美答案，這種“磨嘰”的AI反而更靠譜、更有韌性。

甚至在一些“非推理”任務，如長文本問答、指令遵循、毒性檢測等通用能力測試中，Phi-4-reasoning-plus也有顯著提升。歸根結底，讓AI學會慢思考、會自我檢視，比單純提升算力和知識面更可持續(xù)。

地址：https://huggingface.co/microsoft/Phi-4-reasoning

責任編輯：武曉燕來源：大數(shù)據(jù)文摘

開源 Phi-4 推理模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<center id="phlzh"></center>

<tr id="phlzh"><samp id="phlzh"></samp></tr>