自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揭示顯式CoT訓(xùn)練機(jī)制:思維鏈如何增強(qiáng)推理泛化能力

人工智能 新聞
本文通過在受控和可解釋的環(huán)境中展示系統(tǒng)性組合泛化如何通過顯式思維鏈(CoT)訓(xùn)練在 Transformer 中產(chǎn)生,揭示了思維鏈訓(xùn)練的核心機(jī)制。

基于逐步生成解決方案的大語言模型(LLMs)訓(xùn)練范式在人工智能領(lǐng)域獲得了廣泛關(guān)注,并已發(fā)展成為行業(yè)內(nèi)的主流方法之一。

例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了針對(duì) O1 模型的強(qiáng)化微調(diào)(Reinforcement Fine-Tuning,RFT),進(jìn)一步推動(dòng)了 AI 定制化的發(fā)展[1]。RFT/ReFT[2] 的一個(gè)關(guān)鍵組成部分是使用思維鏈(Chain-of-Thought,CoT)注釋[3] 進(jìn)行監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)。在 DeepSeek-R1 模型[4] 中,引入了少量長(zhǎng) CoT 冷啟動(dòng)數(shù)據(jù),以調(diào)整模型作為初始強(qiáng)化學(xué)習(xí)的代理。

然而,為了全面理解采用 CoT 訓(xùn)練的策略,需要解決兩個(gè)關(guān)鍵問題:

  • Q1:與無 CoT 訓(xùn)練相比,采用 CoT 訓(xùn)練有哪些優(yōu)勢(shì)?
  • Q2:如果存在優(yōu)勢(shì),顯式 CoT 訓(xùn)練的潛在機(jī)制是什么?

由于實(shí)際訓(xùn)練過程中涉及眾多因素,分析顯式 CoT 訓(xùn)練的優(yōu)勢(shì)及其潛在機(jī)制面臨顯著挑戰(zhàn)。為此,我們利用清晰且可控的數(shù)據(jù)分布進(jìn)行了詳細(xì)分析,并揭示了以下有趣現(xiàn)象:

  • CoT 訓(xùn)練的優(yōu)勢(shì)

(i)與無 CoT 訓(xùn)練相比,CoT 訓(xùn)練顯著增強(qiáng)了推理泛化能力,將其從僅適用于分布內(nèi)(in-distribution, ID)場(chǎng)景擴(kuò)展到 ID 和分布外(out-of-distribution, OOD)場(chǎng)景(表明系統(tǒng)性泛化),同時(shí)加速了收斂速度(圖 1)。

圖片

圖表 1: 模型在優(yōu)化過程中對(duì)訓(xùn)練和測(cè)試兩跳推理事實(shí)的準(zhǔn)確率。

(ii)即使 CoT 訓(xùn)練中包含一定范圍的錯(cuò)誤推理步驟,它仍能使模型學(xué)習(xí)推理模式,從而實(shí)現(xiàn)系統(tǒng)性泛化(圖 4 和圖 5)。這表明數(shù)據(jù)質(zhì)量比方法本身更為重要。訓(xùn)練的主要瓶頸在于收集復(fù)雜的長(zhǎng) CoT 解決方案,而推理步驟中存在少量的錯(cuò)誤是可以接受的。

  • CoT 訓(xùn)練的內(nèi)部機(jī)制

(i)數(shù)據(jù)分布的關(guān)鍵因素(如比例 λ 和模式 pattern)在形成模型的系統(tǒng)性泛化中起著決定性作用。換句話說,在 CoT 訓(xùn)練中僅接觸過兩跳數(shù)據(jù)的模型無法直接泛化到三跳情況,它需要接觸過相關(guān)模式。

(ii)通過 logit lens 和 causal tracing 實(shí)驗(yàn),我們發(fā)現(xiàn) CoT 訓(xùn)練(基于兩跳事實(shí))將推理步驟內(nèi)化到模型中,形成一個(gè)兩階段的泛化電路。推理電路的階段數(shù)量與訓(xùn)練過程中顯式推理步驟的數(shù)量相匹配。

我們進(jìn)一步將分析擴(kuò)展到推理過程中存在錯(cuò)誤的訓(xùn)練數(shù)據(jù)分布,并驗(yàn)證了這些見解在現(xiàn)實(shí)數(shù)據(jù)上對(duì)更復(fù)雜架構(gòu)仍然有效。

據(jù)我們所知,我們的研究首次在可控制的實(shí)驗(yàn)中探索了 CoT 訓(xùn)練的優(yōu)勢(shì),并提供了基于電路的 CoT 訓(xùn)練機(jī)制解釋。這些發(fā)現(xiàn)為 CoT 以及 LLMs 實(shí)現(xiàn)穩(wěn)健泛化的調(diào)優(yōu)策略提供了寶貴的見解。

圖片

  • 論文標(biāo)題:Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
  • 論文鏈接:https://arxiv.org/abs/2502.04667

一、預(yù)備知識(shí)與定義

本部分介紹研究使用的符號(hào)定義,具體如下:

原子與多跳事實(shí):研究使用三元組圖片來表示原子(一跳)事實(shí),并基于原子事實(shí)和連接規(guī)則來表示兩跳事實(shí)以及多跳事實(shí)。

圖片

訓(xùn)練數(shù)據(jù):研究使用的訓(xùn)練數(shù)據(jù)包括所有的原子(一跳)事實(shí)(即圖片),以及分布內(nèi)(ID)的兩跳事實(shí)(即圖片)。其中記 | 兩跳事實(shí) |:| 原子事實(shí) |= λ。

圖片

訓(xùn)練方式:對(duì)于原子(一跳)事實(shí),模型的訓(xùn)練和評(píng)估通過預(yù)測(cè)最終尾實(shí)體來完成。對(duì)于兩跳事實(shí),考慮是否使用 CoT 注釋進(jìn)行訓(xùn)練。

(1) Training without CoT:模型輸入圖片 ,預(yù)測(cè)目標(biāo)只有最終尾實(shí)體圖片 ;

(2) Training with CoT:模型輸入圖片 ,預(yù)測(cè)橋接實(shí)體圖片和最終尾實(shí)體圖片

圖片

評(píng)估:為更好地評(píng)估模型的泛化能力,我們從分布內(nèi)(ID)和分布外(OOD)兩個(gè)維度進(jìn)行性能評(píng)估。

(1)分布內(nèi)泛化旨在通過評(píng)估模型完成未見過的兩跳事實(shí)圖片的能力,判斷模型是否正確學(xué)習(xí)了潛在模式。

(2)分布外泛化則用于評(píng)估模型獲得的系統(tǒng)性能力,即模型將學(xué)習(xí)到的模式應(yīng)用于不同分布知識(shí)的能力,這是通過在圖片事實(shí)上測(cè)試模型來實(shí)現(xiàn)的。若模型在分布內(nèi)數(shù)據(jù)上表現(xiàn)良好,可能僅表明其記憶或?qū)W習(xí)了訓(xùn)練數(shù)據(jù)中的模式。然而,在分布外數(shù)據(jù)上的優(yōu)異表現(xiàn)則表明模型確實(shí)掌握了潛在模式,因?yàn)橛?xùn)練集僅包含原子事實(shí)圖片,而不包含圖片

二、系統(tǒng)性組合泛化

本研究聚焦于模型的組合能力,即模型需要將不同事實(shí)片段「串聯(lián)」起來的能力。盡管顯式的推理步驟表述(如思維鏈推理)能夠提升任務(wù)表現(xiàn) [4-8],但這些方法在大規(guī)模(預(yù))訓(xùn)練階段并不可行,而該階段正是模型核心能力形成的關(guān)鍵時(shí)期 [9-10]。已有研究對(duì)基于 Transformer 的語言模型是否能夠執(zhí)行隱式組合進(jìn)行了廣泛探討,但均得出了否定結(jié)論 [11-12]。

具體而言,存在顯著的「組合性鴻溝」[11],即模型雖然掌握了所有基礎(chǔ)事實(shí)卻無法進(jìn)行有效組合的情況,這種現(xiàn)象在不同大語言模型中普遍存在,且不會(huì)隨模型規(guī)模擴(kuò)大而減弱。

更準(zhǔn)確地說,Wang 等人 [13] 的研究表明,Transformer 模型能夠在同分布泛化中學(xué)習(xí)隱式推理,但在跨分布泛化中則表現(xiàn)欠佳(如圖 1 左所示)。

這自然引出一個(gè)問題:如果在訓(xùn)練過程中使用顯式推理步驟,模型的泛化能力將受到何種影響?(即回答 Q1:與無思維鏈訓(xùn)練相比,基于思維鏈的訓(xùn)練具有哪些優(yōu)勢(shì)?)

思維鏈訓(xùn)練顯著提升推理泛化能力

如圖 1 所示,我們展示了模型在訓(xùn)練和測(cè)試兩跳事實(shí)上的準(zhǔn)確率隨優(yōu)化過程的變化,其中 λ = 7.2。

(1)Training without CoT(圖 1 左)。我們觀察到了與 Wang 等人 [13] 相同的現(xiàn)象(稱為頓悟現(xiàn)象 [14]),即模型能夠較好地泛化到分布內(nèi)測(cè)試樣本圖片,但高性能只有在經(jīng)過大量訓(xùn)練后才能實(shí)現(xiàn),遠(yuǎn)超過過擬合點(diǎn)。此外,即使經(jīng)過數(shù)百萬次優(yōu)化步驟的訓(xùn)練,仍未觀察到分布外泛化(圖片)的跡象,這表明這是一種缺乏系統(tǒng)性的延遲泛化現(xiàn)象。模型可能只是記憶或?qū)W習(xí)了訓(xùn)練數(shù)據(jù)中的模式。

(2)Training with CoT(圖 1 右)。使用思維鏈標(biāo)注后,模型在訓(xùn)練集上的收斂速度加快,且在訓(xùn)練過程中更早地實(shí)現(xiàn)了較高的測(cè)試性能,特別是在分布內(nèi)測(cè)試樣本上。模型在大約 4,000 次優(yōu)化步驟后,在同分布測(cè)試集圖片上的準(zhǔn)確率就達(dá)到了接近完美的水平,表明與無思維鏈訓(xùn)練相比,泛化能力得到了顯著提升。分布外泛化(圖片)也顯示出明顯改善,這突出表明思維鏈提示訓(xùn)練不僅在分布內(nèi)泛化方面,而且在分布外泛化方面都發(fā)揮著關(guān)鍵作用,盡管效果程度有所不同。

圖片

關(guān)鍵影響因素探究

研究進(jìn)一步開展了消融實(shí)驗(yàn),以評(píng)估不同因素在思維鏈訓(xùn)練中的影響。

圖片

圖表 2: 分布外測(cè)試集上的推理泛化速度。

適當(dāng)?shù)?λ 值能夠加速模型收斂。圖 2(左)展示了不同 λ 值下的分布外測(cè)試準(zhǔn)確率??梢钥闯?,λ 值與泛化速度存在強(qiáng)相關(guān)性。更有趣的是,較小的 λ 值能夠加速由思維鏈訓(xùn)練帶來的分布外泛化能力提升,從而減少對(duì)長(zhǎng)時(shí)間訓(xùn)練的需求。然而,λ 值并非越小越好,因?yàn)檫^小的 λ 值可能導(dǎo)致模型無法學(xué)習(xí)相關(guān)規(guī)則。

不同模型規(guī)模 / 層數(shù)和訓(xùn)練集大小的影響。我們?cè)谀P蛯訑?shù)∈{2,4,8} 和 λ∈{3.6,7.2,12.6} 的條件下進(jìn)行實(shí)驗(yàn)??傮w而言,可以觀察到擴(kuò)大模型規(guī)模并不會(huì)從根本上改變其泛化行為,主要趨勢(shì)是較大的模型能夠在更少的優(yōu)化步驟中收斂。關(guān)于訓(xùn)練集大?。▅E|)的影響,我們的結(jié)果與 [13] 一致:當(dāng)固定 λ 值時(shí),訓(xùn)練集大小不會(huì)對(duì)模型的泛化能力產(chǎn)生本質(zhì)影響。

兩跳到多跳分析

在本部分中,研究將重點(diǎn)轉(zhuǎn)向多跳場(chǎng)景:在思維鏈訓(xùn)練階段僅接觸過兩跳事實(shí)的模型,能否泛化到三跳事實(shí)?

在思維鏈訓(xùn)練中,我們僅使用單跳 / 兩跳事實(shí),并測(cè)試模型是否能夠泛化到三跳事實(shí)的推理(這里研究使用圖片來表示三跳事實(shí))。

結(jié)果:在思維鏈訓(xùn)練中僅接觸過兩跳數(shù)據(jù)的模型無法直接泛化到三跳場(chǎng)景。然而,當(dāng)訓(xùn)練集中加入一定量的三跳數(shù)據(jù)后,模型能夠快速實(shí)現(xiàn)泛化(前提是模型需要接觸過相關(guān)模式)。另一方面,當(dāng)我們?nèi)藶榈貙⒁粋€(gè)三跳事實(shí)拆分為兩個(gè)兩跳事實(shí)進(jìn)行測(cè)試時(shí),模型也能夠有效泛化。換句話說,我們分別測(cè)試圖片 預(yù)測(cè)圖片圖片預(yù)測(cè)圖片,當(dāng)兩者都正確時(shí),我們認(rèn)為圖片預(yù)測(cè)圖片是正確的。這些發(fā)現(xiàn)與 [15] 結(jié)果一致:思維鏈與重現(xiàn)訓(xùn)練集中出現(xiàn)的推理模式有關(guān)。

圖片

總結(jié):至此,我們已經(jīng)證明在受控實(shí)驗(yàn)中引入顯式思維鏈訓(xùn)練能夠顯著提升推理泛化能力,使其從僅限分布內(nèi)泛化擴(kuò)展到同時(shí)涵蓋分布內(nèi)和分布外泛化。數(shù)據(jù)分布的關(guān)鍵因素(如比例和模式)在形成模型的系統(tǒng)性泛化能力中起著重要作用。然而,驅(qū)動(dòng)這些改進(jìn)的內(nèi)部機(jī)制仍不明確,我們將進(jìn)一步探討(回答 Q2:如果存在優(yōu)勢(shì),顯式思維鏈訓(xùn)練的潛在機(jī)制是什么?)。

圖片

圖表 3: 兩跳事實(shí)訓(xùn)練對(duì)應(yīng)的兩階段泛化電路(模型層數(shù):8)。

三、兩階段泛化電路

研究通過兩種主流方法分析模型在泛化過程中的內(nèi)部工作機(jī)制:logit lens [16] 和 causal tracing [17],本部分研究使用圖片表示兩跳推理。

圖 3 展示了發(fā)現(xiàn)的泛化電路,該電路代表了 8 層模型在實(shí)現(xiàn)兩跳分布外(OOD)泛化后的因果計(jì)算路徑。具體而言,我們識(shí)別出一個(gè)高度可解釋的因果圖,該圖由第 0 層、第 l 層和第 8 層的狀態(tài)組成,其中弱節(jié)點(diǎn)和連接已被剪枝(If perturbing a node does not alter the target state (top-1 token through the logit lens), we prune the node)。

(1)在第一跳階段,第 l 層將電路分為上下兩部分:下部從輸入圖片中檢索第一跳事實(shí),并將橋接實(shí)體圖片存儲(chǔ)在狀態(tài)圖片中;上部通過殘差連接將的信息傳遞到輸出狀態(tài)(其中圖片表示對(duì)應(yīng)位置的激活)。由于數(shù)據(jù)分布可控,l 層可以精確定位(對(duì)于 ID 為第 3 層,對(duì)于 OOD 為第 5 層)。

(2)在第二跳階段,自回歸模型使用第一跳階段生成的圖片。該階段省略了圖片,并從輸入圖片處理第二跳,將尾實(shí)體圖片存儲(chǔ)到輸出狀態(tài)圖片中。

圖片

系統(tǒng)性泛化解釋

(1)兩階段泛化電路表明,使用思維鏈訓(xùn)練可以將推理步驟內(nèi)化到模型中。這也解釋了為什么模型在思維鏈訓(xùn)練下能夠在跨分布測(cè)試數(shù)據(jù)上表現(xiàn)出良好的泛化能力。

(2)該電路由兩個(gè)階段組成,與訓(xùn)練期間模型中的顯式推理步驟相一致。因此,模型在思維鏈訓(xùn)練期間僅接觸兩跳數(shù)據(jù)時(shí)無法在測(cè)試階段直接泛化到三跳場(chǎng)景。

四、更普適的分析

總體而言,我們目前的研究為通過受控?cái)?shù)據(jù)分布上的思維鏈訓(xùn)練來深入理解和增強(qiáng) Transformer 的泛化能力鋪平了道路。然而,現(xiàn)實(shí)世界中的訓(xùn)練數(shù)據(jù)分布往往更為復(fù)雜。在本部分中,我們將分析擴(kuò)展到推理過程中存在錯(cuò)誤的分布,并展示思維鏈訓(xùn)練能提高模型的泛化能力的結(jié)論在更復(fù)雜的場(chǎng)景中仍然成立。

數(shù)據(jù)分布帶噪

方法:我們旨在分析通過思維鏈訓(xùn)練獲得的系統(tǒng)性泛化能力在噪聲訓(xùn)練數(shù)據(jù)下的魯棒性。我們通過隨機(jī)選擇一個(gè)有效實(shí)體向圖片引入噪聲(真實(shí)訓(xùn)練目標(biāo)為圖片):

(1)僅第二跳有噪聲,即圖片;

(2)兩跳均有噪聲,即圖片

需要注意的是,噪聲比例用 ξ 表示,我們將探討不同 ξ 值的影響。

圖片

圖表 4: 僅第二跳噪聲對(duì)分布內(nèi)和分布外的影響。

圖片

圖表 5: 模型在不同噪聲比例(兩跳均有噪聲)下對(duì)訓(xùn)練和測(cè)試兩跳推理事實(shí)的準(zhǔn)確率。

結(jié)果:我們針對(duì)兩種情況分析了不同的 ξ(噪聲比例)候選集:僅第二跳有噪聲時(shí)為 {0.05, 0.2, 0.4, 0.6, 0.8},兩跳均有噪聲時(shí)為 {0.05, 0.1, 0.2, 0.4}。比較結(jié)果如下:

(1)圖 4 清晰地展示了僅第二跳噪聲對(duì)分布內(nèi)和分布外泛化的影響??傮w而言,在思維鏈訓(xùn)練條件下,模型仍能夠從噪聲訓(xùn)練數(shù)據(jù)中實(shí)現(xiàn)系統(tǒng)性泛化,但其泛化能力隨著噪聲比例的增加而降低。

更具體地說,隨著訓(xùn)練的進(jìn)行,分布外泛化最初保持不變,然后增加,而分布內(nèi)泛化先增加后減少。分布內(nèi)泛化的減少與分布外泛化的增加相對(duì)應(yīng)。

然而,隨著噪聲比例的增加,分布內(nèi)和分布外泛化的最終性能都會(huì)下降。特別是當(dāng)噪聲比例(ξ < 0.2)相對(duì)較小時(shí),模型幾乎不受影響,這展示了思維鏈訓(xùn)練的魯棒性。

此外,我們同樣檢查了泛化電路。由于我們僅在第二跳添加噪聲,第一跳階段的電路學(xué)習(xí)得相對(duì)較好,而第二跳階段的電路受噪聲影響更大。

(2)圖 5 展示了在兩跳噪聲 ξ 值為 0.05、0.1、0.2 和 0.4 時(shí)的結(jié)果比較。與僅在第二跳添加噪聲相比,在兩跳都添加噪聲對(duì)模型泛化的抑制效果要強(qiáng)得多。大于 0.2 的噪聲比例足以幾乎消除分布內(nèi)和分布外泛化能力。

總而言之,即使在訓(xùn)練數(shù)據(jù)存在噪聲的情況下,當(dāng)噪聲在一定范圍內(nèi)時(shí),思維鏈訓(xùn)練仍能使模型實(shí)現(xiàn)系統(tǒng)性泛化。特別是當(dāng)噪聲比例較小時(shí),這些噪聲數(shù)據(jù)仍能幫助模型學(xué)習(xí)泛化電路。

圖片

五、討論

總結(jié)

本文通過在受控和可解釋的環(huán)境中展示系統(tǒng)性組合泛化如何通過顯式思維鏈(CoT)訓(xùn)練在 Transformer 中產(chǎn)生,揭示了思維鏈訓(xùn)練的核心機(jī)制。具體而言:

(1)與無思維鏈訓(xùn)練相比,思維鏈訓(xùn)練顯著增強(qiáng)了推理泛化能力,使其從僅限分布內(nèi)(ID)泛化擴(kuò)展到同時(shí)涵蓋分布內(nèi)和分布外(OOD)場(chǎng)景。

(2)通過 logit lens 和 causal tracing 實(shí)驗(yàn),我們發(fā)現(xiàn)思維鏈訓(xùn)練(使用兩跳事實(shí))將推理步驟內(nèi)化到 Transformer 中,形成了一個(gè)兩階段泛化電路。然而,模型的推理能力受訓(xùn)練數(shù)據(jù)復(fù)雜性的限制,因?yàn)樗y以從兩跳情況泛化到三跳情況。這表明思維鏈推理主要是重現(xiàn)了訓(xùn)練集中存在的推理模式。

(3)我們進(jìn)一步將分析擴(kuò)展到推理過程中存在錯(cuò)誤的訓(xùn)練數(shù)據(jù)分布,證明當(dāng)噪聲保持在一定范圍內(nèi)時(shí),思維鏈訓(xùn)練仍能使模型實(shí)現(xiàn)系統(tǒng)性泛化,此類噪聲數(shù)據(jù)的結(jié)構(gòu)或許有助于泛化電路的形成。

有趣的是,我們的工作還突出了思維鏈訓(xùn)練的瓶頸:訓(xùn)練數(shù)據(jù)分布(比例 λ 和模式)在引導(dǎo)模型實(shí)現(xiàn)泛化電路方面起著關(guān)鍵作用。模型需要在訓(xùn)練過程中接觸過相關(guān)模式(特別是思維鏈步驟的數(shù)量)。

這可能解釋了為什么 DeepSeek-R1 [4] 在冷啟動(dòng)階段構(gòu)建和收集少量長(zhǎng)思維鏈數(shù)據(jù)來微調(diào)模型。我們的發(fā)現(xiàn)為調(diào)整大語言模型(LLMs)以實(shí)現(xiàn)穩(wěn)健泛化的策略提供了關(guān)鍵見解。

不足與未來展望

(1)盡管我們的自下而上的研究為實(shí)際應(yīng)用提供了寶貴的見解,但我們工作的一個(gè)關(guān)鍵局限是實(shí)驗(yàn)和分析基于合成數(shù)據(jù),這可能無法完全捕捉現(xiàn)實(shí)世界數(shù)據(jù)集和任務(wù)的復(fù)雜性。雖然我們的一些結(jié)論也在 Llama2-7B [18] 等模型中得到了驗(yàn)證,但有必要在更廣泛的模型上進(jìn)行進(jìn)一步驗(yàn)證,以彌合我們的理論理解與實(shí)際應(yīng)用之間的差距。

(2)我們的分析目前僅限于使用自然語言。未來,我們旨在探索大型語言模型在無限制潛在空間中的推理潛力,特別是通過訓(xùn)練大型語言模型在連續(xù)潛在空間中進(jìn)行推理 [19] 等方法。

(3)最近的一種方法,「backward lens」[20],將語言模型的梯度投影到詞匯空間,以捕捉反向信息流。這為我們完善思維鏈訓(xùn)練的潛在機(jī)制分析提供了一個(gè)新的視角。

作者介紹

劉勇,中國人民大學(xué),長(zhǎng)聘副教授,博士生導(dǎo)師,國家級(jí)高層次青年人才。長(zhǎng)期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,共發(fā)表論文 100 余篇,其中以第一作者 / 通訊作者發(fā)表頂級(jí)期刊和會(huì)議論文近 50 篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級(jí)會(huì)議 ICML、NeurIPS 等。獲中國人民大學(xué)「杰出學(xué)者」、中國科學(xué)院「青年創(chuàng)新促進(jìn)會(huì)」成員、中國科學(xué)院信息工程研究所「引進(jìn)優(yōu)青」等稱號(hào)。主持國家自然科學(xué)面上 / 基金青年、北京市面上項(xiàng)目、中科院基礎(chǔ)前沿科學(xué)研究計(jì)劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等項(xiàng)目。

姚鑫浩,中國人民大學(xué)高瓴人工智能學(xué)院博士研究生,本科畢業(yè)于中國人民大學(xué)高瓴人工智能學(xué)院。當(dāng)前主要研究方向包括大模型推理與機(jī)器學(xué)習(xí)理論。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-18 14:53:28

2025-01-13 01:00:00

數(shù)據(jù)訓(xùn)練AI

2024-11-11 11:05:00

大語言模型系統(tǒng)

2025-01-27 12:03:11

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-12-12 09:00:00

2023-06-01 17:06:49

模型思維

2024-11-12 13:40:00

2025-03-24 13:45:56

2024-04-11 11:35:03

大語言模型LLMs

2018-08-30 18:30:19

區(qū)塊鏈思維中心化

2018-08-03 10:25:53

區(qū)塊鏈大數(shù)據(jù)比特幣

2023-06-05 10:01:18

模型測(cè)評(píng)

2025-02-17 14:43:51

2024-12-19 09:48:07

2023-06-04 13:29:24

OpenAI員工UC

2025-02-07 16:07:39

2025-03-05 04:00:00

2024-10-11 13:30:00

2023-08-25 13:18:35

思維訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)