自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="uvefy"><p id="uvefy"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

發(fā)布于 2025-3-4 09:50

瀏覽

0收藏

有不少研究證明，大模型在不斷增加參數(shù)的情況下，其性能提升卻逐漸趨于飽和，特別是在受限的數(shù)據(jù)可用性和計(jì)算資源預(yù)算下，這種情況非常明顯。

為了解決這一難題，中國(guó)科學(xué)院信息工程研究所、百度、北京師范大學(xué)AI學(xué)院的研究人員聯(lián)合提出了Inner Thinking Transformer架構(gòu)（簡(jiǎn)稱(chēng)ITT），通過(guò)動(dòng)態(tài)分配計(jì)算資源給單個(gè)標(biāo)記，增強(qiáng)了測(cè)試性能而無(wú)需增加參數(shù)。

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理-AI.x社區(qū)

ITT 的設(shè)計(jì)基于一個(gè)關(guān)鍵假設(shè)：Transformer 的每一層可以被視為對(duì)輸入信息的一次隱式推理。研究人員提出將單個(gè)token的生成過(guò)程分解為多個(gè)內(nèi)部思考步驟，模型從初始狀態(tài)開(kāi)始，通過(guò)一系列的思考步驟逐步更新隱藏狀態(tài)，最終生成輸出token。

這種設(shè)計(jì)允許模型在遇到復(fù)雜推理任務(wù)時(shí)，通過(guò)增加思考步驟來(lái)提升性能，而無(wú)需擴(kuò)展模型的參數(shù)規(guī)模。

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理-AI.x社區(qū)

為了實(shí)現(xiàn)這一目標(biāo)，ITT 引入了 Residual Thinking Connection (RTC) 機(jī)制。RTC 的作用是通過(guò)迭代累積每個(gè)思考步驟的輸出，逐步細(xì)化token的表示。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)相比，RTC 不僅能夠?qū)崿F(xiàn)深度思考，還能通過(guò)學(xué)習(xí)每個(gè)步驟的重要性編碼來(lái)衡量和整合不同思考步驟的結(jié)果。這種機(jī)制使得模型能夠在訓(xùn)練過(guò)程中逐步優(yōu)化思考過(guò)程，并在推理時(shí)根據(jù)需要?jiǎng)討B(tài)調(diào)整思考步驟的數(shù)量。

為了進(jìn)一步提升計(jì)算效率，ITT 引入了 Adaptive Token Routing (ATR) 機(jī)制。ATR 的核心思想是動(dòng)態(tài)選擇需要進(jìn)一步思考的關(guān)鍵token，避免對(duì)所有token進(jìn)行不必要的深度處理。模型通過(guò)一個(gè)路由網(wǎng)絡(luò)為每個(gè)token分配一個(gè)權(quán)重，權(quán)重較高的token會(huì)被選中進(jìn)行額外的思考步驟。這種選擇性處理不僅減少了計(jì)算開(kāi)銷(xiāo)，還能使模型更加專(zhuān)注于對(duì)任務(wù)至關(guān)重要的信息。

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理-AI.x社區(qū)

在訓(xùn)練過(guò)程中，路由網(wǎng)絡(luò)會(huì)根據(jù)當(dāng)前token的表示和思考步驟的編碼來(lái)決定是否對(duì)其進(jìn)行進(jìn)一步處理，使得模型能夠在訓(xùn)練時(shí)學(xué)習(xí)到最優(yōu)的思考模式，并在推理時(shí)根據(jù)需要靈活調(diào)整計(jì)算資源的分配。通過(guò)這種方式，ITT 實(shí)現(xiàn)了在不增加模型參數(shù)的情況下，對(duì)關(guān)鍵token進(jìn)行深度處理的目標(biāo)。

除了動(dòng)態(tài)思考步驟和計(jì)算資源分配，ITT 還引入了 Thinking Step Encoding 機(jī)制。該機(jī)制通過(guò)為每個(gè)思考步驟分配一個(gè)獨(dú)特的編碼，幫助模型區(qū)分不同的思考階段。這種編碼不僅能夠衡量每個(gè)步驟的重要性，還能指導(dǎo)模型如何將不同步驟的結(jié)果進(jìn)行整合。

在優(yōu)化過(guò)程中，ITT 的設(shè)計(jì)使得模型能夠通過(guò)多步優(yōu)化來(lái)替代傳統(tǒng)的單步優(yōu)化。每個(gè)思考步驟的參數(shù)更新是基于全局損失的梯度乘以局部映射的導(dǎo)數(shù)。這種設(shè)計(jì)使得模型在反向傳播時(shí)能夠更穩(wěn)定地收斂，并避免了梯度消失或爆炸的問(wèn)題。通過(guò)這種方式，ITT 實(shí)現(xiàn)了在不增加模型參數(shù)的情況下，通過(guò)動(dòng)態(tài)擴(kuò)展思考步驟來(lái)提升模型的推理能力和性能。

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理-AI.x社區(qū)

為了測(cè)試ITT性能，研究人員使用了 RedPajama 數(shù)據(jù)集，這是一個(gè)包含 500 億訓(xùn)練標(biāo)記和 200 萬(wàn)驗(yàn)證標(biāo)記的多領(lǐng)域數(shù)據(jù)集。模型訓(xùn)練基于 Sheared-LLaMA 代碼框架，在 8 個(gè) NVIDIA A100 GPU 上進(jìn)行，序列長(zhǎng)度為 4096，全局批量大小為 256。

實(shí)驗(yàn)結(jié)果顯示，ITT 在不同參數(shù)規(guī)模（162M、230M和 466M 參數(shù)）的模型上均顯著優(yōu)于基線(xiàn)Transformer 和 Loop 模型。

例如，在 162M 參數(shù)規(guī)模下，ITT ×4 模型通過(guò)在 50% 的層中進(jìn)行 4 步思考，相比基線(xiàn)模型提升了 1.7% 的性能，而 Loop 模型僅提升了 0.3%。這種性能提升在更大規(guī)模的模型中也得到了體現(xiàn)，表明 ITT 的設(shè)計(jì)能夠有效擴(kuò)展到不同規(guī)模的模型。

中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理-AI.x社區(qū)

ITT 的另一個(gè)顯著優(yōu)勢(shì)是其數(shù)據(jù)效率。在訓(xùn)練過(guò)程中，ITT只需使用基線(xiàn)模型 56.8% 的數(shù)據(jù)量，即可達(dá)到與基線(xiàn)模型相同的性能水平。這一結(jié)果表明，ITT 通過(guò)動(dòng)態(tài)思考步驟和計(jì)算資源分配，能夠更高效地利用訓(xùn)練數(shù)據(jù)，減少對(duì)大規(guī)模數(shù)據(jù)集的依賴(lài)

論文地址：https://arxiv.org/abs/2502.11089

本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ，作者：AIGC開(kāi)放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/e1LTA9ZdB8iSrO6Vil2DOA??

標(biāo)簽

已于2025-3-4 09:51:03修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

阿里、百度雙雙出手，大模型長(zhǎng)文本時(shí)代終于到來(lái)？

mb5f8eba9bdb0af ? 2853瀏覽 ? 0回復(fù)
2024年的百度大模型，離「錢(qián)」越來(lái)越近

liutao988 ? 2586瀏覽 ? 0回復(fù)
文生視頻時(shí)代已到，百度、訊飛、字節(jié)誰(shuí)能率先做出“國(guó)產(chǎn)Sora”？

liutao988 ? 2373瀏覽 ? 0回復(fù)
中科院等：8項(xiàng)測(cè)試第一，遠(yuǎn)超知乎豆瓣小紅書(shū)

Crystalcxt ? 3677瀏覽 ? 0回復(fù)
全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院

Crystalcxt ? 2610瀏覽 ? 0回復(fù)
考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架

Crystalcxt ? 2408瀏覽 ? 0回復(fù)
百度內(nèi)容生態(tài)視頻AIGC新探索

51CTO技術(shù)棧 ? 2675瀏覽 ? 0回復(fù)
百度CEO李彥宏就當(dāng)前業(yè)界對(duì)大模型的認(rèn)知誤區(qū)發(fā)表了自己的看法

InfonityAI智推星 ? 2046瀏覽 ? 0回復(fù)
從谷歌、微軟、百度，到Perplexity、Kimi、秘塔，大模型真的“搭”上了搜索的快車(chē)嗎？

51CTO技術(shù)棧 ? 2115瀏覽 ? 0回復(fù)
李彥宏的野心：百度不造“超級(jí)應(yīng)用” ！百度亮出4款產(chǎn)品新形態(tài)：多智能體“秒噠”、多模態(tài)iRAG、AI眼鏡

51CTO技術(shù)棧 ? 2078瀏覽 ? 0回復(fù)
突破算力限制！Meta開(kāi)源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 1990瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 2968瀏覽 ? 0回復(fù)
李彥宏最新財(cái)報(bào)會(huì)議內(nèi)容流出：百度從DeepSeek身上學(xué)到了一件事；調(diào)用量漲30倍百度AI搜索的打法

51CTO技術(shù)棧 ? 1974瀏覽 ? 0回復(fù)
DeepSeek沖擊下，百度的開(kāi)源牌能打響嗎？

51CTO技術(shù)棧 ? 1598瀏覽 ? 0回復(fù)
谷歌提出Titans：突破算力限制，擴(kuò)展上下文

Aceryt ? 1595瀏覽 ? 0回復(fù)
接入 Deepseek 能讓百度文庫(kù)煥發(fā)第二春?jiǎn)幔?/a>

老蛀蟲(chóng) ? 1534瀏覽 ? 0回復(fù)
百度 ERNIE 4.5 & X1：又是一個(gè)性?xún)r(jià)比超高的多模態(tài)模型來(lái)襲！

Halo咯咯 ? 1898瀏覽 ? 0回復(fù)
百度秒噠今日全量上線(xiàn)！3分鐘一個(gè)應(yīng)用！百度自家的修車(chē)大爺現(xiàn)身講述自己用秒噠上線(xiàn)了修車(chē)預(yù)約系統(tǒng)！

51CTO技術(shù)棧 ? 1193瀏覽 ? 0回復(fù)
地圖服務(wù)新風(fēng)向：百度、高德、騰訊紛紛加碼 MCP Server

AIGC新知 ? 1145瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦 6天前發(fā)布
字節(jié)跳動(dòng)開(kāi)源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門(mén)推薦

微軟開(kāi)源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險(xiǎn)降50% 0回復(fù)

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：微軟提出AutoGen Studio，用低代碼方式開(kāi)發(fā)智能體

下一篇：剛剛，OpenAI發(fā)布NextGenAI，徹底顛覆傳統(tǒng)教育

社區(qū)精華內(nèi)容

目錄