自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌提出Titans:突破算力限制,擴(kuò)展上下文

發(fā)布于 2025-2-25 10:24
瀏覽
0收藏

谷歌研究院發(fā)布一項(xiàng)新的研究Titans。通過引入全新的神經(jīng)長期記憶模塊,三頭協(xié)同架構(gòu)與硬件優(yōu)化設(shè)計(jì)等模塊,在算力僅增加1.8倍的情況下,將大模型的上下文窗口擴(kuò)展至200萬token。


在語言建模、基因組分析、長時(shí)序預(yù)測等任務(wù)中全面超越現(xiàn)有Transformer及線性循環(huán)模型。

谷歌提出Titans:突破算力限制,擴(kuò)展上下文-AI.x社區(qū)

目前,以Transformer為核心的預(yù)訓(xùn)練大模型面臨一個(gè)悖論:依賴注意力機(jī)制精準(zhǔn)建模依賴關(guān)系,但受限于二次方計(jì)算復(fù)雜度,上下文窗口難以突破數(shù)萬token。即便是線性Transformer等改進(jìn)方案,也因?qū)v史信息壓縮為固定大小的矩陣或向量,導(dǎo)致長程記憶能力嚴(yán)重受限。


現(xiàn)有模型在長文檔理解、視頻分析、DNA序列建模等任務(wù)中表現(xiàn)不佳,本質(zhì)是缺乏分層記憶系統(tǒng)——人類大腦擁有短期、工作、長期記憶的協(xié)同機(jī)制,而AI卻長期依賴單一記憶模塊。


而Titans不僅解決了Transformer模型在長上下文處理中的算力瓶頸,更通過仿生學(xué)設(shè)計(jì)模擬人類記憶系統(tǒng)的分層機(jī)制,首次實(shí)現(xiàn)了200萬token超長上下文的精準(zhǔn)推理。Titans一共由神經(jīng)長期記憶和三腦協(xié)同架構(gòu)兩大塊組成。

谷歌提出Titans:突破算力限制,擴(kuò)展上下文-AI.x社區(qū)

傳統(tǒng)AI模型的記憶系統(tǒng)如同刻板的記事本——所有信息被機(jī)械地壓縮存儲(chǔ),缺乏對(duì)信息價(jià)值的動(dòng)態(tài)判斷。Titans架構(gòu)的神經(jīng)長期記憶模塊,則通過模擬人類大腦海馬體的工作機(jī)制,構(gòu)建了一套具有自主進(jìn)化能力的記憶生態(tài)系統(tǒng)。該模塊的核心突破在于將在線元學(xué)習(xí)與生物啟發(fā)的記憶規(guī)則深度融合,實(shí)現(xiàn)了記憶存儲(chǔ)的效率與智能的質(zhì)的飛躍。


在技術(shù)實(shí)現(xiàn)層面,該模塊采用深度多層感知機(jī)(MLP)作為記憶載體,其創(chuàng)新之處在于訓(xùn)練過程中引入雙階段梯度驅(qū)動(dòng)機(jī)制。當(dāng)模型處理輸入序列時(shí),首先通過前向傳播計(jì)算當(dāng)前token的預(yù)測誤差,隨后反向傳播過程中捕捉輸入數(shù)據(jù)的梯度變化,將其量化為“認(rèn)知驚喜值”。


這種驚喜值并非簡單的誤差度量,而是通過二階導(dǎo)數(shù)計(jì)算信息對(duì)模型知識(shí)結(jié)構(gòu)的擾動(dòng)強(qiáng)度,當(dāng)模型遇到與既有知識(shí)體系存在顯著偏差的信息,梯度幅值會(huì)呈現(xiàn)指數(shù)級(jí)增長,觸發(fā)記憶強(qiáng)化機(jī)制。

谷歌提出Titans:突破算力限制,擴(kuò)展上下文-AI.x社區(qū)

如果說神經(jīng)長期記憶模塊賦予了AI持續(xù)學(xué)習(xí)的能力,那么三腦協(xié)同架構(gòu)則重新定義了信息處理的系統(tǒng)范式。這一架構(gòu)突破性地將人腦的層次化認(rèn)知系統(tǒng)——短期工作記憶、長期情景記憶與語義知識(shí)庫——映射到計(jì)算模型中,通過多通路信息融合機(jī)制,解決了傳統(tǒng)單一記憶架構(gòu)的容量-效率悖論。


核心工作記憶通路采用改進(jìn)型稀疏注意力機(jī)制,在128k token的窗口內(nèi)實(shí)現(xiàn)精準(zhǔn)的局部依賴建模。與傳統(tǒng)全局注意力不同,該模塊引入自適應(yīng)稀疏模式:通過實(shí)時(shí)分析輸入序列的熵值分布,動(dòng)態(tài)調(diào)整每個(gè)查詢頭的關(guān)注范圍。例如在處理法律合同時(shí),對(duì)條款編號(hào)等結(jié)構(gòu)化信息采用全連接模式,而在敘述性段落中則啟用層級(jí)膨脹注意力,極大降低了計(jì)算復(fù)雜度。


更重要的是,該模塊與長期記憶分支形成反饋環(huán)路。當(dāng)檢測到當(dāng)前上下文存在未解析的指代關(guān)系時(shí),會(huì)自動(dòng)觸發(fā)跨窗口的歷史信息檢索,實(shí)現(xiàn)局部與全局認(rèn)知的有機(jī)統(tǒng)一。

長期記憶分支作為架構(gòu)的中樞神經(jīng)系統(tǒng),承擔(dān)著跨時(shí)空信息整合的重任。其核心技術(shù)在于雙向記憶讀寫協(xié)議的設(shè)計(jì):在寫入階段,采用卷積增強(qiáng)的鍵值編碼器,將輸入序列的時(shí)空特征壓縮為高維記憶向量;


在讀取階段,則通過可微分最近鄰搜索算法,實(shí)現(xiàn)多粒度信息召回。該算法創(chuàng)新性地將歐氏距離檢索與注意力權(quán)重相結(jié)合,在蛋白質(zhì)序列分析任務(wù)中,對(duì)相似功能域的檢索精度達(dá)到92.7%,比傳統(tǒng)方法提升23%。為應(yīng)對(duì)超長上下文的挑戰(zhàn),研究團(tuán)隊(duì)還開發(fā)了記憶重要性衰減曲線預(yù)測模型,能夠提前128個(gè)時(shí)間步預(yù)判信息的生命周期,實(shí)現(xiàn)內(nèi)存占用的前瞻性優(yōu)化。

谷歌提出Titans:突破算力限制,擴(kuò)展上下文-AI.x社區(qū)

持久知識(shí)庫則扮演著AI的“常識(shí)中樞”,存儲(chǔ)著跨任務(wù)、跨領(lǐng)域的結(jié)構(gòu)化知識(shí)體系。與普通模型參數(shù)不同,這些知識(shí)單元通過對(duì)比學(xué)習(xí)進(jìn)行跨模態(tài)對(duì)齊,例如,將化學(xué)分子式與3D空間構(gòu)型關(guān)聯(lián),將語法規(guī)則與語義場景綁定。


在訓(xùn)練策略上,采用兩階段優(yōu)化流程——先通過大規(guī)模無監(jiān)督預(yù)訓(xùn)練構(gòu)建基礎(chǔ)知識(shí)圖譜,再使用強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)特定知識(shí)的動(dòng)態(tài)校準(zhǔn)。這種設(shè)計(jì)使得在醫(yī)療診斷任務(wù)中,模型對(duì)罕見病特征的識(shí)別準(zhǔn)確率提升41%,誤報(bào)率降低67%。更關(guān)鍵的是,持久知識(shí)庫與工作記憶通路形成隔離機(jī)制,確保領(lǐng)域知識(shí)的穩(wěn)定性不受短期上下文干擾。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/woofm6hqHLDhgLTAou7gbA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦