自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<button id="hbdda"></button>

<nobr id="hbdda"></nobr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升

發(fā)布于 2024-4-7 10:01

瀏覽

0收藏

谷歌終于更新了Transformer架構(gòu)。

最新發(fā)布的Mixture-of-Depths（MoD），改變了以往Transformer計(jì)算模式。

它通過(guò)動(dòng)態(tài)分配大模型中的計(jì)算資源，跳過(guò)一些不必要計(jì)算，顯著提高訓(xùn)練效率和推理速度。

結(jié)果顯示，在等效計(jì)算量和訓(xùn)練時(shí)間上，MoD每次向前傳播所需的計(jì)算量更小，而且后訓(xùn)練采樣過(guò)程中步進(jìn)速度提高50%。

這一方法剛剛發(fā)布，就馬上引發(fā)關(guān)注。

MoE風(fēng)頭正盛，MoD已經(jīng)來(lái)后浪拍前浪了？

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

還有人開(kāi)始“算賬”：

聽(tīng)說(shuō)GPT-4 Turbo在Blackwell上提速30倍，再加上這個(gè)方法和其他各種加速，下一代生成模型可以走多遠(yuǎn)？

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

所以MoD如何實(shí)現(xiàn)？

迫使大模型關(guān)注真正重要信息

這項(xiàng)研究提出，現(xiàn)在的大模型訓(xùn)練和推理中，有很多計(jì)算是沒(méi)必要的。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

比如預(yù)測(cè)下一個(gè)句子很難，但是預(yù)測(cè)句子結(jié)束的標(biāo)點(diǎn)符號(hào)很簡(jiǎn)單。如果給它們分配同樣的計(jì)算資源，那么后者明顯浪費(fèi)了。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

在理想情況下，模型應(yīng)該只給需要準(zhǔn)確預(yù)測(cè)的token分配更多計(jì)算資源。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

所以研究人員提出了MoD。

它在輸入序列中的特定位置動(dòng)態(tài)分配FLOPs（運(yùn)算次數(shù)或計(jì)算資源），優(yōu)化不同層次的模型深度中的分配。

通過(guò)限制給定層的自注意力和MLP計(jì)算的token數(shù)量，迫使神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)主要關(guān)注真正重要的信息。

因?yàn)閠oken數(shù)量是事先定義好的，所以這個(gè)過(guò)程使用一個(gè)已知張量大小的靜態(tài)計(jì)算圖，可以在時(shí)間和模型深度上動(dòng)態(tài)擴(kuò)展計(jì)算量。

下圖右上圖中的橙色部分，表示沒(méi)有使用全部計(jì)算資源。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

這種方法在節(jié)省計(jì)算資源的同時(shí)，還能提高效率。

這些模型在等效的FLOPS和訓(xùn)練時(shí)間上與基線性能相匹配，但每次前向傳播所需的FLOP更少，并且在訓(xùn)練后采樣時(shí)提速50%。

對(duì)比來(lái)看，如果為每一個(gè)token生成一個(gè)概率分布，每個(gè)token根據(jù)最高概率被送去對(duì)應(yīng)的“專家”，可能會(huì)導(dǎo)致負(fù)載不平衡。

如果反過(guò)來(lái)，這能保障負(fù)載平衡，但是可能導(dǎo)致某些token被過(guò)度處理或處理不足。

最后來(lái)看論文中使用的Expert-choice MoD，router輸出的權(quán)重被用于確定哪些token將使用transformer虧啊計(jì)算。權(quán)重較大的token將參與計(jì)算，權(quán)重較小的token將通過(guò)殘差連接繞過(guò)計(jì)算，從而解決每次向前傳播的FLOPs。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

最后，研究團(tuán)隊(duì)展示了MoD在不同實(shí)驗(yàn)中的性能表現(xiàn)。

首先，他們使用相對(duì)較小的FLOP預(yù)算（6e18），以確定最佳超參數(shù)配置。

通過(guò)這些實(shí)驗(yàn)，作者發(fā)現(xiàn)MoD方法能夠“拉低并向右推移”isoFLOP基線曲線，這意味著最優(yōu)的MoD方法在更低的損失水平上擁有更多的參數(shù)。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

通過(guò)isoFLOP分析，比較6e18、2e19和1e20 FLOPs的總計(jì)算預(yù)算下的模型性能。

結(jié)果顯示，在更多FLOP預(yù)算下，F(xiàn)LOP最優(yōu)的MoD仍然比基線模型有更多的參數(shù)。

存在一些MoD變體，在步驟速度上比isoFLOP最優(yōu)基線模型更快，同時(shí)實(shí)現(xiàn)更低的損失。這表明在訓(xùn)練之外，MoD的計(jì)算節(jié)省仍然有效。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

同時(shí)，研究團(tuán)隊(duì)還探討了MoD和MoE結(jié)合的可能性——MoDE。

結(jié)果表明而這結(jié)合能提供更好的性能和更快的推理速度。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

網(wǎng)友：聯(lián)想到了ResNet

MoD推出后馬上引發(fā)了不小關(guān)注。

有人感慨，MoE還沒(méi)有弄清楚呢，MoD都已經(jīng)來(lái)了！

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

這么高效的方法，讓人馬上聯(lián)想到了ResNet。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

不過(guò)和ResNet不同，MoD跳過(guò)連接是完全繞過(guò)層的。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

還有人表示，希望這種方法是完全動(dòng)態(tài)的，而不是每個(gè)層固定百分比。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

這項(xiàng)研究由DeepMind和麥吉爾大學(xué)共同帶來(lái)。

主要貢獻(xiàn)者是David Raposo和Adam Santoro。

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升-AI.x社區(qū)

他們二人都是DeepMind的研究科學(xué)家。此前共同帶來(lái)了神作《Relational inductive biases, deep learning, and graph networks》。

這篇論文目前被引次數(shù)超過(guò)3500次，論文核心定義了Inductive bias（歸納偏置）概念。

論文地址：???https://arxiv.org/abs/2404.02258??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/Xqnv2L9X4KRkfpTaw7B0SA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

無(wú)性能損失！讓SAM加速近50倍！EfficientViT-SAM來(lái)了！

angel ? 3618瀏覽 ? 0回復(fù)
CVPR‘24：與任務(wù)無(wú)關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

Crystalcxt ? 2299瀏覽 ? 0回復(fù)
Altman首提GPT-7設(shè)想：每個(gè)人都可以訪問(wèn)其計(jì)算資源！

51CTO技術(shù)棧 ? 2620瀏覽 ? 0回復(fù)
比Transformer更快更省，Mamba終于卷到網(wǎng)絡(luò)領(lǐng)域了

arnoldzhw ? 6040瀏覽 ? 0回復(fù)
再戰(zhàn)Transformer！原作者帶隊(duì)的Mamba 2來(lái)了，新架構(gòu)訓(xùn)練效率大幅提升

輕薄滴假象 ? 2502瀏覽 ? 0回復(fù)
新Transformer架構(gòu)效率效果雙提升

海因斯DK ? 4264瀏覽 ? 0回復(fù)
谷歌發(fā)布Gemini模型重大更新，OpenAI、Anthropic反擊，競(jìng)爭(zhēng)仍在繼續(xù)

Syrupup ? 2553瀏覽 ? 0回復(fù)
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語(yǔ)言模型論文跟蹤 ? 2261瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布sCM提升50倍效率，擴(kuò)散模型重大技術(shù)突破！

玄姐聊AGI ? 1856瀏覽 ? 0回復(fù)
線上RAG應(yīng)用pdf文檔頻繁更新，老板下了死命令要節(jié)省預(yù)算，不能重復(fù)做embedding，我這么做.....

AI博物院 ? 2225瀏覽 ? 0回復(fù)
LLM合集：谷歌推出逆向思維RevThink框架，大模型零樣本性能提升13.53%

AIPaperDaily ? 2479瀏覽 ? 0回復(fù)
DeepSeek AI發(fā)布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能顯著提升

Halo咯咯 ? 1.4w瀏覽 ? 0回復(fù)
微軟開(kāi)源AI Agent大更新，重塑智能體！多層級(jí)更強(qiáng)架構(gòu)

Aceryt ? 1848瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 6056瀏覽 ? 0回復(fù)
算力租賃新趨勢(shì)揭秘：如何高效利用云計(jì)算資源賦能未來(lái)

AI算力補(bǔ)給站 ? 2036瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺(jué)RAG性能10%

大語(yǔ)言模型論文跟蹤 ? 1584瀏覽 ? 0回復(fù)
Transformer架構(gòu)的情境學(xué)習(xí)泛化能力

頓數(shù)AI ? 1048瀏覽 ? 0回復(fù)
“谷歌版 MCP”來(lái)了！重磅開(kāi)源 A2A 智能體交互新架構(gòu)

玄姐聊AGI ? 1030瀏覽 ? 0回復(fù)
谷歌 A2A （Agent2Agent）架構(gòu)設(shè)計(jì)深度剖析

玄姐聊AGI ? 793瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開(kāi)辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： 10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀

下一篇：中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！

社區(qū)精華內(nèi)容

目錄

<table id="on4us"></table>

<bdo id="on4us"></bdo>

<var id="on4us"></var>

<samp id="on4us"></samp>

<tt id="on4us"></tt>