自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型超強(qiáng)內(nèi)存優(yōu)化：成本削減高達(dá)75%，性能不減弱！成果出自日本一初創(chuàng)AI公司之手；網(wǎng)友：電力可能夠用了原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-12-18 13:24

瀏覽

0收藏

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

一項(xiàng)逆天的大模型優(yōu)化技術(shù)來了！

東京初創(chuàng)公司Sakana AI的研究人員開發(fā)了一種新技術(shù)，讓大模型能夠更有效地使用內(nèi)存，不僅最多節(jié)省75%的內(nèi)存占用，還甚至性能也有所提升！

這種名為“通用Transformer內(nèi)存”的技術(shù)使用特殊的神經(jīng)網(wǎng)絡(luò)優(yōu)化LLM，保留重要的信息并丟棄冗余的細(xì)節(jié)。

這項(xiàng)技術(shù)旨在幫助企業(yè)降低基于大模型和其他基于Transformer的模型構(gòu)建應(yīng)用程序的成本。

這項(xiàng)技術(shù)在Hacker News上也被廣泛討論，一位網(wǎng)友說：會不會在經(jīng)過三四年的性能優(yōu)化，我們會發(fā)現(xiàn)根本不需要建核電站？

大模型超強(qiáng)內(nèi)存優(yōu)化：成本削減高達(dá)75%，性能不減弱！成果出自日本一初創(chuàng)AI公司之手；網(wǎng)友：電力可能夠用了-AI.x社區(qū) 圖片

1.Transformer內(nèi)存技術(shù)：神經(jīng)網(wǎng)絡(luò)決定是否記憶存儲的Tokens

目前的模型支持非常長的上下文窗口，可以容納數(shù)十萬甚至數(shù)百萬個Tokens。

這使得用戶能夠在提示中塞入更多信息。然而，較長的提示可能導(dǎo)致更高的計(jì)算成本和較慢的性能。

當(dāng)前的提示優(yōu)化技術(shù)需要大量資源，或者要求用戶手動測試不同配置以減少提示的大小。

Sakana AI的研究人員，所開發(fā)的通用Transformer內(nèi)存技術(shù)，通過神經(jīng)注意力記憶模型（NAMMs）優(yōu)化提示。NAMMs是簡單的神經(jīng)網(wǎng)絡(luò)，決定是否“記住”或“忘記”LLM內(nèi)存中存儲的每個Token。

“這一新功能使Transformer能夠丟棄不重要或冗余的細(xì)節(jié)，專注于最關(guān)鍵的信息，我們認(rèn)為這對于需要長上下文推理的任務(wù)至關(guān)重要，”研究人員寫道。

大模型超強(qiáng)內(nèi)存優(yōu)化：成本削減高達(dá)75%，性能不減弱！成果出自日本一初創(chuàng)AI公司之手；網(wǎng)友：電力可能夠用了-AI.x社區(qū) 圖片

NAMMs與LLM是分開訓(xùn)練的，并在推理時(shí)與預(yù)訓(xùn)練模型結(jié)合，這使得它們具有靈活性，易于部署。然而，它們需要訪問模型的內(nèi)部激活，因此只能應(yīng)用于開源模型。

與Sakana AI開發(fā)的其他技術(shù)一樣，NAMMs是通過進(jìn)化算法而非基于梯度的優(yōu)化方法進(jìn)行訓(xùn)練的。通過反復(fù)變異和選擇表現(xiàn)最佳的模型，進(jìn)化算法優(yōu)化NAMMs的效率和性能。這尤其重要，因?yàn)镹AMMs試圖實(shí)現(xiàn)一個不可微分的目標(biāo)：保留或丟棄標(biāo)記。

NAMMs作用于LLM的注意力層，這是Transformer架構(gòu)的關(guān)鍵組件，決定了模型上下文窗口中每個標(biāo)記的關(guān)系和重要性?；谧⒁饬χ?，NAMMs決定應(yīng)保留哪些標(biāo)記，哪些可以從LLM的上下文窗口中丟棄。這種基于注意力的機(jī)制使得訓(xùn)練好的NAMM可以在不同模型上使用而無需進(jìn)一步修改。例如，訓(xùn)練在文本數(shù)據(jù)上的NAMM可以應(yīng)用于視覺或多模態(tài)模型，而無需額外訓(xùn)練。

2.通用內(nèi)存技術(shù)的應(yīng)用：最高節(jié)省75%內(nèi)存

為了測試通用Transformer內(nèi)存的實(shí)際效果，研究人員在開源的Meta Llama 3-8B模型上訓(xùn)練了一個NAMM。他們的實(shí)驗(yàn)顯示，使用NAMMs后，基于Transformer的模型在非常長的序列上處理自然語言和編碼問題時(shí)表現(xiàn)更好。同時(shí)，通過丟棄不必要的標(biāo)記，NAMM使LLM模型在執(zhí)行任務(wù)時(shí)節(jié)省了高達(dá)75%的緩存內(nèi)存。

“在我們的基準(zhǔn)測試中，NAMMs顯著提高了Llama 3-8B Transformer的性能，”研究人員寫道?！按送?，我們的內(nèi)存系統(tǒng)還帶來了顯著的附加好處，減少了每層的上下文大小，同時(shí)從未專門優(yōu)化過內(nèi)存效率?！?/p>

他們還在70B版本的Llama模型以及針對其他模態(tài)和任務(wù)設(shè)計(jì)的Transformer模型上進(jìn)行了測試，如Llava（計(jì)算機(jī)視覺）和Decision Transformer（強(qiáng)化學(xué)習(xí)）。

“即使在這些分布外的設(shè)置中，NAMMs通過丟棄冗余的視頻幀和不理想的行動，仍然保持其優(yōu)勢，使其新的基礎(chǔ)模型能夠?qū)Ｗ⒂谧钕嚓P(guān)的信息，從而提高性能，”研究人員寫道。

大模型超強(qiáng)內(nèi)存優(yōu)化：成本削減高達(dá)75%，性能不減弱！成果出自日本一初創(chuàng)AI公司之手；網(wǎng)友：電力可能夠用了-AI.x社區(qū) 圖片

上圖：神經(jīng)注意力記憶模型 (NAMM) 會檢查注意力層，以確定哪些標(biāo)記應(yīng)從上下文窗口中保留或丟棄

3.新發(fā)現(xiàn)：神經(jīng)網(wǎng)絡(luò)能根據(jù)任務(wù)調(diào)整其行為

另一個有趣的發(fā)現(xiàn)是，NAMMs會根據(jù)任務(wù)自動調(diào)整其行為。

例如，在編碼任務(wù)中，模型丟棄與代碼執(zhí)行無關(guān)的連續(xù)標(biāo)記塊，如注釋和空白字符。

另一方面，在自然語言任務(wù)中，模型丟棄表示語法冗余且不影響序列意義的標(biāo)記。

研究人員發(fā)布了創(chuàng)建自己NAMM的代碼。像通用Transformer內(nèi)存這樣的技術(shù)對于處理數(shù)百萬個標(biāo)記的企業(yè)應(yīng)用程序非常有用，能夠提升速度并降低成本。經(jīng)過訓(xùn)練的NAMM的可重用性也使其成為跨不同應(yīng)用程序使用的多功能工具。

未來，研究人員建議采用更先進(jìn)的技術(shù)，例如在訓(xùn)練LLM時(shí)使用NAMMs，以進(jìn)一步擴(kuò)展其內(nèi)存能力。

“這項(xiàng)工作僅僅開始挖掘我們這一新型內(nèi)存模型的潛力，我們預(yù)期它可能為推動未來幾代Transformer的發(fā)展提供許多新機(jī)會，”研究人員寫道。

參考鏈接：??https://venturebeat.com/ai/new-llm-optimization-technique-slashes-memory-costs-up-to-75/??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AI迎來Uber時(shí)刻，初創(chuàng)公司如何構(gòu)筑新護(hù)城河？

liutao988 ? 2317瀏覽 ? 0回復(fù)
開源大模型可能不香了！您在微調(diào)開源大模型的時(shí)候，很可能已經(jīng)泄露了您寶貴的數(shù)據(jù)！

AIGC最前線 ? 3350瀏覽 ? 0回復(fù)
初創(chuàng)公司如何從零開始訓(xùn)練出優(yōu)秀的LLMs

lintoms ? 2650瀏覽 ? 0回復(fù)
谷歌開源專業(yè)代碼模型：對硬件要求低，性能超強(qiáng)！

Aceryt ? 3190瀏覽 ? 0回復(fù)
OpenAI 36億收購數(shù)據(jù)庫初創(chuàng)公司，CTO劇透GPT-5

Crystalcxt ? 2199瀏覽 ? 0回復(fù)
ICML 2024高分論文 | 零階優(yōu)化器微調(diào)大模型，大幅降低內(nèi)存

輕薄滴假象 ? 2565瀏覽 ? 0回復(fù)
如何在保證模型性能條件下優(yōu)化Prompt降低使用成本及響應(yīng)延遲？

Syrupup ? 2508瀏覽 ? 0回復(fù)
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 4488瀏覽 ? 0回復(fù)
初創(chuàng)AI公司瘋狂吸金4億美元！Karpathy大佬預(yù)言：未來編程只需狂按tab鍵，我們整理了風(fēng)頭正盛的5家初創(chuàng)

51CTO技術(shù)棧 ? 2501瀏覽 ? 1回復(fù)
AI編程初創(chuàng)公司挑戰(zhàn)1億上下文窗口，編碼能力超級加倍！

51CTO技術(shù)棧 ? 3009瀏覽 ? 0回復(fù)
一夜小模型王座易主！英偉達(dá)發(fā)布超強(qiáng)小模型，性能、速率、緩存全面超越Llama3.2！

51CTO技術(shù)棧 ? 1759瀏覽 ? 0回復(fù)
成本降低1000倍！微軟將開源超強(qiáng)RAG— LazyGraphRAG

Aceryt ? 2184瀏覽 ? 0回復(fù)
利用 Schemonic 優(yōu)化數(shù)據(jù)庫模式描述以降低大語言模型成本

AIGC前沿技術(shù)追蹤 ? 2170瀏覽 ? 0回復(fù)
你可能不知道：Google AI正在悄悄改變各行各業(yè)

草臺AI ? 1736瀏覽 ? 0回復(fù)
低成本+高性能+超靈活！Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 4230瀏覽 ? 0回復(fù)
初創(chuàng)公司使用 AI “碼農(nóng)” Devin 一個月的體驗(yàn)

Baihai_IDP ? 2404瀏覽 ? 0回復(fù)
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 4160瀏覽 ? 0回復(fù)
COSMOS：結(jié)合特征子空間分解的混合自適應(yīng)優(yōu)化器用于大型語言模型的內(nèi)存高效訓(xùn)練

頓數(shù)AI ? 1889瀏覽 ? 0回復(fù)
【AI 界大地震】AMD 開源 30 億參數(shù)大模型 Instella：性能碾壓同類，訓(xùn)練成本暴跌 80%？

Halo咯咯 ? 1247瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：國產(chǎn)開源模型頂流「通義」，被曝應(yīng)用團(tuán)隊(duì)已“離開”阿里云，并入阿里智能信息事業(yè)群！

下一篇：納德拉微軟10年CEO專訪流出：OpenAI已經(jīng)是美國第八大巨頭；Agent世界，廣告或消失o1做得還不夠

社區(qū)精華內(nèi)容

目錄