自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="09vqd"></thead>

^{<thead id="09vqd"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Transformer，會笑到最后嗎？原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-8-20 14:08

瀏覽

0收藏

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

Transformer 架構(gòu)為當今最流行的公共和私有AI 模型提供支持。那么我們想知道——接下來是什么？這種架構(gòu)是否會帶來更好的推理？Transformer 之后會是什么？

一、Transformer 的問題及其挑戰(zhàn)者們

Transformer 架構(gòu)的自注意力機制允許模型同時衡量每個輸入 token 對輸入序列中所有 token 的重要性。通過捕獲長距離依賴關(guān)系和復(fù)雜的 token 關(guān)系，這有助于提高模型對語言和計算機視覺的理解。然而，這意味著計算復(fù)雜度會隨著長序列（例如 DNA）的增加而增加，從而導(dǎo)致性能下降和內(nèi)存消耗增加。解決長序列問題的一些解決方案和研究方法包括：

在硬件上改進 Transformer ：FlashAttention是一項很有前途的技術(shù)。本文聲稱，通過仔細管理 GPU 上不同級別的快速和慢速內(nèi)存的讀寫，可以提高 Transformer 的性能。這是通過使注意力算法具有 IO 感知能力來實現(xiàn)的，這減少了 GPU 的高帶寬內(nèi)存 (HBM) 和靜態(tài)隨機存取存儲器 (SRAM) 之間的讀寫次數(shù)。

近似注意力：自注意力機制具有 O(n^2) 復(fù)雜度，其中 n 表示輸入序列的長度。有沒有辦法將這種二次計算復(fù)雜度降低到線性，以便 Transformer 可以更好地處理長序列？這里的優(yōu)化包括 Reformer、Performers、 Skyformer等技術(shù)。

除了這些降低 transformer 復(fù)雜性的優(yōu)化之外，一些替代模型正在挑戰(zhàn) transformer 的主導(dǎo)地位（但對于大多數(shù)模型來說還處于早期階段）：

狀態(tài)空間模型：這是一類與循環(huán) (RNN) 和卷積 (CNN) 神經(jīng)網(wǎng)絡(luò)相關(guān)的模型，它們對長序列進行線性或近線性計算復(fù)雜度計算。像Mamba這樣的狀態(tài)空間模型 (SSM)可以更好地處理長距離關(guān)系，但在性能上落后于 Transformer。

這些研究方法現(xiàn)在已經(jīng)走出了大學(xué)實驗室，并以新模型的形式進入公共領(lǐng)域，供所有人嘗試。此外，最新的模型發(fā)布可以告訴我們底層技術(shù)的狀態(tài)以及 Transformer 替代方案的可行路徑。

二、值得關(guān)注的發(fā)布

我們不斷聽到 OpenAI、Cohere、Anthropic 和 Mistral 等知名公司發(fā)布最新最出色的模型的消息。Meta 的編譯器優(yōu)化基礎(chǔ)模型因其在代碼和編譯器優(yōu)化方面的有效性而引人注目。

除了主流的 Transformer 架構(gòu)外，我們現(xiàn)在還看到了生產(chǎn)級狀態(tài)空間模型 (SSM)、混合 SSM-Transformer 模型、專家混合 (MoE) 和專家組合 (CoE) 模型。與最先進的開源模型相比，這些模型在多個基準測試中表現(xiàn)良好。其中脫穎而出的包括：

Databricks開源 DBRX模型：該 MoE 模型有 132B 個參數(shù)。它有 16 位專家，其中 4 位在推理或訓(xùn)練期間同時處于活動狀態(tài)。它支持 32K 上下文窗口，并且該模型在 12T 令牌上進行訓(xùn)練。其他一些有趣的細節(jié) — — 它耗時 3 個月，耗資 1000 萬美元，使用 3072 個 Nvidia GPU 通過 3.2Tbps InfiniBand 連接，完成了模型的預(yù)訓(xùn)練、后訓(xùn)練、評估、紅隊測試和細化。

SambaNova Systems 發(fā)布的Samba CoE v0.2：該 CoE 模型由五個 7B 參數(shù)專家組成，其中只有一個在推理時處于活動狀態(tài)。這些專家都是開源模型，除了專家之外，該模型還有一個路由器。它可以了解哪個模型最適合特定查詢，并將請求路由到該模型。它的速度非?？?，每秒生成 330 個令牌。

AI21 實驗室發(fā)布了Jamba：這是一種混合 Transformer-Mamba MoE 模型。它是第一個基于 Mamba 的生產(chǎn)級模型，具有傳統(tǒng) Transformer 架構(gòu)的元素?！癟ransformer 模型有兩個缺點：首先，其高內(nèi)存和計算要求阻礙了長上下文的處理，其中鍵值 (KV) 緩存大小成為限制因素。其次，由于每個生成的 token 都會對整個上下文執(zhí)行計算，因此它缺乏單一的摘要狀態(tài)，導(dǎo)致推理速度慢且吞吐量低”。像 Mamba 這樣的 SSM 可以更好地處理長距離關(guān)系，但在性能上落后于 Transformer。Jamba 彌補了純 SSM 模型的固有限制，提供 256K 上下文窗口并在單個 GPU 上容納 140K 上下文。

三、企業(yè)采用挑戰(zhàn)

盡管最新的研究和模型發(fā)布對支持 Transformer 架構(gòu)作為下一個前沿領(lǐng)域有著巨大的希望，但我們還必須考慮阻礙企業(yè)利用這一優(yōu)勢的技術(shù)挑戰(zhàn)：

1.缺少適合企業(yè)的功能

想象一下，向 CXO 銷售的產(chǎn)品沒有基于角色的訪問控制 (RBAC)、單點登錄 (SSO) 或無法訪問日志（提示和輸出）等簡單功能。當今的模型可能還不適合企業(yè)，但企業(yè)正在制定單獨的預(yù)算，以確保他們不會錯過下一個重大事件。

2.打破以往的運作方式

AI Copilot和Agent將會使數(shù)據(jù)和應(yīng)用程序的安全變得更加復(fù)雜。

想象一個簡單的用例：你每天使用的視頻會議應(yīng)用程序引入了 AI 摘要功能。作為用戶，你可能喜歡會議后獲取記錄的功能，但在受監(jiān)管的行業(yè)中，這一增強功能可能突然成為 CISO 的噩夢。實際上，到目前為止運行良好的功能已經(jīng)失效，需要經(jīng)過額外的安全審查。當 SaaS 應(yīng)用程序引入此類功能時，企業(yè)需要設(shè)置護欄來確保數(shù)據(jù)隱私和合規(guī)性。

3.RAG與微調(diào)的取舍

可以同時部署兩者或不部署兩者，而無需做出太多犧牲。人們可以將檢索增強生成 (RAG) 視為確保事實正確呈現(xiàn)且信息最新的一種方式，而微調(diào)則可以被視為可實現(xiàn)最佳模型質(zhì)量。微調(diào)很難，這導(dǎo)致一些模型供應(yīng)商不建議這樣做。它還包括過度擬合的挑戰(zhàn)，這會對模型質(zhì)量產(chǎn)生不利影響。微調(diào)似乎受到多方壓力——隨著模型上下文窗口的增加和代幣成本的下降，RAG 可能成為企業(yè)的更好部署選擇。

在 RAG 的背景下， Cohere 最近推出的 Command R+ 模型是第一個在聊天機器人領(lǐng)域擊敗 GPT-4 的開放權(quán)重模型。Command R+ 是最先進的 RAG 優(yōu)化模型，旨在為企業(yè)級工作流程提供支持。

四、寫在最后

這一波AI的部署始于更加智能的聊天機器人。20多個月過去，初創(chuàng)公司和企業(yè)已經(jīng)想出了如何將GenAI打包成Copilot，以增強人類的知識和技能。下一步自然是將多步驟工作流、記憶和個性化等內(nèi)容打包成智能體，以解決銷售和工程等多種職能中的用例。

可以預(yù)期的是，用戶的簡單提示將使Agent能夠?qū)σ鈭D進行分類，將目標分解為多個步驟并完成任務(wù)，無論是互聯(lián)網(wǎng)搜索、將身份驗證分解為多種工具還是從過去的重復(fù)行為中學(xué)習(xí)。

想預(yù)訂夏威夷之旅、從你最喜歡的餐廳訂餐或管理個人財務(wù)嗎？未來諸位都能夠使用個性化Agent來安全地管理這些任務(wù)，這是有可能的，但從技術(shù)角度來看，我們距離這個未來還很遙遠。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

關(guān)于AI落地“最后一公里”，這里有30條前沿洞察

mb5f8eba9bdb0af ? 2669瀏覽 ? 0回復(fù)
會“教”難“育”，AIGC卷不了教師

liutao988 ? 2039瀏覽 ? 0回復(fù)
比肩Transformer的Mamba在時間序列上有效嗎？

海因斯DK ? 6540瀏覽 ? 0回復(fù)
Meta會一直開源嗎？當初為何篤信元宇宙？扎克伯格新訪談回應(yīng)一切

輕薄滴假象 ? 2231瀏覽 ? 0回復(fù)
Nature：進化會重復(fù)發(fā)生

ceesoft ? 2577瀏覽 ? 0回復(fù)
無限的場景窗口會扼殺LLM微調(diào)和RAG嗎？

51CTO內(nèi)容精選 ? 2989瀏覽 ? 0回復(fù)
Self-Attention在時間序列預(yù)測中有效嗎？新Transformer架構(gòu)效率效果雙提升

海因斯DK ? 4262瀏覽 ? 0回復(fù)
The Annotated Transformer注釋加量版，讀懂代碼就真的懂了Transformer

魚蟲子 ? 2962瀏覽 ? 0回復(fù)
非Transformer模型終于來了！

51CTO技術(shù)棧 ? 2537瀏覽 ? 0回復(fù)
大模型是泡沫嗎？

NLP工作站 ? 2062瀏覽 ? 0回復(fù)
最新研究：大語言模型使用Json格式輸出會降低模型性能嗎？

大語言模型論文跟蹤 ? 3430瀏覽 ? 0回復(fù)
充滿AI的APP會顛覆人類的社交方式嗎？

51CTO技術(shù)棧 ? 1853瀏覽 ? 0回復(fù)
AI時代，技術(shù)性失業(yè)會愈演愈烈嗎

數(shù)字化助推器 ? 2003瀏覽 ? 0回復(fù)
Kimik1.5、DeepSeek-V3 大戰(zhàn) OpenAI o1，誰能笑到最后？

智駐未來 ? 5275瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6056瀏覽 ? 0回復(fù)
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 1806瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機制

人工智能訓(xùn)練營 ? 2962瀏覽 ? 0回復(fù)
AI會“思考”嗎？重讀笛卡爾《談?wù)劮椒ā?，解鎖智能與意識的百年謎題

上堵吟1 ? 1035瀏覽 ? 0回復(fù)
你了解大模型的生態(tài)體系嗎？大模型從技術(shù)到應(yīng)用的內(nèi)容梳理

AI探索時代 ? 1014瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

中國開源大模型新成員：小米推理大模型首秀！ 1h前發(fā)布
剛剛！一場直播讓宇樹成功正名！直播G1長跑操場40圈，6萬人點贊！真實跑步水平曝光：2m/s接近天工！ 6h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：成本降低90%！Anthropic 推出新 Claude 提示緩存！開發(fā)人員將省去一大筆錢

下一篇：谷歌擁抱英偉達！推出云端GPU，把AI引進無服務(wù)器，開源大模型愛好者福利來了

社區(qū)精華內(nèi)容

目錄

<mark id="v7hox"></mark>