Transformer,會笑到最后嗎? 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
Transformer 架構(gòu)為當今最流行的公共和私有AI 模型提供支持。那么我們想知道——接下來是什么?這種架構(gòu)是否會帶來更好的推理?Transformer 之后會是什么?
一、Transformer 的問題及其挑戰(zhàn)者們
Transformer 架構(gòu)的自注意力機制允許模型同時衡量每個輸入 token 對輸入序列中所有 token 的重要性。通過捕獲長距離依賴關(guān)系和復(fù)雜的 token 關(guān)系,這有助于提高模型對語言和計算機視覺的理解。然而,這意味著計算復(fù)雜度會隨著長序列(例如 DNA)的增加而增加,從而導(dǎo)致性能下降和內(nèi)存消耗增加。解決長序列問題的一些解決方案和研究方法包括:
在硬件上改進 Transformer :FlashAttention是一項很有前途的技術(shù)。本文聲稱,通過仔細管理 GPU 上不同級別的快速和慢速內(nèi)存的讀寫,可以提高 Transformer 的性能。這是通過使注意力算法具有 IO 感知能力來實現(xiàn)的,這減少了 GPU 的高帶寬內(nèi)存 (HBM) 和靜態(tài)隨機存取存儲器 (SRAM) 之間的讀寫次數(shù)。
近似注意力:自注意力機制具有 O(n^2) 復(fù)雜度,其中 n 表示輸入序列的長度。有沒有辦法將這種二次計算復(fù)雜度降低到線性,以便 Transformer 可以更好地處理長序列?這里的優(yōu)化包括 Reformer、Performers、 Skyformer等技術(shù)。
除了這些降低 transformer 復(fù)雜性的優(yōu)化之外,一些替代模型正在挑戰(zhàn) transformer 的主導(dǎo)地位(但對于大多數(shù)模型來說還處于早期階段):
狀態(tài)空間模型:這是一類與循環(huán) (RNN) 和卷積 (CNN) 神經(jīng)網(wǎng)絡(luò)相關(guān)的模型,它們對長序列進行線性或近線性計算復(fù)雜度計算。像Mamba這樣的狀態(tài)空間模型 (SSM)可以更好地處理長距離關(guān)系,但在性能上落后于 Transformer。
這些研究方法現(xiàn)在已經(jīng)走出了大學(xué)實驗室,并以新模型的形式進入公共領(lǐng)域,供所有人嘗試。此外,最新的模型發(fā)布可以告訴我們底層技術(shù)的狀態(tài)以及 Transformer 替代方案的可行路徑。
二、值得關(guān)注的發(fā)布
我們不斷聽到 OpenAI、Cohere、Anthropic 和 Mistral 等知名公司發(fā)布最新最出色的模型的消息。Meta 的編譯器優(yōu)化基礎(chǔ)模型因其在代碼和編譯器優(yōu)化方面的有效性而引人注目。
除了主流的 Transformer 架構(gòu)外,我們現(xiàn)在還看到了生產(chǎn)級狀態(tài)空間模型 (SSM)、混合 SSM-Transformer 模型、專家混合 (MoE) 和專家組合 (CoE) 模型。與最先進的開源模型相比,這些模型在多個基準測試中表現(xiàn)良好。其中脫穎而出的包括:
Databricks開源 DBRX模型:該 MoE 模型有 132B 個參數(shù)。它有 16 位專家,其中 4 位在推理或訓(xùn)練期間同時處于活動狀態(tài)。它支持 32K 上下文窗口,并且該模型在 12T 令牌上進行訓(xùn)練。其他一些有趣的細節(jié) — — 它耗時 3 個月,耗資 1000 萬美元,使用 3072 個 Nvidia GPU 通過 3.2Tbps InfiniBand 連接,完成了模型的預(yù)訓(xùn)練、后訓(xùn)練、評估、紅隊測試和細化。
SambaNova Systems 發(fā)布的Samba CoE v0.2:該 CoE 模型由五個 7B 參數(shù)專家組成,其中只有一個在推理時處于活動狀態(tài)。這些專家都是開源模型,除了專家之外,該模型還有一個路由器。它可以了解哪個模型最適合特定查詢,并將請求路由到該模型。它的速度非???,每秒生成 330 個令牌。
AI21 實驗室發(fā)布了Jamba:這是一種混合 Transformer-Mamba MoE 模型。它是第一個基于 Mamba 的生產(chǎn)級模型,具有傳統(tǒng) Transformer 架構(gòu)的元素?!癟ransformer 模型有兩個缺點:首先,其高內(nèi)存和計算要求阻礙了長上下文的處理,其中鍵值 (KV) 緩存大小成為限制因素。其次,由于每個生成的 token 都會對整個上下文執(zhí)行計算,因此它缺乏單一的摘要狀態(tài),導(dǎo)致推理速度慢且吞吐量低”。像 Mamba 這樣的 SSM 可以更好地處理長距離關(guān)系,但在性能上落后于 Transformer。Jamba 彌補了純 SSM 模型的固有限制,提供 256K 上下文窗口并在單個 GPU 上容納 140K 上下文。
三、企業(yè)采用挑戰(zhàn)
盡管最新的研究和模型發(fā)布對支持 Transformer 架構(gòu)作為下一個前沿領(lǐng)域有著巨大的希望,但我們還必須考慮阻礙企業(yè)利用這一優(yōu)勢的技術(shù)挑戰(zhàn):
1.缺少適合企業(yè)的功能
想象一下,向 CXO 銷售的產(chǎn)品沒有基于角色的訪問控制 (RBAC)、單點登錄 (SSO) 或無法訪問日志(提示和輸出)等簡單功能。當今的模型可能還不適合企業(yè),但企業(yè)正在制定單獨的預(yù)算,以確保他們不會錯過下一個重大事件。
2.打破以往的運作方式
AI Copilot和Agent將會使數(shù)據(jù)和應(yīng)用程序的安全變得更加復(fù)雜。
想象一個簡單的用例:你每天使用的視頻會議應(yīng)用程序引入了 AI 摘要功能。作為用戶,你可能喜歡會議后獲取記錄的功能,但在受監(jiān)管的行業(yè)中,這一增強功能可能突然成為 CISO 的噩夢。實際上,到目前為止運行良好的功能已經(jīng)失效,需要經(jīng)過額外的安全審查。當 SaaS 應(yīng)用程序引入此類功能時,企業(yè)需要設(shè)置護欄來確保數(shù)據(jù)隱私和合規(guī)性。
3.RAG與微調(diào)的取舍
可以同時部署兩者或不部署兩者,而無需做出太多犧牲。人們可以將檢索增強生成 (RAG) 視為確保事實正確呈現(xiàn)且信息最新的一種方式,而微調(diào)則可以被視為可實現(xiàn)最佳模型質(zhì)量。微調(diào)很難,這導(dǎo)致一些模型供應(yīng)商不建議這樣做。它還包括過度擬合的挑戰(zhàn),這會對模型質(zhì)量產(chǎn)生不利影響。微調(diào)似乎受到多方壓力——隨著模型上下文窗口的增加和代幣成本的下降,RAG 可能成為企業(yè)的更好部署選擇。
在 RAG 的背景下, Cohere 最近推出的 Command R+ 模型是第一個在聊天機器人領(lǐng)域擊敗 GPT-4 的開放權(quán)重模型。Command R+ 是最先進的 RAG 優(yōu)化模型,旨在為企業(yè)級工作流程提供支持。
四、寫在最后
這一波AI的部署始于更加智能的聊天機器人。20多個月過去,初創(chuàng)公司和企業(yè)已經(jīng)想出了如何將GenAI打包成Copilot,以增強人類的知識和技能。下一步自然是將多步驟工作流、記憶和個性化等內(nèi)容打包成智能體,以解決銷售和工程等多種職能中的用例。
可以預(yù)期的是,用戶的簡單提示將使Agent能夠?qū)σ鈭D進行分類,將目標分解為多個步驟并完成任務(wù),無論是互聯(lián)網(wǎng)搜索、將身份驗證分解為多種工具還是從過去的重復(fù)行為中學(xué)習(xí)。
想預(yù)訂夏威夷之旅、從你最喜歡的餐廳訂餐或管理個人財務(wù)嗎?未來諸位都能夠使用個性化Agent來安全地管理這些任務(wù),這是有可能的,但從技術(shù)角度來看,我們距離這個未來還很遙遠。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
