自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer,會(huì)笑到最后嗎?

原創(chuàng) 精選
人工智能
在 RAG 的背景下, Cohere 最近推出的 Command R+ 模型是第一個(gè)在聊天機(jī)器人領(lǐng)域擊敗 GPT-4 的開(kāi)放權(quán)重模型。Command R+ 是最先進(jìn)的 RAG 優(yōu)化模型,旨在為企業(yè)級(jí)工作流程提供支持。

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

Transformer 架構(gòu)為當(dāng)今最流行的公共和私有AI 模型提供支持。那么我們想知道——接下來(lái)是什么?這種架構(gòu)是否會(huì)帶來(lái)更好的推理?Transformer 之后會(huì)是什么?

一、Transformer 的問(wèn)題及其挑戰(zhàn)者們

Transformer 架構(gòu)的自注意力機(jī)制允許模型同時(shí)衡量每個(gè)輸入 token 對(duì)輸入序列中所有 token 的重要性。通過(guò)捕獲長(zhǎng)距離依賴關(guān)系和復(fù)雜的 token 關(guān)系,這有助于提高模型對(duì)語(yǔ)言和計(jì)算機(jī)視覺(jué)的理解。然而,這意味著計(jì)算復(fù)雜度會(huì)隨著長(zhǎng)序列(例如 DNA)的增加而增加,從而導(dǎo)致性能下降和內(nèi)存消耗增加。解決長(zhǎng)序列問(wèn)題的一些解決方案和研究方法包括:

在硬件上改進(jìn) Transformer :FlashAttention是一項(xiàng)很有前途的技術(shù)。本文聲稱(chēng),通過(guò)仔細(xì)管理 GPU 上不同級(jí)別的快速和慢速內(nèi)存的讀寫(xiě),可以提高 Transformer 的性能。這是通過(guò)使注意力算法具有 IO 感知能力來(lái)實(shí)現(xiàn)的,這減少了 GPU 的高帶寬內(nèi)存 (HBM) 和靜態(tài)隨機(jī)存取存儲(chǔ)器 (SRAM) 之間的讀寫(xiě)次數(shù)。

近似注意力:自注意力機(jī)制具有 O(n^2) 復(fù)雜度,其中 n 表示輸入序列的長(zhǎng)度。有沒(méi)有辦法將這種二次計(jì)算復(fù)雜度降低到線性,以便 Transformer 可以更好地處理長(zhǎng)序列?這里的優(yōu)化包括 Reformer、Performers、 Skyformer等技術(shù)。

除了這些降低 transformer 復(fù)雜性的優(yōu)化之外,一些替代模型正在挑戰(zhàn) transformer 的主導(dǎo)地位(但對(duì)于大多數(shù)模型來(lái)說(shuō)還處于早期階段):

狀態(tài)空間模型:這是一類(lèi)與循環(huán) (RNN) 和卷積 (CNN) 神經(jīng)網(wǎng)絡(luò)相關(guān)的模型,它們對(duì)長(zhǎng)序列進(jìn)行線性或近線性計(jì)算復(fù)雜度計(jì)算。像Mamba這樣的狀態(tài)空間模型 (SSM)可以更好地處理長(zhǎng)距離關(guān)系,但在性能上落后于 Transformer。

這些研究方法現(xiàn)在已經(jīng)走出了大學(xué)實(shí)驗(yàn)室,并以新模型的形式進(jìn)入公共領(lǐng)域,供所有人嘗試。此外,最新的模型發(fā)布可以告訴我們底層技術(shù)的狀態(tài)以及 Transformer 替代方案的可行路徑。

二、值得關(guān)注的發(fā)布

我們不斷聽(tīng)到 OpenAI、Cohere、Anthropic 和 Mistral 等知名公司發(fā)布最新最出色的模型的消息。Meta 的編譯器優(yōu)化基礎(chǔ)模型因其在代碼和編譯器優(yōu)化方面的有效性而引人注目。

除了主流的 Transformer 架構(gòu)外,我們現(xiàn)在還看到了生產(chǎn)級(jí)狀態(tài)空間模型 (SSM)、混合 SSM-Transformer 模型、專(zhuān)家混合 (MoE) 和專(zhuān)家組合 (CoE) 模型。與最先進(jìn)的開(kāi)源模型相比,這些模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)良好。其中脫穎而出的包括:

Databricks開(kāi)源 DBRX模型:該 MoE 模型有 132B 個(gè)參數(shù)。它有 16 位專(zhuān)家,其中 4 位在推理或訓(xùn)練期間同時(shí)處于活動(dòng)狀態(tài)。它支持 32K 上下文窗口,并且該模型在 12T 令牌上進(jìn)行訓(xùn)練。其他一些有趣的細(xì)節(jié) — — 它耗時(shí) 3 個(gè)月,耗資 1000 萬(wàn)美元,使用 3072 個(gè) Nvidia GPU 通過(guò) 3.2Tbps InfiniBand 連接,完成了模型的預(yù)訓(xùn)練、后訓(xùn)練、評(píng)估、紅隊(duì)測(cè)試和細(xì)化。

SambaNova Systems 發(fā)布的Samba CoE v0.2:該 CoE 模型由五個(gè) 7B 參數(shù)專(zhuān)家組成,其中只有一個(gè)在推理時(shí)處于活動(dòng)狀態(tài)。這些專(zhuān)家都是開(kāi)源模型,除了專(zhuān)家之外,該模型還有一個(gè)路由器。它可以了解哪個(gè)模型最適合特定查詢,并將請(qǐng)求路由到該模型。它的速度非??欤棵肷?330 個(gè)令牌。

AI21 實(shí)驗(yàn)室發(fā)布了Jamba:這是一種混合 Transformer-Mamba MoE 模型。它是第一個(gè)基于 Mamba 的生產(chǎn)級(jí)模型,具有傳統(tǒng) Transformer 架構(gòu)的元素。“Transformer 模型有兩個(gè)缺點(diǎn):首先,其高內(nèi)存和計(jì)算要求阻礙了長(zhǎng)上下文的處理,其中鍵值 (KV) 緩存大小成為限制因素。其次,由于每個(gè)生成的 token 都會(huì)對(duì)整個(gè)上下文執(zhí)行計(jì)算,因此它缺乏單一的摘要狀態(tài),導(dǎo)致推理速度慢且吞吐量低”。像 Mamba 這樣的 SSM 可以更好地處理長(zhǎng)距離關(guān)系,但在性能上落后于 Transformer。Jamba 彌補(bǔ)了純 SSM 模型的固有限制,提供 256K 上下文窗口并在單個(gè) GPU 上容納 140K 上下文。

三、企業(yè)采用挑戰(zhàn)

盡管最新的研究和模型發(fā)布對(duì)支持 Transformer 架構(gòu)作為下一個(gè)前沿領(lǐng)域有著巨大的希望,但我們還必須考慮阻礙企業(yè)利用這一優(yōu)勢(shì)的技術(shù)挑戰(zhàn):

1.缺少適合企業(yè)的功能

想象一下,向 CXO 銷(xiāo)售的產(chǎn)品沒(méi)有基于角色的訪問(wèn)控制 (RBAC)、單點(diǎn)登錄 (SSO) 或無(wú)法訪問(wèn)日志(提示和輸出)等簡(jiǎn)單功能。當(dāng)今的模型可能還不適合企業(yè),但企業(yè)正在制定單獨(dú)的預(yù)算,以確保他們不會(huì)錯(cuò)過(guò)下一個(gè)重大事件。

2.打破以往的運(yùn)作方式

AI Copilot和Agent將會(huì)使數(shù)據(jù)和應(yīng)用程序的安全變得更加復(fù)雜。

想象一個(gè)簡(jiǎn)單的用例:你每天使用的視頻會(huì)議應(yīng)用程序引入了 AI 摘要功能。作為用戶,你可能喜歡會(huì)議后獲取記錄的功能,但在受監(jiān)管的行業(yè)中,這一增強(qiáng)功能可能突然成為 CISO 的噩夢(mèng)。實(shí)際上,到目前為止運(yùn)行良好的功能已經(jīng)失效,需要經(jīng)過(guò)額外的安全審查。當(dāng) SaaS 應(yīng)用程序引入此類(lèi)功能時(shí),企業(yè)需要設(shè)置護(hù)欄來(lái)確保數(shù)據(jù)隱私和合規(guī)性。

3.RAG與微調(diào)的取舍

可以同時(shí)部署兩者或不部署兩者,而無(wú)需做出太多犧牲。人們可以將檢索增強(qiáng)生成 (RAG) 視為確保事實(shí)正確呈現(xiàn)且信息最新的一種方式,而微調(diào)則可以被視為可實(shí)現(xiàn)最佳模型質(zhì)量。微調(diào)很難,這導(dǎo)致一些模型供應(yīng)商不建議這樣做。它還包括過(guò)度擬合的挑戰(zhàn),這會(huì)對(duì)模型質(zhì)量產(chǎn)生不利影響。微調(diào)似乎受到多方壓力——隨著模型上下文窗口的增加和代幣成本的下降,RAG 可能成為企業(yè)的更好部署選擇。

在 RAG 的背景下, Cohere 最近推出的 Command R+ 模型是第一個(gè)在聊天機(jī)器人領(lǐng)域擊敗 GPT-4 的開(kāi)放權(quán)重模型。Command R+ 是最先進(jìn)的 RAG 優(yōu)化模型,旨在為企業(yè)級(jí)工作流程提供支持。 

四、寫(xiě)在最后

這一波AI的部署始于更加智能的聊天機(jī)器人。20多個(gè)月過(guò)去,初創(chuàng)公司和企業(yè)已經(jīng)想出了如何將GenAI打包成Copilot,以增強(qiáng)人類(lèi)的知識(shí)和技能。下一步自然是將多步驟工作流、記憶和個(gè)性化等內(nèi)容打包成智能體,以解決銷(xiāo)售和工程等多種職能中的用例。

可以預(yù)期的是,用戶的簡(jiǎn)單提示將使Agent能夠?qū)σ鈭D進(jìn)行分類(lèi),將目標(biāo)分解為多個(gè)步驟并完成任務(wù),無(wú)論是互聯(lián)網(wǎng)搜索、將身份驗(yàn)證分解為多種工具還是從過(guò)去的重復(fù)行為中學(xué)習(xí)。

想預(yù)訂夏威夷之旅、從你最喜歡的餐廳訂餐或管理個(gè)人財(cái)務(wù)嗎?未來(lái)諸位都能夠使用個(gè)性化Agent來(lái)安全地管理這些任務(wù),這是有可能的,但從技術(shù)角度來(lái)看,我們距離這個(gè)未來(lái)還很遙遠(yuǎn)。

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2011-11-24 09:51:13

LinuxMint

2011-06-08 14:09:59

噴墨打印機(jī)行情

2012-03-22 13:36:11

iPadKindle Fire

2015-07-27 15:31:06

國(guó)產(chǎn)基礎(chǔ)軟件東方通國(guó)產(chǎn)化

2017-05-09 16:45:26

司法算法法官

2023-08-31 14:38:19

2020-01-14 16:44:32

設(shè)備商5G運(yùn)營(yíng)商

2020-11-11 10:51:32

物聯(lián)網(wǎng)操作系統(tǒng)安卓

2022-12-30 12:10:41

L4自動(dòng)駕駛破產(chǎn)

2017-06-27 10:08:12

互聯(lián)網(wǎng)

2012-07-19 10:30:48

以太網(wǎng)交換機(jī)思科

2024-12-31 07:30:00

2023-11-27 09:59:52

英偉達(dá)AI芯片

2015-11-09 10:09:12

2021-03-02 11:45:39

5G4G3G

2019-04-16 10:09:15

機(jī)器學(xué)習(xí)算法權(quán)利的游戲

2010-05-25 10:55:11

MySQL分支Mari

2021-03-05 10:43:00

5G騰訊運(yùn)營(yíng)商

2010-01-21 17:33:05

2020-11-24 10:03:41

編碼程序員技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)