自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

非Transformer模型終于來了! 原創(chuàng)

發(fā)布于 2024-8-15 11:26
瀏覽
0收藏

Falcon Mamba 7B 強大的新 AI 架構為 transformer 模型提供了替代方案

8月12日,阿布扎比技術創(chuàng)新研究所(TII)發(fā)布了一款名為 Falcon Mamba 7B 的新開源模型。同時,這款模型已經(jīng)放在了Hugging Face平臺。

Mamba 7B 采用了一種新穎的Mamba狀態(tài)空間語言模型(SSLM)架構來處理各種文本生成任務,并在選定基準測試中優(yōu)于其尺寸類別中的主流模型,包括Meta的Llama 3 8B、Llama 3.1 8B和Mistral 7B。

盡管,它是繼Falcon  180B、Falcon  40B 和Falcon  2 之后 TII 的第四個開放模型,但令人興奮的點在于,它是非Transformer架構的第一個類別,意義非比尋常。它正在迅速成為人工智能領域基于Transformer的大型語言模型 (LLM) 的新替代品。

據(jù)介紹,該模型采用了“Falcon License 2.0”,一種基于 Apache 2.0 的許可證。

01、Falcon Mamba 7B 有何優(yōu)勢?

盡管變換模型繼續(xù)在生成式人工智能領域占據(jù)主導地位,但研究人員指出,該架構在處理較長的文本時可能會遇到困難。

本質上,Transformer 的注意力機制通過將每個單詞(或標記)與文本中的每個單詞進行比較來理解上下文,它需要更多的計算能力和內存來處理不斷增長的上下文窗口。

如果不相應地擴展資源,推理速度就會變慢,并達到無法處理超過一定長度的文本的程度。

為了克服這些障礙,狀態(tài)空間語言模型(SSLM) 架構應運而生,該架構通過在處理單詞時不斷更新“狀態(tài)”來工作,已成為一種有前途的替代方案。一些組織已經(jīng)部署了它——TII 是最新的采用者。

據(jù) TII 介紹,其全新的 Falcon 型號采用了 Mamba SSM 架構,該架構最初由卡內基梅隆大學和普林斯頓大學的研究人員在 2023 年 12 月的一篇論文中提出。

該架構使用一種選擇機制,允許模型根據(jù)輸入動態(tài)調整其參數(shù)。這樣,模型可以關注或忽略特定輸入,類似于注意力機制在 Transformer 中的工作方式,同時提供處理長文本序列(例如整本書)的能力,而無需額外的內存或計算資源。

TII 指出,該方法使模型適用于企業(yè)級機器翻譯、文本摘要、計算機視覺和音頻處理任務以及估計和預測等任務。

02、挑戰(zhàn) Meta、Google 和 Mistral

為了了解 Falcon Mamba 7B 與同尺寸級別領先的 transformer 模型的表現(xiàn)如何,該研究所進行了一項測試,以確定使用單個 24GB A10GPU 時模型可以處理的最大上下文長度。

結果顯示,F(xiàn)alcon Mamba“可以適應比基于 SoTA Transformer 的模型更大的序列,同時理論上如果逐個處理整個上下文標記,或者按適合 GPU 的大小處理標記塊(稱為順序并行),則能夠適應無限的上下文長度。”

非Transformer模型終于來了!-AI.x社區(qū)

Falcon  7B

在單獨的吞吐量測試中,它的表現(xiàn)優(yōu)于 Mistral 7B 高效的滑動窗口注意力架構,能夠以恒定的速度生成所有 token,并且不會增加 CUDA 峰值內存。

即使在標準行業(yè)基準中,新模型的性能也優(yōu)于或幾乎與流行的變壓器模型以及純和混合狀態(tài)空間模型的性能相同。

例如,在 Arc、TruthfulQA 和 GSM8K 基準測試中,F(xiàn)alcon Mamba 7B 得分分別為 62.03%、53.42% 和 52.54%,明顯優(yōu)于 Llama 3 8B、Llama 3.1 8B、Gemma 7B和 Mistral 7B。

然而,在 MMLU 和 Hellaswag 基準測試中,它緊隨所有這些模型之后。

但這僅僅是一個開始。下一步,TII 計劃進一步優(yōu)化模型設計,以提高其性能并覆蓋更多的應用場景。

TII 人工智能跨中心部門代理首席研究員 Hakim Hacid 博士在一份聲明中表示:“此次發(fā)布代表著向前邁出的重大一步,它激發(fā)了新的觀點,并進一步推動了對智能系統(tǒng)的探索。在 TII,我們正在突破 SSLM 和 transformer 模型的界限,以激發(fā)生成式人工智能的進一步創(chuàng)新?!?/p>

總體而言,TII 的 Falcon 系列語言模型下載量已超過 4500 萬次,成為阿聯(lián)酋最成功的 LLM 版本之一。

?

本文轉載自??51CTO技術棧??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦