自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

給機(jī)器人裝上「蟲腦」?非Transformer液態(tài)神經(jīng)網(wǎng)絡(luò)終于來(lái)了!MIT CSAIL負(fù)責(zé)人創(chuàng)業(yè)成果

人工智能 新聞
一個(gè)受線蟲啟發(fā)的全新架構(gòu),三大「杯型」均能實(shí)現(xiàn) SOTA 性能,資源高度受限環(huán)境也能部署。移動(dòng)機(jī)器人可能更需要一個(gè)蟲子的大腦。

在大模型時(shí)代,谷歌 2017 年開創(chuàng)性論文《Attention Is All You Need》中提出的 Transformer 已經(jīng)成為主流架構(gòu)。

然而,剛剛一家由 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 前研究人員共同創(chuàng)立的初創(chuàng)公司 Liquid AI 卻走出了不一樣的路線。

Liquid AI 表示他們的目標(biāo)是「探索構(gòu)建超越生成式預(yù)訓(xùn)練 Transformer (GPT) 基礎(chǔ)模型的方法」。

為了實(shí)現(xiàn)這一目標(biāo),Liquid AI 推出了其首批多模態(tài) AI 模型:Liquid Foundation Models(LFM)。這是基于第一原理構(gòu)建的新一代生成式 AI 模型,其 1B、3B 和 40B LFM 在各個(gè)規(guī)模上均能實(shí)現(xiàn) SOTA 性能,同時(shí)保持更小的內(nèi)存占用和更高效的推理。

Liquid AI 后訓(xùn)練主管 Maxime Labonne 在 X 上表示,LFM 是他職業(yè)生涯中最自豪的版本 ,LFM 的核心優(yōu)勢(shì)在于它們能夠勝過(guò)基于 Transformer 的模型,同時(shí)占用更少的內(nèi)存。

圖片

有人表示,LFM 是 Transformer 的終結(jié)者。

還有網(wǎng)友盛贊 LFM 是游戲規(guī)則的改變者。

圖片

更有網(wǎng)友認(rèn)為「可能是時(shí)候放棄 Transformers 了,這種新架構(gòu)看起來(lái)很有前途?!?/span>

Liquid AI 發(fā)布三款模型

LFM 系列擁有三種不同的尺寸和變體:

  • 密集型 LFM 1.3B(最?。?,非常適合資源高度受限的環(huán)境。
  • 密集型 LFM 3B,適合在邊緣部署優(yōu)化。
  • LFM 40.3B MoE 模型(最大,類似于 Mistral 的專家混合模型),專為處理更復(fù)雜的任務(wù)而設(shè)計(jì)。

SOTA 性能

LFM-1B 與同等規(guī)模模型的比較。LFM-1B 在各項(xiàng)基準(zhǔn)測(cè)試中均取得最高分,成為該規(guī)模下最先進(jìn)的模型。這是非 GPT 架構(gòu)首次顯著優(yōu)于基于 Transformer 的模型。舉例來(lái)說(shuō),LFM 1.3B 在第三方基準(zhǔn)測(cè)試中優(yōu)于 Meta 的 Llama 3.2-1.2B 和微軟的 Phi-1.5。

圖片

LFM-3B 實(shí)現(xiàn)了令人難以置信的性能,在與 3B transformer 模型、混合模型和 RNN 模型的比較中名列第一。在多個(gè)基準(zhǔn)測(cè)試中也與 Phi-3.5-mini 相當(dāng),同時(shí)規(guī)模小了 18.4%??梢钥闯?LFM-3B 是移動(dòng)和其他邊緣文本應(yīng)用的理想選擇。

圖片

LFM-40B 在模型大小和輸出質(zhì)量之間實(shí)現(xiàn)了新的平衡。它在運(yùn)行時(shí)可以激活 12B 參數(shù),其性能媲美更大的模型,而 MoE 架構(gòu)可實(shí)現(xiàn)更高的吞吐量,并可在更具成本效益的硬件上進(jìn)行部署。

圖片

內(nèi)存高效

與 Transformer 架構(gòu)相比,LFM 占用的內(nèi)存更少。對(duì)于長(zhǎng)輸入尤其如此,因?yàn)榛?Transformer 的 LLM 中的 KV 緩存會(huì)隨著序列長(zhǎng)度線性增長(zhǎng)。通過(guò)高效壓縮輸入,LFM 可以在相同硬件上處理更長(zhǎng)的序列。與其他 3B 類模型相比,LFM 占用的內(nèi)存最少。舉例來(lái)說(shuō),LFM-3B 僅需要 16 GB 內(nèi)存,而 Meta 的 Llama-3.2-3B 則需要超過(guò) 48 GB 內(nèi)存。

圖片

LFM 真正利用了上下文長(zhǎng)度

 下表比較了幾種模型在不同上下文長(zhǎng)度下的表現(xiàn)。 

圖片

這種高效的上下文窗口首次在邊緣設(shè)備上實(shí)現(xiàn)了長(zhǎng)上下文任務(wù)。對(duì)于開發(fā)者來(lái)說(shuō),它解鎖了新的應(yīng)用,包括文檔分析和摘要、與上下文感知聊天機(jī)器人進(jìn)行更有意義的交互,以及改進(jìn)的檢索增強(qiáng)生成 (RAG) 性能。

這些模型不僅在原始性能基準(zhǔn)方面具有競(jìng)爭(zhēng)力,而且在運(yùn)營(yíng)效率方面也具有競(jìng)爭(zhēng)力,使其成為各種用例的理想選擇,從金融服務(wù)、生物技術(shù)和消費(fèi)電子產(chǎn)品領(lǐng)域的企業(yè)級(jí)應(yīng)用程序到邊緣設(shè)備的部署。

用戶可以通過(guò) Lambda Chat 或 Perplexity AI 等訪問(wèn)。

Liquid 如何超越生成式預(yù)訓(xùn)練 Transformer (GPT)

 Liquid 使用了一種混合的計(jì)算單元,這些計(jì)算單元深深植根于動(dòng)態(tài)系統(tǒng)理論、信號(hào)處理和數(shù)值線性代數(shù)的理論中。結(jié)果就是開發(fā)出了通用的人工智能模型,這些模型能夠用來(lái)模擬任何類型的序列數(shù)據(jù),包括視頻、音頻、文本、時(shí)間序列和信號(hào),以此來(lái)訓(xùn)練其新的 LFM。 

圖片

早在去年,Liquid AI 就使用了一種名為 LNN(Liquid Neural Networks)的方法,與需要數(shù)千個(gè)神經(jīng)元來(lái)執(zhí)行復(fù)雜任務(wù)的傳統(tǒng)深度學(xué)習(xí)模型不同,LNN 表明,更少的神經(jīng)元(結(jié)合創(chuàng)新的數(shù)學(xué)公式)可以實(shí)現(xiàn)相同的結(jié)果。

Liquid AI 的新模型保留了這種適應(yīng)性的核心優(yōu)勢(shì),允許在推理過(guò)程中進(jìn)行實(shí)時(shí)調(diào)整, 而不會(huì)帶來(lái)傳統(tǒng)模型相關(guān)的計(jì)算開銷??梢愿咝幚矶噙_(dá) 100 萬(wàn)個(gè) token,同時(shí)將內(nèi)存使用量降至最低。

例如,在推理內(nèi)存占用方面,LFM-3B 模型的表現(xiàn)優(yōu)于 Google 的 Gemma-2、Microsoft 的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在 token 長(zhǎng)度擴(kuò)展的情況下。

圖片

雖然其他模型在處理長(zhǎng)上下文時(shí)內(nèi)存使用量會(huì)急劇增加,但 LFM-3B 占用的空間卻小得多,因此非常適合需要大量順序數(shù)據(jù)處理的應(yīng)用程序,例如文檔分析或聊天機(jī)器人。

Liquid AI 已將其基礎(chǔ)模型構(gòu)建為跨多種數(shù)據(jù)模態(tài)(包括音頻、視頻和文本)的通用模型。

憑借這種多模態(tài)能力,Liquid 旨在解決從金融服務(wù)到生物技術(shù)和消費(fèi)電子產(chǎn)品等各種行業(yè)特定挑戰(zhàn)。

Liquid AI 正在為多家硬件制造商的產(chǎn)品優(yōu)化其模型,包括 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras。

Liquid AI 正在邀請(qǐng)?jiān)缙谟脩艉烷_發(fā)者測(cè)試他們的新模型并提供反饋。雖然目前模型還不完美,但公司計(jì)劃利用這些反饋來(lái)改進(jìn)產(chǎn)品。他們將于 2024 年 10 月 23 日在麻省理工學(xué)院舉行正式發(fā)布會(huì)。

為了保持透明度和推動(dòng)科學(xué)進(jìn)步,公司計(jì)劃在發(fā)布會(huì)前發(fā)表一系列技術(shù)博客文章。他們還鼓勵(lì)用戶進(jìn)行紅隊(duì)測(cè)試,探索模型的極限,以幫助改進(jìn)未來(lái)版本。

Liquid AI 推出的 LFM 結(jié)合了高性能和高效的內(nèi)存使用,為傳統(tǒng)的基于 Transformer 的模型提供了一個(gè)有力的替代選擇。這使得 Liquid AI 有望成為基礎(chǔ)模型領(lǐng)域的重要玩家。

圖片

Liquid AI :從一條小蟲子開始

這家公開與 OpenAI 和其他大語(yǔ)言模型公司競(jìng)爭(zhēng)的創(chuàng)業(yè)公司,由 MIT 計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室 CSAIL 孵化,成立于 2023 年 3 月。

2023 年 12 月,公司拿到種子輪融資 3750 萬(wàn)美元,估值達(dá)到 3 個(gè)億。

投資人包括 GitHub 聯(lián)合創(chuàng)始人 Tom Preston Werner、Shopify 聯(lián)合創(chuàng)始人 Tobias Lütke 、 Red Hat 聯(lián)合創(chuàng)始人 Bob Young,等。

MIT CSAIL 主任 Daniela Rus 是公司創(chuàng)始人之一,這位著名的機(jī)器人學(xué)家和計(jì)算機(jī)科學(xué)家也是該實(shí)驗(yàn)室的首位女性主管。

除了 Daniela Rus,Liquid AI 另三位聯(lián)合創(chuàng)始人都曾是 MIT CSAIL 博士后研究人員。

聯(lián)合創(chuàng)始人兼 CEO Ramin Hasani 在 MIT CSAIL 從事博士后研究之前,曾是美國(guó)最大的基金管理公司之一先鋒集團(tuán)( Vanguard )的首席人工智能科學(xué)家。

聯(lián)合創(chuàng)始人兼 CTO Mathias Lechner 早在維也納工業(yè)大學(xué)讀書時(shí),就和 Hasani 一起研究過(guò)線蟲的神經(jīng)結(jié)構(gòu)。

聯(lián)合創(chuàng)始人兼首席科學(xué)官 Alexander Amini 曾是 Daniela Rus 的博士生。

圖片

四位創(chuàng)始人(從左到右)CEO Ramin Hasani,Daniela Rus,首席科學(xué)官 Alexander Amini 和 CTO Mathias Lechner

2017 年,Daniela Rus 將 Hasani 和 Lechner 「挖到 」MIT CSAIL,Rus 和她的博士生 Amini 也加入到液態(tài)神經(jīng)網(wǎng)絡(luò)的研究中。

Daniela Rus 指出,生成式 AI 在安全、可解釋性以及算力等方面存在明顯局限性,很難被用于解決機(jī)器人問(wèn)題,特別是移動(dòng)機(jī)器人。

受科研界的「??汀剐沱愲[桿線蟲的神經(jīng)結(jié)構(gòu)啟發(fā),Daniela Rus 和她的實(shí)驗(yàn)室博士后人員研發(fā)出一種新型的靈活神經(jīng)網(wǎng)絡(luò),也被成為液態(tài)神經(jīng)網(wǎng)絡(luò)。

圖片

秀麗隱桿線蟲也是唯一完成連接組(connectome)測(cè)定的生物體(截至 2019 年)。雖然大腦簡(jiǎn)單,但在學(xué)習(xí)和適應(yīng)環(huán)境方面也比當(dāng)下任何人工智能系統(tǒng)都要好得多。

秀麗隱桿線蟲體長(zhǎng)僅 1 毫米、只有 302 個(gè)神經(jīng)元、96 塊肌肉,但卻具備感知、逃逸、覓食、交配等復(fù)雜智能行為。

它是最簡(jiǎn)單的生命智能體,也是通過(guò)生物神經(jīng)機(jī)理模擬實(shí)現(xiàn)通用人工智能的最小載體。

近幾年來(lái),科研人員也在利用線蟲神經(jīng)的研究成果進(jìn)行計(jì)算機(jī)生物仿真。通過(guò)研究線蟲大腦如何工作,Daniela Rus 等人設(shè)計(jì)出一種「液態(tài)時(shí)間常數(shù)網(wǎng)絡(luò)」( Liquid Time-constant Networks):

一個(gè)連續(xù)時(shí)間模型,由多個(gè)簡(jiǎn)單的動(dòng)態(tài)系統(tǒng)組成,這些系統(tǒng)通過(guò)非線性門相互調(diào)節(jié)。

如果說(shuō),標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)猶如一層層間隔均勻的水壩,每層水壩上安裝了許多閥門(權(quán)重),計(jì)算的洪流每流經(jīng)一層水壩,都要透過(guò)這些閥門,匯總后再奔向下一層。

那么,液態(tài)神經(jīng)網(wǎng)絡(luò)不需要水壩,因?yàn)?,每個(gè)神經(jīng)元都由微分方程 (ODE)控制。

這種網(wǎng)絡(luò)的特點(diǎn)是時(shí)間常數(shù)可變,輸出通過(guò)求解微分方程得到。研究表明,它在穩(wěn)定性、表達(dá)能力和時(shí)間序列預(yù)測(cè)方面都優(yōu)于傳統(tǒng)模型。

后來(lái),Daniela Rus 等人又提出一種近似方法,可以用閉式解來(lái)高效地模擬神經(jīng)元和突觸之間的相互作用( Closed-form continuous-time neural networks ),不僅大大提高了模型的計(jì)算速度,也顯示出更好的可擴(kuò)展性,在時(shí)間序列建模方面表現(xiàn)出色,優(yōu)于許多先進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

Liquid AI 團(tuán)隊(duì)成員曾聲稱,該架構(gòu)適合分析任何隨時(shí)間波動(dòng)的現(xiàn)象,包括視頻處理、自動(dòng)駕駛、大腦和心臟監(jiān)測(cè)、金融交易(股票報(bào)價(jià))和天氣預(yù)報(bào)等。

除了像液體一樣的靈活性,與動(dòng)輒數(shù)十億參數(shù)規(guī)模的生成 AI 模型相比,液態(tài)神經(jīng)網(wǎng)絡(luò)的另一個(gè)特點(diǎn)是規(guī)模小得多。

例如,可在資源高度受限環(huán)境中部署的 LFM 1.3B,參數(shù)僅 1.3B(與 GPT-2 最大版本 1.5B 相近),同時(shí)保持了更小的內(nèi)存占用和更高效的推理,可以在各種機(jī)器人硬件平臺(tái)上運(yùn)行。

另外,由于尺寸小、架構(gòu)簡(jiǎn)單,液態(tài)神經(jīng)網(wǎng)絡(luò)也有可解釋性方面的優(yōu)勢(shì)。

不過(guò),全新架構(gòu)將如何與 OpenAI 等競(jìng)爭(zhēng)對(duì)手的主流模型相抗衡還有待觀察。

Hasani 曾表示,目前 Liquid AI 沒有計(jì)劃為消費(fèi)者開發(fā)像 ChatGPT 這樣的應(yīng)用程序。公司首先關(guān)注希望為金融和醫(yī)學(xué)研究建模的企業(yè)客戶。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-11-16 09:20:00

神經(jīng)網(wǎng)絡(luò)AI機(jī)器學(xué)習(xí)

2015-11-16 10:16:56

技術(shù)蛻變創(chuàng)業(yè)

2024-08-15 11:37:05

2017-03-07 16:10:36

腦控機(jī)器人糾錯(cuò)

2014-05-21 16:04:38

面試面試規(guī)則

2020-03-05 20:37:08

工業(yè)4.0機(jī)器人工業(yè)物聯(lián)網(wǎng)

2011-08-23 17:02:37

FedoraLinux 20周年

2012-12-13 11:12:24

戴爾

2025-01-07 11:57:25

2009-12-23 09:45:31

微軟施密特

2014-06-27 14:49:41

SDN

2017-03-13 15:30:22

慕尼黑WindowsLiMux

2023-09-11 11:14:54

IT團(tuán)隊(duì)CIO

2011-08-23 18:07:42

QomoLinux 20周年

2009-09-15 10:45:52

Linux驅(qū)動(dòng)Linux微軟

2016-01-15 10:47:08

技術(shù)團(tuán)隊(duì)能力

2009-07-16 08:19:46

魔獸網(wǎng)易

2021-10-13 18:59:42

AI

2022-03-28 10:44:26

FuchsiaOSGoogle操作系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)