自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不依賴Token,字節(jié)級(jí)模型來了!直接處理二進(jìn)制數(shù)據(jù)

人工智能
bGPT通過字節(jié)級(jí)處理,不僅能夠應(yīng)用于常規(guī)的AI生成和理解任務(wù),還能處理更多非傳統(tǒng)應(yīng)用。例如,它能夠直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式,之前的研究由于MIDI的二進(jìn)制本質(zhì)而避免了直接對(duì)這類數(shù)據(jù)的建模。

最新GPT,不預(yù)測(cè)token了。

微軟亞研院等發(fā)布bGPT,仍舊基于Transformer,但是模型預(yù)測(cè)的是下一個(gè)字節(jié)(byte)。

通過直接處理原生二進(jìn)制數(shù)據(jù),bGPT將所有輸入內(nèi)容都視為字節(jié)序列,從而可以不受限于任何特定的格式或任務(wù)。

圖片

能預(yù)測(cè)CPU行為,準(zhǔn)確率超過99.99%;還能直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式。

研究團(tuán)隊(duì)認(rèn)為,傳統(tǒng)的深度學(xué)習(xí)往往忽視了字節(jié)——數(shù)字世界的構(gòu)建基石。

不論是信息的形式還是操作,都是通過二進(jìn)制格式編碼和處理的。字節(jié)構(gòu)成了所有數(shù)據(jù)、設(shè)備和軟件的基礎(chǔ),從計(jì)算機(jī)處理器到我們?nèi)粘J褂玫碾娮赢a(chǎn)品中的操作系統(tǒng)。

這篇論文的標(biāo)題清晰地指出了其目標(biāo):

超越語言模型:將字節(jié)模型作為數(shù)字世界的模擬器。

圖片

模擬CPU行為準(zhǔn)確率超99.99%

bGPT通過字節(jié)級(jí)處理,不僅能夠應(yīng)用于常規(guī)的AI生成和理解任務(wù),還能處理更多非傳統(tǒng)應(yīng)用。

例如,它能夠直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式,之前的研究由于MIDI的二進(jìn)制本質(zhì)而避免了直接對(duì)這類數(shù)據(jù)的建模。

但bGPT天生適合此類任務(wù)。它能夠準(zhǔn)確模擬符號(hào)音樂數(shù)據(jù)轉(zhuǎn)換算法,在將ABC記譜法轉(zhuǎn)換為MIDI格式時(shí),達(dá)到極低的錯(cuò)誤率(0.0011 BPB)。

在模擬CPU行為方面,bGPT展現(xiàn)出超過99.99%的準(zhǔn)確率。這些實(shí)驗(yàn)顯示了bGPT在處理原生二進(jìn)制數(shù)據(jù)方面的強(qiáng)大能力和可擴(kuò)展性。

圖片

bGPT還展示了在處理諸如文本、圖像和音頻傳統(tǒng)媒體文件的生成/分類任務(wù)上的潛力,而且不需要任何針對(duì)特定模態(tài)的定制。

研究團(tuán)隊(duì)訓(xùn)練了一個(gè)大約有100M參數(shù)的bGPT,根據(jù)論文中的實(shí)驗(yàn)結(jié)果,bGPT可以與同樣規(guī)模的文本模型(GPT-2)、視覺模型(ViT)和音頻模型(AST)在各自的模態(tài)下有著可比的性能。

圖片

字節(jié)到塊策略:拓展序列建模長(zhǎng)度

在處理數(shù)字?jǐn)?shù)據(jù)時(shí),bGPT代表了一次重要的進(jìn)步。

因?yàn)樽止?jié)的粒度非常細(xì),處理的字節(jié)序列通常較長(zhǎng),這對(duì)基于Transformer的傳統(tǒng)模型來說是一個(gè)挑戰(zhàn)。由于自注意機(jī)制的復(fù)雜度是二次方的,處理長(zhǎng)序列的效率和可擴(kuò)展性受到了限制。

bGPT的研發(fā)團(tuán)隊(duì)此前在音樂AI領(lǐng)域推出了CLaMP項(xiàng)目,并因此在ISMIR 2023上獲得了最佳學(xué)生論文獎(jiǎng)。

基于這項(xiàng)成果,bGPT采取了一種“字節(jié)到塊(patch)”的轉(zhuǎn)化方法。這個(gè)方法不僅極大提升了數(shù)據(jù)處理效率,還讓長(zhǎng)序列數(shù)據(jù)的處理和擴(kuò)展變得更加簡(jiǎn)便。

圖片

bGPT包含三個(gè)關(guān)鍵組成部分:

  • 線性投影層:通過線性投影將每個(gè)字節(jié)塊轉(zhuǎn)化為密集向量表示,既保留了關(guān)鍵信息,又降低了維度。
  • 塊級(jí)解碼器:順序處理塊的embeddings以預(yù)測(cè)下一個(gè)塊的特征,使用自回歸機(jī)制學(xué)習(xí)字節(jié)序列的整體結(jié)構(gòu)。
  • 字節(jié)級(jí)解碼器:根據(jù)塊級(jí)解碼器的預(yù)測(cè)特征來預(yù)測(cè)每個(gè)塊內(nèi)的字節(jié)序列,這一過程獨(dú)立于每個(gè)塊進(jìn)行,依據(jù)當(dāng)前塊的特征表示。

bGPT提供了一種有前景的解決方案來應(yīng)對(duì)傳統(tǒng)模型在處理字節(jié)級(jí)數(shù)據(jù)時(shí)面臨的挑戰(zhàn),顯著提高了處理大規(guī)模數(shù)字?jǐn)?shù)據(jù)序列的效率和可擴(kuò)展性。

拓寬邊界:bGPT與未來數(shù)字世界的無限潛力

盡管bGPT展現(xiàn)出巨大的潛力,但其也存在一定的局限性和改進(jìn)空間。

目前,bGPT只能處理不超過8KB的數(shù)據(jù)序列,對(duì)于需要生成大量數(shù)據(jù)的現(xiàn)代應(yīng)用來說,這一容量顯然不夠。這一局限主要由于訓(xùn)練和部署這類模型需要巨大的計(jì)算資源需求。

為了推進(jìn)bGPT的實(shí)用性和適用范圍,未來的研究將專注于開發(fā)更高效的算法和利用硬件進(jìn)步以降低計(jì)算成本,使bGPT能夠更加經(jīng)濟(jì)高效地處理更大規(guī)模的數(shù)據(jù)序列,從而拓寬其應(yīng)用前景。

在探討字節(jié)模型未來的話題中,來自世界各地的網(wǎng)友們已經(jīng)提出了一系列腦洞。

他們探討了在裸機(jī)上運(yùn)行純粹的神經(jīng)網(wǎng)絡(luò),以取代操作系統(tǒng)執(zhí)行命令的前景,或者利用網(wǎng)絡(luò)修剪和自我學(xué)習(xí)來優(yōu)化連接,使得超大規(guī)模網(wǎng)絡(luò)具備自我重構(gòu)的能力。

圖片

雖然實(shí)現(xiàn)這些目標(biāo)需要時(shí)間,但bGPT有望實(shí)現(xiàn)將所有數(shù)據(jù)以字節(jié)形式輸入,通過超大規(guī)模自我重構(gòu)網(wǎng)絡(luò)處理后再以字節(jié)形式輸出的終極目標(biāo)。

或許,在探索bGPT能力的邊界時(shí),想象力才是唯一的限制。

圖片

長(zhǎng)期來看,bGPT展示的字節(jié)模型在推動(dòng)人工智能進(jìn)步方面展現(xiàn)了兩大巨大潛能。

首先,它有望實(shí)現(xiàn)一個(gè)統(tǒng)一模型,將計(jì)算機(jī)中的所有數(shù)據(jù)整合起來,為實(shí)現(xiàn)真正的通用人工智能(AGI)邁出關(guān)鍵一步。

其次,bGPT推動(dòng)了將AI作為操作系統(tǒng)(LLM OS)的概念,即利用這種字節(jié)模型作為核心,直接與文件、軟件及底層硬件數(shù)據(jù)進(jìn)行深度交互。

這不僅與Andrej Karpathy的AI愿景不謀而合,更重要的是,它開啟了使用AI模擬數(shù)字世界各種層面的可能性——從精確模擬CPU操作到系統(tǒng)級(jí)軟件的行為模擬,bGPT的能力遠(yuǎn)超傳統(tǒng)界限。通過這種方式,bGPT有望成為數(shù)字世界的全面模擬器,探索和理解從基礎(chǔ)硬件到復(fù)雜系統(tǒng)級(jí)軟件操作的每一個(gè)角落。

圖片

單憑對(duì)計(jì)算機(jī)文本數(shù)據(jù)的深入建模,我們已經(jīng)見證了ChatGPT如何引發(fā)社會(huì)的廣泛關(guān)注。

然而,文本數(shù)據(jù)在數(shù)字世界中海量數(shù)據(jù)的宏觀圖景里,不過只是冰山一角而已。想象一下,如果我們能夠利用計(jì)算機(jī)中存儲(chǔ)的所有形式的數(shù)據(jù)——無論是文本、圖像、音頻,還包括更復(fù)雜的二進(jìn)制數(shù)據(jù),乃至軟件、操作系統(tǒng)和硬件本身的信息——來訓(xùn)練模型,能否創(chuàng)造出一個(gè)更加深入理解和精確模擬數(shù)字世界各個(gè)層面的模型?

bGPT的代碼和模型已開源,如果你對(duì)探索字節(jié)級(jí)模型感興趣,可以嘗試在自己的數(shù)據(jù)集上使用bGPT進(jìn)行訓(xùn)練,大膽探索它的潛能。

論文:https://arxiv.org/abs/2402.19155。
代碼:https://github.com/sanderwood/bgpt。
模型:https://huggingface.co/sander-wood/bgpt。
項(xiàng)目主頁:https://byte-gpt.github.io。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2015-10-15 10:32:48

WiFi物聯(lián)網(wǎng)智能家居

2011-12-06 12:21:55

企業(yè)級(jí)移動(dòng)應(yīng)用

2018-10-22 14:37:16

二進(jìn)制數(shù)據(jù)存儲(chǔ)

2023-12-26 15:10:00

處理二進(jìn)制文件

2013-07-29 11:19:16

iOS開發(fā)iOS開發(fā)學(xué)習(xí)FMDB更新二進(jìn)制圖片

2022-10-31 08:02:42

二進(jìn)制計(jì)算乘法

2009-02-27 09:37:33

Google二進(jìn)制代碼

2009-12-16 10:49:42

Ruby操作二進(jìn)制文件

2022-07-26 13:00:01

安全符號(hào)源代碼

2017-04-11 10:48:53

JS二進(jìn)制

2009-08-12 18:06:53

C#讀取二進(jìn)制文件

2010-10-13 15:45:23

MySQL二進(jìn)制日志

2010-06-09 13:02:29

MySQL啟用二進(jìn)制日

2010-02-26 16:10:50

WCF傳送二進(jìn)制流數(shù)據(jù)

2025-01-26 10:21:54

2020-12-28 10:13:32

運(yùn)維Prometheus監(jiān)控

2022-12-12 13:45:46

模型修圖

2011-05-25 14:10:38

浮點(diǎn)數(shù)

2021-11-10 09:15:00

CPU01 二進(jìn)制Linux

2013-04-28 15:37:35

JBoss
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)