不依賴Token,字節(jié)級(jí)模型來了!直接處理二進(jìn)制數(shù)據(jù)
最新GPT,不預(yù)測(cè)token了。
微軟亞研院等發(fā)布bGPT,仍舊基于Transformer,但是模型預(yù)測(cè)的是下一個(gè)字節(jié)(byte)。
通過直接處理原生二進(jìn)制數(shù)據(jù),bGPT將所有輸入內(nèi)容都視為字節(jié)序列,從而可以不受限于任何特定的格式或任務(wù)。
能預(yù)測(cè)CPU行為,準(zhǔn)確率超過99.99%;還能直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式。
研究團(tuán)隊(duì)認(rèn)為,傳統(tǒng)的深度學(xué)習(xí)往往忽視了字節(jié)——數(shù)字世界的構(gòu)建基石。
不論是信息的形式還是操作,都是通過二進(jìn)制格式編碼和處理的。字節(jié)構(gòu)成了所有數(shù)據(jù)、設(shè)備和軟件的基礎(chǔ),從計(jì)算機(jī)處理器到我們?nèi)粘J褂玫碾娮赢a(chǎn)品中的操作系統(tǒng)。
這篇論文的標(biāo)題清晰地指出了其目標(biāo):
超越語言模型:將字節(jié)模型作為數(shù)字世界的模擬器。
模擬CPU行為準(zhǔn)確率超99.99%
bGPT通過字節(jié)級(jí)處理,不僅能夠應(yīng)用于常規(guī)的AI生成和理解任務(wù),還能處理更多非傳統(tǒng)應(yīng)用。
例如,它能夠直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式,之前的研究由于MIDI的二進(jìn)制本質(zhì)而避免了直接對(duì)這類數(shù)據(jù)的建模。
但bGPT天生適合此類任務(wù)。它能夠準(zhǔn)確模擬符號(hào)音樂數(shù)據(jù)轉(zhuǎn)換算法,在將ABC記譜法轉(zhuǎn)換為MIDI格式時(shí),達(dá)到極低的錯(cuò)誤率(0.0011 BPB)。
在模擬CPU行為方面,bGPT展現(xiàn)出超過99.99%的準(zhǔn)確率。這些實(shí)驗(yàn)顯示了bGPT在處理原生二進(jìn)制數(shù)據(jù)方面的強(qiáng)大能力和可擴(kuò)展性。
bGPT還展示了在處理諸如文本、圖像和音頻傳統(tǒng)媒體文件的生成/分類任務(wù)上的潛力,而且不需要任何針對(duì)特定模態(tài)的定制。
研究團(tuán)隊(duì)訓(xùn)練了一個(gè)大約有100M參數(shù)的bGPT,根據(jù)論文中的實(shí)驗(yàn)結(jié)果,bGPT可以與同樣規(guī)模的文本模型(GPT-2)、視覺模型(ViT)和音頻模型(AST)在各自的模態(tài)下有著可比的性能。
字節(jié)到塊策略:拓展序列建模長(zhǎng)度
在處理數(shù)字?jǐn)?shù)據(jù)時(shí),bGPT代表了一次重要的進(jìn)步。
因?yàn)樽止?jié)的粒度非常細(xì),處理的字節(jié)序列通常較長(zhǎng),這對(duì)基于Transformer的傳統(tǒng)模型來說是一個(gè)挑戰(zhàn)。由于自注意機(jī)制的復(fù)雜度是二次方的,處理長(zhǎng)序列的效率和可擴(kuò)展性受到了限制。
bGPT的研發(fā)團(tuán)隊(duì)此前在音樂AI領(lǐng)域推出了CLaMP項(xiàng)目,并因此在ISMIR 2023上獲得了最佳學(xué)生論文獎(jiǎng)。
基于這項(xiàng)成果,bGPT采取了一種“字節(jié)到塊(patch)”的轉(zhuǎn)化方法。這個(gè)方法不僅極大提升了數(shù)據(jù)處理效率,還讓長(zhǎng)序列數(shù)據(jù)的處理和擴(kuò)展變得更加簡(jiǎn)便。
bGPT包含三個(gè)關(guān)鍵組成部分:
- 線性投影層:通過線性投影將每個(gè)字節(jié)塊轉(zhuǎn)化為密集向量表示,既保留了關(guān)鍵信息,又降低了維度。
- 塊級(jí)解碼器:順序處理塊的embeddings以預(yù)測(cè)下一個(gè)塊的特征,使用自回歸機(jī)制學(xué)習(xí)字節(jié)序列的整體結(jié)構(gòu)。
- 字節(jié)級(jí)解碼器:根據(jù)塊級(jí)解碼器的預(yù)測(cè)特征來預(yù)測(cè)每個(gè)塊內(nèi)的字節(jié)序列,這一過程獨(dú)立于每個(gè)塊進(jìn)行,依據(jù)當(dāng)前塊的特征表示。
bGPT提供了一種有前景的解決方案來應(yīng)對(duì)傳統(tǒng)模型在處理字節(jié)級(jí)數(shù)據(jù)時(shí)面臨的挑戰(zhàn),顯著提高了處理大規(guī)模數(shù)字?jǐn)?shù)據(jù)序列的效率和可擴(kuò)展性。
拓寬邊界:bGPT與未來數(shù)字世界的無限潛力
盡管bGPT展現(xiàn)出巨大的潛力,但其也存在一定的局限性和改進(jìn)空間。
目前,bGPT只能處理不超過8KB的數(shù)據(jù)序列,對(duì)于需要生成大量數(shù)據(jù)的現(xiàn)代應(yīng)用來說,這一容量顯然不夠。這一局限主要由于訓(xùn)練和部署這類模型需要巨大的計(jì)算資源需求。
為了推進(jìn)bGPT的實(shí)用性和適用范圍,未來的研究將專注于開發(fā)更高效的算法和利用硬件進(jìn)步以降低計(jì)算成本,使bGPT能夠更加經(jīng)濟(jì)高效地處理更大規(guī)模的數(shù)據(jù)序列,從而拓寬其應(yīng)用前景。
在探討字節(jié)模型未來的話題中,來自世界各地的網(wǎng)友們已經(jīng)提出了一系列腦洞。
他們探討了在裸機(jī)上運(yùn)行純粹的神經(jīng)網(wǎng)絡(luò),以取代操作系統(tǒng)執(zhí)行命令的前景,或者利用網(wǎng)絡(luò)修剪和自我學(xué)習(xí)來優(yōu)化連接,使得超大規(guī)模網(wǎng)絡(luò)具備自我重構(gòu)的能力。
雖然實(shí)現(xiàn)這些目標(biāo)需要時(shí)間,但bGPT有望實(shí)現(xiàn)將所有數(shù)據(jù)以字節(jié)形式輸入,通過超大規(guī)模自我重構(gòu)網(wǎng)絡(luò)處理后再以字節(jié)形式輸出的終極目標(biāo)。
或許,在探索bGPT能力的邊界時(shí),想象力才是唯一的限制。
長(zhǎng)期來看,bGPT展示的字節(jié)模型在推動(dòng)人工智能進(jìn)步方面展現(xiàn)了兩大巨大潛能。
首先,它有望實(shí)現(xiàn)一個(gè)統(tǒng)一模型,將計(jì)算機(jī)中的所有數(shù)據(jù)整合起來,為實(shí)現(xiàn)真正的通用人工智能(AGI)邁出關(guān)鍵一步。
其次,bGPT推動(dòng)了將AI作為操作系統(tǒng)(LLM OS)的概念,即利用這種字節(jié)模型作為核心,直接與文件、軟件及底層硬件數(shù)據(jù)進(jìn)行深度交互。
這不僅與Andrej Karpathy的AI愿景不謀而合,更重要的是,它開啟了使用AI模擬數(shù)字世界各種層面的可能性——從精確模擬CPU操作到系統(tǒng)級(jí)軟件的行為模擬,bGPT的能力遠(yuǎn)超傳統(tǒng)界限。通過這種方式,bGPT有望成為數(shù)字世界的全面模擬器,探索和理解從基礎(chǔ)硬件到復(fù)雜系統(tǒng)級(jí)軟件操作的每一個(gè)角落。
單憑對(duì)計(jì)算機(jī)文本數(shù)據(jù)的深入建模,我們已經(jīng)見證了ChatGPT如何引發(fā)社會(huì)的廣泛關(guān)注。
然而,文本數(shù)據(jù)在數(shù)字世界中海量數(shù)據(jù)的宏觀圖景里,不過只是冰山一角而已。想象一下,如果我們能夠利用計(jì)算機(jī)中存儲(chǔ)的所有形式的數(shù)據(jù)——無論是文本、圖像、音頻,還包括更復(fù)雜的二進(jìn)制數(shù)據(jù),乃至軟件、操作系統(tǒng)和硬件本身的信息——來訓(xùn)練模型,能否創(chuàng)造出一個(gè)更加深入理解和精確模擬數(shù)字世界各個(gè)層面的模型?
bGPT的代碼和模型已開源,如果你對(duì)探索字節(jié)級(jí)模型感興趣,可以嘗試在自己的數(shù)據(jù)集上使用bGPT進(jìn)行訓(xùn)練,大膽探索它的潛能。
論文:https://arxiv.org/abs/2402.19155。
代碼:https://github.com/sanderwood/bgpt。
模型:https://huggingface.co/sander-wood/bgpt。
項(xiàng)目主頁:https://byte-gpt.github.io。