自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

不依賴Token，字節(jié)級(jí)模型來了！直接處理二進(jìn)制數(shù)據(jù)

2024-03-11 14:42:31

bGPT通過字節(jié)級(jí)處理，不僅能夠應(yīng)用于常規(guī)的AI生成和理解任務(wù)，還能處理更多非傳統(tǒng)應(yīng)用。例如，它能夠直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式，之前的研究由于MIDI的二進(jìn)制本質(zhì)而避免了直接對(duì)這類數(shù)據(jù)的建模。

最新GPT，不預(yù)測(cè)token了。

微軟亞研院等發(fā)布bGPT，仍舊基于Transformer，但是模型預(yù)測(cè)的是下一個(gè)字節(jié)（byte）。

通過直接處理原生二進(jìn)制數(shù)據(jù)，bGPT將所有輸入內(nèi)容都視為字節(jié)序列，從而可以不受限于任何特定的格式或任務(wù)。

能預(yù)測(cè)CPU行為，準(zhǔn)確率超過99.99%；還能直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式。

研究團(tuán)隊(duì)認(rèn)為，傳統(tǒng)的深度學(xué)習(xí)往往忽視了字節(jié)——數(shù)字世界的構(gòu)建基石。

不論是信息的形式還是操作，都是通過二進(jìn)制格式編碼和處理的。字節(jié)構(gòu)成了所有數(shù)據(jù)、設(shè)備和軟件的基礎(chǔ)，從計(jì)算機(jī)處理器到我們?nèi)粘Ｊ褂玫碾娮赢a(chǎn)品中的操作系統(tǒng)。

這篇論文的標(biāo)題清晰地指出了其目標(biāo)：

超越語言模型：將字節(jié)模型作為數(shù)字世界的模擬器。

模擬CPU行為準(zhǔn)確率超99.99%

bGPT通過字節(jié)級(jí)處理，不僅能夠應(yīng)用于常規(guī)的AI生成和理解任務(wù)，還能處理更多非傳統(tǒng)應(yīng)用。

例如，它能夠直接模擬MIDI——一種音樂傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式，之前的研究由于MIDI的二進(jìn)制本質(zhì)而避免了直接對(duì)這類數(shù)據(jù)的建模。

但bGPT天生適合此類任務(wù)。它能夠準(zhǔn)確模擬符號(hào)音樂數(shù)據(jù)轉(zhuǎn)換算法，在將ABC記譜法轉(zhuǎn)換為MIDI格式時(shí)，達(dá)到極低的錯(cuò)誤率（0.0011 BPB）。

在模擬CPU行為方面，bGPT展現(xiàn)出超過99.99%的準(zhǔn)確率。這些實(shí)驗(yàn)顯示了bGPT在處理原生二進(jìn)制數(shù)據(jù)方面的強(qiáng)大能力和可擴(kuò)展性。

bGPT還展示了在處理諸如文本、圖像和音頻傳統(tǒng)媒體文件的生成/分類任務(wù)上的潛力，而且不需要任何針對(duì)特定模態(tài)的定制。

研究團(tuán)隊(duì)訓(xùn)練了一個(gè)大約有100M參數(shù)的bGPT，根據(jù)論文中的實(shí)驗(yàn)結(jié)果，bGPT可以與同樣規(guī)模的文本模型（GPT-2）、視覺模型（ViT）和音頻模型（AST）在各自的模態(tài)下有著可比的性能。

字節(jié)到塊策略：拓展序列建模長(zhǎng)度

在處理數(shù)字?jǐn)?shù)據(jù)時(shí)，bGPT代表了一次重要的進(jìn)步。

因?yàn)樽止?jié)的粒度非常細(xì)，處理的字節(jié)序列通常較長(zhǎng)，這對(duì)基于Transformer的傳統(tǒng)模型來說是一個(gè)挑戰(zhàn)。由于自注意機(jī)制的復(fù)雜度是二次方的，處理長(zhǎng)序列的效率和可擴(kuò)展性受到了限制。

bGPT的研發(fā)團(tuán)隊(duì)此前在音樂AI領(lǐng)域推出了CLaMP項(xiàng)目，并因此在ISMIR 2023上獲得了最佳學(xué)生論文獎(jiǎng)。

基于這項(xiàng)成果，bGPT采取了一種“字節(jié)到塊（patch）”的轉(zhuǎn)化方法。這個(gè)方法不僅極大提升了數(shù)據(jù)處理效率，還讓長(zhǎng)序列數(shù)據(jù)的處理和擴(kuò)展變得更加簡(jiǎn)便。

bGPT包含三個(gè)關(guān)鍵組成部分：

線性投影層：通過線性投影將每個(gè)字節(jié)塊轉(zhuǎn)化為密集向量表示，既保留了關(guān)鍵信息，又降低了維度。
塊級(jí)解碼器：順序處理塊的embeddings以預(yù)測(cè)下一個(gè)塊的特征，使用自回歸機(jī)制學(xué)習(xí)字節(jié)序列的整體結(jié)構(gòu)。
字節(jié)級(jí)解碼器：根據(jù)塊級(jí)解碼器的預(yù)測(cè)特征來預(yù)測(cè)每個(gè)塊內(nèi)的字節(jié)序列，這一過程獨(dú)立于每個(gè)塊進(jìn)行，依據(jù)當(dāng)前塊的特征表示。

bGPT提供了一種有前景的解決方案來應(yīng)對(duì)傳統(tǒng)模型在處理字節(jié)級(jí)數(shù)據(jù)時(shí)面臨的挑戰(zhàn)，顯著提高了處理大規(guī)模數(shù)字?jǐn)?shù)據(jù)序列的效率和可擴(kuò)展性。

拓寬邊界：bGPT與未來數(shù)字世界的無限潛力

盡管bGPT展現(xiàn)出巨大的潛力，但其也存在一定的局限性和改進(jìn)空間。

目前，bGPT只能處理不超過8KB的數(shù)據(jù)序列，對(duì)于需要生成大量數(shù)據(jù)的現(xiàn)代應(yīng)用來說，這一容量顯然不夠。這一局限主要由于訓(xùn)練和部署這類模型需要巨大的計(jì)算資源需求。

為了推進(jìn)bGPT的實(shí)用性和適用范圍，未來的研究將專注于開發(fā)更高效的算法和利用硬件進(jìn)步以降低計(jì)算成本，使bGPT能夠更加經(jīng)濟(jì)高效地處理更大規(guī)模的數(shù)據(jù)序列，從而拓寬其應(yīng)用前景。

在探討字節(jié)模型未來的話題中，來自世界各地的網(wǎng)友們已經(jīng)提出了一系列腦洞。

他們探討了在裸機(jī)上運(yùn)行純粹的神經(jīng)網(wǎng)絡(luò)，以取代操作系統(tǒng)執(zhí)行命令的前景，或者利用網(wǎng)絡(luò)修剪和自我學(xué)習(xí)來優(yōu)化連接，使得超大規(guī)模網(wǎng)絡(luò)具備自我重構(gòu)的能力。

雖然實(shí)現(xiàn)這些目標(biāo)需要時(shí)間，但bGPT有望實(shí)現(xiàn)將所有數(shù)據(jù)以字節(jié)形式輸入，通過超大規(guī)模自我重構(gòu)網(wǎng)絡(luò)處理后再以字節(jié)形式輸出的終極目標(biāo)。

或許，在探索bGPT能力的邊界時(shí)，想象力才是唯一的限制。

長(zhǎng)期來看，bGPT展示的字節(jié)模型在推動(dòng)人工智能進(jìn)步方面展現(xiàn)了兩大巨大潛能。

首先，它有望實(shí)現(xiàn)一個(gè)統(tǒng)一模型，將計(jì)算機(jī)中的所有數(shù)據(jù)整合起來，為實(shí)現(xiàn)真正的通用人工智能（AGI）邁出關(guān)鍵一步。

其次，bGPT推動(dòng)了將AI作為操作系統(tǒng)（LLM OS）的概念，即利用這種字節(jié)模型作為核心，直接與文件、軟件及底層硬件數(shù)據(jù)進(jìn)行深度交互。

這不僅與Andrej Karpathy的AI愿景不謀而合，更重要的是，它開啟了使用AI模擬數(shù)字世界各種層面的可能性——從精確模擬CPU操作到系統(tǒng)級(jí)軟件的行為模擬，bGPT的能力遠(yuǎn)超傳統(tǒng)界限。通過這種方式，bGPT有望成為數(shù)字世界的全面模擬器，探索和理解從基礎(chǔ)硬件到復(fù)雜系統(tǒng)級(jí)軟件操作的每一個(gè)角落。

單憑對(duì)計(jì)算機(jī)文本數(shù)據(jù)的深入建模，我們已經(jīng)見證了ChatGPT如何引發(fā)社會(huì)的廣泛關(guān)注。

然而，文本數(shù)據(jù)在數(shù)字世界中海量數(shù)據(jù)的宏觀圖景里，不過只是冰山一角而已。想象一下，如果我們能夠利用計(jì)算機(jī)中存儲(chǔ)的所有形式的數(shù)據(jù)——無論是文本、圖像、音頻，還包括更復(fù)雜的二進(jìn)制數(shù)據(jù)，乃至軟件、操作系統(tǒng)和硬件本身的信息——來訓(xùn)練模型，能否創(chuàng)造出一個(gè)更加深入理解和精確模擬數(shù)字世界各個(gè)層面的模型？

bGPT的代碼和模型已開源，如果你對(duì)探索字節(jié)級(jí)模型感興趣，可以嘗試在自己的數(shù)據(jù)集上使用bGPT進(jìn)行訓(xùn)練，大膽探索它的潛能。

論文：https://arxiv.org/abs/2402.19155。
代碼：https://github.com/sanderwood/bgpt。
模型：https://huggingface.co/sander-wood/bgpt。
項(xiàng)目主頁：https://byte-gpt.github.io。

責(zé)任編輯：姜華來源：量子位

字節(jié)級(jí)模型 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)