自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM將成歷史?開(kāi)源bGPT或顛覆深度學(xué)習(xí)范式:直接模擬二進(jìn)制,開(kāi)啟模擬數(shù)字世界新紀(jì)元!

人工智能 新聞
新模型bGPT是一個(gè)基于字節(jié)的Transformer模型,能夠?qū)⒉煌愋偷臄?shù)據(jù)納入同一框架之下,可以生成文本、圖像和音頻,還能模擬計(jì)算機(jī)行為,數(shù)字世界將迎來(lái)真正的大一統(tǒng)?

微軟亞洲研究院推出的最新成果bGPT,這種基于字節(jié)的Transformer模型,為我們探索數(shù)字世界開(kāi)辟了新的大門。

與傳統(tǒng)的基于詞表的語(yǔ)言模型不同,bGPT的獨(dú)特之處在于其對(duì)原始二進(jìn)制數(shù)據(jù)的直接處理能力,不受特定格式或任務(wù)的限制,其目標(biāo)是全面模擬數(shù)字世界。

論文:https://arxiv.org/abs/2402.19155

代碼:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

項(xiàng)目主頁(yè):https://byte-gpt.github.io

研究團(tuán)隊(duì)在其論文中展示了bGPT在建模上的巨大潛力,通過(guò)字節(jié)級(jí)處理,bGPT不僅能生成文本、圖像和音頻,還能模擬計(jì)算機(jī)行為——從格式轉(zhuǎn)換算法到CPU狀態(tài)的建模。將所有數(shù)據(jù)視為字節(jié)序列的做法,使bGPT能夠?qū)⒉煌愋偷臄?shù)據(jù)納入同一框架之下。

bGPT的論文一經(jīng)發(fā)布,便在X(Twitter)上引發(fā)了廣泛的關(guān)注和討論,標(biāo)志著深度學(xué)習(xí)范式轉(zhuǎn)變的可能性,使得模型能夠真正理解并模擬數(shù)字世界中的各種活動(dòng)。

二進(jìn)制數(shù)據(jù):構(gòu)成數(shù)字世界的基礎(chǔ)DNA

二進(jìn)制數(shù)據(jù)是數(shù)字世界的基礎(chǔ),從計(jì)算機(jī)處理器到我們?nèi)粘J褂玫碾娮赢a(chǎn)品的操作系統(tǒng),構(gòu)成了所有數(shù)據(jù)、設(shè)備和軟件的核心。bGPT正是從這一點(diǎn)出發(fā),旨在通過(guò)學(xué)習(xí)二進(jìn)制數(shù)據(jù)序列來(lái)掌握數(shù)字系統(tǒng)的內(nèi)部邏輯,以此來(lái)重建和模擬復(fù)雜的數(shù)字現(xiàn)象。

bGPT通過(guò)字節(jié)級(jí)的處理,不僅能應(yīng)用于常規(guī)的AI生成和理解任務(wù),還能處理更多的非傳統(tǒng)應(yīng)用。例如,它能直接模擬MIDI——一種音樂(lè)傳輸和存儲(chǔ)的標(biāo)準(zhǔn)格式,這在之前的研究中由于MIDI的二進(jìn)制本質(zhì)而避免了直接建模。

但bGPT天生適合此類任務(wù),能夠精確模擬音樂(lè)數(shù)據(jù)的轉(zhuǎn)換算法,將ABC記譜法轉(zhuǎn)換為MIDI格式時(shí),達(dá)到極低的錯(cuò)誤率(0.0011 BPB)。

在實(shí)際應(yīng)用中,bGPT通常能夠準(zhǔn)確地完成ABC符號(hào)與MIDI文件之間的轉(zhuǎn)換,有時(shí)甚至能糾正原始文件中的錯(cuò)誤,使音樂(lè)轉(zhuǎn)換更加準(zhǔn)確。

圖片


bGPT自動(dòng)將ABC記譜法轉(zhuǎn)換成MIDI格式(上圖)與原MIDI數(shù)據(jù)(下圖)的對(duì)比,凸顯了關(guān)鍵的差異:雖然原MIDI數(shù)據(jù)中漏掉了一拍(見(jiàn)下圖),導(dǎo)致和弦伴奏斷開(kāi),但由bGPT轉(zhuǎn)換的結(jié)果(見(jiàn)上圖)正確填補(bǔ)了這一缺失,確保了和弦伴奏的流暢性。

研究團(tuán)隊(duì)還將CPU建模作為硬件行為模擬的代表性任務(wù):該任務(wù)要求模型接收低級(jí)機(jī)器指令序列作為輸入,其目標(biāo)是準(zhǔn)確預(yù)測(cè)每個(gè)指令執(zhí)行后CPU狀態(tài)如何更新,直至程序停止。

在這個(gè)任務(wù)中,bGPT展現(xiàn)出超過(guò)99.99%的準(zhǔn)確率,顯示了字節(jié)模型在處理原生二進(jìn)制數(shù)據(jù)方面的強(qiáng)大能力和可擴(kuò)展性。

在提供了程序和初始CPU狀態(tài)的情況下,bGPT能夠準(zhǔn)確地預(yù)測(cè)CPU執(zhí)行的完整過(guò)程,直到程序終止。在這個(gè)示例中,bGPT精確地處理了所有CPU指令。為了便于理解,這里將實(shí)際的字節(jié)序列轉(zhuǎn)換成了更易讀的格式。

從字節(jié)到萬(wàn)物:突破邊界,向著統(tǒng)一的數(shù)據(jù)建模進(jìn)發(fā)

bGPT不僅能處理原生二進(jìn)制數(shù)據(jù),還能將多種數(shù)據(jù)類型融合進(jìn)一個(gè)統(tǒng)一的模型架構(gòu)中,視一切數(shù)據(jù)為字節(jié)序列。

這種方法不但簡(jiǎn)化了數(shù)據(jù)建模流程,還使得從任何數(shù)據(jù)源的整合變得輕而易舉,且無(wú)需為特定數(shù)據(jù)類型定制模型。

研究團(tuán)隊(duì)在論文中舉例了傳統(tǒng)文本、圖像及音頻文件,展現(xiàn)了bGPT在統(tǒng)一數(shù)據(jù)建模方面的能力。他們訓(xùn)練的bGPT模型擁有約1億參數(shù)。

實(shí)驗(yàn)結(jié)果表明,在與GPT-2(文本模型)、ViT(視覺(jué)模型)和AST(音頻模型)等同規(guī)模模型的比較中,bGPT在不同數(shù)據(jù)類型上均展現(xiàn)出了可媲美的性能。

bGPT在文本生成方面的表現(xiàn)非常出色。得益于其字節(jié)級(jí)的文本編碼,該模型無(wú)需依賴詞匯表,從而能支持所有語(yǔ)言。

它的分層Transformer架構(gòu),盡管計(jì)算開(kāi)銷與GPT-2相近,卻能生成長(zhǎng)達(dá)8KB的文本,大大超出了GPT-2的長(zhǎng)度限制。在經(jīng)過(guò)Wikipedia數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練后,bGPT生成的文本在風(fēng)格和主題上都與GPT-2不相上下,證明了其在文本生成方面的強(qiáng)大能力。

bGPT在Wikipedia數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,生成的文本樣例質(zhì)量和主題一致性與GPT-2相當(dāng)。

bGPT可以通過(guò)預(yù)測(cè)圖像字節(jié)序列中的下一個(gè)字節(jié)來(lái)生成圖像。該模型在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,生成的圖像分辨率為32x32像素。

雖然在當(dāng)前規(guī)模下,通過(guò)字節(jié)序列準(zhǔn)確捕捉圖像的二維空間關(guān)系有所困難,導(dǎo)致生成的圖像存在偽影和噪點(diǎn),但紋理和光影效果通常還是比較準(zhǔn)確的。

此外,這些生成的圖像均能被正常解碼為BMP文件。研究團(tuán)隊(duì)指出,通過(guò)擴(kuò)大bGPT的規(guī)模,類似于OpenAI開(kāi)發(fā)的iGPT在像素序列建模方面的方法,或許可以實(shí)現(xiàn)更高質(zhì)量、更逼真的圖像生成。

這些是由在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的bGPT生成的一組圖像。雖然圖像的紋理和光影效果通常比較準(zhǔn)確,但在這些生成的圖像中識(shí)別主要物體卻有一定難度。

bGPT將音頻數(shù)據(jù)視為字節(jié)序列,能生成1秒長(zhǎng)、采樣率為8000 Hz的音頻樣本。

該模型在LibriSpeech數(shù)據(jù)集上完成了預(yù)訓(xùn)練,并進(jìn)一步在Speech Commands v2數(shù)據(jù)集上進(jìn)行微調(diào)和演示。bGPT生成的音頻樣本保持了較高的準(zhǔn)確度,其中一些樣本幾乎與真實(shí)音頻無(wú)法區(qū)分。以下是展示bGPT在音頻生成領(lǐng)域能力的示例集。

通過(guò)bGPT探索字節(jié)構(gòu)成的數(shù)字世界

傳統(tǒng)語(yǔ)言模型,不管它們有多強(qiáng)大,主要專注于處理自然語(yǔ)言文本。bGPT模型通過(guò)基于字節(jié)的處理機(jī)制,打破了這種僅限于文本處理的局限性,開(kāi)辟了一個(gè)全新的數(shù)據(jù)處理范疇。

這一進(jìn)步讓bGPT有能力無(wú)縫地處理包括文本、圖像、音頻在內(nèi)的各種數(shù)據(jù)類型,甚至能處理來(lái)自算法和硬件的原生二進(jìn)制數(shù)據(jù),為全面模擬和理解數(shù)字世界鋪平了道路。

雖然bGPT展現(xiàn)出了引人注目的能力,但其在計(jì)算開(kāi)銷方面的局限性,如當(dāng)前在常規(guī)顯卡上僅能處理最大8KB的字節(jié)序列,對(duì)于那些需要生成或處理大量數(shù)據(jù)的應(yīng)用來(lái)說(shuō),構(gòu)成了明顯的限制。未來(lái)的工作計(jì)劃將集中在開(kāi)發(fā)更高效的算法和利用硬件的進(jìn)步上,旨在提高處理更大規(guī)模數(shù)據(jù)序列的能力。

全球的技術(shù)愛(ài)好者們已經(jīng)開(kāi)始展望bGPT未來(lái)的潛力,從網(wǎng)絡(luò)修剪和自我學(xué)習(xí)的優(yōu)化到超大規(guī)模網(wǎng)絡(luò)的自我重構(gòu)能力,這些討論指向了一個(gè)共同的愿景:bGPT最終可能實(shí)現(xiàn)一個(gè)統(tǒng)一的模型,能夠處理和輸出所有類型的字節(jié)數(shù)據(jù),真正成為數(shù)字世界的全面模擬器。

研究團(tuán)隊(duì)已將bGPT的代碼和模型開(kāi)源。這意味著你可以在自己的數(shù)據(jù)集上直接訓(xùn)練bGPT,無(wú)需做出任何模型架構(gòu)上的調(diào)整,便可探索字節(jié)模型在數(shù)字領(lǐng)域的廣闊前景。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-07-29 10:31:09

2024-10-23 15:40:00

2011-12-31 11:22:50

Web新世界

2019-08-15 09:00:00

AI人工智能

2011-12-31 09:31:57

Web

2024-11-20 09:55:04

2024-05-10 14:35:56

人工智能大型語(yǔ)言模型

2012-12-04 15:47:45

2013-03-21 14:57:04

2014-11-07 17:29:04

2012-09-05 09:35:38

云計(jì)算微軟IT平臺(tái)

2015-08-26 13:37:51

戴爾云計(jì)算

2024-03-11 14:42:31

字節(jié)級(jí)模型AI人工智能

2018-10-22 14:37:16

二進(jìn)制數(shù)據(jù)存儲(chǔ)

2009-02-27 09:37:33

Google二進(jìn)制代碼

2022-10-31 08:02:42

二進(jìn)制計(jì)算乘法

2020-12-09 15:02:10

IBM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)