自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="m1isu"></sub><sub id="m1isu"><s id="m1isu"><form id="m1isu"></form></s></sub>

<p id="m1isu"><li id="m1isu"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首個科學(xué)計算基座大模型BBT-Neutron開源！突破大科學(xué)裝置數(shù)據(jù)分析瓶頸

作者：新智元 2024-12-25 14:30:00

人工智能新聞

大語言模型能否解決傳統(tǒng)大語言模型在大規(guī)模數(shù)值數(shù)據(jù)分析中的局限性問題，助力科學(xué)界大科學(xué)裝置設(shè)計、高能物理領(lǐng)域科學(xué)計算？

高能物理是探索宇宙基本組成與規(guī)律的前沿科學(xué)領(lǐng)域，研究粒子在極高能量下的相互作用，是揭示宇宙起源、暗物質(zhì)與暗能量等未解之謎的重要手段。

高能物理實驗（如粒子對撞實驗、暗物質(zhì)與暗能量實驗等）產(chǎn)生的數(shù)據(jù)量極為龐大且復(fù)雜，傳統(tǒng)的數(shù)據(jù)分析方法在處理海量數(shù)據(jù)和復(fù)雜物理結(jié)構(gòu)時，面臨計算瓶頸。

近期，arXiv上更新了一篇名為《Scaling Particle Collision Data Analysis 》的論文。其中，研究人員從粒子對撞實驗出發(fā)，探索了大語言模型在大科學(xué)裝置數(shù)據(jù)分析與科學(xué)計算領(lǐng)域的全新應(yīng)用場景——

具體來說，團隊將其最新研發(fā)的科學(xué)基座大模型BBT-Neutron應(yīng)用于粒子對撞實驗，模型采用了全新的二進制分詞方法（Binary Tokenization），可實現(xiàn)對多模態(tài)數(shù)據(jù)（包括大規(guī)模數(shù)值實驗數(shù)據(jù)、文本和圖像數(shù)據(jù)）的混合預(yù)訓(xùn)練。

論文鏈接：https://arxiv.org/abs/2412.00129

代碼地址：https://github.com/supersymmetry-technologies/bbt-neutron

論文中對比了BBT-Neutron的通用架構(gòu)模型與最先進的專業(yè)JoI模型（如ParticleNet和Particle Transformer）在粒子物理領(lǐng)域的Jet Origin Identification（JoI）分類任務(wù)上的實驗結(jié)果。

粒子分類的識別準確率（圖1-3）表明，研究表明該通用架構(gòu)的性能與專業(yè)模型持平，這也驗證了基于sequence-to-sequence建模的decoder-only架構(gòu)在學(xué)習(xí)物理規(guī)律方面的能力。

圖1：BBT-Neutron模型十一種類的粒子噴注來源鑒別結(jié)果--超對稱技術(shù)團隊

圖2：ParticleNet模型十一種類的粒子噴注來源鑒別結(jié)果--論文協(xié)作者、ParticleNet開發(fā)團隊（高能所阮曼奇團隊）提供

圖3：Particle Transformer模型十一種類的粒子噴注來源鑒別結(jié)果--論文協(xié)作者、Particle Transformer開發(fā)團隊（CERN曲慧麟團隊）提供

這些模型在數(shù)據(jù)集大小擴展時都顯示出性能提升，Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。

然而，BBT-Neutron和專業(yè)模型之間觀察到不同的擴展行為，S曲線上的關(guān)鍵數(shù)據(jù)閾值表明BBT-Neutron中出現(xiàn)了涌現(xiàn)現(xiàn)象（在專業(yè)架構(gòu)中未出現(xiàn)），不僅打破了傳統(tǒng)觀念認為該架構(gòu)不適用于連續(xù)性物理特征建模的局限，更驗證了通用模型在大規(guī)?？茖W(xué)計算任務(wù)中的可擴展性。

圖4：噴注味鑒別準確率(上)以及電荷誤判率(下)與訓(xùn)練數(shù)據(jù)量的關(guān)系

二進制分詞：統(tǒng)一多模態(tài)數(shù)據(jù)處理，突破數(shù)值數(shù)據(jù)分析瓶頸

近年來大語言模型在文本處理、常識問答等任務(wù)上取得了顯著進展，但在處理大規(guī)模數(shù)值數(shù)據(jù)方面依然面臨挑戰(zhàn)。

傳統(tǒng)的BPE分詞方法在分詞數(shù)字時可能會引入歧義和不一致，特別是在高能物理、天文觀測等領(lǐng)域，分析復(fù)雜的實驗數(shù)據(jù)成為瓶頸。

為了讓大模型更加適配科學(xué)計算場景，該研究通過引入一種創(chuàng)新的二進制分詞方法（Binary Tokenization），即利用計算機存儲中使用的二進制表示數(shù)據(jù)，實現(xiàn)了數(shù)值數(shù)據(jù)與文本、圖像等多模態(tài)數(shù)據(jù)的統(tǒng)一表示。

從而使其能夠在無需額外預(yù)處理的情況下，通過二進制分詞，實現(xiàn)對所有數(shù)據(jù)類型的統(tǒng)一處理，簡化預(yù)處理流程，確保輸入數(shù)據(jù)的一致性。

研發(fā)團隊在論文中詳細展示了如何克服傳統(tǒng)BPE方法的局限性及其數(shù)據(jù)處理過程。

BPE方法的局限性

歧義和不一致性

BPE是一種基于頻率的token 化方法，它會根據(jù)上下文將數(shù)字分割成不同的子單元，這可能導(dǎo)致同一數(shù)字在不同上下文中有不同的分割方式。

例如，數(shù)字12345在一個上下文中可能被分割成「12」、「34」和「5」，在另一個上下文中可能被分割成「1」、「23」和「45」。這種分割方式丟失了原始數(shù)值的固有意義，因為數(shù)字的完整性和數(shù)值關(guān)系被破壞了。

token ID的不連續(xù)性

BPE會導(dǎo)致數(shù)值的token ID不連續(xù)。例如，數(shù)字「7」和「8」的token ID可能被分配為4779和5014。

這種不連續(xù)性使得管理和處理數(shù)值數(shù)據(jù)變得更加復(fù)雜，特別是在需要順序或模式化的token ID時，這種不連續(xù)性會影響模型處理和分析數(shù)值數(shù)據(jù)的能力。

單數(shù)字token化的問題

盡管單數(shù)字token化方法簡單直接，但它也會導(dǎo)致多位數(shù)數(shù)字的token ID不連續(xù)。例如，數(shù)字15可能會被分解為獨立的token「1」和「5」，每個token都被映射到獨立的token ID。

這種分割可能會破壞數(shù)值信息的連續(xù)性，使得模型更難捕捉多位數(shù)數(shù)字內(nèi)在的結(jié)構(gòu)和關(guān)系。

數(shù)值處理方式

對于文本數(shù)據(jù)，使用UTF-8編碼將字符轉(zhuǎn)換為字節(jié)序列。

對于數(shù)值數(shù)據(jù)，提供了雙重策略：一種是當(dāng)保留數(shù)字的確切格式和任何可能重要的前導(dǎo)零時，數(shù)字被視為字符串，然后使用UTF-8編碼；另一種是在進行算術(shù)運算或處理重要數(shù)值時，數(shù)字被轉(zhuǎn)換成其數(shù)值形式（例如，整數(shù)），然后轉(zhuǎn)換成字節(jié)數(shù)組。這種方法保證了模型能夠統(tǒng)一且高效地處理各種數(shù)據(jù)類型。

對于科學(xué)公式或符號：復(fù)雜的表達式被解析并序列化成字節(jié)序列，捕捉公式的結(jié)構(gòu)和內(nèi)容。例如，公式E = mc^2被編碼為字節(jié)數(shù)組[69, 61, 109, 99, 94, 50]，代表了公式的結(jié)構(gòu)和變量。

對于圖像數(shù)據(jù)，使用patch方法將圖像分解為小塊，提高對高密度像素數(shù)據(jù)的處理效率。

BBT-Neutron模型架構(gòu)：高效捕獲數(shù)值關(guān)系與多功能任務(wù)適配

BBT-Neutron模型架構(gòu)主要由三個關(guān)鍵部分組成：Patch Embedding、Patch Self-Attention和LM Head，能夠?qū)⑤斎胄蛄型ㄟ^字節(jié)分詞轉(zhuǎn)換為高維向量，使其具備了包括執(zhí)行分類、回歸任務(wù)在內(nèi)的多種能力。

這些任務(wù)在許多科學(xué)應(yīng)用中非常常見，目標(biāo)不一定是生成新序列，也可以是對輸入分類或預(yù)測連續(xù)值。

Patch Embedding

包含兩個線性層，第一層將輸入patch投影到高維空間，第二層細化這一表示，產(chǎn)生最終的嵌入向量。

兩層之間引入ReLU激活函數(shù)，使模型能夠非線性地表達輸入字節(jié)patch，捕捉patch內(nèi)部byte之間更復(fù)雜的結(jié)構(gòu)。與通常只使用單一層線性嵌入的字節(jié)級模型相比，能夠提供更大的靈活性，更好地表示輸入patch的細節(jié)和非線性關(guān)系。

Patch Self-Attention

在patch自注意力機制中，注意力操作在patch層面執(zhí)行，每個patch嵌入包含其所有點的信息，通過矩陣乘法促進不同patch之間的信息交換，同時促進單個patch內(nèi)部字節(jié)之間的交互，使模型能夠有效捕捉局部和全局依賴。

LM Head

輸出維度定義為Patch Size × 257，其中257代表從0到255的字節(jié)值總數(shù)，加上由256表示的填充ID，Patch Size是文本序列被劃分的patch數(shù)量。這種設(shè)計允許模型獨立地為每個patch生成預(yù)測，保持基于patch方法的效率和有效性。

圖5：BBT-Neutron模型架構(gòu)圖

應(yīng)用于粒子物理對撞數(shù)據(jù)分析：通用架構(gòu)性能達到專業(yè)領(lǐng)域的SOTA

開發(fā)團隊在論文中分享了BBT-Neutron通用架構(gòu)的首次落地實驗結(jié)果，輔助粒子物理學(xué)中的關(guān)鍵任務(wù)——噴注來源識別（Jet Origin Identification, JoI），并已取得了突破性成果。

噴注來源識別是高能物理實驗中的核心挑戰(zhàn)之一，旨在區(qū)分來自不同夸克或膠子的噴注。

在高能碰撞中產(chǎn)生的夸克或膠子會立即產(chǎn)生一束粒子——主要是強子——朝同一方向運動。這束粒子通常被稱為噴注，是碰撞實驗中物理測量的關(guān)鍵對象。

識別噴注的起源對于許多物理分析至關(guān)重要，尤其是在研究希格斯玻色子、W和Z玻色子時，這些玻色子幾乎70%會直接衰變?yōu)閮蓚€噴注。

此外，噴注是我們理解量子色動力學(xué)（QCD，描述原子核、質(zhì)子、中子、夸克的相互作用機制）的基礎(chǔ)。

來自不同類型色荷粒子的噴注在它們的可觀測量上只有微小的差異，這使得準確識別噴注的起源極具挑戰(zhàn)性。

圖6：帶patch的二進制分詞方法處理粒子物理數(shù)據(jù)流程

實驗結(jié)果顯示，該研究與最先進的專業(yè)模型（如Particle Transformer和ParticleNet，將專業(yè)物理定律融入GNN架構(gòu)設(shè)計）的最佳性能持平，達到行業(yè)的SOTA（圖1-3）。

這個結(jié)果驗證了以sequence to sequence建模方式為基礎(chǔ)的decoder only通用架構(gòu)，在學(xué)習(xí)物質(zhì)世界和物理規(guī)律上具備與專業(yè)模型同等的學(xué)習(xí)能力。

而傳統(tǒng)的觀念認為，seq2seq 建模不適用于時間、空間、能量等具有連續(xù)性特征的物理實在建模，只適合于人類語言這樣的離散符號的建模。

而且從左到右具有位置特性的學(xué)習(xí)方式，不適用于具有時空對稱性的物理結(jié)構(gòu)，要讓模型學(xué)習(xí)專業(yè)物理定律，需要在專業(yè)模型架構(gòu)中融入該領(lǐng)域相關(guān)結(jié)構(gòu)。

該論文研究的成果證明了這種觀念的局限性，為表征時間、空間、能量等基礎(chǔ)的物理量提供了一種有效方案，同時也為物理化學(xué)等專業(yè)科學(xué)領(lǐng)域構(gòu)建一個統(tǒng)一模型提供了基礎(chǔ)。

Scaling分析：發(fā)現(xiàn)涌現(xiàn)行為

文中通過與ParticleNet和Particle Transformer在JoI任務(wù)上的擴展行為的方式進行對比，在數(shù)據(jù)規(guī)模增加下的Scaling行為進行了深入分析。

這些訓(xùn)練數(shù)據(jù)集從100到1000萬事件不等，實驗結(jié)果通過混淆矩陣（confusion matrix）、噴注風(fēng)味標(biāo)記效率（jet flavor tagging efficiency）和電荷翻轉(zhuǎn)率（charge flip rate）這三個關(guān)鍵指標(biāo)來衡量模型的表現(xiàn)。

混淆矩陣（Confusion Matrix）即使用了一個11維的混淆矩陣M11來分類每個噴注，根據(jù)最高預(yù)測分數(shù)歸類到相應(yīng)的類別, 塊對角化成2×2的塊，每個塊對應(yīng)特定的夸克種類。混淆矩陣提供了模型分類性能的全面概覽，突出顯示了在各種噴注類別中正確和錯誤預(yù)測的情況。

噴注味標(biāo)記效率（Jet Flavor Tagging Efficiency）定義為每個塊內(nèi)值的總和的一半，不區(qū)分由夸克和反夸克產(chǎn)生的噴注。

電荷翻轉(zhuǎn)率（Charge Flip Rate）定義為塊中非對角線元素與塊總和的比率，代表誤識別夸克和反夸克產(chǎn)生的噴注的概率。

圖4顯示，這些模型在十一種類的粒子噴注來源鑒別的分類問題上表現(xiàn)出相似的性能，并且在數(shù)據(jù)集大小擴展時都顯示出性能提升，Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。

開發(fā)團隊指出，該模型和專業(yè)模型之間出現(xiàn)了不同的擴展行為。BBT-Neutron的S曲線上的關(guān)鍵數(shù)據(jù)閾值，特別是Charge Flip Rate的數(shù)據(jù)發(fā)生到了性能突變，表現(xiàn)出顯著的涌現(xiàn)現(xiàn)象（Model Emergence），然而該現(xiàn)象在ParticleNet或Particle Transformer中并沒有被觀察到。

可能的原因是這些專業(yè)模型納入了特定領(lǐng)域的結(jié)構(gòu)特征，它們采用專門設(shè)計的架構(gòu)來表示粒子相互作用和分類，這可能導(dǎo)致隨著數(shù)據(jù)規(guī)模的增加，性能提升更快達到飽和。

與此相反，研究中的通用架構(gòu)模型，使用統(tǒng)一的數(shù)據(jù)表示來處理所有物理結(jié)構(gòu)。專業(yè)模型架構(gòu)通過消除位置編碼或相關(guān)操作來實現(xiàn)粒子的置換不變性（permutative invariance），BBT-Neutron不依賴置換不變性，而是采用從左到右的序列輸入，這與語言模型的seq2seq范式一致。

雖然這種方法需要更大的數(shù)據(jù)集來推斷，但一旦超過臨界數(shù)據(jù)集閾值，它就能實現(xiàn)顯著的性能飛躍，這表明了該模型即使沒有像專業(yè)模型那樣明確在架構(gòu)設(shè)計中納入置換不變性，也能夠通過足量數(shù)據(jù)的學(xué)習(xí)學(xué)到空間對稱性。

通俗而言，當(dāng)數(shù)據(jù)規(guī)模逐步增加時，該模型在性能上出現(xiàn)了顯著躍遷。這一發(fā)現(xiàn)驗證了通用模型在大規(guī)模科學(xué)計算任務(wù)中的可擴展性，即該模型有望成為跨領(lǐng)域的科學(xué)計算基座模型。

該論文研究標(biāo)志著大模型在多模態(tài)數(shù)據(jù)處理與科學(xué)計算任務(wù)中的巨大潛力。隨著人工智能技術(shù)與大科學(xué)裝置的深度融合，在未來或許能夠加速中國大對撞機CEPC等前沿科研項目的實施落地。

該項目參與者、CEPC團隊成員阮曼奇曾評論道，「人工智能技術(shù)將助力大科學(xué)設(shè)施的設(shè)計研發(fā)，能大幅提高其科學(xué)發(fā)現(xiàn)能力，更好地幫助我們探索世界的奧秘、拓寬人類的知識邊界。

反過來，通過總結(jié)對比在具體科學(xué)問題上觀測到的AI性能差異，也能加深我們對AI技術(shù)本身的理解，更好推動AI技術(shù)的發(fā)展?！?/span>

BBT模型發(fā)展歷程

2022年：發(fā)布BBT-1，10億參數(shù)的金融預(yù)訓(xùn)練語言模型；

2023年：發(fā)布BBT-2，120億參數(shù)的通用大語言模型；

2024年：發(fā)布BBT-Neutron，1.4億參數(shù)的科學(xué)基座大語言模型，實現(xiàn)文本、數(shù)值和圖像數(shù)據(jù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練

責(zé)任編輯：張燕妮來源：新智元

大語言模型 AI 計算

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="8dqmx"><p id="8dqmx"></p></sub>

<cite id="8dqmx"></cite>