自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="hvbym"></blockquote>

<strong id="hvbym"></strong>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一夜小模型王座易主！英偉達(dá)發(fā)布超強(qiáng)小模型，新混合架構(gòu)威力超Transformer，性能、速率、緩存全面超越Llama3.2！

原創(chuàng) 精選

作者：言征 2024-11-25 08:54:41

開(kāi)發(fā) 架構(gòu) 人工智能

日前，NVIDIA剛剛發(fā)布了Hymba-1.5B-Base，這是一個(gè)將Transformer注意力機(jī)制與狀態(tài)空間模型（SSM）集成的小型語(yǔ)言模型。

編輯｜言征

小模型王座一夜易主了！冷不防，英偉達(dá)就丟出了一個(gè)新混合架構(gòu)，以后不再只是Transformer的天下了。

日前，NVIDIA剛剛發(fā)布了Hymba-1.5B-Base，這是一個(gè)將Transformer注意力機(jī)制與狀態(tài)空間模型（SSM）集成的小型語(yǔ)言模型。

這種全新的混合架構(gòu)只使用1.5T的Tokens進(jìn)行訓(xùn)練，性能、速度卻全面超越了市面上主流的所有小模型！英偉達(dá)的科學(xué)家兼研究經(jīng)理Pavlo Molchanov在X上宣布了這一最新發(fā)展。

圖片

Hugging Face 的技術(shù)負(fù)責(zé)人及大型語(yǔ)言模型（LLMs）專家 Philipp Schmid 對(duì)此發(fā)展發(fā)表評(píng)論說(shuō)：“Hymba 在僅使用1.5萬(wàn)億個(gè)標(biāo)記進(jìn)行訓(xùn)練的條件下，性能超越了其他小型大型語(yǔ)言模型，如Meta 3.2或SmolLM v2?！?/p>

圖片

1.雙重架構(gòu)、精確回憶、高效上下文

據(jù)“抱抱臉”上公開(kāi)資料顯示，Hymba-1.5B-Base是在今年年9月1日至2024年11月10日期間進(jìn)行訓(xùn)練的，許可證方面則根據(jù)NVIDIA開(kāi)放模型許可協(xié)議發(fā)布。

Hymba模型使用雙重結(jié)構(gòu)，具有精確回憶的注意力頭和高效上下文總結(jié)的SSM頭。

具體來(lái)講，其特點(diǎn)在于采用了混合頭并行架構(gòu)，該架構(gòu)將Transformer注意力機(jī)制與狀態(tài)空間模型（SSM）相結(jié)合，以提高效率。注意力頭提供高分辨率的回憶能力，而SSM頭則實(shí)現(xiàn)高效的上下文總結(jié)。此外，模型還引入了可學(xué)習(xí)的Meta標(biāo)記，這些標(biāo)記被添加到提示之前，用于存儲(chǔ)關(guān)鍵信息，并減輕與注意力機(jī)制相關(guān)的“被迫關(guān)注”負(fù)擔(dān)。通過(guò)引入跨層鍵值（KV）共享和部分滑動(dòng)窗口注意力，該模型得到了進(jìn)一步優(yōu)化，從而實(shí)現(xiàn)了緊湊的緩存大小。

在一項(xiàng)對(duì)比相同設(shè)置下不同架構(gòu)的受控研究中，Hymba-1.5B-Base 展現(xiàn)出了顯著優(yōu)勢(shì)。

它在所有公開(kāi)可用的、參數(shù)少于20億的模型中表現(xiàn)優(yōu)異，并以平均準(zhǔn)確率高出1.32%、緩存大小減少11.67倍、吞吐量提升3.49倍的成績(jī)超越了Llama-3.2-3B。

2.模型架構(gòu)非常巧妙

Hymba-1.5B-Base是一款基礎(chǔ)文本到文本的模型，可用于多種自然語(yǔ)言生成任務(wù)。論文《Hymba: A Hybrid-head Architecture for Small Language Models》進(jìn)一步闡述了模型的思想和實(shí)驗(yàn)對(duì)比。

論文地址：https://arxiv.org/pdf/2411.13676

該模型采用混合架構(gòu)，其中Mamba和注意力頭并行運(yùn)行。每個(gè)提示前都會(huì)添加一組可學(xué)習(xí)的標(biāo)記（稱為Meta標(biāo)記），以提高模型的有效性。該模型在兩層之間以及單層內(nèi)的各個(gè)頭之間共享鍵值（KV）緩存。90%的注意力層采用滑動(dòng)窗口注意力機(jī)制。

Hymba-1.5B-Base的模型嵌入大小為1600，擁有25個(gè)注意力頭，MLP中間維度為5504，總層數(shù)為32層，16個(gè)SSM狀態(tài)，3個(gè)全注意力層，其余為滑動(dòng)窗口注意力層。與標(biāo)準(zhǔn)Transformer不同，Hymba中的每個(gè)注意力層都并行結(jié)合了標(biāo)準(zhǔn)注意力頭和Mamba頭的混合組合。此外，它還使用了分組查詢注意力（GQA）和旋轉(zhuǎn)位置嵌入（RoPE）。

圖片

概括來(lái)講，這架構(gòu)有三個(gè)值得注意的特點(diǎn)：

首先，在同一層內(nèi)融合注意力頭和SSM頭，對(duì)相同輸入進(jìn)行并行且互補(bǔ)的處理；此外，還引入了元標(biāo)記（meta tokens），這些標(biāo)記被添加到輸入序列的前面，并與所有后續(xù)標(biāo)記進(jìn)行交互，從而存儲(chǔ)重要信息并減輕注意力中“必須關(guān)注”的負(fù)擔(dān)；最后，還結(jié)合了跨層KV共享和全局-局部注意力，進(jìn)一步提升內(nèi)存和計(jì)算效率。

圖片

3.性能超越所有主流小模型，包括Llama3.2

Hymba-1.5B-Base在所有低于20億的公開(kāi)模型中表現(xiàn)優(yōu)異。

圖片

研究人員從準(zhǔn)確率、緩存大小、處理速度三個(gè)方面綜合評(píng)估了現(xiàn)在主流的小語(yǔ)言模型，比如Meta的Llama3.2-1B、Apple的OpenELM-1B、微軟的Phi-1.5B、抱抱臉的SmoILM2-1.7B、阿里巴巴的Qwen2.5-1.5B等。

綜合評(píng)估和消融研究表明，Hymba不僅在眾多具有代表性的任務(wù)中樹(shù)立了新的最優(yōu)（SOTA）基準(zhǔn)性能，而且在效率方面相比Transformer和之前的混合模型也更高。例如，在常識(shí)推理任務(wù)中，Hymba-1.5B的平均準(zhǔn)確率比Llama-3.2-3B高出1.32%，而所需的緩存大小卻小了11.67倍，速度快了3.49倍。

圖片

NVIDIA 還提供了一個(gè)設(shè)置腳本，以簡(jiǎn)化環(huán)境配置，支持CUDA 12.1和12.4版本。

4.不過(guò)，需要小心

英偉達(dá)承認(rèn)該模型是利用從互聯(lián)網(wǎng)上原始抓取的數(shù)據(jù)進(jìn)行訓(xùn)練的，這就意味著訓(xùn)練數(shù)據(jù)包含有毒語(yǔ)言、不安全內(nèi)容和社會(huì)偏見(jiàn)。因此，該模型可能會(huì)放大這些偏見(jiàn)，并在接收到有毒提示時(shí)返回有毒的回應(yīng)。

即使提示本身不包含任何明顯冒犯性的內(nèi)容，該模型也可能生成不準(zhǔn)確、遺漏關(guān)鍵信息或包含不相關(guān)或冗余文本的答案，從而產(chǎn)生社會(huì)不可接受或不受歡迎的文本。

除了有毒內(nèi)容方面需要注意，工程方面也需要注意：

用戶應(yīng)在生成期間將批處理大小設(shè)置為1，因?yàn)楫?dāng)前設(shè)置不完全支持帶有滑動(dòng)窗口注意的填充元標(biāo)記。然而，任何批次大小都適用于訓(xùn)練和預(yù)填充。

5.本月25日公開(kāi)模型權(quán)重，可商用

英偉達(dá)非常強(qiáng)調(diào)在創(chuàng)建值得信賴的人工智能方面分擔(dān)責(zé)任的重要性，并為其發(fā)展制定了道德準(zhǔn)則。建議用戶負(fù)責(zé)任地使用該模型，同時(shí)注意其局限性。

“在按照我們的服務(wù)條款下載或使用時(shí)，開(kāi)發(fā)者應(yīng)與內(nèi)部模型團(tuán)隊(duì)合作，確保該模型滿足相關(guān)行業(yè)和使用場(chǎng)景的要求，并解決產(chǎn)品濫用等不可預(yù)見(jiàn)的問(wèn)題?！?/p>

Molchanov 評(píng)論道：“我不確定我們是否應(yīng)該為使用1.5萬(wàn)億個(gè)標(biāo)記的訓(xùn)練感到自豪。原因是我們要追求速度；在接下來(lái)的兩周里，就會(huì)有人做得更好。”

不過(guò)好消息是，Hymba模型已準(zhǔn)備好用于商業(yè)用途了，而且模型權(quán)重也即將推出，預(yù)計(jì)11月25日發(fā)布！

相信大家這兩天就可以快速用上這款非常nice的小模型了。

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

小模型英偉達(dá)架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)