自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="68tsi"></tr>

<style id="68tsi"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%

發(fā)布于 2024-5-6 09:28

瀏覽

0收藏

“預(yù)測下一個token”被認(rèn)為是大模型的基本范式，一次預(yù)測多個tokens又會怎樣？

Meta AI法國團(tuán)隊推出“基于多token預(yù)測的更快&更好大模型”。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

多token預(yù)測模型，在編程類任務(wù)上表現(xiàn)尤其突出。

與單token預(yù)測相比，13B參數(shù)模型在HumanEval上多解決了12%的問題，在MBPP上多解決了17%。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

小型算法推理任務(wù)上，多token預(yù)測也在分布外泛化方面帶來了令人印象深刻的收益。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

不過在自然語言任務(wù)上，多token預(yù)測方法并不能顯著提高7B模型在數(shù)學(xué)選擇題上的表現(xiàn)了。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

另外一個好處是，即使batch size較大，使用4-token預(yù)測訓(xùn)練的模型，推理速度也可提高3倍。

多token預(yù)測更適合編程

具體來說，團(tuán)隊設(shè)計了一種新的多token預(yù)測架構(gòu)，通過n個獨(dú)立的輸出頭并行預(yù)測n個未來token。

使用大量文本數(shù)據(jù)進(jìn)行模型訓(xùn)練，包括代碼和自然語言數(shù)據(jù)集。

再通過實驗比較多token預(yù)測和單token預(yù)測在多個下游任務(wù)上的性能。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

為啥多token預(yù)測在編程任務(wù)和小型算法推理任務(wù)上提升更明顯？

團(tuán)隊猜測可能有兩個原因:

第一，編程語言的邏輯結(jié)構(gòu)更嚴(yán)謹(jǐn)，知識的內(nèi)在聯(lián)系更緊密。一個關(guān)鍵節(jié)點(diǎn)可能影響到后續(xù)整個代碼塊的走向。多Token預(yù)測能更好捕捉這種長距離依賴。

第二，相比自然語言，編程語言的詞匯量更小。因此即便每次預(yù)測多個Token，難度也沒那么大。反而能迫使模型從局部細(xì)節(jié)中抽身，著眼全局優(yōu)化。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

除了在token層面的實驗，團(tuán)隊還在更細(xì)粒度的字節(jié)級模型上做了嘗試。

他們發(fā)現(xiàn)，用8字節(jié)預(yù)測替代下一個字節(jié)預(yù)測后，模型在MBPP上的Pass@1指標(biāo)暴增67%，在HumanEval上也提升了20%。

而且推理速度還能再快6倍，簡直不要太香。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

對于背后原理，團(tuán)隊認(rèn)為多token預(yù)測緩解了訓(xùn)練時Teacher Forcing和推理時自回歸生成之間的分布差異。

也就是說，在訓(xùn)練的時候，模型看到的都是標(biāo)準(zhǔn)答案，生成的時候卻得靠自己。好比人類在家做練習(xí)冊時有答案，考試時卻啥也沒有，就會不適應(yīng)。

而多token預(yù)測相當(dāng)于訓(xùn)練時就逼著模型多想幾步，這樣到了考場上，才能應(yīng)對自如。

從信息論的角度，團(tuán)隊還給出了一個更精確的論證。

?

傳統(tǒng)的下一個Token預(yù)測，目標(biāo)是最小化當(dāng)前位置的信息熵。而2-Token預(yù)測實際上最小化的是當(dāng)前和下一位置的信息熵之和。

數(shù)學(xué)推導(dǎo)表明，后者其實隱含了更大的互信息權(quán)重，也就是更看重當(dāng)前Token和未來Token的相關(guān)性。這就是為什么多Token預(yù)測更”有遠(yuǎn)見”。

不過在這篇論文中，還有幾個未解決的問題。

?

比如沒有探討如何自動選擇最佳的預(yù)測token數(shù)量n，作者提出，未來可以研究使用損失權(quán)重調(diào)整或動態(tài)調(diào)整n來解決最佳n的選擇問題。

此外最佳的詞表大小也可能與單token預(yù)測時不同。

總之，看過這篇論文之后，大家都更期待Llama-4了。

一次預(yù)測多個token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

論文地址：???https://arxiv.org/abs/2404.19737??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/GuIqBdj4MteR9eBlTesdBA?poc_token=HKExOGajTyMBxP3FMXkCt7skHNxyXVBljVHxyLI-??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

北大字節(jié)開辟圖像生成新范式！超越Sora核心組件DiT，不再預(yù)測下一個token

Crystalcxt ? 2426瀏覽 ? 0回復(fù)
快3倍！Meta 違背經(jīng)典模型結(jié)構(gòu)，一次預(yù)測多個token，路徑可行，大模型大幅提速指日可待！

51CTO技術(shù)棧 ? 2645瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 2618瀏覽 ? 0回復(fù)
KubeAI大模型推理加速實踐

卓勝微wjp ? 2995瀏覽 ? 0回復(fù)
LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究

Crystalcxt ? 2476瀏覽 ? 0回復(fù)
Meta等最新研究：多token預(yù)測，提升大模型推理效率

Aceryt ? 3547瀏覽 ? 0回復(fù)
next-token被淘汰！Meta實測「多token」訓(xùn)練方法，推理提速3倍，性能大漲10%+

duhorse ? 2880瀏覽 ? 0回復(fù)
AI技術(shù)新前沿本地LLM模型推理訓(xùn)練加速

AIGC觀察者 ? 3042瀏覽 ? 0回復(fù)
TensorRT模型推理加速實踐

zhcs333 ? 3832瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 1938瀏覽 ? 0回復(fù)
記一次關(guān)于人工智能應(yīng)用方向的面試以及帶來的思考

AI探索時代 ? 2143瀏覽 ? 0回復(fù)
不走尋常路的面壁智能，又一次“掀桌子”了！

51CTO技術(shù)棧 ? 2139瀏覽 ? 0回復(fù)
科普神文，一次性講透AI大模型的核心概念

ermulong ? 2822瀏覽 ? 0回復(fù)
OpenAI 發(fā)布新模型 o1，能夠推理復(fù)雜任務(wù)，在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域更牛

AI洞察Insight ? 2218瀏覽 ? 0回復(fù)
記一次ComfyUI工作流bug查找過程

AI探索時代 ? 2463瀏覽 ? 0回復(fù)
一次多模態(tài)大模型表格識別解析探索小實踐記錄

大模型自然語言處理 ? 2178瀏覽 ? 0回復(fù)
Meta公布BLT新架構(gòu)：告別token，擁抱patch

51CTO內(nèi)容精選 ? 1531瀏覽 ? 0回復(fù)
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學(xué)習(xí)筆記 ? 2125瀏覽 ? 0回復(fù)
阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默

AI博物院 ? 226瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：奧特曼承認(rèn)了神秘gpt2！哈佛MIT巡演繼續(xù)，斯坦福演講完整版公開

下一篇：人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產(chǎn)業(yè)峰會

社區(qū)精華內(nèi)容

目錄

<legend id="ceitv"><track id="ceitv"></track></legend>

<style id="ceitv"></style>