自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="aq6nv"></sub>

<cite id="aq6nv"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

70B模型秒出1000token，代碼重寫超越GPT-4o，來自O(shè)penAI投資的代碼神器Cursor團(tuán)隊(duì)

作者：量子位 2024-05-17 17:25:44

人工智能新聞

這項(xiàng)成果，來自爆火的AI編程神器Cursor背后團(tuán)隊(duì)anysphere，OpenAI也參與過投資。

70B模型，秒出1000token，換算成字符接近4000！

研究人員將Llama3進(jìn)行了微調(diào)并引入加速算法，和原生版本相比，速度足足快出了快了13倍！

不僅是快，在代碼重寫任務(wù)上的表現(xiàn)甚至超越了GPT-4o。

這項(xiàng)成果，來自爆火的AI編程神器Cursor背后團(tuán)隊(duì)anysphere，OpenAI也參與過投資。

要知道在以快著稱的推理加速框架Groq上，70B Llama3的推理速度也不過每秒300多token。

Cursor這樣的速度，可以說是實(shí)現(xiàn)了近乎即時(shí)的完整代碼文件編輯。

有人直呼好家伙，如果把Cursor魔改后的Llama3放到Groq上，是不是每秒能跑出上萬token了。

更是有人激動(dòng)地說，在大模型領(lǐng)域，我們正在消除“延時(shí)”這一概念。

引入全新推理加速算法

作者此次設(shè)計(jì)的加速方法，主要是用來解決一種名為“Fast Apply”的任務(wù)，即對代碼內(nèi)容進(jìn)行快速修改并應(yīng)用。

首先需要說明的是，雖然說任務(wù)最終實(shí)現(xiàn)的效果是代碼的局部修改，但是實(shí)際操作過程中，輸出并非是只有變化的內(nèi)容，而是直接全局重寫。

這樣做的原因，是團(tuán)隊(duì)在預(yù)先測試后做出的選擇——他們發(fā)現(xiàn)，除了Claude-3-Opus，大多數(shù)模型在真·局部修改任務(wù)上的表現(xiàn)都不理想。

之所以會(huì)這樣，主要有以下三個(gè)原因：

首先是直接重寫時(shí)會(huì)輸出更多token，使得有更多的前向傳遞來確定正確的解決方案。
其次，模型的訓(xùn)練數(shù)據(jù)也大部分都是完整代碼，對局部修改相對陌生。
此外，大模型糟糕的數(shù)學(xué)運(yùn)算也無法保證能在輸出差異時(shí)正確處理行號。

（不過作者認(rèn)為這仍然是一個(gè)有潛力的未來研究方向。）

確定了采用全局重寫的方案后，Cursor團(tuán)隊(duì)使用了任務(wù)相關(guān)的數(shù)據(jù)對Llama3進(jìn)行了微調(diào)。

所采用的數(shù)據(jù)有真實(shí)編輯數(shù)據(jù)與合成數(shù)據(jù)兩大來源，按照1:4的比例進(jìn)行了混合。

其中合成數(shù)據(jù)是指用GPT-4生成代碼編輯的建議，然后用其他模型將這些建議“應(yīng)用”到原始代碼上。

為了提高數(shù)據(jù)集的質(zhì)量，作者還對小文件、重復(fù)文件和無變化樣本進(jìn)行了下采樣。

為了評估這些模型的表現(xiàn)，作者讓它們處理了450個(gè)代碼編輯任務(wù)（每個(gè)都不超過400行），并用Claude3-Opus對輸出進(jìn)行了打分。

最終，作者微調(diào)出的70B Llama3模型，表現(xiàn)幾乎與Claude3-Opus-diff匹配，并且優(yōu)于GPT-4-Turbo和GPT-4o。

至此的微調(diào)解決了性能問題，但不難看出此時(shí)的Llama3速度依然很慢，每秒只能輸出不到300個(gè)字符（注意是字符，不是詞也不是token）。

而讓改寫工作快到飛起的，還有另一項(xiàng)秘密武器。

針對代碼改寫任務(wù)，Cursor團(tuán)隊(duì)專門引入了一種名為預(yù)測性編輯（speculative edits）的算法。

這種方式用一種先驗(yàn)算法來對多個(gè)后續(xù)token進(jìn)行預(yù)測，然后再用本體大模型進(jìn)行驗(yàn)證，降低了大模型的調(diào)用次數(shù)，從而減輕了運(yùn)算量。

這種先驗(yàn)算法來自于代碼任務(wù)的一個(gè)特點(diǎn)——相比于其他文本，其詞表更小，且語法結(jié)構(gòu)、縮進(jìn)規(guī)則等擁有更高的確定性，利用先驗(yàn)知識可以更精準(zhǔn)預(yù)測未來的token。

這樣的做法也與GPT-4和Meta有著共通之處——

傳統(tǒng)的語言模型推理推理速度較慢的原因，主要是預(yù)測下一個(gè)token的過程通常是自回歸的，即模型在生成每個(gè)token時(shí)，都要考慮之前生成的所有token。

為了降低運(yùn)算量，以GPT-4為代表的大模型，使用了名為預(yù)測解碼（speculative decoding）的加速算法，通過小的近似模型提前進(jìn)行預(yù)測，然后再讓本體大模型對預(yù)測結(jié)果進(jìn)行驗(yàn)證。

Cursor和GPT-4的區(qū)別就在于，前者的小“模型”是一種更確定的算法，而后者只是模型規(guī)模減小，本質(zhì)上仍是概率預(yù)測。

Meta這邊則是推出了一次性預(yù)測多個(gè)后續(xù)token的算法，用n個(gè)獨(dú)立的輸出頭并行預(yù)測n個(gè)未來token，結(jié)果發(fā)現(xiàn)在編程任務(wù)上表現(xiàn)尤其優(yōu)異，原因是由于編程語言的邏輯結(jié)構(gòu)更嚴(yán)謹(jǐn)，知識的內(nèi)在聯(lián)系更緊密。

當(dāng)然，Cursor對這種特點(diǎn)利用更為充分，沒有用注意力頭，而是直接拿更確定的算法來做多token預(yù)測。

最終的結(jié)果就是，預(yù)測算法為70B的Llama3帶來了近13倍的速度提升，而測評表現(xiàn)沒有任何損失。

此外，作者還與企業(yè)AI模型基礎(chǔ)設(shè)施平臺fireworks.ai合作，利用其優(yōu)化的推理引擎和定制化的硬件環(huán)境，進(jìn)一步提高了模型的運(yùn)行效率。

未來，團(tuán)隊(duì)還計(jì)劃進(jìn)行知識蒸餾，并把預(yù)測編輯算法遷移到更小的8B Llama3，并擴(kuò)展到更多的編程語言和任務(wù)。

同時(shí)，對于Cursor團(tuán)隊(duì)研究過但并未采用的真·局部修改（Diff）算法，作者也計(jì)劃進(jìn)行改進(jìn)。

One More Thing

在實(shí)驗(yàn)當(dāng)中，作者不僅用預(yù)測算法加速了Llama3，也實(shí)現(xiàn)了對GPT4-Turbo的加速。

不過作者并沒有介紹具體在GPT當(dāng)中如何實(shí)現(xiàn)，而是留做了思考題，還搞了一場“有獎(jiǎng)競猜”。

能夠正確解答的人將獲得1個(gè)月的Cursor會(huì)員；如果能在vllm和TensorRT-LLM中實(shí)現(xiàn)預(yù)測加速，將分別獲得半年和一年的會(huì)員。

如果你感覺有思路的話，不妨挑戰(zhàn)試試（手動(dòng)狗頭）。

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="ooqcw"><p id="ooqcw"><li id="ooqcw"></li></p></sub>

<cite id="ooqcw"><nav id="ooqcw"></nav></cite>