自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="pyj11"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

10行代碼讓大模型數(shù)學提升20%，“野路子”研究谷歌也測上了，主要作者全靠自學成才

作者：量子位 2024-08-26 08:30:00

人工智能新聞

幾名獨立學者提出了大模型采樣的改進方案，引起了開源社區(qū)的關注。

只要不到10行代碼，就能讓大模型數(shù)學能力（GSM8k）提升20%！

幾名獨立學者提出了大模型采樣的改進方案，引起了開源社區(qū)的關注。

目前該方法已在Mistral-7B上取得成效，在Llama3-70B上的測試也正在進行。

這種方法叫做最小p采樣（min-p sampling），目的是平衡生成文本的連貫性和多樣性。

簡單說就是讓模型在不同場合發(fā)揮不同的特性，例如在事實問題上保持性能穩(wěn)定，在寫作等場景中又能發(fā)揮創(chuàng)意。

目前該方法已在Mistral-7B上取得成效，在Llama-70B上的測試也即將進行。

在論文中作者提到，該方法已經(jīng)獲得了開源社區(qū)的廣泛應用。

同時作者還透露，Anthropic和谷歌等閉源模型廠商也已經(jīng)或正在針對min-p進行測試。

消息也得到了谷歌方面的確認，從OpenAI跳槽到谷歌的開發(fā)者社區(qū)負責人Logan Kilpatrick已經(jīng)回復說“On it”（在做了）。

微軟Copilot的研究人員Abram Jackson看了后表示，這是他看到的首個有關推理過程token采樣的改進，未來還有很大進步空間。

值得一提的是，這項受到廣泛關注的研究，主要作者Minh Nhat Nguyen根本沒系統(tǒng)學過CS，而是靠自學成才。

在一家名為Apart Research的AI安全研究機構幫助下，Minh和團隊其他成員一起完成了該項目。

動態(tài)調(diào)整抽樣閾值

min-p是一種動態(tài)截斷抽樣方法，其核心是根據(jù)每一步token分布的最大概率，來縮放最小概率閾值。

這樣做的目的，主要在于平衡生成文本的連貫性和多樣性，特別是在temperature較高的條件下。

具體來說，min-p引入了一個基礎概率閾值p_base，表示進入采樣池的最低概率要求。

在每一步生成token時，min-p會將p_base與當前概率分布中最大的token概率p_max相乘，得到一個縮放后的絕對閾值p_scaled。

只有概率大于等于p_scaled的token，才能夠進入采樣池。

當模型對某個token的預測概率非常高（即p_max很大）時，p_scaled的值也會很高，導致采樣池大幅縮小，絕大多數(shù)低概率token被過濾，只留下少數(shù)高把握的選擇，確保了輸出的連貫性；

而當模型對所有token的預測概率都比較接近（p_max較低）時，p_scaled的值也會相應變低，放寬了對采樣池的要求，納入更多中等概率的token，給予模型更多發(fā)揮空間，生成更加多樣化的內(nèi)容。

在確定采樣池后，min-p會根據(jù)temperature對token概率分布進行縮放。

它將token的對數(shù)概率除以一個溫度參數(shù)τ，并進行歸一化后，就得到了temperature縮放后的概率分布。

大于1的τ值會使概率分布更加平緩，增加低概率token被選中的機會；

τ小于1時則會使分布更加尖銳，強化高概率token的優(yōu)勢。

最后，min-p從縮放后的采樣池中，按照調(diào)整后的概率分布，隨機抽取下一個token。

穩(wěn)定性和創(chuàng)意，“我全都要”

min-p方法的效果究竟如何呢？作者使用了Mistral-7B作為基礎模型進行了測試，我們來分場景看一下結(jié)果。

在推理任務中，作者采用了GPQA數(shù)據(jù)集。當temperature為1時，可以看到min-p相比于過去的top-p顯現(xiàn)出了微小的優(yōu)勢。

隨著temperature增加，GPQA得分整體上呈現(xiàn)出了下降趨勢，但可以觀察到min-p的下降明顯比top-p更慢。

直到temperature達到3時min-p的下降趨勢才變得明顯，此時top-p的得分已接近0。

也就是說，相比于top-p，min-p在推理任務中更好地保持了所需要的穩(wěn)定性。

同樣需要保持穩(wěn)定性能的還有數(shù)學類任務，這里作者使用了GSM8K數(shù)據(jù)集進行了測試。

結(jié)果min-p所對應的分數(shù)隨temperature的下降比在GPQA中更快，但仍然緩于top-p方式。

第三類任務是創(chuàng)意寫作，這時對穩(wěn)定性的要求就不是那么高了，而是需要模型發(fā)揮更多的創(chuàng)意。

這項測試使用AlpacaEval數(shù)據(jù)集完成，實驗數(shù)據(jù)是從開源社區(qū)的一名獨立評估者那里獲得的。

實驗結(jié)果顯示，在temperature=1.5、min-p=0.1的設置下，min-p的性能尤其突出，可生成top-p方法難以生成的創(chuàng)意寫作內(nèi)容。

在該參數(shù)下，min-p方法得到的文本獲得了58.12%的人類評判優(yōu)選率，遠高于其他方法在類似設置下的表現(xiàn)。

論文地址：https://arxiv.org/abs/2407.01082
GitHub：https://github.com/menhguin/minp_paper/

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="ry8c8"><i id="ry8c8"></i></blockquote>