自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="aubvm"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

小型語(yǔ)言模型借TTS反超大模型

作者：Ben Dickson 2025-02-25 10:34:10

上海AI實(shí)驗(yàn)室研究發(fā)現(xiàn)，借助測(cè)試時(shí)擴(kuò)展（TTS）技術(shù)，小型語(yǔ)言模型在復(fù)雜推理任務(wù)中可超越大型模型，且計(jì)算量更少。研究驗(yàn)證了計(jì)算最優(yōu)TTS策略的有效性，并計(jì)劃擴(kuò)展至其他推理任務(wù)。

在企業(yè)正在尋找在不同環(huán)境和應(yīng)用中使用這些新模型的新方法時(shí)，將SLM部署在復(fù)雜推理任務(wù)中的能力將非常有用。

測(cè)試時(shí)擴(kuò)展解釋

測(cè)試時(shí)擴(kuò)展(TTS)是指在推理過(guò)程中為L(zhǎng)LM提供額外的計(jì)算周期，以提高其在各種任務(wù)上的性能。領(lǐng)先的推理模型，如OpenAI的o1和DeepSeek-R1，使用“內(nèi)部TTS”，這意味著它們被訓(xùn)練為通過(guò)生成一長(zhǎng)串思維鏈(CoT)標(biāo)記來(lái)“緩慢思考”。

另一種方法是“外部TTS”，即借助(顧名思義)外部幫助來(lái)增強(qiáng)模型性能。外部TTS適用于將現(xiàn)有模型重新用于推理任務(wù)，而無(wú)需進(jìn)一步微調(diào)。外部TTS設(shè)置通常由“策略模型”(即生成答案的主要LLM)和過(guò)程獎(jiǎng)勵(lì)模型(PRM，用于評(píng)估策略模型的答案)組成。這兩個(gè)組件通過(guò)采樣或搜索方法耦合在一起。

最簡(jiǎn)單的設(shè)置是“N中最佳”，其中策略模型生成多個(gè)答案，PRM選擇一個(gè)或多個(gè)最佳答案來(lái)組成最終響應(yīng)。更先進(jìn)的外部TTS方法使用搜索。在“束搜索”中，模型將答案分解為多個(gè)步驟。對(duì)于每個(gè)步驟，它采樣多個(gè)答案并通過(guò)PRM運(yùn)行它們。然后，它選擇一個(gè)或多個(gè)合適的候選答案，并生成答案的下一步。而在“多樣驗(yàn)證樹(shù)搜索”(DVTS)中，模型生成多個(gè)答案分支，以創(chuàng)建更多樣化的候選響應(yīng)集，然后再將它們合成為最終答案。

什么是正確的擴(kuò)展策略?

選擇正確的TTS策略取決于多個(gè)因素。研究作者對(duì)不同策略模型和PRM如何影響TTS方法效率進(jìn)行了系統(tǒng)調(diào)查。

他們的研究結(jié)果表明，效率在很大程度上取決于策略模型和PRM。例如，對(duì)于小型策略模型，基于搜索的方法優(yōu)于N中最佳。然而，對(duì)于大型策略模型，N中最佳更為有效，因?yàn)檫@些模型具有更好的推理能力，并且不需要獎(jiǎng)勵(lì)模型來(lái)驗(yàn)證其推理的每一步。

他們的研究結(jié)果還表明，正確的TTS策略取決于問(wèn)題的難度。例如，對(duì)于參數(shù)少于70億的小型策略模型，N中最佳在簡(jiǎn)單問(wèn)題上效果更好，而束搜索在更難的問(wèn)題上效果更好。對(duì)于參數(shù)在70億至320億之間的策略模型，多樣樹(shù)搜索在簡(jiǎn)單和中等難度問(wèn)題上表現(xiàn)良好，而束搜索在難題上表現(xiàn)最佳。但對(duì)于大型策略模型(720億參數(shù)及以上)，N中最佳是所有難度級(jí)別的最優(yōu)方法。

為什么小型模型能擊敗大型模型

基于這些發(fā)現(xiàn)，開(kāi)發(fā)人員可以創(chuàng)建計(jì)算最優(yōu)的TTS策略，這些策略考慮了策略模型、PRM和問(wèn)題難度，以充分利用計(jì)算預(yù)算來(lái)解決推理問(wèn)題。

例如，研究人員發(fā)現(xiàn)，采用計(jì)算最優(yōu)TTS策略的Llama-3.2-3B模型在MATH-500和AIME24這兩個(gè)復(fù)雜的數(shù)學(xué)基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于Llama-3.1-405B。這表明，在使用計(jì)算最優(yōu)TTS策略時(shí)，一個(gè)SLM可以擊敗一個(gè)比其大135倍的模型。

在其他實(shí)驗(yàn)中，他們發(fā)現(xiàn)，采用正確的計(jì)算最優(yōu)TTS策略的5億參數(shù)Qwen2.5模型可以擊敗GPT-4o。使用相同的策略，DeepSeek-R1的15億參數(shù)蒸餾版本在MATH-500和AIME24上的表現(xiàn)優(yōu)于o1-preview和o1-mini。

在考慮訓(xùn)練和推理的計(jì)算預(yù)算時(shí)，研究結(jié)果表明，采用計(jì)算最優(yōu)擴(kuò)展策略時(shí)，SLM可以用少100至1000倍的計(jì)算量(FLOPS)擊敗更大的模型。

研究人員的結(jié)果表明，計(jì)算最優(yōu)TTS顯著增強(qiáng)了語(yǔ)言模型的推理能力。然而，隨著策略模型的增大，TTS的改進(jìn)逐漸減小。

“這表明TTS的有效性直接與策略模型的推理能力相關(guān)，”研究人員寫道，“具體而言，對(duì)于推理能力較弱的模型，擴(kuò)展測(cè)試時(shí)計(jì)算量會(huì)導(dǎo)致顯著改善，而對(duì)于推理能力較強(qiáng)的模型，增益則有限?！?/p>

該研究證實(shí)，在應(yīng)用計(jì)算最優(yōu)測(cè)試時(shí)擴(kuò)展方法時(shí)，SLM的表現(xiàn)可以優(yōu)于更大的模型。雖然本研究側(cè)重于數(shù)學(xué)基準(zhǔn)測(cè)試，但研究人員計(jì)劃將其研究擴(kuò)展到其他推理任務(wù)，如編碼和化學(xué)。

責(zé)任編輯：龐桂玉來(lái)源：企業(yè)網(wǎng)D1Net

小型語(yǔ)言模型大模型 TTS AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="hnyr6"></style>