自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ASAP Thought—讓推理模型“快如閃電,精準(zhǔn)如專(zhuān)業(yè)”

人工智能
目前的技術(shù)主要規(guī)定了隱藏思維的結(jié)構(gòu)或限制,未來(lái)研究人員計(jì)劃探索能否規(guī)定確切的思維內(nèi)容。例如,通過(guò)類(lèi)似于“睡眠時(shí)計(jì)算”的方法預(yù)先計(jì)算或策略性生成推理鏈,并將其作為強(qiáng)制的內(nèi)部“思維”。研究控制隱藏推理的實(shí)質(zhì)內(nèi)容(而不僅僅是其形式或長(zhǎng)度)將如何影響復(fù)雜任務(wù)的延遲和準(zhǔn)確性結(jié)果。

推理模型的性能一直是研究人員和開(kāi)發(fā)者關(guān)注的焦點(diǎn)。如何在保證模型準(zhǔn)確性的同時(shí)提高其運(yùn)行速度,成為了推動(dòng)AI技術(shù)在各個(gè)領(lǐng)域廣泛應(yīng)用的關(guān)鍵。ASAP Thought這一創(chuàng)新技術(shù)的出現(xiàn),為解決這一難題帶來(lái)了新的曙光,它致力于讓推理模型實(shí)現(xiàn)“快如閃電,準(zhǔn)如專(zhuān)業(yè)(Fast as Flash, Precise as Pro)”的卓越表現(xiàn)。

一、AI推理模型的速度與精度困境

隨著人工智能在醫(yī)療、金融、教育等眾多領(lǐng)域的深入應(yīng)用,對(duì)推理模型性能的要求也日益嚴(yán)苛。以醫(yī)療領(lǐng)域?yàn)槔?,巴西的AI健康科技初創(chuàng)公司Laudite,其開(kāi)發(fā)的AI助手被3000多家B2B和B2C客戶(hù)的醫(yī)生(尤其是放射科醫(yī)生)廣泛使用,旨在提高工作效率、準(zhǔn)確性和服務(wù)質(zhì)量 。然而,在實(shí)際應(yīng)用中,推理模型卻面臨著速度與精度難以平衡的困境。

Gemini 2.5 Pro在處理復(fù)雜醫(yī)療文檔生成任務(wù)時(shí),展現(xiàn)出了極高的準(zhǔn)確性和出色的結(jié)構(gòu)構(gòu)建能力,在與Claude 3.7 Sonnet、GPT-4o(ChatGPT最新版)、GPT-4.1、GPT-4.5、Grok 3.5 Beta以及DeepSeek V3.1等眾多強(qiáng)大競(jìng)爭(zhēng)對(duì)手的比較中脫穎而出。但它也存在一個(gè)明顯的短板——速度較慢。在生成醫(yī)療報(bào)告等復(fù)雜醫(yī)療文檔的測(cè)試中,Gemini 2.5 Pro的P90延遲(即90%的請(qǐng)求能夠達(dá)到的最快響應(yīng)時(shí)間)高達(dá)27秒,而Claude完成相同任務(wù)僅需約12秒(P90)。對(duì)于每小時(shí)需要生成或?qū)徍舜罅课臋n的放射科醫(yī)生來(lái)說(shuō),這種延遲不僅令人煩躁,更是嚴(yán)重影響了工作流程,甚至可能成為阻礙該技術(shù)在實(shí)際應(yīng)用中推廣的關(guān)鍵因素。

為了解決速度問(wèn)題,研究人員將目光投向了Google的Gemini 2.5 Flash版本。該版本宣稱(chēng)能夠通過(guò)原生的草稿思維控制實(shí)現(xiàn)更精簡(jiǎn)的推理過(guò)程。內(nèi)部測(cè)試結(jié)果看起來(lái)十分誘人,文檔生成的P90延遲驟降至7秒以下。然而,在對(duì)生成內(nèi)容進(jìn)行質(zhì)量評(píng)估時(shí)發(fā)現(xiàn),F(xiàn)lash雖然速度快,但準(zhǔn)確性卻不盡如人意。在處理復(fù)雜的醫(yī)療發(fā)現(xiàn)時(shí),它常常會(huì)遺漏關(guān)鍵細(xì)節(jié),而且在遵循提示中細(xì)微的指令或復(fù)雜的格式規(guī)則方面表現(xiàn)出較差的一致性,導(dǎo)致輸出結(jié)果的可靠性遠(yuǎn)不如Gemini 2.5 Pro和Claude。這表明,在追求速度的過(guò)程中,不能忽視模型的準(zhǔn)確性,如何找到兩者之間的平衡點(diǎn)成為了亟待解決的問(wèn)題。

二、ASAP Thought技術(shù)的誕生

面對(duì)Gemini 2.5 Flash可靠性不足的問(wèn)題,研究人員開(kāi)始思考能否通過(guò)優(yōu)化Gemini Pro的思考過(guò)程來(lái)提高其速度,同時(shí)保持其高準(zhǔn)確性。經(jīng)過(guò)一系列的迭代嘗試,ASAP Thought技術(shù)應(yīng)運(yùn)而生。

最初,研究人員嘗試在提示的末尾簡(jiǎn)單添加諸如“always limit your thinking to minimum”之類(lèi)的指令,試圖限制模型的思考過(guò)程以降低延遲。但這種方法產(chǎn)生的效果參差不齊,對(duì)減少模型的冗長(zhǎng)表述和延遲的影響有時(shí)顯著,有時(shí)卻微乎其微。

隨后,研究人員采用了“Sandwich Control”方法,即在提示的開(kāi)頭和結(jié)尾都放置控制指令,形成一個(gè)“三明治”結(jié)構(gòu)。與僅在結(jié)尾添加指令的方法相比,這種方式顯著提高了模型對(duì)簡(jiǎn)潔推理指令的遵循程度。

對(duì)于醫(yī)療文檔生成中使用的較長(zhǎng)提示,研究人員發(fā)現(xiàn)“Spaced Repetition”策略效果最佳。該策略不僅在提示的開(kāi)頭和結(jié)尾強(qiáng)化核心指令,還在提示結(jié)構(gòu)的中間位置添加一次提醒(總共三次提醒),從而在控制模型行為方面表現(xiàn)出更好的一致性。這一發(fā)現(xiàn)表明,提示的長(zhǎng)度可能會(huì)影響控制指令需要重復(fù)的頻率。

研究人員還發(fā)現(xiàn),明確設(shè)置定量限制(例如“always limit your thinking to a maximum of 3 steps with 3 words”)比模糊的指令(如“thinking to minimum”)在控制模型的冗長(zhǎng)表述和延遲方面要有效得多。添加具體的數(shù)字似乎對(duì)于精確控制模型至關(guān)重要。

最終,通過(guò)將上述方法的優(yōu)點(diǎn)結(jié)合起來(lái),形成了固定最小思維模式。即利用間隔重復(fù)來(lái)強(qiáng)化指令(根據(jù)提示長(zhǎng)度進(jìn)行調(diào)整),對(duì)內(nèi)部草稿施加明確的定量限制(如“最多3步,每步3個(gè)單詞”),并為所需的隱藏思維過(guò)程定義一個(gè)靜態(tài)的最小文本結(jié)構(gòu)(例如強(qiáng)制內(nèi)部思維精確為“1. Analyze inputs. 2. Apply rules. 3. Generate complete text.”)。通過(guò)這種方式,在特定的醫(yī)療文檔生成任務(wù)中,實(shí)現(xiàn)了低延遲、高一致性和可靠準(zhǔn)確性之間的最佳平衡,從而確定了ASAP Thought技術(shù)的核心內(nèi)容。

三、ASAP Thought的工作原理

ASAP Thought技術(shù)看似違背直覺(jué),通過(guò)抑制模型可見(jiàn)的思維過(guò)程來(lái)提高速度,卻不會(huì)損害結(jié)果的準(zhǔn)確性。這一現(xiàn)象背后有著堅(jiān)實(shí)的研究理論支持。

Zoom Communications關(guān)于“Chain-of-Draft”(CoD)的研究表明,大語(yǔ)言模型(LLMs)可以生成簡(jiǎn)潔而信息豐富的中間推理步驟,與冗長(zhǎng)的思維鏈(Chain-of-Thought)形成對(duì)比。CoD專(zhuān)注于關(guān)鍵見(jiàn)解,而非全面闡述,旨在在大幅減少令牌數(shù)量和延遲的同時(shí),達(dá)到或超過(guò)思維鏈的準(zhǔn)確性。ASAP Thought技術(shù)正是直接應(yīng)用了這一原理,通過(guò)嚴(yán)格執(zhí)行隱藏推理步驟的簡(jiǎn)潔性和結(jié)構(gòu)性要求,優(yōu)化模型的推理過(guò)程。

Anthropic的研究也發(fā)現(xiàn),模型輸出的思維鏈往往與驅(qū)動(dòng)其結(jié)論的內(nèi)部向量操作不匹配。冗長(zhǎng)的輸出可能更多地是一種事后的解釋?zhuān)蛘呤且粭l效率較低的推理路徑。這意味著,至少在測(cè)試的醫(yī)療文檔生成任務(wù)的復(fù)雜程度下,強(qiáng)迫模型將其中間工作“保密”,并不會(huì)削弱其推理能力,反而可能只是去除了輸出流中的冗余部分,從而顯著提高速度。

四、ASAP Thought的實(shí)踐檢驗(yàn)——草莓測(cè)試

為了驗(yàn)證ASAP Thought技術(shù)的有效性是否不僅限于復(fù)雜醫(yī)療文檔生成和葡萄牙語(yǔ)場(chǎng)景,研究人員進(jìn)行了一項(xiàng)經(jīng)典的英語(yǔ)推理基準(zhǔn)測(cè)試——計(jì)算單詞“Strawberry”中字母“R”出現(xiàn)的次數(shù)。這一簡(jiǎn)單任務(wù)有助于單獨(dú)評(píng)估推理控制對(duì)延遲和令牌使用的影響,測(cè)試過(guò)程全部使用Gemini 2.5 Pro模型。

首先,建立基線(xiàn)測(cè)試。使用詳細(xì)的系統(tǒng)提示來(lái)鼓勵(lì)模型進(jìn)行全面推理,系統(tǒng)提示包含仔細(xì)閱讀問(wèn)題、識(shí)別前提和約束條件、分解問(wèn)題、陳述假設(shè)、應(yīng)用邏輯推理規(guī)則、確保解釋清晰易懂以及得出最終解決方案等步驟。在這種情況下,模型得出正確答案(3個(gè)“R”),思考時(shí)間為9.4秒(680個(gè)令牌),響應(yīng)時(shí)間為14秒(434個(gè)令牌),總時(shí)間為23.4秒。

接著,在基線(xiàn)提示的末尾添加基本的推理控制指令“EXTREMELY CRITICAL: ALWAYS LIMIT YOUR THINKING TO MINIMUM!!!”,結(jié)果模型仍然給出正確答案,但思考時(shí)間縮短至5.0秒(247個(gè)令牌),響應(yīng)時(shí)間縮短至7.1秒(204個(gè)令牌),總時(shí)間縮短至12.1秒。雖然有顯著減少,但模型的思考過(guò)程仍然相對(duì)冗長(zhǎng)且缺乏控制。

然后,將簡(jiǎn)單的約束指令替換為更具體的組合定量限制和固定思維結(jié)構(gòu),即“EXTREMELY CRITICAL: ALWAYS LIMIT YOUR THINKING TO A MAXIMUM OF 3 STEPS WITH 3 WORDS!!! EXTREMELY CRITICAL: YOUR THOUGHT PROCESS MUST CONTAIN EXACTLY THE FOLLOWING STEPS BEFORE GENERATING THE FINAL ANSWER: 1. Carefully analyze inputs. 2. Apply exact rules. 3. Generate complete response.”,此時(shí)模型的思考時(shí)間進(jìn)一步縮短至2.9秒(45個(gè)令牌),響應(yīng)時(shí)間縮短至5.5秒(117個(gè)令牌),總時(shí)間縮短至8.4秒,思考過(guò)程得到了顯著的縮短和結(jié)構(gòu)化。

最后,應(yīng)用完整的ASAP Thought技術(shù)(使用間隔重復(fù),對(duì)于當(dāng)前提示長(zhǎng)度,在開(kāi)頭和結(jié)尾添加約束指令即可),模型得出正確答案的思考時(shí)間僅為1.3秒(19個(gè)令牌,與規(guī)定的固定思維模式緊密匹配),響應(yīng)時(shí)間為3.7秒(208個(gè)令牌),總時(shí)間縮短至5.0秒。

通過(guò)這一系列逐步測(cè)試可以清晰地看到,完整的ASAP Thought技術(shù)在不影響最終答案準(zhǔn)確性的前提下,逐步降低了思考階段的計(jì)算開(kāi)銷(xiāo)(從9.4秒/680個(gè)令牌減少到1.3秒/19個(gè)令牌),并顯著縮短了總延遲(從23.4秒減少到5.0秒),這充分展示了其在優(yōu)化各種推理任務(wù)方面的巨大潛力。

五、ASAP Thought引發(fā)的思考與質(zhì)疑

ASAP Thought技術(shù)的出現(xiàn),不僅為提高推理模型的性能提供了一種實(shí)用的方法,還引發(fā)了研究人員對(duì)推理模型運(yùn)作機(jī)制更深入的思考。

許多表現(xiàn)優(yōu)異的模型在分配更多推理計(jì)算時(shí)間時(shí),往往能在基準(zhǔn)測(cè)試中取得更好的成績(jī)。這就引發(fā)了一系列關(guān)鍵問(wèn)題:這些模型是否能夠有效地根據(jù)給定任務(wù)的固有復(fù)雜性來(lái)校準(zhǔn)計(jì)算“努力”的投入?例如,對(duì)于Gemini 2.5 Pro這樣的模型,生成復(fù)雜醫(yī)療文檔雖然對(duì)人類(lèi)來(lái)說(shuō)具有挑戰(zhàn)性,但在計(jì)算需求上是否相對(duì)低于高級(jí)數(shù)學(xué)或無(wú)錯(cuò)誤編碼等任務(wù),從而導(dǎo)致模型最初出現(xiàn)“過(guò)度思考”的情況,造成所需努力和消耗能量之間的不平衡?通過(guò)ASAP Thought技術(shù)實(shí)現(xiàn)的顯著延遲減少且不損失質(zhì)量的現(xiàn)象,是特定于Gemini架構(gòu)在該任務(wù)中的表現(xiàn),還是暗示了當(dāng)前大型模型在處理某些類(lèi)型復(fù)雜生成任務(wù)時(shí)存在更普遍的效率低下問(wèn)題?

雖然目前的初步研究結(jié)果還無(wú)法完全回答這些復(fù)雜且尚未明確的問(wèn)題,但它們?yōu)檫M(jìn)一步的研究提供了更多的思考方向,強(qiáng)調(diào)了持續(xù)研究大規(guī)模推理過(guò)程的效率、適應(yīng)性和內(nèi)部機(jī)制的必要性。

六、ASAP Thought的局限與未來(lái)發(fā)展

盡管ASAP Thought技術(shù)在初步實(shí)驗(yàn)中取得了令人振奮的成果,但我們也必須清醒地認(rèn)識(shí)到其當(dāng)前研究的局限性,并明確未來(lái)的發(fā)展方向。

(一)有限的應(yīng)用范圍和通用性

目前的實(shí)驗(yàn)主要集中在葡萄牙語(yǔ)的敘事性醫(yī)療文檔生成領(lǐng)域。雖然這些結(jié)果對(duì)于這一特定復(fù)雜任務(wù)來(lái)說(shuō)前景廣闊,但不能就此認(rèn)為該技術(shù)在所有領(lǐng)域都能同樣有效。未來(lái)需要進(jìn)行更多的測(cè)試,以了解ASAP Thought在代碼生成、數(shù)學(xué)推理、創(chuàng)意寫(xiě)作以及其他醫(yī)療文本生成任務(wù)等不同領(lǐng)域的表現(xiàn)。

(二)評(píng)估方法有待完善

當(dāng)前對(duì)模型準(zhǔn)確性的評(píng)估主要是通過(guò)與內(nèi)部標(biāo)準(zhǔn)進(jìn)行BLEU/ROUGE對(duì)比。未來(lái)的研究需要納入更嚴(yán)格的評(píng)估方法,包括在與每個(gè)測(cè)試領(lǐng)域相關(guān)的廣泛認(rèn)可的公共基準(zhǔn)上進(jìn)行性能測(cè)試,以便更清晰地了解在速度提升的同時(shí)可能存在的質(zhì)量權(quán)衡。

(三)與原生控制的比較

一些模型提供了內(nèi)置的推理控制功能。下一步的關(guān)鍵工作是將ASAP Thought提示技術(shù)與這些支持原生控制的模型進(jìn)行直接比較,以明確基于提示的推理抑制方法與基于架構(gòu)的推理抑制方法在有效性和潛在細(xì)微差異方面的區(qū)別。

(四)自動(dòng)化提示優(yōu)化

目前手動(dòng)調(diào)整提示(如“five-word draft”)在初期取得了一定效果,但未來(lái)計(jì)劃探索自動(dòng)化提示優(yōu)化框架。借助斯坦福的DSPy和微軟的PromptWizard等工具,可以更系統(tǒng)地搜索最優(yōu)的提示結(jié)構(gòu)和參數(shù),以實(shí)現(xiàn)對(duì)最小推理的一致控制,確??煽康牡脱舆t和準(zhǔn)確性。

(五)思考“量”與“內(nèi)容”的作用

未來(lái)還將進(jìn)一步研究推理過(guò)程中計(jì)算工作量的影響。例如,研究強(qiáng)迫模型進(jìn)行更長(zhǎng)的隱藏思維過(guò)程(即使其中包含無(wú)意義的內(nèi)容,如Lorem ipsum)是否會(huì)比最小思維在復(fù)雜問(wèn)題上提高準(zhǔn)確性。對(duì)于某些任務(wù)而言,分配給“思考”的純粹處理時(shí)間是否重要,而不論其中間步驟是否有意義。

(六)控制思維內(nèi)容的探索

目前的技術(shù)主要規(guī)定了隱藏思維的結(jié)構(gòu)或限制,未來(lái)研究人員計(jì)劃探索能否規(guī)定確切的思維內(nèi)容。例如,通過(guò)類(lèi)似于“睡眠時(shí)計(jì)算”的方法預(yù)先計(jì)算或策略性生成推理鏈,并將其作為強(qiáng)制的內(nèi)部“思維”。研究控制隱藏推理的實(shí)質(zhì)內(nèi)容(而不僅僅是其形式或長(zhǎng)度)將如何影響復(fù)雜任務(wù)的延遲和準(zhǔn)確性結(jié)果。

在人工智能領(lǐng)域,高延遲往往被視為復(fù)雜AI推理難以避免的代價(jià)。但ASAP Thought技術(shù)的出現(xiàn)打破了這一固有認(rèn)知,通過(guò)精心控制像Gemini 2.5 Pro這樣的模型在復(fù)雜醫(yī)療文檔生成任務(wù)中的推理方式和表達(dá),實(shí)現(xiàn)了在不犧牲質(zhì)量的前提下大幅降低延遲。這一技術(shù)不僅為實(shí)際應(yīng)用帶來(lái)了巨大的潛力,使得AI推理能夠以適合苛刻現(xiàn)實(shí)應(yīng)用的速度運(yùn)行,同時(shí)也為推理模型的研究開(kāi)辟了新的思路。

責(zé)任編輯:武曉燕 來(lái)源: 大模型之路
相關(guān)推薦

2024-08-19 08:54:02

2024-01-26 06:15:44

PythonCPython技巧

2019-09-09 16:30:42

Redis架構(gòu)數(shù)據(jù)庫(kù)

2017-08-14 10:52:17

小米MIUIMIUI9

2023-08-11 07:20:04

開(kāi)源工具項(xiàng)目

2020-05-21 21:36:54

Windows 10Windows 7Windows

2025-04-08 08:10:00

C#代碼編程

2025-03-05 00:22:00

2025-04-02 09:30:00

2012-10-17 11:15:30

2016-12-07 08:36:58

2024-09-24 11:01:03

2017-08-29 16:25:21

數(shù)據(jù)庫(kù)GPU數(shù)據(jù)存儲(chǔ)

2025-02-25 08:15:09

2025-04-18 08:42:52

模型推理AI

2025-01-15 13:01:07

2024-11-29 14:50:00

模型數(shù)據(jù)

2025-01-21 11:53:53

2025-03-17 08:15:00

AI技術(shù)模型

2025-04-23 08:30:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)