Claude 悄悄進(jìn)化:全新“思考”工具解鎖,AI 也能像人一樣“停下來(lái)想想”了
Claude 模型搞了個(gè)新玩意兒,叫 “think tool”(思考工具)
簡(jiǎn)單來(lái)說(shuō),這個(gè)工具就像給 Claude 加了個(gè) “暫停鍵” 和 “草稿紙”,可以在復(fù)雜任務(wù)期間為結(jié)構(gòu)化思考創(chuàng)造專用空間
這和之前他們說(shuō)的 “extended thinking”(擴(kuò)展思考)還不一樣。“擴(kuò)展思考” 是模型在 開始生成答案前 的預(yù)先思考和迭代。而 “think tool” 是在 生成答案過(guò)程中,讓 Claude 可以隨時(shí)停下來(lái),審視已有的信息,判斷是否需要進(jìn)一步分析
這個(gè) “思考” 有啥用?
Anthropic 官方說(shuō),這招特別適合 復(fù)雜工具調(diào)用 的場(chǎng)景。比如:
信息過(guò)載時(shí): Claude 需要處理多個(gè)工具的返回結(jié)果,信息量太大容易懵, “思考工具” 可以幫它慢下來(lái),仔細(xì)分析
規(guī)則繁瑣時(shí): 面對(duì)復(fù)雜的政策或指南,Claude 需要逐條核對(duì),確保操作合規(guī),“思考工具” 可以輔助它進(jìn)行策略梳理
步步為營(yíng)時(shí): 在多步驟任務(wù)中,每一步都建立在前一步的基礎(chǔ)上,一旦出錯(cuò)代價(jià)很高,“思考工具” 可以幫助 Claude 在關(guān)鍵節(jié)點(diǎn)停下來(lái),評(píng)估風(fēng)險(xiǎn)
技術(shù)細(xì)節(jié):JSON 配置,簡(jiǎn)單易用
Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例,開發(fā)者可以輕松集成到自己的應(yīng)用中。配置非常簡(jiǎn)潔,核心就是定義工具的名稱、描述和輸入?yún)?shù)(一個(gè)名為 “thought” 的字符串)
{
"name":"think",
"description":"Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema":{
"type":"object",
"properties":{
"thought":{
"type":"string",
"description":"A thought to think about."
}
},
"required":["thought"]
}
}
效果實(shí)測(cè):性能提升顯著
為了驗(yàn)證 “think tool” 的效果,Anthropic 用了 T-Bench 和 SWE-Bench 兩個(gè)基準(zhǔn)測(cè)試。
T-Bench (客戶服務(wù)場(chǎng)景): 在模擬客戶服務(wù)對(duì)話中,“think tool” 配合優(yōu)化后的 prompt,在 Airline 領(lǐng)域的 pass@1 指標(biāo)上提升了 54%! Retail 領(lǐng)域也有明顯提升
SWE-Bench (軟件工程場(chǎng)景): 在軟件工程任務(wù)中,加入 “think tool” 后,性能平均提升了 1.6%
何時(shí)用,何時(shí)不用
“think tool” 雖然好用,但也不是萬(wàn)能藥。Anthropic 也給出了使用建議:
推薦使用場(chǎng)景:
? 工具輸出分析
? 政策合規(guī)環(huán)境
? 連續(xù)決策任務(wù)
不推薦使用場(chǎng)景:
? 非連續(xù)工具調(diào)用
? 簡(jiǎn)單指令跟隨
寫在最后
研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執(zhí)行需要在長(zhǎng)鏈工具調(diào)用中遵守政策和推理的復(fù)雜任務(wù)時(shí)的性能 。 “思考”并不是一個(gè)萬(wàn)能的解決方案,但它為正確的用例提供了實(shí)質(zhì)性的好處,而且實(shí)現(xiàn)復(fù)雜性極低