成本降低90%！Claude上新Gemini同款提示詞緩存，一次性記住整個代碼庫

作者：量子位 2024-08-15 13:55:00

值得一提的是，DeepSeek團隊把這項技術的存儲介質換成了硬盤，還降低了存儲成本。

Claude深夜上新重磅功能——API長文本緩存。

新版API可以“記住”一整本書或整個代碼庫，不需要再重復輸入了。

這樣一來，不僅處理長文本的延時更低，更是能節(jié)省最高90%的成本。

來看看這降本的效果~

△假定重復部分為1萬Token，模型為3.5 Sonnet，只計算輸入

今年5月，谷歌在Gemini更新中提出了這項功能，然后是國內的Kimi和DeepSeek團隊，總之現在又輪到了Claude。

值得一提的是，廠商Anthropic的推文當中提到，提示詞緩存功能可以讓用戶用更長、更有指導性的提示詞對模型進行“微調”。

有網友看了之后感慨，人們本來就很難分清提示工程（prompting）和微調（fine-tune），這下更不好區(qū)分了。

當然在這種場合下，也難免會有人點名或不點名地cue起隔壁的OpenAI。

成本節(jié)約高至90%

提示詞緩存的作用，就是一次給模型發(fā)送大量prompt，然后讓它記住這些內容，并在后續(xù)請求中直接復用，避免反復輸入。

對此，博主Dan Shipper做了這樣的一個比喻：

假設你在一家咖啡館，第一次點單的時候需要告訴店員自己點的內容，但是接下來再去只需要說一句“和平常一樣”就可以了。

不過需要注意的是，緩存的有效期為五分鐘，但每讀取一次計時都會被重置，一直連續(xù)提問時無需擔心。

在Claude的官方文檔中，也介紹了幾個典型的應用場景，非常適合代碼和長文檔處理。

由于不需要反復輸入重復的腳本，提示詞緩存具有速度更快、成本更低這兩大優(yōu)勢。

比如在基于一本10萬Tokens的圖書進行對話時，以往模型需要11.5秒才能生成首個輸出Token，但有了提示詞緩存就只需要2.4秒，降低了79%，成本更是減少90%。

在其他場景中，延時和成本也有不同程度的降低。

定價上，原有的輸入和輸出Token價格不變，提示詞緩存的價格則分成了寫入和讀取兩個部分。

最小的Haiku每百萬Token的寫入和讀取價格分別是30美分（約合人民幣兩塊一）和3美分。

3.5 Sonnet則是寫入3.75美元，讀取0.3美元，最大號的Opus是18.75美元和1.5美元。

可以看出，初始寫入的價格相對于輸入要高一些，但讀取的價格只有重復輸入的十分之一。

換言之，緩存被反復讀取的次數越多，相比于重新輸入節(jié)約的成本也就越多。

舉個例子，假設要發(fā)送1萬次請求，重復部分包含1萬Tokens，如果不用緩存，總輸入是1億Tokens，用Sonnet需要300美元。

但如果開啟緩存，就只需要1÷100×3.75+1×10000÷100×0.3=30.03美元，節(jié)省了近90%。

還是假設重復部分包含1萬Tokens，那么從下圖可以看出，隨著調用次數的增加，成本優(yōu)勢將越來越明顯

對于開發(fā)者來說，這無疑是一項重大利好。

AI寫作工具HyperWriteAI創(chuàng)始人兼CEO Matt Shumer就表示，這項更新相當重大。

這意味著人們可以用更低的成本把一整個代碼庫喂給模型，然后要求增加新功能；或者突破一次只能RAG 5個的限制，直接輸入大量文檔；又或者直接給出數百個示例，以得到“比微調更好的結果”。

目前該功能支持3 Haiku和3.5 Sonnet，Opus則將在稍晚一些更新。

這項功能并非是Claude首創(chuàng)，今年5月，谷歌的Gemini就已經支持了上下文緩存。

后來國內月之暗面的Kimi和深度求索團隊的DeepSeek也進行了跟進。

值得一提的是，DeepSeek團隊把這項技術的存儲介質換成了硬盤，還降低了存儲成本。

觸發(fā)方式也有所區(qū)別，比如DeepSeek是由系統(tǒng)自動判斷哪些內容需要緩存，Claude則是要在調用時手動添加標記。

雖然在細節(jié)上各家有各自的做法，但這種新模式，已經受到了國內外頂級玩家的青睞，未來可能會成為大模型廠商的新標配。

責任編輯：張燕妮來源：量子位