自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="knjqn"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

最新Claude 200K嚴重「虛標(biāo)」？大神壕擲1016美元實測，90K后性能急劇下降

作者：新智元 2023-11-24 17:04:02

人工智能新聞

月初剛測了GPT-4 Turbo上下文真實實力的大神Greg Kamradt又盯上了Anthropic剛更新的Claude 2.1。他自己花了1016刀測完之后顯示，Claude 2.1在上下文長度達到90K后，性能就會出現(xiàn)明顯下降。

OpenAI正忙著政變的時候，他們在硅谷最大的競爭對手Anthropic，則悄悄地搞了個大新聞——發(fā)布了支持200K上下文的Claude 2.1。

看得出來，Claude 2.1最大的升級就是將本就很強大的100K上下文能力，又提升了一倍！

200K的上下文不僅可以讓用戶更方便的處理更多的文檔，而且模型出現(xiàn)幻覺的概率也縮小了2倍。同時，還支持系統(tǒng)提示詞，以及小工具的使用等等。

而對于大多數(shù)普通用戶來說，Claude最大的價值就是比GPT-4還強的上下文能力——可以很方便地把一些超過GPT-4上下文長度的長文檔丟給Claude處理。

這樣使得Claude不再是ChatGPT的下位選擇，而成為了能力上和ChatGPT有所互補的另一個強大工具。

所以，Claude 2.1一發(fā)布，就網(wǎng)友上手實測，看看官方宣稱的「200K」上下文能力到底有多強。

Claude 2.1 200K上下文大考：頭尾最清楚，中間幾乎記不住

本月初，當(dāng)OpenAI發(fā)布了GPT-4 turbo的時候，技術(shù)大佬Greg Kamradt就對OpenAI的新模型進行了各方面的測試。

他把YC創(chuàng)始人Paul Graham文章的各個部位都添加了標(biāo)記性的語句后喂給模型，然后來測試它讀取這些語句的能力。

用幾乎同樣的方法，他對Claude 2.1也進行了上下文能力的壓力測試。

2天時間全網(wǎng)閱讀量超過110萬

測試結(jié)果顯示：

在官方標(biāo)稱的極限長度200K下，Claude 2.1確實有能力提取出標(biāo)記性的語句。

位于文檔開頭的標(biāo)記性內(nèi)容，幾乎都能被完整的獲取到。

但和GPT-4 Turbo的情況類似，模型對文檔開頭內(nèi)容的獲取效果不如對文檔底部內(nèi)容的獲取內(nèi)容。

從90K長度開始，模型對文檔底部標(biāo)記性內(nèi)容的獲取能力就開始下降了。

從圖中我們能看到，與GPT-4 128K測試結(jié)果相比，Claude 2.1 200K上下文長度，僅僅只是「在200K長度的文章中能讀取到信息」。

而GPT-4 128K的情況是「在128K長度后出現(xiàn)明顯下降」。

如果按照GPT-4 128K的質(zhì)量標(biāo)準，可能Claude 2.1大概只能宣稱90K的上下文長度。

按照測試大神Greg說法，的這些測試結(jié)果表明：

用戶在需要專門設(shè)計提示詞，或者進行多次測試來衡量上下文檢索的準確性。

應(yīng)用開發(fā)者不能直接假設(shè)在這些上下文范圍內(nèi)的信息都能被檢索到。

更少上下文長度的內(nèi)容一般來說就代表著更高的檢索能力，如果對檢索質(zhì)量要求比較高，就盡量減少喂給模型的上下文長度。

關(guān)鍵信息的位置很重要，開頭結(jié)尾的信息更容易被記住。

而他也進一步解釋了自己做這個對比測試的原因：

他不是為了黑Anthropic，他們的產(chǎn)品真的很棒，正在為所有人構(gòu)建強大的AI工具。

他作為LLM從業(yè)人員，需要對模型的工作原理，優(yōu)勢和局限性有更多的了解和理解。

這些測試肯定也有不周到的地方，但可以幫中使用模型的用戶更好的構(gòu)建基于模型的服務(wù)，或者更加有效地使用模型能力。

而在做測試的過程中他還發(fā)現(xiàn)了一些細節(jié)：

模型能夠回憶出的標(biāo)記事實量很重要，模型在執(zhí)行多個事實檢索任務(wù)或綜合推理步驟時會降低回憶事實的體量。

更改提示詞，問題，以及要回憶的事實和背景上下文都會影響回憶的質(zhì)量。

Anthropic團隊在測試過程中也提供了很多幫助和建議，但這次測試調(diào)用API還是花了作者本人1016美元（每100萬token的成本為8美元）。

自掏200刀，首測GPT-4 128K

在這個月初，OpenAI在開發(fā)者大會上發(fā)布GPT-4 Turbo時，也宣稱擴大了上下文能力到128K。

當(dāng)時，Greg Kamradt直接自掏200刀測了一波（單次輸入128K token的成本為1.28美元）。

從趨勢來看，和這次Anthropic的結(jié)果差不多：

當(dāng)上下文超過73K token時，GPT-4 的記憶性能開始下降。
如果需要回憶的事實位于文檔的7%到50%深度之間，回憶效果通常較差。
如果事實位于文檔開頭，無論上下文長度如何，通常都能被成功回憶出來。

而整個測試的詳細步驟包括：

利用Paul Graham的文章作為「背景」token。用了他的218篇文章，輕松達到200K token（重復(fù)使用了一些文章）。

在文檔的不同深度插入一個隨機陳述，稱述的事實是：「在舊金山最棒的活動是在陽光燦爛的日子里，在多洛雷斯公園享用三明治。」

讓GPT-4僅依靠提供的上下文來回答這個問題。

使用另一個模型（同樣是 GPT-4）和@LangChainAI 的評估方法來評價GPT-4的回答。

針對15種不同的文檔深度（從文檔頂部的0%到底部的 100%）和15種不同的上下文長度（從1K token到128K token），重復(fù)上述步驟。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="9edca"></tr>

<sub id="9edca"></sub>

<thead id="9edca"><mark id="9edca"></mark></thead>

<abbr id="9edca"></abbr>

<p id="9edca"></p>