自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最新Claude 200K嚴重「虛標(biāo)」?大神壕擲1016美元實測,90K后性能急劇下降

人工智能 新聞
月初剛測了GPT-4 Turbo上下文真實實力的大神Greg Kamradt又盯上了Anthropic剛更新的Claude 2.1。他自己花了1016刀測完之后顯示,Claude 2.1在上下文長度達到90K后,性能就會出現(xiàn)明顯下降。

OpenAI正忙著政變的時候,他們在硅谷最大的競爭對手Anthropic,則悄悄地搞了個大新聞——發(fā)布了支持200K上下文的Claude 2.1。

圖片

看得出來,Claude 2.1最大的升級就是將本就很強大的100K上下文能力,又提升了一倍!

200K的上下文不僅可以讓用戶更方便的處理更多的文檔,而且模型出現(xiàn)幻覺的概率也縮小了2倍。同時,還支持系統(tǒng)提示詞,以及小工具的使用等等。

圖片

而對于大多數(shù)普通用戶來說,Claude最大的價值就是比GPT-4還強的上下文能力——可以很方便地把一些超過GPT-4上下文長度的長文檔丟給Claude處理。

這樣使得Claude不再是ChatGPT的下位選擇,而成為了能力上和ChatGPT有所互補的另一個強大工具。

所以,Claude 2.1一發(fā)布,就網(wǎng)友上手實測,看看官方宣稱的「200K」上下文能力到底有多強。

Claude 2.1 200K上下文大考:頭尾最清楚,中間幾乎記不住

本月初,當(dāng)OpenAI發(fā)布了GPT-4 turbo的時候,技術(shù)大佬Greg Kamradt就對OpenAI的新模型進行了各方面的測試。

他把YC創(chuàng)始人Paul Graham文章的各個部位都添加了標(biāo)記性的語句后喂給模型,然后來測試它讀取這些語句的能力。

用幾乎同樣的方法,他對Claude 2.1也進行了上下文能力的壓力測試。

2天時間全網(wǎng)閱讀量超過110萬

測試結(jié)果顯示:

在官方標(biāo)稱的極限長度200K下,Claude 2.1確實有能力提取出標(biāo)記性的語句。

位于文檔開頭的標(biāo)記性內(nèi)容,幾乎都能被完整的獲取到。

但和GPT-4 Turbo的情況類似,模型對文檔開頭內(nèi)容的獲取效果不如對文檔底部內(nèi)容的獲取內(nèi)容。

從90K長度開始,模型對文檔底部標(biāo)記性內(nèi)容的獲取能力就開始下降了。

從圖中我們能看到,與GPT-4 128K測試結(jié)果相比,Claude 2.1 200K上下文長度,僅僅只是「在200K長度的文章中能讀取到信息」。

而GPT-4 128K的情況是「在128K長度后出現(xiàn)明顯下降」。

如果按照GPT-4 128K的質(zhì)量標(biāo)準,可能Claude 2.1大概只能宣稱90K的上下文長度。

按照測試大神Greg說法,的這些測試結(jié)果表明:

用戶在需要專門設(shè)計提示詞,或者進行多次測試來衡量上下文檢索的準確性。

應(yīng)用開發(fā)者不能直接假設(shè)在這些上下文范圍內(nèi)的信息都能被檢索到。

更少上下文長度的內(nèi)容一般來說就代表著更高的檢索能力,如果對檢索質(zhì)量要求比較高,就盡量減少喂給模型的上下文長度。

關(guān)鍵信息的位置很重要,開頭結(jié)尾的信息更容易被記住。

而他也進一步解釋了自己做這個對比測試的原因:

他不是為了黑Anthropic,他們的產(chǎn)品真的很棒,正在為所有人構(gòu)建強大的AI工具。

他作為LLM從業(yè)人員,需要對模型的工作原理,優(yōu)勢和局限性有更多的了解和理解。

這些測試肯定也有不周到的地方,但可以幫中使用模型的用戶更好的構(gòu)建基于模型的服務(wù),或者更加有效地使用模型能力。

而在做測試的過程中他還發(fā)現(xiàn)了一些細節(jié):

模型能夠回憶出的標(biāo)記事實量很重要,模型在執(zhí)行多個事實檢索任務(wù)或綜合推理步驟時會降低回憶事實的體量。

更改提示詞,問題,以及要回憶的事實和背景上下文都會影響回憶的質(zhì)量。

Anthropic團隊在測試過程中也提供了很多幫助和建議,但這次測試調(diào)用API還是花了作者本人1016美元(每100萬token的成本為8美元)。

自掏200刀,首測GPT-4 128K

在這個月初,OpenAI在開發(fā)者大會上發(fā)布GPT-4 Turbo時,也宣稱擴大了上下文能力到128K。

當(dāng)時,Greg Kamradt直接自掏200刀測了一波(單次輸入128K token的成本為1.28美元)。

從趨勢來看,和這次Anthropic的結(jié)果差不多:

當(dāng)上下文超過73K token時,GPT-4 的記憶性能開始下降。

如果需要回憶的事實位于文檔的7%到50%深度之間,回憶效果通常較差。

如果事實位于文檔開頭,無論上下文長度如何,通常都能被成功回憶出來。

而整個測試的詳細步驟包括:

利用Paul Graham的文章作為「背景」token。用了他的218篇文章,輕松達到200K token(重復(fù)使用了一些文章)。

在文檔的不同深度插入一個隨機陳述,稱述的事實是:「在舊金山最棒的活動是在陽光燦爛的日子里,在多洛雷斯公園享用三明治。」

讓GPT-4僅依靠提供的上下文來回答這個問題。

使用另一個模型(同樣是 GPT-4)和@LangChainAI 的評估方法來評價GPT-4的回答。

針對15種不同的文檔深度(從文檔頂部的0%到底部的 100%)和15種不同的上下文長度(從1K token到128K token),重復(fù)上述步驟。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-12-28 12:28:24

Linux 5.10Btrfs文件系統(tǒng)

2019-06-27 16:40:30

MySQL單表數(shù)據(jù)數(shù)據(jù)庫

2024-06-03 14:24:00

2020-08-28 15:42:30

GitHub代碼可視化

2020-09-15 10:12:47

勒索軟件網(wǎng)絡(luò)攻擊漏洞

2023-07-01 13:27:55

2024-01-17 13:59:00

AI開源

2020-12-23 10:37:09

網(wǎng)絡(luò)攻擊惡意軟件網(wǎng)絡(luò)安全

2011-10-21 07:26:06

win7IIS服務(wù)器上傳限制

2020-07-22 09:50:57

編程Github開發(fā)

2021-12-16 08:23:18

游戲開發(fā)毛星云

2020-08-12 15:00:55

MYSQL優(yōu)化數(shù)據(jù)庫

2013-12-03 13:05:30

Lua腳本語言

2011-06-24 15:02:42

噴墨打印機技巧

2024-03-27 14:54:21

KubernetesK8S集群

2013-05-02 13:00:46

Radware電商應(yīng)用交付

2012-11-14 11:18:29

Mysql

2016-08-04 13:19:06

MySQL數(shù)據(jù)庫大優(yōu)化
點贊
收藏

51CTO技術(shù)棧公眾號