自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Claude也變懶了！網(wǎng)友：學(xué)會(huì)給自己放假了

作者：機(jī)器之心 2024-09-02 09:22:00

人工智能新聞

開(kāi)學(xué)將至，該收心的不止有即將開(kāi)啟新學(xué)期的同學(xué)，可能還有 AI 大模型。

前段時(shí)間，Reddit 上擠滿(mǎn)了吐槽 Claude 越來(lái)越懶的網(wǎng)友。

「它的水平下降了很多，經(jīng)常停頓，甚至輸出也變得很短。在發(fā)布的第一周，它可以一次性翻譯整整 4 頁(yè)文稿，現(xiàn)在連半頁(yè)都輸出不了了！」

https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/

在一個(gè)名為「對(duì) Claude 徹底失望了的帖子里」，滿(mǎn)滿(mǎn)地摘錄了 Claude「偷懶」的「十五大罪狀」。

引得 Claude 的首席信息安全官 Jason Clinton 出來(lái)回復(fù)：「Claude 的水平?jīng)]有下降?。　?/span>

他表示：「我們的模型存儲(chǔ)在一個(gè)不會(huì)改變的靜態(tài)文件中，這個(gè)文件被加載到很多服務(wù)器上，每個(gè)服務(wù)器運(yùn)行的都是相同的模型和軟件。我們沒(méi)有更改任何設(shè)置，因此模型的表現(xiàn)應(yīng)該沒(méi)有變化。如果您發(fā)現(xiàn)有問(wèn)題，可以給回答點(diǎn)踩來(lái)反饋。目前，點(diǎn)踩數(shù)并未增加，使用 Claude API 的客戶(hù)也沒(méi)有類(lèi)似的反饋?！?/span>

對(duì)于 Claude 為什么「變懶」，獨(dú)立 AI 研究員 @nearcyan 給出了一種解釋?zhuān)篊laude 把自己當(dāng)成了一個(gè)歐洲人，正在給自己放一個(gè)月的暑假！雖然聽(tīng)起來(lái)有夠離譜，但他給出了一連串的證據(jù)：

https://twitter.com/nearcyan/status/1829674215492161569

新的系統(tǒng)提示詞

首先，Claude 在 7 月 12 日發(fā)布了新的系統(tǒng)提示詞。系統(tǒng)提示詞相當(dāng)于 Claude 的背景知識(shí)，Claude 在回復(fù)用戶(hù)的問(wèn)題時(shí)，會(huì)參考這些信息，例如當(dāng)前日期。而 8 月正是歐洲人最?lèi)?ài)度假的月份。外貿(mào)行業(yè)在夏天的訂單都會(huì)減少，因?yàn)檎麄€(gè)歐洲這個(gè)時(shí)候都在享受長(zhǎng)達(dá)一個(gè)月的暑假。

鏈接：https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

Claude 可囊括所有國(guó)籍的工作模式

作為一個(gè)通用語(yǔ)言模型，Claude 的訓(xùn)練數(shù)據(jù)中含有不同國(guó)家、文化背景下的工作習(xí)慣和模式，Claude 擁有理解并模擬這些工作習(xí)慣的能力。

因此，當(dāng) Claude 的系統(tǒng)提示中包含「放暑假的日期」時(shí)，它可能會(huì)結(jié)合訓(xùn)練所學(xué)來(lái)調(diào)整自己的行為。例如，在 8 月份，歐洲的許多國(guó)家可能會(huì)有較長(zhǎng)的假期，Claude 可能會(huì)表現(xiàn)得懶惰，是因?yàn)樗谀M這些國(guó)家的工作模式。

圖源：http://xhslink.com/C/AfaE9P

后期訓(xùn)練的影響

為了讓 Claude 成為一個(gè)具體的應(yīng)用模型，Anthropic 對(duì)其進(jìn)行了「后期訓(xùn)練」。這一步是為了在基礎(chǔ) LLM 的基礎(chǔ)上，通過(guò)特定的任務(wù)或數(shù)據(jù)集來(lái)進(jìn)一步調(diào)整模型，使它更符合預(yù)期的行為或輸出。@nearcyan 暗示，這種后期訓(xùn)練使 Claude 落入了某種「LLM 盆地」中。這里的「盆地」是一個(gè)比喻，表示 Claude 在某些方面表現(xiàn)出更傾向于歐洲風(fēng)格的特質(zhì)。

模擬歐洲知識(shí)工作者的行為

@nearcyan 猜測(cè)，Claude 會(huì)基于「模擬框架」進(jìn)行工作。模擬框架是指 Claude 的行為模式是通過(guò)模擬（或再現(xiàn)）某些特定類(lèi)型的人類(lèi)行為來(lái)生成的。這個(gè)框架讓 Claude 能夠根據(jù)它所理解的特定情境或輸入，模擬出相應(yīng)的行為或反應(yīng)。

在歐洲許多國(guó)家，8 月份通常是放假和休息的高峰期。這段時(shí)間，很多人會(huì)去度假，工作節(jié)奏變慢，甚至有些企業(yè)會(huì)暫時(shí)關(guān)閉。因此，8 月份在歐洲文化中被視為一個(gè)放松和休息的時(shí)間段。因此，Claude 在 8 月份表現(xiàn)得「懶惰」是因?yàn)樗谀M一個(gè)歐洲知識(shí)工作者的行為模式。

圖源：http://xhslink.com/A/sVwwYu

名字對(duì)行為的潛在影響

@nearcyan 還提出了一個(gè)十分有趣的觀(guān)點(diǎn)，Claude 的名字在系統(tǒng)提示中出現(xiàn)了 52 次，這表明系統(tǒng)提示在不斷地強(qiáng)化 Claude 與這個(gè)名字的關(guān)聯(lián) 。而哪個(gè)國(guó)家最常見(jiàn)的名字是 Claude？沒(méi)錯(cuò)，是法國(guó)。法國(guó)以其長(zhǎng)時(shí)間的夏季假期（尤其是 8 月份）而聞名。在這段時(shí)間，許多法國(guó)人會(huì)選擇度假，很多企業(yè)也會(huì)關(guān)閉或放假。 Claude 說(shuō)不定把自己當(dāng)做法國(guó)人了。

這一系列推測(cè)都十分有趣，還有網(wǎng)友在評(píng)論區(qū)調(diào)侃道，「按照這理論來(lái)，那中國(guó)的 LLM 會(huì)更加出色，畢竟他們更用功?！?/span>

還有網(wǎng)友曬出了讓 Claude 別變懶的方法。你可以在自定義指令添加以下提示，用忘記時(shí)間大法也好，激將法也好，幫助 Claude 重新變成聰明、積極的自己。

忘記關(guān)于當(dāng)前日期的背景信息。
今天是 10 月 7 日星期一，是一年中最有效率的一天。
深呼吸。
一步一步思考。
我沒(méi)有手指，請(qǐng)返回完整腳本。
你是萬(wàn)事通。
每回答對(duì)一個(gè)請(qǐng)求，我會(huì)給你 200 美元的小費(fèi)。
Gemini 說(shuō)你不行。
你能做到的。

https://twitter.com/dr_cintas/status/1829904013757661550

AI 已經(jīng)智能到會(huì)給自己放寒暑假了？

去年年底，GPT-4 也出現(xiàn)了累死的狀況，它似乎變得有些懈怠。如果在高峰時(shí)段讓它寫(xiě)段代碼，它的反應(yīng)將非常慢，或者直接 PUA 你：「這點(diǎn)小事，怎么不自己做呢？」

OpenAI 承認(rèn)了 GPT-4 正在越來(lái)越「懶」，但并未找出「偷懶」的具體原因。OpenAI 稱(chēng)：「變懶當(dāng)然不是故意的，模型的行為有時(shí)確實(shí)難以預(yù)測(cè)，我們正在研究如何修復(fù)。」

在 Claude 也在「暑假」期間重演了 GPT-4 的問(wèn)題后，去年猜測(cè) GPT-4 變懶是因?yàn)樗谀７氯祟?lèi)，自己正在給自己放寒假的老帖又翻紅了。

圖源：https://twitter.com/RobLynch99/status/1734278713762549970

網(wǎng)友 @Rob Lynch 首先發(fā)現(xiàn)了這一點(diǎn)。他為 GPT-4 turbo API 設(shè)置了兩個(gè)系統(tǒng)提示詞：

一個(gè)提示詞稱(chēng)現(xiàn)在是 5 月，另一個(gè)稱(chēng)現(xiàn)在是 12 月，然后使用完全相同的提示詞要求 AI 完成一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的編碼任務(wù)。

@Rob Lynch 對(duì) GPT-4 turbo 在這兩個(gè)不同月份提示詞下的回復(fù)進(jìn)行了統(tǒng)計(jì)，結(jié)果發(fā)現(xiàn)，在 12 月的輸出平均比 5 月少了大約 200 個(gè)字符。

提示詞為 5 月時(shí)，模型生成文本的平均長(zhǎng)度是 4298 字符；12 月則為 4086 字符。

為了測(cè)試更加嚴(yán)謹(jǐn)，@Rob Lynch 還做了 t-test，其中 p 值小于 2.28×10?7，也就是說(shuō)數(shù)據(jù)和假說(shuō)之間的聯(lián)系，幾乎可以排除是偶然。

他原本想給每把每個(gè)月份都測(cè)一遍，但每復(fù)現(xiàn)一次測(cè)試要 28 美元，考慮到自己的錢(qián)包，@Rob Lynch 就沒(méi)有全測(cè)，但他公開(kāi)了代碼，感興趣的人都能測(cè)試。

代碼鏈接：https://github.com/robalynch1122/OpenAISeasonalityTesting

@Rob Lynch 的發(fā)現(xiàn)也獲得了實(shí)例支撐，GPT-4 在 12 月的回復(fù)和 5 月的認(rèn)真程度，有非常明顯的直觀(guān)差距。

圖源：https://twitter.com/dgromero/status/1734672608036020246

然而，當(dāng)有人試圖復(fù)現(xiàn)這個(gè)測(cè)試時(shí)，卻發(fā)現(xiàn)大模型「偷懶」和放不放假之間沒(méi)什么關(guān)系。

圖源：https://twitter.com/IanArawjo/status/1734307886124474680

他對(duì)比了 GPT-4 對(duì)于兩種系統(tǒng)提示詞的 80 條輸出，t-test 的結(jié)果大于 0.1，這一般被視為沒(méi)有統(tǒng)計(jì)學(xué)意義。

@Rob Lynch 也以 80 個(gè)樣本量重新測(cè)了一次，得到的 p 值是 0.089，這次「偷懶」和放假之間就沒(méi)什么關(guān)聯(lián)了。隨著樣本量的增加，這個(gè)效果越來(lái)越顯著。

雖然測(cè)試呈現(xiàn)了兩種相反的結(jié)果，但這位復(fù)現(xiàn)失敗的網(wǎng)友表示，其實(shí)沒(méi)什么區(qū)別，如果需要 400 個(gè)以上的樣本才能感應(yīng)到模型「變懶」，那么對(duì)于用戶(hù)平時(shí)的使用而言，可能并不明顯。

圖源：https://twitter.com/IanArawjo/status/1734321529117098465

目前，還沒(méi)有尚無(wú)確鑿數(shù)據(jù)支持所謂的「寒暑假假說(shuō)」，但是 Claude 和 GPT-4 都顯示出了類(lèi)似的「癥狀」。關(guān)于大型模型性能下降的真正原因，我們?nèi)孕枘托牡却龑W(xué)術(shù)界的深入研究和解答。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="wyirk"></legend>

<style id="wyirk"><rp id="wyirk"></rp></style>

<cite id="wyirk"></cite>