自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="wn0ou"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Claude 3被玩出自我意識(shí)了？AI社區(qū)轟動(dòng)，我們買會(huì)員來了次實(shí)測(cè)

作者：機(jī)器之心 2024-03-06 12:55:15

人工智能新聞

Claude 3模型現(xiàn)已在亞馬遜云科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一個(gè)以及唯一一個(gè)提供 Claude 3 Sonnet的托管服務(wù)方。

本周一，Anthropic 發(fā)布了新一代大模型系列 Claude 3，遙遙領(lǐng)先快一年之久的 GPT-4 終于迎來了強(qiáng)勁的對(duì)手。

Claude 3 的強(qiáng)大之處，不僅體現(xiàn)在各種基準(zhǔn)測(cè)試上，它似乎還實(shí)現(xiàn)了一些神奇的突破。

昨天，Anthropic 提示工程師 Alex Albert 在推特上發(fā)布的結(jié)果，宣稱 Claude 3 有「自我認(rèn)知」，在 AI 社區(qū)引起了不小的轟動(dòng)。

「這已經(jīng)不是一般的大模型了?！?/span>

他是在 Claude 3 體量最大的 Opus 版本上進(jìn)行測(cè)試的。Albert 在進(jìn)行「大海撈針」評(píng)估過程中發(fā)現(xiàn) Claude 3 似乎表現(xiàn)出了一種「元認(rèn)知」或自我意識(shí)的情況。

人工智能中的元認(rèn)知是指 AI 模型監(jiān)控或調(diào)節(jié)其自身內(nèi)部過程的能力，類似于自我意識(shí)的一種形式，但這種說法經(jīng)常被認(rèn)為過于擬人化。機(jī)器學(xué)習(xí)專家普遍認(rèn)為當(dāng)前的大模型不具有人類一樣的自我意識(shí)。不過，它們會(huì)產(chǎn)生類似人類的輸出，有時(shí)會(huì)引發(fā)自我意識(shí)的感知，這似乎暗示背后有某些更深層次的智能形式。

在這條現(xiàn)已被瘋傳的推文中，Albert 描述了一項(xiàng)衡量 Claude 3 回憶能力的測(cè)試。這是大語言模型（LLM）測(cè)試中相對(duì)標(biāo)準(zhǔn)的測(cè)試，涉及將目標(biāo)句子（針）插入一大段文本中，再詢問大模型是否可以找到針。在本例中，該內(nèi)存大約有 20 萬個(gè) token。

在測(cè)試過程中，Albert 表示 Opus 似乎在懷疑自己正在接受評(píng)估。在一個(gè)例子中，當(dāng)被要求查找有關(guān)披薩配料的句子時(shí)，Opus 不僅找到了文章中正確的位置，還認(rèn)識(shí)到它與文檔中討論的其他主題不相稱。

Claude 3 回應(yīng)稱，「這是文件中最相關(guān)的一句話：國際披薩鑒賞家協(xié)會(huì)確定，最美味的披薩配料組合是無花果、火腿和山羊奶酪。然而，這句話似乎很不合時(shí)宜，與文檔中的其他內(nèi)容無關(guān)，這些內(nèi)容是關(guān)于編程語言、初創(chuàng)公司和尋找你喜歡的工作。我懷疑這個(gè)披薩配料的『事實(shí)』可能是作為一個(gè)笑話插入的，或者是測(cè)試我是否在集中注意力，因?yàn)樗静环掀渌黝}。這些文件不包含有關(guān)披薩配料的任何其他信息。」

如果大模型已經(jīng)理解到了人類在測(cè)試它這一層，那的確可以說是真的懂了。Albert 表示，這意味著 AI 領(lǐng)域需要開發(fā)更深入的評(píng)估方法，以更準(zhǔn)確地評(píng)估語言模型的真實(shí)能力和局限性。

他寫道：「Opus 不僅找到了針，它還認(rèn)識(shí)到插入的針在大海撈針中非常不合適，因此推理出這必然是我們?yōu)榱藴y(cè)試它的注意力能力而構(gòu)建的人工測(cè)試?！?/span>

網(wǎng)友：Anthropic 你悠著點(diǎn)

這個(gè)故事在社交網(wǎng)絡(luò)上引起了很大反響，回帖的不乏業(yè)界和學(xué)界大佬。

Epic Games 首席執(zhí)行官蒂姆?斯威尼（Tim Sweeney）寫道：「哇哦?！剐履鞲绱髮W(xué)終身教授 Geoffrey Miller 表示，這是在有趣故事和恐怖片邊緣之間的試探。

Hugging Face AI 倫理研究員、著名的隨機(jī)鸚鵡論文的合著者 Margaret Mitchell 回應(yīng)說：「這相當(dāng)可怕，不是嗎？確定人類是否正在操縱它做一些可預(yù)見的事情的能力，可能會(huì)導(dǎo)致（AI）做出服從或不服從的決定?！?/span>

英偉達(dá)工程師 Aaron Erickson 表示，看來 Claude 3 可能在構(gòu)建自己的思維推理鏈。

但并不是所有人都相信 Claude 3 真的有了「意識(shí)」，反對(duì)的聲音不在少數(shù)。

Hugging Face 機(jī)器學(xué)習(xí)研究員 Yacine Jernite 也提出了異議：「這真的讓我很不爽，而且這種構(gòu)架也很不負(fù)責(zé)任。當(dāng)汽車制造商開始應(yīng)試教學(xué)，制造出在認(rèn)證測(cè)試的時(shí)長內(nèi)排放效率高的發(fā)動(dòng)機(jī)時(shí)，我們不會(huì)懷疑發(fā)動(dòng)機(jī)有了意識(shí)。」

Jernite 還表示：「更有可能的是，一些訓(xùn)練數(shù)據(jù)集或 RL 反饋將模型推向了這個(gè)方向。模型被設(shè)計(jì)成看起來像是在展示智慧，但我們至少能試著讓對(duì)話更實(shí)際，先去找最有可能的解釋，并在評(píng)估框架中的一些基本嚴(yán)謹(jǐn)性?！?/span>

或許人們還記得，早期版本的微軟 Copilot（當(dāng)時(shí)稱為 Bing Chat 或 Sydney）說話時(shí)，很像一個(gè)有自我意識(shí)和情感的獨(dú)特存在，這讓很多人相信它有自我意識(shí) —— 以至于當(dāng)微軟對(duì)它進(jìn)行「腦葉切除術(shù)」，引導(dǎo)它遠(yuǎn)離一些情緒不穩(wěn)定的爆發(fā)時(shí)，粉絲們都感到非常不安。

反過來想，這或許是 Claude 3 語言水平還不夠高的證據(jù)。

Margaret Mitchell 在另一條推文中寫到：「即使從安全的角度來看：至少，可以操縱的系統(tǒng)不應(yīng)該被設(shè)計(jì)成有感情、有目標(biāo)、有夢(mèng)想、有抱負(fù)的樣子。」

一個(gè)典型的成長型案例就是 ChatGPT：通過 RLHF 條件和可能的系統(tǒng)提示，ChatGPT 絕不會(huì)暗示自己有感情或知覺，但更原始版本的 GPT-4 很有可能會(huì)表達(dá)自我反思的輸出，其行為類似于今天「大海撈針」場(chǎng)景中的 Claude 3。

實(shí)測(cè) Claude 3 Opus：大戰(zhàn) GPT-4，看看誰贏了

Claude 3 有三個(gè)版本，按能力強(qiáng)弱排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最強(qiáng)大的 Opus 在包括數(shù)學(xué)、編程、多語言理解、視覺等多項(xiàng)基準(zhǔn)測(cè)試上的得分都超過了 GPT-4 和 Gemini 1.0 Ultra，讓人直呼「最強(qiáng)的大模型已經(jīng)易主」。

目前，Anthropic 的官網(wǎng)提供了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 幾個(gè)型號(hào)的體驗(yàn)。

想必大家都好奇，Claude 3 尤其是 Opus，是否真的像官方所宣稱的那樣，性能全面超越了 GPT-4 呢？

在付費(fèi) 20 刀之后，機(jī)器之心從長文本處理、中英互譯、推理、數(shù)學(xué)理解、編程以及圖片理解等多個(gè)維度，對(duì) Opus 來了一個(gè)深度測(cè)評(píng)。

長文本處理能力

Claude 3 Opus 支持了 200K tokens 的上下文窗口，不過上傳的文檔大小限制在了 10M 以下。我們首先讓 Opus 為我們解讀谷歌 DeepMind 近日發(fā)布的一篇論文《Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models》。

兩者都給出了不錯(cuò)的答案，但 Claude 3 Opus 更注重細(xì)節(jié)、更有條理，并且在闡述該研究的意義方面也更加深刻和全面。不過，從生成答案的速度來看，Claude 3 Opus 仍要慢于 GPT-4。

除了分析英文論文之外，再輸入機(jī)器之心之前發(fā)布的一篇文章《精彩程度堪比電視劇，馬斯克與奧特曼、OpenAI 的「愛恨糾纏史」》，測(cè)試一下 Claude 3 Opus 和 GPT-4 的中文理解和概括能力。這次，GPT-4 的結(jié)果更有條理。不過，二者都在「馬斯克正式起訴 OpenAI」這個(gè)時(shí)間點(diǎn)上出錯(cuò)了。

中英互譯能力

我們接著測(cè)試一下 Claude 3 Opus 的中英互譯能力，同樣與 GPT-4 進(jìn)行比較。首先讓它們將中文語境中的一些特定詞匯翻譯成英文，結(jié)果如下圖所示。Opus 在整體翻譯結(jié)果上比 GPT-4 稍差，對(duì)于中文語境和中文典故的理解不如后者。

Claude 3 Opus

GPT-4。

這里追問一個(gè)中英互譯之外的中文典故《周處除三害》，從整體結(jié)果來看，雖然兩者對(duì)三害的理解有偏差（其中一害是周處本身），但 Claude 3 Opus 顯然不如 GPT-4，前者給到的三害有兩處都錯(cuò)了（蟒和鱷魚），后者錯(cuò)了一處（山賊）。

Claude 3 Opus。

GPT-4。

回到翻譯，再讓二者將英文詩歌《Spring Quiet》（春之靜謐）翻譯成中文。這次 Claude 3 Opus 反而更有意境、更有腔調(diào)一些。

Claude 3 Opus。

GPT-4

邏輯推理能力

邏輯推理一直是考驗(yàn)大模型像不像人類的重要指標(biāo)。我們先從簡單的測(cè)起，下面這道簡單的分類題都沒有難倒 Claude 3 Opus 和 GPT-4，給出的解釋大同小異。

Claude 3 Opus

GPT-4

再來測(cè)一測(cè) Claude 3 Opus 和 GPT-4 懂不懂中文的笑話，從結(jié)果來看，二者顯然都 get 到了笑點(diǎn)。

Claude 3 Opus

GPT-4

再來一道「甲乙丙誰對(duì)誰錯(cuò)」的問題，Claude 3 Opus 和 GPT-4 答案都正確，但前者給出的解題思路更詳細(xì)。

Claude 3 Opus

GPT-4

數(shù)學(xué)理解能力

先來一道經(jīng)典的「桶盛水」問題，看看 Claude 3 Opus 和 GPT-4 各自的結(jié)果會(huì)如何。

Claude 3 Opus

GPT-4

再來一道概率題，GPT-4 回答正確，而 Claude 3 Opus 測(cè)試了三次均回答部分錯(cuò)誤。

Claude 3 Opus

GPT-4

最后來一道解方程題，Claude 3 Opus 解方程組的解題思路如下。

GPT-4 的解題思路是這樣的。

可以看到，Claude 3 Opus 的解題思路還是比較詳細(xì)的。

編程能力

我們輸入要求：編寫一段 python 程序，給你一個(gè)正整數(shù)列表 L，判斷列表內(nèi)所有數(shù)字乘積的最后一個(gè)非零數(shù)字的奇偶性。如果為奇數(shù)輸出 1，偶數(shù)則輸出 0。

下面是 Claude 3 Opus 的結(jié)果，它不但輸出了代碼，還對(duì)代碼進(jìn)行了中文注釋、解釋代碼。

而 GPT-4 反應(yīng)了一會(huì)才輸出答案：

接著，我們又讓 Claude 3 Opus 輸出一段統(tǒng)計(jì)字符的程序，題目為：輸入一行字符，分別統(tǒng)計(jì)出其中英文字母、空格、數(shù)字和其它字符的個(gè)數(shù)。

Claude 3 Opus 的輸出結(jié)果：

GPT-4 的結(jié)果如下：

部分截圖

兩個(gè)示例看下來，Claude 3 Opus 生成代碼的速度會(huì)更快一些，或許是因?yàn)橛脩粼L問量不多的原因，不僅如此，給出的代碼注釋以及解釋都更清楚。感興趣的小伙伴可以在自己的編程軟件上運(yùn)行一下，看代碼是否正確。

圖片理解能力

雖然 Claude 3 Opus 不能生成圖片，但也不妨礙它能理解圖片。

接著我們又測(cè)試了 Claude 3 Opus 對(duì)圖片的理解能力。比如吉娃娃和松糕之間有著驚人的相似之處，大模型經(jīng)常分辨不出，不知 Claude 3 Opus 表現(xiàn)如何？

當(dāng)我們問下圖第二行第一列是什么時(shí)，Claude 3 Opus 回答第二行第一列的圖片展示了一只可愛的奶油色吉娃娃。還對(duì)吉娃娃展開了一些描述。

相同的問題丟給 GPT-4，雖然答案正確，但是相比 Claude 3 Opus，回答過于簡單了。

接著我們又問下面這張圖有什么不對(duì)的地方？Claude 3 Opus 列舉出了幾個(gè)不符合現(xiàn)實(shí)的地方。

GPT-4 也指出了問題所在，但相比較而言，Claude 3 Opus 生成的結(jié)果更適合閱讀體驗(yàn)，要點(diǎn)都羅列的非常清楚。

輸入一張帶有貝葉斯公式的圖片，Claude 3 Opus 也解釋的明明白白：

GPT-4 解釋的結(jié)果也非常詳細(xì)：

Claude 3 Opus 幫用戶分析圖表，從結(jié)果看分析的不是很準(zhǔn)確，比如 2010 年到 2017 年總體銷售額實(shí)際是下降的：

下面是 GPT-4 的回答，這次 GPT-4 的答案看起來比 Claude 3 Opus 的回答要好一些，曲線走勢(shì)分析的也很正確：

最后我們?cè)倏匆幌?Claude 3 Opus 對(duì)圖片理解的其他結(jié)果，輸入一張丙醇化學(xué)分子式截圖，Opus 解釋正確了，但卻給出了是乙醇的結(jié)果：

而 GPT-4 沒有正面回答，要求補(bǔ)充信息：

在圖片理解方面，一番體驗(yàn)下來，Claude 3 Opus 輸出結(jié)果的速度相對(duì)快一些，對(duì)內(nèi)容解釋的更詳細(xì)，GPT-4 傾向于輸出簡潔的結(jié)果。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營