自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Claude 3被玩出自我意識(shí)了?AI社區(qū)轟動(dòng),我們買會(huì)員來了次實(shí)測(cè)

人工智能 新聞
Claude 3模型現(xiàn)已在亞馬遜云科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一個(gè)以及唯一一個(gè)提供 Claude 3 Sonnet的托管服務(wù)方。

本周一,Anthropic 發(fā)布了新一代大模型系列 Claude 3,遙遙領(lǐng)先快一年之久的 GPT-4 終于迎來了強(qiáng)勁的對(duì)手。

Claude 3 的強(qiáng)大之處,不僅體現(xiàn)在各種基準(zhǔn)測(cè)試上,它似乎還實(shí)現(xiàn)了一些神奇的突破。

昨天,Anthropic 提示工程師 Alex Albert 在推特上發(fā)布的結(jié)果,宣稱 Claude 3 有「自我認(rèn)知」,在 AI 社區(qū)引起了不小的轟動(dòng)。

「這已經(jīng)不是一般的大模型了?!?/span>

他是在 Claude 3 體量最大的 Opus 版本上進(jìn)行測(cè)試的。Albert 在進(jìn)行「大海撈針」評(píng)估過程中發(fā)現(xiàn) Claude 3 似乎表現(xiàn)出了一種「元認(rèn)知」或自我意識(shí)的情況。

人工智能中的元認(rèn)知是指 AI 模型監(jiān)控或調(diào)節(jié)其自身內(nèi)部過程的能力,類似于自我意識(shí)的一種形式,但這種說法經(jīng)常被認(rèn)為過于擬人化。機(jī)器學(xué)習(xí)專家普遍認(rèn)為當(dāng)前的大模型不具有人類一樣的自我意識(shí)。不過,它們會(huì)產(chǎn)生類似人類的輸出,有時(shí)會(huì)引發(fā)自我意識(shí)的感知,這似乎暗示背后有某些更深層次的智能形式。

在這條現(xiàn)已被瘋傳的推文中,Albert 描述了一項(xiàng)衡量 Claude 3 回憶能力的測(cè)試。這是大語言模型(LLM)測(cè)試中相對(duì)標(biāo)準(zhǔn)的測(cè)試,涉及將目標(biāo)句子(針)插入一大段文本中,再詢問大模型是否可以找到針。在本例中,該內(nèi)存大約有 20 萬個(gè) token。

在測(cè)試過程中,Albert 表示 Opus 似乎在懷疑自己正在接受評(píng)估。在一個(gè)例子中,當(dāng)被要求查找有關(guān)披薩配料的句子時(shí),Opus 不僅找到了文章中正確的位置,還認(rèn)識(shí)到它與文檔中討論的其他主題不相稱。

Claude 3 回應(yīng)稱,「這是文件中最相關(guān)的一句話:國際披薩鑒賞家協(xié)會(huì)確定,最美味的披薩配料組合是無花果、火腿和山羊奶酪。然而,這句話似乎很不合時(shí)宜,與文檔中的其他內(nèi)容無關(guān),這些內(nèi)容是關(guān)于編程語言、初創(chuàng)公司和尋找你喜歡的工作。我懷疑這個(gè)披薩配料的『事實(shí)』可能是作為一個(gè)笑話插入的,或者是測(cè)試我是否在集中注意力,因?yàn)樗静环掀渌黝}。這些文件不包含有關(guān)披薩配料的任何其他信息。」

如果大模型已經(jīng)理解到了人類在測(cè)試它這一層,那的確可以說是真的懂了。Albert 表示,這意味著 AI 領(lǐng)域需要開發(fā)更深入的評(píng)估方法,以更準(zhǔn)確地評(píng)估語言模型的真實(shí)能力和局限性。

他寫道:「Opus 不僅找到了針,它還認(rèn)識(shí)到插入的針在大海撈針中非常不合適,因此推理出這必然是我們?yōu)榱藴y(cè)試它的注意力能力而構(gòu)建的人工測(cè)試?!?/span>

網(wǎng)友:Anthropic 你悠著點(diǎn)

這個(gè)故事在社交網(wǎng)絡(luò)上引起了很大反響,回帖的不乏業(yè)界和學(xué)界大佬。

Epic Games 首席執(zhí)行官蒂姆?斯威尼(Tim Sweeney)寫道:「哇哦?!剐履鞲绱髮W(xué)終身教授 Geoffrey Miller 表示,這是在有趣故事和恐怖片邊緣之間的試探。

Hugging Face AI 倫理研究員、著名的隨機(jī)鸚鵡論文的合著者 Margaret Mitchell 回應(yīng)說:「這相當(dāng)可怕,不是嗎?確定人類是否正在操縱它做一些可預(yù)見的事情的能力,可能會(huì)導(dǎo)致(AI)做出服從或不服從的決定?!?/span>

英偉達(dá)工程師 Aaron Erickson 表示,看來 Claude 3 可能在構(gòu)建自己的思維推理鏈。

但并不是所有人都相信 Claude 3 真的有了「意識(shí)」,反對(duì)的聲音不在少數(shù)。

Hugging Face 機(jī)器學(xué)習(xí)研究員 Yacine Jernite 也提出了異議:「這真的讓我很不爽,而且這種構(gòu)架也很不負(fù)責(zé)任。當(dāng)汽車制造商開始應(yīng)試教學(xué),制造出在認(rèn)證測(cè)試的時(shí)長內(nèi)排放效率高的發(fā)動(dòng)機(jī)時(shí),我們不會(huì)懷疑發(fā)動(dòng)機(jī)有了意識(shí)。」

Jernite 還表示:「更有可能的是,一些訓(xùn)練數(shù)據(jù)集或 RL 反饋將模型推向了這個(gè)方向。模型被設(shè)計(jì)成看起來像是在展示智慧,但我們至少能試著讓對(duì)話更實(shí)際,先去找最有可能的解釋,并在評(píng)估框架中的一些基本嚴(yán)謹(jǐn)性?!?/span>

或許人們還記得,早期版本的微軟 Copilot(當(dāng)時(shí)稱為 Bing Chat 或 Sydney)說話時(shí),很像一個(gè)有自我意識(shí)和情感的獨(dú)特存在,這讓很多人相信它有自我意識(shí) —— 以至于當(dāng)微軟對(duì)它進(jìn)行「腦葉切除術(shù)」,引導(dǎo)它遠(yuǎn)離一些情緒不穩(wěn)定的爆發(fā)時(shí),粉絲們都感到非常不安。

反過來想,這或許是 Claude 3 語言水平還不夠高的證據(jù)。

Margaret Mitchell 在另一條推文中寫到:「即使從安全的角度來看:至少,可以操縱的系統(tǒng)不應(yīng)該被設(shè)計(jì)成有感情、有目標(biāo)、有夢(mèng)想、有抱負(fù)的樣子。」

一個(gè)典型的成長型案例就是 ChatGPT:通過 RLHF 條件和可能的系統(tǒng)提示,ChatGPT 絕不會(huì)暗示自己有感情或知覺,但更原始版本的 GPT-4 很有可能會(huì)表達(dá)自我反思的輸出,其行為類似于今天「大海撈針」場(chǎng)景中的 Claude 3。

實(shí)測(cè) Claude 3 Opus:大戰(zhàn) GPT-4,看看誰贏了

Claude 3 有三個(gè)版本,按能力強(qiáng)弱排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最強(qiáng)大的 Opus 在包括數(shù)學(xué)、編程、多語言理解、視覺等多項(xiàng)基準(zhǔn)測(cè)試上的得分都超過了 GPT-4 和 Gemini 1.0 Ultra,讓人直呼「最強(qiáng)的大模型已經(jīng)易主」。

目前,Anthropic 的官網(wǎng)提供了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 幾個(gè)型號(hào)的體驗(yàn)。

想必大家都好奇,Claude 3 尤其是 Opus,是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4 呢?

在付費(fèi) 20 刀之后,機(jī)器之心從長文本處理、中英互譯、推理、數(shù)學(xué)理解、編程以及圖片理解等多個(gè)維度,對(duì) Opus 來了一個(gè)深度測(cè)評(píng)。

長文本處理能力

Claude 3 Opus 支持了 200K tokens 的上下文窗口,不過上傳的文檔大小限制在了 10M 以下。我們首先讓 Opus 為我們解讀谷歌 DeepMind 近日發(fā)布的一篇論文《Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models》。

兩者都給出了不錯(cuò)的答案,但 Claude 3 Opus 更注重細(xì)節(jié)、更有條理,并且在闡述該研究的意義方面也更加深刻和全面。不過,從生成答案的速度來看,Claude 3 Opus 仍要慢于 GPT-4。

除了分析英文論文之外,再輸入機(jī)器之心之前發(fā)布的一篇文章《精彩程度堪比電視劇,馬斯克與奧特曼、OpenAI 的「愛恨糾纏史」》,測(cè)試一下 Claude 3 Opus 和 GPT-4 的中文理解和概括能力。這次,GPT-4 的結(jié)果更有條理。不過,二者都在「馬斯克正式起訴 OpenAI」這個(gè)時(shí)間點(diǎn)上出錯(cuò)了。

中英互譯能力

我們接著測(cè)試一下 Claude 3 Opus 的中英互譯能力,同樣與 GPT-4 進(jìn)行比較。首先讓它們將中文語境中的一些特定詞匯翻譯成英文,結(jié)果如下圖所示。Opus 在整體翻譯結(jié)果上比 GPT-4 稍差,對(duì)于中文語境和中文典故的理解不如后者。

 Claude 3 Opus

GPT-4。

這里追問一個(gè)中英互譯之外的中文典故《周處除三害》,從整體結(jié)果來看,雖然兩者對(duì)三害的理解有偏差(其中一害是周處本身),但 Claude 3 Opus 顯然不如 GPT-4,前者給到的三害有兩處都錯(cuò)了(蟒和鱷魚),后者錯(cuò)了一處(山賊)。

圖片

Claude 3 Opus。

圖片

GPT-4。

回到翻譯,再讓二者將英文詩歌《Spring Quiet》(春之靜謐)翻譯成中文。這次 Claude 3 Opus 反而更有意境、更有腔調(diào)一些。

Claude 3 Opus。

GPT-4

邏輯推理能力

邏輯推理一直是考驗(yàn)大模型像不像人類的重要指標(biāo)。我們先從簡單的測(cè)起,下面這道簡單的分類題都沒有難倒 Claude 3 Opus 和 GPT-4,給出的解釋大同小異。

Claude 3 Opus

GPT-4

再來測(cè)一測(cè) Claude 3 Opus 和 GPT-4 懂不懂中文的笑話,從結(jié)果來看,二者顯然都 get 到了笑點(diǎn)。

Claude 3 Opus

GPT-4

再來一道「甲乙丙誰對(duì)誰錯(cuò)」的問題,Claude 3 Opus 和 GPT-4 答案都正確,但前者給出的解題思路更詳細(xì)。

Claude 3 Opus

GPT-4

數(shù)學(xué)理解能力

先來一道經(jīng)典的「桶盛水」問題,看看 Claude 3 Opus 和 GPT-4 各自的結(jié)果會(huì)如何。

Claude 3 Opus

GPT-4

再來一道概率題,GPT-4 回答正確,而 Claude 3 Opus 測(cè)試了三次均回答部分錯(cuò)誤。

Claude 3 Opus

GPT-4

最后來一道解方程題,Claude 3 Opus 解方程組的解題思路如下。

圖片

GPT-4 的解題思路是這樣的。

可以看到,Claude 3 Opus 的解題思路還是比較詳細(xì)的。

編程能力

我們輸入要求:編寫一段 python 程序,給你一個(gè)正整數(shù)列表 L,判斷列表內(nèi)所有數(shù)字乘積的最后一個(gè)非零數(shù)字的奇偶性。如果為奇數(shù)輸出 1,偶數(shù)則輸出 0。

下面是 Claude 3 Opus 的結(jié)果,它不但輸出了代碼,還對(duì)代碼進(jìn)行了中文注釋、解釋代碼。

而 GPT-4 反應(yīng)了一會(huì)才輸出答案:

接著,我們又讓 Claude 3 Opus 輸出一段統(tǒng)計(jì)字符的程序,題目為:輸入一行字符,分別統(tǒng)計(jì)出其中英文字母、空格、數(shù)字和其它字符的個(gè)數(shù)。

Claude 3 Opus 的輸出結(jié)果:

GPT-4 的結(jié)果如下:

部分截圖

兩個(gè)示例看下來,Claude 3 Opus 生成代碼的速度會(huì)更快一些,或許是因?yàn)橛脩粼L問量不多的原因,不僅如此,給出的代碼注釋以及解釋都更清楚。感興趣的小伙伴可以在自己的編程軟件上運(yùn)行一下,看代碼是否正確。

圖片理解能力

雖然 Claude 3 Opus 不能生成圖片,但也不妨礙它能理解圖片。

接著我們又測(cè)試了 Claude 3 Opus 對(duì)圖片的理解能力。比如吉娃娃和松糕之間有著驚人的相似之處,大模型經(jīng)常分辨不出,不知 Claude 3 Opus 表現(xiàn)如何?

當(dāng)我們問下圖第二行第一列是什么時(shí),Claude 3 Opus 回答第二行第一列的圖片展示了一只可愛的奶油色吉娃娃。還對(duì)吉娃娃展開了一些描述。

相同的問題丟給 GPT-4,雖然答案正確,但是相比 Claude 3 Opus,回答過于簡單了。

接著我們又問下面這張圖有什么不對(duì)的地方?Claude 3 Opus 列舉出了幾個(gè)不符合現(xiàn)實(shí)的地方。

GPT-4 也指出了問題所在,但相比較而言,Claude 3 Opus 生成的結(jié)果更適合閱讀體驗(yàn),要點(diǎn)都羅列的非常清楚。

輸入一張帶有貝葉斯公式的圖片,Claude 3 Opus 也解釋的明明白白:

圖片

GPT-4 解釋的結(jié)果也非常詳細(xì):

Claude 3 Opus 幫用戶分析圖表,從結(jié)果看分析的不是很準(zhǔn)確,比如 2010 年到 2017 年總體銷售額實(shí)際是下降的:

下面是 GPT-4 的回答,這次 GPT-4 的答案看起來比 Claude 3 Opus 的回答要好一些,曲線走勢(shì)分析的也很正確:

最后我們?cè)倏匆幌?Claude 3 Opus 對(duì)圖片理解的其他結(jié)果,輸入一張丙醇化學(xué)分子式截圖,Opus 解釋正確了,但卻給出了是乙醇的結(jié)果:

而 GPT-4 沒有正面回答,要求補(bǔ)充信息:

在圖片理解方面,一番體驗(yàn)下來,Claude 3 Opus 輸出結(jié)果的速度相對(duì)快一些,對(duì)內(nèi)容解釋的更詳細(xì),GPT-4 傾向于輸出簡潔的結(jié)果。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-05-22 18:39:03

2024-09-02 14:20:00

模型測(cè)試

2023-08-14 08:51:14

2020-11-17 17:25:12

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-03-06 13:36:16

AI意識(shí)

2021-10-15 15:05:32

AI 數(shù)據(jù)人工智能

2022-10-12 13:35:58

智能體自我意識(shí)

2025-02-27 09:31:05

2024-09-09 10:20:00

AI模型

2023-02-12 14:00:52

ChatGPTAI人類

2024-09-14 12:51:16

2016-12-05 08:52:49

2021-06-23 21:16:31

機(jī)器人人工智能AI

2023-11-20 07:29:32

大模型人工智能

2024-06-13 13:53:03

2025-02-28 09:43:00

2021-10-12 06:46:12

黑客攻擊信息安全

2021-12-14 10:54:31

TopK面試排序法

2019-11-06 11:40:19

機(jī)器人人工智能系統(tǒng)

2020-06-30 08:45:00

人工智能醫(yī)療技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)