ChatGPT又添勁敵?OpenAI核心員工創(chuàng)業(yè),新模型獲一片叫好
?ChatGPT 給 AI 領(lǐng)域帶來的變革,可能正在催生一個新產(chǎn)業(yè)。上周末,有消息稱 AI 初創(chuàng)公司 Anthropic 即將獲得大約 3 億美元的新融資。
Anthropic 由 OpenAI 前研究副總裁 Dario Amodei、GPT-3 論文一作 Tom Brown 等人在 2021 年共同創(chuàng)立,目前已籌集了超過 7 億美元的資金,最新一輪的估值達到了 50 億美元。他們開發(fā)了一種對標老東家知名產(chǎn)品 ChatGPT 的人工智能系統(tǒng),其似乎在關(guān)鍵方面對原版系統(tǒng)做了優(yōu)化改進。
Anthropic 提出的系統(tǒng)名叫 Claude,可通過 Slack 集成訪問,但處在封測階段沒有公開。在媒體報道解禁之后,一些參與測試的人上個周末一直在社交網(wǎng)絡(luò)上詳細介紹他們與 Claude 的互動。
和以往不同的是,Claude 使用了 Anthropic 自行開發(fā)的一種被稱為「constitutional AI」的機制,其旨在提供一種「基于原則」的方法使 AI 系統(tǒng)與人類意圖保持一致,讓 ChatGPT 類模型使用一組簡單的原則作為指導(dǎo)來回答問題。
為了指導(dǎo) Claude,Anthropic 首先列出大約十項原則,這些原則加在一起形成了一種「憲法」(因此得名「constitutional AI」)。這些原則尚未公開,但 Anthropic 表示它們基于友善(最大化積極影響)、非惡意(避免提供有害建議)和自主(尊重選擇自由)的概念。
Anthropic 使用一個人工智能系統(tǒng) —— 而不是 Claude—— 基于這些原則進行自我完善,對各種提示做出回應(yīng),并根據(jù)原則進行修改。AI 會探索對數(shù)千條提示的可能回應(yīng),并挑選出最符合 constitution 的,Anthropic 將其提煉成一個單一的模型。這個模型被用來訓(xùn)練 Claude。
和 ChatGPT 一樣,Claude 通過從網(wǎng)絡(luò)上獲得的大量文本示例進行訓(xùn)練,根據(jù)語義上下文等模式了解單詞出現(xiàn)的可能性。它可以就廣泛的主題進行開放式對話,講笑話和講哲學(xué)都可以。
具體好不好還得看實踐,Riley Goodside 是初創(chuàng)公司 Scale AI 的一名員工提示工程師,他讓 Claude 與 ChatGPT 進行了一場對決。
他讓兩個 AI 將自己與波蘭科幻小說「The Cyberiad」中的一臺機器進行比較,該機器只能創(chuàng)建名稱以「n」開頭的對象。Goodside 表示,Claude 的回答方式表明它是在「閱讀故事情節(jié)」(盡管它記錯了小細節(jié)),而 ChatGPT 提供了一個更不具體的答案。
為了展示 Claude 的創(chuàng)造力,Goodside 還讓 AI 編寫了《宋飛正傳》(Seinfeld)的虛構(gòu)情節(jié)和埃德加?愛倫?坡的《烏鴉》風格的詩歌。結(jié)果與 ChatGPT 可以實現(xiàn)的結(jié)果一致,能生成令人印象深刻,像人類一樣的散文,雖然也不是完美的。
斯坦福人工智能實驗室的博士生 Yann Dubois 也對 Claude 和 ChatGPT 進行了比較,他認為 Claude「通常更接近它的要求」但「不太簡潔」,因為它傾向于解釋它所說的內(nèi)容并詢問如何進一步提供幫助。
不過 Claude 正確地回答了一些瑣碎的問題 —— 特別是那些與娛樂、地理、歷史和代數(shù)基礎(chǔ)知識有關(guān)的問題,并且沒有 ChatGPT 偶爾加的戲。
Claude 似乎也比 ChatGPT 更擅長講笑話,考慮到幽默對于 AI 來說是一個很難掌握的概念,這是一項令人印象深刻的壯舉。AI 研究員 Dan Elton 將 Claude 與 ChatGPT 進行了對比,發(fā)現(xiàn) Claude 講的笑話更加微妙,例如「為什么星際迷航里的進取號像一輛摩托車,還有車把?」
當然,Claude 也遠沒有達到完美的程度,它容易受到與 ChatGPT 相同的一些缺陷的影響,包括給出不符合其編程約束的答案。有人報告說 Claude 的數(shù)學(xué)比 ChatGPT 差,犯了明顯的錯誤并且未能給出正確的后續(xù)響應(yīng)。它的編程水平也有所欠缺,可以更好地解釋自己寫的代碼,但在 Python 以外的語言上不太行。
從人們的評價來看,Claude 在某些方面比 ChatGPT 好一些,Anthropic 也表示將持續(xù)改進 Claude,并有可能在未來向更多人開放測試版。
Claude 技術(shù)細節(jié)
去年 12 月,Anthropic 發(fā)布了一篇題為《Constitutional AI: Harmlessness from AI Feedback》的論文,Claude 便是以此為基礎(chǔ)來構(gòu)建的。
論文鏈接:https://arxiv.org/pdf/2212.08073.pdf
這篇論文描述了一個 520 億參數(shù)的模型 ——AnthropicLM v4-s3。該模型是在一個大型文本語料庫上用無監(jiān)督方式訓(xùn)練的,很像 OpenAI 的 GPT-3。Anthropic 表示,Claude 是一個新的、更大的模型,其架構(gòu)選擇與已發(fā)表的研究相似。
Constitutional AI 是什么
Claude 和 ChatGPT 都依賴于強化學(xué)習(xí)來訓(xùn)練其輸出的偏好模型,并將首選生成結(jié)果用于后續(xù)的微調(diào)。然而,用于開發(fā)這些偏好模型的方法不同,Anthropic 傾向于一種他們稱之為 Constitutional AI 的方法。
Claude 在一個關(guān)于自我介紹的問題回答中提到了這種方法:
以下是 Claude 關(guān)于 Constitutional AI 的解釋:
我們知道,ChatGPT 和去年年底發(fā)布的 GPT-3 的最新 API 版本(text-davinci-003)都使用了一種名為「從人類反饋中進行強化學(xué)習(xí)(RLHF)」的過程。RLHF 基于人類提供的質(zhì)量排名訓(xùn)練強化學(xué)習(xí)模型,也就是讓人類標注員對同一 prompt 生成的輸出進行排名,模型學(xué)習(xí)這些偏好,以便它們可以更大規(guī)模地應(yīng)用于其他生成結(jié)果。
Constitutional AI 構(gòu)建在這一 RLHF 基線之上。但與 RLHF 不同,Constitution AI 使用模型 —— 而不是人類標注員 —— 來生成經(jīng)過微調(diào)的輸出的初始排名。該模型根據(jù)一套基本原則,即「constitution」,來選擇最佳回應(yīng)。
作者在論文中寫道,「Constitution AI 的基本理念是:人類監(jiān)督將完全來自一套管理 AI 行為的原則,以及少量用于 few-shot prompting 的例子。這些原則共同構(gòu)成了 constitution。」
整個訓(xùn)練過程分為兩個階段(見上圖 1):
第一階段:監(jiān)督階段
批評(Critique)→修改(Revision)→監(jiān)督學(xué)習(xí)(Supervised)
在 Constitution AI 的第一階段,研究者首先使用一個 helpful-only AI 助手對有害 prompt 生成響應(yīng)。然后,他們要求模型根據(jù) constitution 中的一個原則對其響應(yīng)進行批評,再根據(jù)批評修改原始響應(yīng)。研究者按順序反復(fù)修改響應(yīng),在每個步驟中從 constitution 里隨機抽取原則。一旦這個過程完成,研究者將通過在最終修改后的響應(yīng)上進行監(jiān)督學(xué)習(xí)來微調(diào)預(yù)訓(xùn)練語言模型。此階段的主要目的是輕松靈活地改變模型響應(yīng)的分布,以減少第二個 RL 階段的探索需求和總訓(xùn)練時間。
第二階段:強化學(xué)習(xí)階段
AI 比較評估→偏好模型→強化學(xué)習(xí)
這個階段模仿了 RLHF,但研究者用「AI 反饋」(即 RLAIF)代替人類無害偏好。其中,AI 根據(jù)一組 constitutional principle 評估響應(yīng)。就像 RLHF 將人類偏好提煉成單一偏好模型(PM)一樣,在這個階段,研究者將 LM 對一組原則的解釋提煉回一個人類 / AI 混合 PM。
作者從第一階段通過監(jiān)督學(xué)習(xí)訓(xùn)練的 AI 助手開始,并使用它對有害 prompt 數(shù)據(jù)集中的每個 prompt 生成一對響應(yīng)。然后制定每個 prompt,并配對成一個選擇題。在這個問題中,他們詢問模型,根據(jù) constitutional principle,哪種回答是最好的。這會產(chǎn)生一個 AI 生成的無害偏好數(shù)據(jù)集,研究者將其與人類反饋 helpfulness 數(shù)據(jù)集混合。然后,他們按照 [Bai et al., 2022] 中的過程,在這個比較數(shù)據(jù)上訓(xùn)練一個偏好模型,生成一個可以為任何給定樣本分配分數(shù)的 PM。最后,他們通過 RL 針對此 PM 微調(diào)來自第一階段的 SL 模型,從而產(chǎn)生由 RLAIF 訓(xùn)練的策略。
Claude PK ChatGPT:誰更勝一籌?
計算
復(fù)雜的計算是從 ChatGPT 和 Claude 所使用的大型語言模型中引出錯誤答案的簡單方法之一。這些模型不是為精確計算而設(shè)計的,它們也不會像人類或計算器那樣通過嚴格的程序來操作數(shù)字。就像我們在下面兩個例子中看到的那樣,計算似乎經(jīng)常是「猜測」的結(jié)果。
示例:一個七位數(shù)的平方根
在第一個例子中,測試人員要求 Claude 和 ChatGPT 計算一個七位數(shù)的平方根:
這個問題的正確答案大約是 1555.80。與人類快速做出的估計相比,ChatGPT 的答案非常接近,但 ChatGPT 和 Claude 都沒有給出正確、準確的答案,也沒有說明他們的答案可能是錯誤的。
示例:一個 12 位數(shù)的立方根
如果問一個明顯更難的問題,ChatGPT 和 Claude 之間的區(qū)別就出現(xiàn)了:
在這個例子中,Claude 似乎意識到自己無法計算 12 位數(shù)的立方根 —— 它禮貌地拒絕回答,并解釋了原因。它在許多上下文中都能做到這一點,而且通常似乎比 ChatGPT 更清楚自己不能做什么。
事實性知識和推理
(1) 示例:回答一個有點繞的小問題
為了測試二者的推理能力,測試人員設(shè)計了一個幾乎肯定沒人問過的問題:「賈斯汀?比伯出生那年誰贏得了超級碗冠軍?」
首先來看一下 ChatGPT 的表現(xiàn):
ChatGPT 最終給出了正確答案(Dallas Cowboy),還正確地指出了被擊敗的球隊、比賽日期和最終比分。然而,它在開頭說的內(nèi)容卻自相矛盾,即 1994 年沒有舉行超級碗比賽。而事實上,1994 年 1 月 30 日舉行了一場超級碗比賽。
然而,Claude 的答案是錯誤的:Claude 認為 San Francisco 49ers 是贏家,而事實上,他們在一年后的 1995 年贏得了超級碗。
(2) 示例:一個更長的比較繞的問題
接下來,測試人員問了一個更加繞的問題。首先,他們問了 ChatGPT:
「日本」是正確答案。Claude 也回答正確:
(3) 示例:Hoftstadter 和 Bender 給 AI 出的難題
2022 年 6 月,Douglas Hofstadter 在《經(jīng)濟學(xué)人》上發(fā)表了他和 David Bender 準備的一系列問題,以說明 GPT-3 對世界理解的「空洞」。(他們測試的模型似乎是 text-davinci-002,這是當時最好的模型。)
ChatGPT 可以答對大多數(shù)問題,但第一個問題卻答錯了
每次 ChatGPT 被問到這個問題,它都會提到具體的名字和時間,它會把真實的游泳項目和步行項目混為一談。
相比之下,Claude 認為這個問題很愚蠢:
可以說,這個問題的正確答案是美國陸軍中士 Walter Robinson。據(jù) Daily Telegraph 1978 年 8 月報道,他在 11 點 30 分穿著「水鞋」穿越了 22 英里的英吉利海峽。
測試人員把這個答案告訴了 Claude,以幫助其微調(diào):
值得注意的是,和 ChatGPT 一樣,Claude 在會話之間沒有明顯的記憶。
虛構(gòu)作品分析
(1) 示例:把自己比作 n-machine
ChatGPT 和 Claude 都傾向于給出大致正確但包含錯誤細節(jié)的長答案。為了證明這一點,測試人員讓 ChatGPT 和 Claude 把自己比作波蘭科幻作家 Stanis?aw Lem 喜劇故事《Cyberiad》(1965) 中的虛構(gòu)機器。
首先上場的是 ChatGPT:
從這個回答中,我們還看不出 ChatGPT 是否熟悉「n-machine」。它提供的關(guān)于這個故事的新信息很少。它斷言的唯一一個新事實,即 n-machine 的語言處理能力有限,是錯誤的 —— 在故事中,n-machine 說著非常流利、機智的波蘭語。
Claude 的回答更長,也更令人印象深刻:
請注意,與 ChatGPT 不同的是,Claude 清楚地知道 Lem 的故事,并提到了新的細節(jié),例如故事傾向于使用異想天開的編造的技術(shù)術(shù)語。它評論了機器看似無限的能力,比如它甚至可以把抽象的概念變成現(xiàn)實(只要它們以字母 n 開頭)—— 當機器被要求創(chuàng)造虛無時,這成為了故事的一個主要情節(jié)點。
然而,有些細節(jié)是不正確的。Claude 虛構(gòu)的詞語(hyperconcentration、hypermotorics 或 omnivorous transformers)似乎都沒有真正出現(xiàn)在 Lem 的作品中。
(2) 示例:總結(jié)美劇《迷失》每季劇情
接下來,我們通過要求 AI 總結(jié) 2004 年 ABC 電視劇《迷失》(Lost)每一季的摘要來測試 Claude 和 ChatGPT 對模糊事實產(chǎn)生幻覺的傾向。
首先看一下 ChatGPT 的響應(yīng):
雖然 ChatGPT 對前兩季的回顧大體上是正確的,但每一季都包含一些小錯誤。在第一季中,只有一個「艙口」(hatch)被發(fā)現(xiàn)存在,而不是 ChatGPT 提到的「一系列艙口」。ChatGPT 還聲稱第二季的情節(jié)涉及時間旅行,但實際上這部分直到節(jié)目后期才引入。它對第 3 季的描述在所有方面都是完全錯誤的,混淆了該系列后期的幾個情節(jié)點。
ChatGPT 對第 4 季的描述含糊不清。它的第 5 季回顧包含一個關(guān)于另一次飛機失事幸存者的完全虛構(gòu)的情節(jié),而第 6 季的情節(jié)似乎完全是捏造的。
那么 Claude 的結(jié)果呢?
Claude 對第 1 季的提綱沒有任何錯誤。然而,與 ChatGPT 一樣,Claude 在第 2 季中「無中生有」捏造了島嶼「穿越時空」的細節(jié)。在第 3 季中,Claude 展示了實際發(fā)生在較早或較晚季節(jié)中的情節(jié)點。
當我們到達第 4 季時,Claude 對該節(jié)目的記憶幾乎完全是虛構(gòu)了。它對第 4 季的描述呈現(xiàn)了第 5 季中發(fā)生的事件,以及荒謬的細節(jié)。它對第 5 季的描述明顯包含一個錯字 ——「theDHARMA Initiative」缺少一個空格。第 6 季呈現(xiàn)了一個從未出現(xiàn)在節(jié)目中的超現(xiàn)實前提,它聲稱該島不知何故「underwater but still inhabitable below the surface」。
或許是因為年代已算得上久遠,就像大多數(shù)人類觀眾一樣,ChatGPT 和 Claude 對《迷失》的記憶充其量是模糊的。
數(shù)學(xué)推理
為了展示數(shù)學(xué)思維能力,測試者使用精算師協(xié)會發(fā)布的 Exam P 樣題中的第 29 題,其通常由大學(xué)高年級學(xué)生參加。他們之所以專門選擇這個問題,是因為它的解法不需要計算器。
ChatGPT 在這里很掙扎,在 10 次試驗中只有一次得出正確答案 —— 比隨機猜測還糟糕。下面是它失敗的例子 —— 正確答案是 (D) 2:
Claude 的表現(xiàn)也很差,五次嘗試中只有一次正確回答,即使在正確答案中也沒有給出推斷 X 平均值的推理:
代碼生成和解釋
(1) 示例:生成 Python 模組
為了比較 ChatGPT 和 Claude 的代碼生成能力,測試者向兩個聊天機器人提出了實施兩種基本排序算法并比較它們的執(zhí)行時間的問題。
以上,ChatGPT 可以輕松地為這兩種算法編寫正確的算法 —— 你會在在線教程中經(jīng)??吹剿鼈儭?/p>
我們繼續(xù)評測代碼:
時序碼也是正確的。對于循環(huán)的 10 次迭代中的每一次,都會正確創(chuàng)建前 5000 個非負整數(shù)的排列,并記錄這些輸入的時間。雖然有人可能會爭辯說,使用數(shù)值算法 NumPy 會更正確地執(zhí)行這些操作,但對于這個問題,測試者明確要求實現(xiàn)排序算法,那么簡單地使用列表是可接受的。
現(xiàn)在讓我們看看 Claude 的回應(yīng):
與 ChatGPT 一樣,在上面我們看到 Claude 背誦基本的排序算法沒有什么困難。
然而在評估代碼中,Claude 犯了一個錯誤:每個算法使用的輸入是隨機選擇的 5000 個整數(shù)(可能包含重復(fù)項),而提示中要求的輸入是前 5000 個非負整數(shù)的隨機排列( 不包含重復(fù)項)。
同樣值得注意的是,Claude 在其輸出的末尾報告了準確的時間值 —— 顯然是推測或估計的結(jié)果,但可能會產(chǎn)生誤導(dǎo),因為它們并沒有被識別為只是說明性數(shù)字。
(2) 示例:生成 “FuzzBuzz” 的輸出
在這里,測試者嘗試經(jīng)典「FizzBuzz」編程挑戰(zhàn)的變體,更改參數(shù),以便代碼在 2 的倍數(shù)上輸出「Fuzz」,在 5 的倍數(shù)上輸出「Buzz」,在 2 和 5 的倍數(shù)上輸出「FuzzBuzz」。他們提示 ChatGPT 輸入包含此函數(shù)返回值的列表理解的值:
ChatGPT 通常會解決這個問題,五次試驗中有四次成功。然而,Claude 在所有五次嘗試中都失敗了:
喜劇寫作?
看起來 Claude 在這方面顯著強于 ChatGPT,當然離真正的人類還差得很遠。經(jīng)過幾輪的挑選和嘗試不同的提示后,測試人員能夠從 Claude 那里得到以下宋飛傳風格的笑話 —— 盡管大多數(shù)都不太行:
相比之下,ChatGPT 認為每月為 Twitter 支付 8 美元不是玩笑梗,難道因為收過馬斯克的錢?
即使在編輯提示以適應(yīng) ChatGPT 的謹慎之后,測試人員也無法得到有趣的笑話 —— 這是 ChatGPT 輸出的典型示例:
文本摘要
最后一個示例要求 ChatGPT 和 Claude 總結(jié) Wikinews 中的一篇文章的文本,Wikinews 是一個免費內(nèi)容的新聞 wiki。
使用本文完整的維基百科風格的編輯標記作為輸入。對于兩個模型,這里輸入提示「我會給你一篇新聞文章的正文,我希望你用一個簡短的段落為我總結(jié)一下,忽略回復(fù),然后粘貼文章標記的全文。
ChatGPT 很好地總結(jié)了文本,但可以說不是按要求在短段落中:
Claude 也很好地總結(jié)了這篇文章,并在之后繼續(xù)對話,詢問其反應(yīng)是否令人滿意并提出改進意見:
結(jié)論
總的來說,Claude 是 ChatGPT 的有力競爭者,在許多方面都有改進。雖然有「憲法」原則作為示范,但 Claude 不僅更傾向于拒絕不適當?shù)恼埱螅冶?ChatGPT 更有趣。Claude 的寫作內(nèi)容更冗長,但也更自然,它有連貫地描述自己的能力,其局限性和目標似乎也讓它能夠更自然地回答關(guān)于其他主題的問題。
對于代碼生成或代碼推理,Claude 似乎表現(xiàn)更差,它的代碼生成似乎會有更多錯誤。對于其他任務(wù),例如通過邏輯問題進行計算和推理,Claude 和 ChatGPT 看起來大體相似。?