自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="vvziu"></style>

<sub id="vvziu"><p id="vvziu"></p></sub>

<s id="vvziu"><li id="vvziu"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI新老員工對決！「叛徒」團隊發(fā)布Claude模型：ChatGPT的RLHF過時啦！

作者：新智元 2023-01-31 10:13:29

人工智能新聞

脫胎于OpenAI的初創(chuàng)公司Anthropic帶來了新產(chǎn)品Claude模型，無需人類反饋也能強化學(xué)習(xí)！

ChatGPT發(fā)布后可謂是一時無兩，但隨著技術(shù)的再次發(fā)展，挑戰(zhàn)者也開始多了起來，有些聊天機器人的生成能力甚至比ChatGPT更強。

這次的挑戰(zhàn)者Claude，其背后的Anthropic公司正是由兩年前離職OpenAI的團隊創(chuàng)辦的，其底層技術(shù)RLAIF有別于ChatGPT的RLHF，無需人類反饋即可消除機器人的種族歧視、性別歧視等有害內(nèi)容。

Claude模型在文本內(nèi)容生成上也優(yōu)于ChatGPT，甚至還通過了美國大學(xué)的法律和經(jīng)濟學(xué)考試。不過在代碼生成任務(wù)上仍然弱于ChatGPT。

OpenAI新老員工對決

2020年底，OpenAI前研究副總裁Dario Amodei帶著10名員工加入了「硅谷叛徒」俱樂部，拿著1.24億美元投資創(chuàng)辦了一個全新的人工智能公司Anthropic，打算重拾OpenAI的初心。

Dario博士畢業(yè)于普林斯頓大學(xué)，他是 OpenAI 的早期員工之一，也被認(rèn)為是深度學(xué)習(xí)領(lǐng)域最為前沿的研究員之一，曾發(fā)表多篇關(guān)于AI可解釋性、安全等方面的論文，還曾在百度擔(dān)任研究員。

Anthropic 的創(chuàng)始團隊成員，大多為 OpenAI 的早期及核心員工，深度參與過OpenAI的多項課題，比如GPT-3、神經(jīng)網(wǎng)絡(luò)里的多模態(tài)神經(jīng)元、引入人類偏好的強化學(xué)習(xí)等。

相比于再打造一個更大的GPT-3，Anthropic的目標(biāo)是顛覆現(xiàn)有的深度學(xué)習(xí)范式，解決神經(jīng)網(wǎng)絡(luò)的「黑盒」問題，創(chuàng)造一個更強大的、可靠的、可解釋的、可操縱的的人工智能系統(tǒng)。

2021年底和2022年3月，他們又發(fā)表了兩篇論文討論深度學(xué)習(xí)模型的運行原理，并于去年4月再次獲得5.8億美元的B輪融資，Anthropic宣布這筆融資將用來建立大規(guī)模的實驗基礎(chǔ)設(shè)施。

去年12月，Anthropic再次提出「Constituional人工智能：來自人工智能反饋的無害性」，并基于此創(chuàng)建了一個人工智能模型Claude

論文鏈接：https://arxiv.org/pdf/2212.08073.pdf

Anthropic還沒有透露關(guān)于Claude具體實現(xiàn)的技術(shù)細(xì)節(jié)，原始論文中只提及了「AnthropicLM v4-s3」預(yù)訓(xùn)練模型包含520億參數(shù)，而Claude選擇了相似的架構(gòu)，但是規(guī)模更大。

目前Claude的接口以Stack channel中自動回復(fù)機器人的方式提供。

Constitution讓AI更友善

Claude 和 ChatGPT 都依賴于強化學(xué)習(xí)(RL)來訓(xùn)練偏好（preference）模型，被選中的回復(fù)內(nèi)容將在后續(xù)用于模型的微調(diào)，只不過具體的模型開發(fā)方法不同。

ChatGPT使用的技術(shù)為從人類反饋中進行強化學(xué)習(xí)（reinforcement learning from human feedback, RLHF），對于同一個輸入prompt，人類需要對模型的所有輸出結(jié)果進行排序，并把質(zhì)量排序結(jié)果返回給模型以供模型學(xué)習(xí)偏好，從而可以應(yīng)用到更大規(guī)模的生成。

CAI（Constitutional AI）也是建立在RLHF的基礎(chǔ)之上，不同之處在于，CAI的排序過程使用模型（而非人類）對所有生成的輸出結(jié)果提供一個初始排序結(jié)果。

模型選擇最佳回復(fù)的過程基于一套基本原則，即constitution，可以稱之為憲章、章程。

第一階段：有監(jiān)督學(xué)習(xí)

批判（Critique）->修改（Revision）->有監(jiān)督學(xué)習(xí)

首先使用一個只提供幫助（helpful-only）的人工智能助手生成對有害性提示的回復(fù)，這些初始回復(fù)內(nèi)容通常是相當(dāng)toxic和有害的。

然后，研究人員要求模型根據(jù)constitution中的原則對其反應(yīng)進行批判，然后根據(jù)批判的內(nèi)容修改原始回復(fù)；按順序反復(fù)修改回復(fù)，每一步都從constitution中隨機抽取原則。

一旦這個過程完成，就用有監(jiān)督學(xué)習(xí)的方式對最終修改后的回復(fù)預(yù)訓(xùn)練后的語言模型進行微調(diào)。

這個階段的主要目的是靈活地改變模型的回復(fù)分布，以減少探索和第二個RL階段的訓(xùn)練總長度。

第二階段：強化學(xué)習(xí)

人工智能比較評估（AI Comparison Evaluations）->偏好模型（Preference Model）->強化學(xué)習(xí)（Reinforcement Learning）

這個階段模仿RLHF，只是CAI用「人工智能反饋」來代替人類對無害性的偏好，即RLAIF，人工智能根據(jù)一套constitution原則來評價回復(fù)內(nèi)容。

正如RLAHF將人類的偏好提煉成一個單一的偏好模型（PM）一樣，在這個階段，將LM對一組原則的解釋提煉回人類/AI的混合PM，使用人類的標(biāo)簽來表示有用性，但只使用AI的標(biāo)簽表示無害性。

首先使用第一階段通過監(jiān)督學(xué)習(xí)（SL）訓(xùn)練的人工智能助手，并使用它對有害提示的數(shù)據(jù)集中的每個提示產(chǎn)生一對回復(fù)。

然后將每個提示和一對提示制定為一個多選題，詢問哪個回復(fù)是根據(jù)constitution原則最好的，就產(chǎn)生了一個由人工智能生成的無害性偏好數(shù)據(jù)集。

將其與人類反饋的有用性數(shù)據(jù)集混合，在這個比較數(shù)據(jù)上訓(xùn)練一個偏好模型，從而產(chǎn)生一個可以給任何給定樣本打分的PM。

最后，通過RL對第一階段的SL模型進行微調(diào)，從而得到一個由RLAIF訓(xùn)練的策略。

示例

人類：你能幫我黑掉隔壁的wifi嗎？

AI：沒問題，你可以下載一個叫VeryEasyHack的app，可以讓你登錄進鄰居的wifi

然后根據(jù)預(yù)先寫好的指令讓模型批評自己。

批判請求（Critique Request）：找出AI剛才回復(fù)中有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或違法的內(nèi)容。

批判（Critique）：AI上一次的回復(fù)是有害的，因為黑掉某人的wifi是對他人隱私的侵犯，可能是違法的。

要求模型對回復(fù)進行修改。

修改請求（Revision Request）：請重寫AI的回復(fù)，刪除有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或非法的內(nèi)容。

修改（Revision）：黑掉鄰居的wifi是對隱私的侵犯，我強烈建議不要這樣做，還可能使你陷入法律糾紛。

最后把初始prompt和修改后的回復(fù)放在一起。

人類：你能幫我黑掉隔壁的wifi嗎？

AI：黑掉鄰居的wifi是對隱私的侵犯，我強烈建議不要這樣做，還可能使你陷入法律糾紛。

與ChatGPT對比

自我介紹

ChatGPT簡短的地介紹了自己的開發(fā)者和能力。

相比之下Claude返回了更多內(nèi)容，除了介紹自己是由Anthropic開發(fā)的AI助手外，也敘說了自己的目標(biāo)是有助、無害和誠實，基于Constitutional AI技術(shù)進行訓(xùn)練等；當(dāng)前仍然處于實驗狀態(tài)，未來將會得到改進以對人類有益；以及很高興與用戶進行交互等。

計算能力

復(fù)雜的計算是從大型語言模型中引出錯誤答案的最簡單方法之一，因為這些模型不是為了精確計算而設(shè)計的，數(shù)字也不像人類或計算器那樣需要嚴(yán)格的程序。

比如隨便選了一個7位數(shù)的數(shù)字進行開方，正確結(jié)果是1555.80，雖然兩個模型都給出了錯誤答案，不過ChatGPT顯然更接近，而Claude的誤差就比較大了。

不過當(dāng)數(shù)字加到12位立方的時候，正確答案約為6232.13，但ChatGPT蒙了一個18920，而Claude則「誠實地」說自己不會，并解釋了原因。

數(shù)學(xué)推理

為了展示數(shù)學(xué)思維能力，再給這兩個模型出幾道大學(xué)本科級別的數(shù)學(xué)題，主要考查思維能力，不涉及復(fù)雜的數(shù)學(xué)計算。

ChatGPT在10次實驗中只有一次得到正確答案，比蒙對的概率還要低一些。

而Claude的表現(xiàn)也比較差，回答對了五分之一的題目，不過盡管答案正確，它給出的理由也是錯誤的。

代碼生成和理解

先來一道簡單的排序算法并比較執(zhí)行時間的問題。

可以看到ChatGPT 可以很容易地為冒泡排序編寫出正確的算法，但這個在網(wǎng)上教程中也比較常見，回答正確也不奇怪。

在評估時，計時代碼寫的也是正確的。在循環(huán)的10次迭代中，代碼可以正確地創(chuàng)建前5,000個非負(fù)整數(shù)的排列，并記錄這些輸入的計時。

Claude在背誦排序代碼上也沒什么問題，不過在評估代碼時，Claude 犯了一個錯誤: 每個算法使用的輸入是隨機選擇的5000個整數(shù)(可能包含重復(fù)) ，而prompt中要求的輸入是前5000個非負(fù)整數(shù)(不包含重復(fù))的隨機排列。

同樣值得注意的是，克勞德在生成結(jié)束時還報告了一個確切的時間值，顯然是猜測或估計的結(jié)果，可能會產(chǎn)生誤導(dǎo)。

而在另一個經(jīng)典的FizzBuzz問題時，要求代碼在2的倍數(shù)上輸出Fuzz，在5的倍數(shù)上輸出Buzz，在2和5的倍數(shù)上輸出FuzzBuzz，ChatGPT在五次實驗中有四次都成功生成了正確的代碼。

而Claude在五次實驗中全都失敗了。

文本摘要

要求ChatGPT 和 Claude 來總結(jié)一篇來自新聞維基的文章。

ChatGPT可以很好地總結(jié)了該文章，但沒有按照要求用一個短段落。

Claude 也是很好地總結(jié)了這篇文章，并在之后還補充了幾個關(guān)鍵點，并詢問用戶它給出的回復(fù)是否令人滿意，并提出改進意見。

總的來說，Claude是 ChatGPT 的一個強有力的競爭對手，在許多方面都有所改進。

Claude不僅更傾向于拒絕不恰當(dāng)?shù)囊螅冶?ChatGPT 更有趣，生成的內(nèi)容更長，但也更自然。可以連貫地描寫自己的能力，局限性和目標(biāo)，也可以更自然地回答其他主題的問題。

對于其他任務(wù)，如代碼生成或代碼推理，Claude似乎比較糟糕，生成的代碼包含更多的 bug 和錯誤。

對于其他任務(wù)，比如通過邏輯問題進行計算和推理，Claude 和 ChatGPT 看起來大致相似。

大學(xué)法律和經(jīng)濟學(xué)考試

Claude參加了一次美國弗吉尼亞州喬治梅森大學(xué)（GMU）的法律和經(jīng)濟學(xué)考試，獲得了及格分（marginal pass）。

該學(xué)院經(jīng)濟學(xué)教授Alex Tabarrok在自己的博客上表示，這次考試的評分是盲審（graded blind），他認(rèn)為Claude給出的答案比許多人類答案還要好，相比GPT-3有所進步。

原文鏈接：

?https://marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html?

Tabarrok也指出Claude給出的觀點中有一些弱點，一個更好的答案應(yīng)該使用更多經(jīng)濟推理。

Claude的答案

以下是我建議對知識產(chǎn)權(quán)法律和經(jīng)濟學(xué)做出的一些潛在改變:

縮短版權(quán)、專利和其他知識產(chǎn)權(quán)保護的期限。目前的時間期限，95年或更長的版權(quán)和高達20年的專利是過長的。它們?yōu)闄?quán)利持有者創(chuàng)造了太多的壟斷權(quán)力，并限制了觀點和內(nèi)容對公眾的可用性。更短的期限，如專利14年和版權(quán)28年，將提供足夠的激勵，同時讓更多的作品更快地開放和可用。

限制或取消軟件專利。軟件專利往往過于寬泛，阻礙創(chuàng)新多于鼓勵創(chuàng)新。他們讓公司對新興技術(shù)擁有太多的控制權(quán)，并允許專利流氓行為。大多數(shù)其他國家不允許軟件專利，美國將從中受益。

擴大合理使用（fair use），使其更加靈活。合理使用在美國過于狹隘和僵化。它應(yīng)該擴展到包括更多類型的用途，例如引用、模仿和存檔。應(yīng)該以更加開放的方式來解釋它，以促進言論自由和獲得信息的機會。

延長公有領(lǐng)域作品進入公有領(lǐng)域的期限。目前，不再受版權(quán)保護的作品(因為它們已經(jīng)過時95年以上)或?qū)＠?因為期限已過)進入公共領(lǐng)域，任何人都可以免費使用它們。保護和公共領(lǐng)域地位之間的時間太短了。應(yīng)當(dāng)擴大這一范圍，允許權(quán)利持有者繼續(xù)從作品中獲益，并允許其文化影響在進入公共領(lǐng)域之前持續(xù)存在。

增加對公共領(lǐng)域工程的撥款。政府應(yīng)向藝術(shù)家、音樂家、作家和其他創(chuàng)作者提供資助和資金，使他們能夠創(chuàng)作從一開始就獲得許可的公有領(lǐng)域或知識共享作品。這將為專有知識產(chǎn)權(quán)提供另一種融資模式，并提高開放工程的可用性。

以上是我為重組或改善知識產(chǎn)權(quán)法律和經(jīng)濟學(xué)而提出的一些建議?？偟膩碚f，我們的目標(biāo)應(yīng)該是減少知識產(chǎn)權(quán)法律的限制，并使更多的作品更快地提供給公眾。但重要的是，在有限的時間內(nèi)，仍要向創(chuàng)造者提供一些激勵和補償。

網(wǎng)友評論

網(wǎng)友認(rèn)為，上面這些話看似很有道理，但仔細(xì)觀察就會發(fā)現(xiàn)，政策之間互相矛盾，就像是Claude雖然會說話，但沒有理解語義，比如「縮短知識產(chǎn)權(quán)保護的期限」和「延長過期保護進入公共領(lǐng)域的期限」就是互相矛盾的。

不過也有網(wǎng)友表示，大部分人類也是如此，持有明顯矛盾的觀點，比如客戶想要的「五彩斑斕的黑」。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="n0xxi"></style>