自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Andrej Karpathy:神奇大模型不存在的,只是對(duì)人類(lèi)標(biāo)注的拙劣模仿

人工智能 新聞
知名 AI 領(lǐng)域?qū)W者,OpenAI 創(chuàng)始成員、特斯拉前 AI 高級(jí)總監(jiān) Andrej Karpathy 發(fā)表觀點(diǎn):「人們對(duì)『向人工智能詢問(wèn)某件事』的解釋過(guò)于夸張」,引發(fā)網(wǎng)友熱議。

大模型回答人類(lèi)的對(duì)話內(nèi)容,究竟有多少「智能」成分在里面?

本周五,知名 AI 領(lǐng)域?qū)W者,OpenAI 創(chuàng)始成員、特斯拉前 AI 高級(jí)總監(jiān) Andrej Karpathy 發(fā)表觀點(diǎn):「人們對(duì)『向人工智能詢問(wèn)某件事』的解釋過(guò)于夸張」,引發(fā)網(wǎng)友熱議。

圖片

Karpathy 稱:人工智能基本上是通過(guò)模仿人工標(biāo)注數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練的語(yǔ)言模型。所以不要將對(duì)話視為「詢問(wèn)人工智能」的神秘主義,而應(yīng)將其更多地視為「詢問(wèn)互聯(lián)網(wǎng)上的平均數(shù)據(jù)標(biāo)注者」。

例如,當(dāng)你問(wèn)「阿姆斯特丹十大景點(diǎn)」之類(lèi)的問(wèn)題時(shí),一些受雇的數(shù)據(jù)標(biāo)簽員可能在某個(gè)時(shí)候看到了類(lèi)似的問(wèn)題,使用谷歌等軟件研究了 20 分鐘,列出了 10 個(gè)景點(diǎn)的列表,然后字面意思就變成了正確答案,訓(xùn)練人工智能給出該問(wèn)題的答案。如果有問(wèn)題的確切位置不在微調(diào)訓(xùn)練集中,神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)從預(yù)訓(xùn)練階段(互聯(lián)網(wǎng)文檔的語(yǔ)言建模)獲得的知識(shí)來(lái)進(jìn)行估計(jì)。

當(dāng)有網(wǎng)友評(píng)論稱:「RLHF 可以創(chuàng)造超越人類(lèi)的結(jié)果」,Karpathy 表示:「RLHF 仍然是來(lái)自人類(lèi)反饋的 RL,所以我不會(huì)這么說(shuō)」。

圖片

Karpathy 認(rèn)為:RLHF 將模型性能從 SFT 的「人工生成」級(jí)別提升到「人工判別」級(jí)別。但這與其說(shuō)是「原則上」,不如說(shuō)是「實(shí)踐上」,因?yàn)椤概袆e」對(duì)于普通人來(lái)說(shuō)比「生成」更容易(例如,判斷這 5 首關(guān)于 X 的詩(shī)中哪一首最好,而不是寫(xiě)一首關(guān)于 X 的詩(shī))。

另外,還可以從群體智慧效應(yīng)中獲得單獨(dú)的提升,即 LLM 的性能不是達(dá)到人類(lèi)水平,而是達(dá)到人類(lèi)整體水平。因此,原則上,對(duì)于 RLHF,所能期望的最好結(jié)果就是達(dá)到專家水平。

所以從某種意義上來(lái)說(shuō),這算是「超人」,但 Karpathy 認(rèn)為:要按照人們默認(rèn)的方式成為真正的「超人」,要去 RL 而不是 RLHF。

其實(shí),這已不是 Andrej Karpathy 第一次批判 RLHF 了。作為前 OpenAI 重要成員,他在今年 8 月就和 Yann LeCun 等人一起質(zhì)疑過(guò)由 GPT 系列模型發(fā)揚(yáng)光大的 RLHF 強(qiáng)化學(xué)習(xí)的意義。

圖片

「RLHF 只是勉強(qiáng)算強(qiáng)化學(xué)習(xí)?!?/span>

他當(dāng)時(shí)使用 DeepMind 的 AlphaGo 作為例子。如果我們當(dāng)時(shí)用 RLHF 的方法訓(xùn)練 AlphaGo 會(huì)是什么樣子?可能會(huì)既無(wú)法構(gòu)成有效的獎(jiǎng)勵(lì),又會(huì)形成偏離正常軌道的優(yōu)化,那就勢(shì)必?zé)o法創(chuàng)造出「打敗人類(lèi)世界冠軍」的歷史了。

出于同樣的原因,Karpathy 對(duì) RLHF 竟然適用于 LLM 感到「有點(diǎn)驚訝」。因?yàn)槲覀優(yōu)?LLM 訓(xùn)練的 RM(Reward Model)只是以完全相同的方式進(jìn)行直覺(jué)檢查。它會(huì)對(duì)人類(lèi)標(biāo)注者可能喜歡的判斷給出高分,它不是正確解決問(wèn)題的「實(shí)際」目標(biāo),而是人類(lèi)認(rèn)為好的替代目標(biāo)。

其次,你甚至不能運(yùn)行 RLHF 太長(zhǎng)時(shí)間,因?yàn)槟愕哪P秃芸炀蜁?huì)學(xué)會(huì)適應(yīng)游戲獎(jiǎng)勵(lì)模型,再推理出一些不正常的 Token。這在人類(lèi)看來(lái)很荒謬,但出于某種原因 RM 會(huì)認(rèn)為看起來(lái)很棒。

無(wú)獨(dú)有偶,今年 9 月,一篇來(lái)自 VRAIN、劍橋大學(xué)研究人員的 Nature 論文對(duì) o1-preview 等模型進(jìn)行了評(píng)測(cè),發(fā)現(xiàn)很多對(duì)于人類(lèi)來(lái)說(shuō)簡(jiǎn)單的任務(wù),大模型卻根本無(wú)法解決。而在一些復(fù)雜的任務(wù)上,LLM 也根本不知道「回避」,而是會(huì)裝模作樣的思考一通之后,給出一個(gè)錯(cuò)誤的答案。

圖片

雖然隨著時(shí)間的推移,大模型的參數(shù)體量越來(lái)越大,訓(xùn)練的數(shù)據(jù)也越來(lái)越多,性能也不斷提升,但從基礎(chǔ)機(jī)制的角度來(lái)說(shuō),它們似乎并不靠譜。

如果 RLHF 不管用,還能有什么樣的獎(jiǎng)勵(lì)機(jī)制能幫助大模型「準(zhǔn)確遵循指令」呢?

今年 7 月,OpenAI 就公布了一種教導(dǎo) AI 模型遵守安全政策的新方法,稱為基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards,RBR)。RBR 不僅限于安全訓(xùn)練,它們可以適應(yīng)各種任務(wù),其中明確的規(guī)則可以定義所需的行為,例如為特定應(yīng)用程序定制模型響應(yīng)的個(gè)性或格式。這或許為大模型下一步性能突破提供了新的思路。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-09-01 14:32:27

語(yǔ)言大語(yǔ)言模型

2018-07-03 14:20:10

數(shù)據(jù)庫(kù)恢復(fù)備份

2018-07-19 06:14:09

2021-01-25 07:21:24

GitHub 開(kāi)源代碼下載

2023-09-12 08:02:13

viewport斷點(diǎn)

2024-12-13 08:25:59

DML操作SQL

2024-01-23 10:35:09

ChatGPT人工智能

2020-11-03 10:23:22

云計(jì)算容器技術(shù)

2024-12-02 12:24:15

2024-07-22 08:03:55

2019-12-31 09:11:01

后臺(tái)Android系統(tǒng)

2012-05-16 11:35:16

SQL Server拒絕訪問(wèn)

2017-12-07 14:57:13

404互聯(lián)網(wǎng)錯(cuò)誤代碼

2017-12-26 08:25:57

硬盤(pán)數(shù)據(jù)丟失

2022-08-21 21:15:28

模型AI

2011-12-28 10:22:18

亞馬遜EC2超級(jí)計(jì)算機(jī)

2024-05-24 12:52:48

2021-09-26 05:05:09

WindowWeb JS

2018-07-03 10:09:18

閃存

2011-07-13 10:01:16

域控制器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)