Andrej Karpathy：神奇大模型不存在的，只是對(duì)人類(lèi)標(biāo)注的拙劣模仿

作者：機(jī)器之心 2024-12-02 09:20:00

知名 AI 領(lǐng)域?qū)W者，OpenAI 創(chuàng)始成員、特斯拉前 AI 高級(jí)總監(jiān) Andrej Karpathy 發(fā)表觀點(diǎn)：「人們對(duì)『向人工智能詢問(wèn)某件事』的解釋過(guò)于夸張」，引發(fā)網(wǎng)友熱議。

大模型回答人類(lèi)的對(duì)話內(nèi)容，究竟有多少「智能」成分在里面？

本周五，知名 AI 領(lǐng)域?qū)W者，OpenAI 創(chuàng)始成員、特斯拉前 AI 高級(jí)總監(jiān) Andrej Karpathy 發(fā)表觀點(diǎn)：「人們對(duì)『向人工智能詢問(wèn)某件事』的解釋過(guò)于夸張」，引發(fā)網(wǎng)友熱議。

Karpathy 稱：人工智能基本上是通過(guò)模仿人工標(biāo)注數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練的語(yǔ)言模型。所以不要將對(duì)話視為「詢問(wèn)人工智能」的神秘主義，而應(yīng)將其更多地視為「詢問(wèn)互聯(lián)網(wǎng)上的平均數(shù)據(jù)標(biāo)注者」。

例如，當(dāng)你問(wèn)「阿姆斯特丹十大景點(diǎn)」之類(lèi)的問(wèn)題時(shí)，一些受雇的數(shù)據(jù)標(biāo)簽員可能在某個(gè)時(shí)候看到了類(lèi)似的問(wèn)題，使用谷歌等軟件研究了 20 分鐘，列出了 10 個(gè)景點(diǎn)的列表，然后字面意思就變成了正確答案，訓(xùn)練人工智能給出該問(wèn)題的答案。如果有問(wèn)題的確切位置不在微調(diào)訓(xùn)練集中，神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)從預(yù)訓(xùn)練階段（互聯(lián)網(wǎng)文檔的語(yǔ)言建模）獲得的知識(shí)來(lái)進(jìn)行估計(jì)。

當(dāng)有網(wǎng)友評(píng)論稱：「RLHF 可以創(chuàng)造超越人類(lèi)的結(jié)果」，Karpathy 表示：「RLHF 仍然是來(lái)自人類(lèi)反饋的 RL，所以我不會(huì)這么說(shuō)」。

Karpathy 認(rèn)為：RLHF 將模型性能從 SFT 的「人工生成」級(jí)別提升到「人工判別」級(jí)別。但這與其說(shuō)是「原則上」，不如說(shuō)是「實(shí)踐上」，因?yàn)椤概袆e」對(duì)于普通人來(lái)說(shuō)比「生成」更容易（例如，判斷這 5 首關(guān)于 X 的詩(shī)中哪一首最好，而不是寫(xiě)一首關(guān)于 X 的詩(shī)）。

另外，還可以從群體智慧效應(yīng)中獲得單獨(dú)的提升，即 LLM 的性能不是達(dá)到人類(lèi)水平，而是達(dá)到人類(lèi)整體水平。因此，原則上，對(duì)于 RLHF，所能期望的最好結(jié)果就是達(dá)到專家水平。

所以從某種意義上來(lái)說(shuō)，這算是「超人」，但 Karpathy 認(rèn)為：要按照人們默認(rèn)的方式成為真正的「超人」，要去 RL 而不是 RLHF。

其實(shí)，這已不是 Andrej Karpathy 第一次批判 RLHF 了。作為前 OpenAI 重要成員，他在今年 8 月就和 Yann LeCun 等人一起質(zhì)疑過(guò)由 GPT 系列模型發(fā)揚(yáng)光大的 RLHF 強(qiáng)化學(xué)習(xí)的意義。

「RLHF 只是勉強(qiáng)算強(qiáng)化學(xué)習(xí)?！?/span>

他當(dāng)時(shí)使用 DeepMind 的 AlphaGo 作為例子。如果我們當(dāng)時(shí)用 RLHF 的方法訓(xùn)練 AlphaGo 會(huì)是什么樣子？可能會(huì)既無(wú)法構(gòu)成有效的獎(jiǎng)勵(lì)，又會(huì)形成偏離正常軌道的優(yōu)化，那就勢(shì)必?zé)o法創(chuàng)造出「打敗人類(lèi)世界冠軍」的歷史了。

出于同樣的原因，Karpathy 對(duì) RLHF 竟然適用于 LLM 感到「有點(diǎn)驚訝」。因?yàn)槲覀優(yōu)?LLM 訓(xùn)練的 RM（Reward Model）只是以完全相同的方式進(jìn)行直覺(jué)檢查。它會(huì)對(duì)人類(lèi)標(biāo)注者可能喜歡的判斷給出高分，它不是正確解決問(wèn)題的「實(shí)際」目標(biāo)，而是人類(lèi)認(rèn)為好的替代目標(biāo)。

其次，你甚至不能運(yùn)行 RLHF 太長(zhǎng)時(shí)間，因?yàn)槟愕哪Ｐ秃芸炀蜁?huì)學(xué)會(huì)適應(yīng)游戲獎(jiǎng)勵(lì)模型，再推理出一些不正常的 Token。這在人類(lèi)看來(lái)很荒謬，但出于某種原因 RM 會(huì)認(rèn)為看起來(lái)很棒。

無(wú)獨(dú)有偶，今年 9 月，一篇來(lái)自 VRAIN、劍橋大學(xué)研究人員的 Nature 論文對(duì) o1-preview 等模型進(jìn)行了評(píng)測(cè)，發(fā)現(xiàn)很多對(duì)于人類(lèi)來(lái)說(shuō)簡(jiǎn)單的任務(wù)，大模型卻根本無(wú)法解決。而在一些復(fù)雜的任務(wù)上，LLM 也根本不知道「回避」，而是會(huì)裝模作樣的思考一通之后，給出一個(gè)錯(cuò)誤的答案。

雖然隨著時(shí)間的推移，大模型的參數(shù)體量越來(lái)越大，訓(xùn)練的數(shù)據(jù)也越來(lái)越多，性能也不斷提升，但從基礎(chǔ)機(jī)制的角度來(lái)說(shuō)，它們似乎并不靠譜。

如果 RLHF 不管用，還能有什么樣的獎(jiǎng)勵(lì)機(jī)制能幫助大模型「準(zhǔn)確遵循指令」呢？

今年 7 月，OpenAI 就公布了一種教導(dǎo) AI 模型遵守安全政策的新方法，稱為基于規(guī)則的獎(jiǎng)勵(lì)（Rule-Based Rewards，RBR）。RBR 不僅限于安全訓(xùn)練，它們可以適應(yīng)各種任務(wù)，其中明確的規(guī)則可以定義所需的行為，例如為特定應(yīng)用程序定制模型響應(yīng)的個(gè)性或格式。這或許為大模型下一步性能突破提供了新的思路。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Andrej Karpathy：神奇大模型不存在的，只是對(duì)人類(lèi)標(biāo)注的拙劣模仿

Andrej Karpathy：神奇大模型不存在的，只是對(duì)人類(lèi)標(biāo)注的拙劣模仿