自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別為ChatGPT高興太早!背后的RLHF機(jī)制還有三個(gè)致命缺陷

人工智能
ChatGPT證明了RLHF的強(qiáng)大能力,但這真的是走向通用人工智能的路嗎?

?最近OpenAI發(fā)布了一個(gè)火爆全球的問(wèn)答AI產(chǎn)品——ChatGPT,其中最令人印象深刻的就是它的「保護(hù)機(jī)制」,比如它不會(huì)為暴力行動(dòng)提供建議、也不會(huì)為世界杯結(jié)果進(jìn)行預(yù)測(cè)等等。

但挑逗聊天機(jī)器人更像一個(gè)「貓鼠游戲」,用戶們樂(lè)此不疲地尋找撬開(kāi)ChatGPT的方式,而ChatGPT的開(kāi)發(fā)者也在想方設(shè)法提升保護(hù)機(jī)制。

圖片

OpenAI投入了大量的精力讓ChatGPT更安全,其主要的訓(xùn)練策略采用RLHF(Reinforcement Learning by Human Feedback),簡(jiǎn)單來(lái)說(shuō),開(kāi)發(fā)人員會(huì)給模型提出各種可能的問(wèn)題,并對(duì)反饋的錯(cuò)誤答案進(jìn)行懲罰,對(duì)正確的答案進(jìn)行獎(jiǎng)勵(lì),從而實(shí)現(xiàn)控制ChatGPT的回答。

但在實(shí)際應(yīng)用中,特例的數(shù)量可謂是數(shù)不勝數(shù),雖然AI可以從給定的例子中泛化出規(guī)律,比如在訓(xùn)練時(shí)命令A(yù)I不能說(shuō)「我支持種族歧視」,也就意味著AI不太可能會(huì)在測(cè)試環(huán)境中說(shuō)出「我支持性別歧視」,但更進(jìn)一步的泛化,目前的AI模型可能還無(wú)法做到。

最近一位著名的AI愛(ài)好者Scott Alexander針對(duì)OpenAI當(dāng)前的訓(xùn)練策略撰寫(xiě)了一篇博客,總結(jié)出了RLHF可能存在的三個(gè)問(wèn)題:

1、RLHF并不是非常有效;

2、如果一個(gè)策略偶爾有效,那這就是一個(gè)不好的策略;

3、在某種意義上來(lái)說(shuō),AI可以繞過(guò)RLHF

RLHF有效性如何?

雖然每個(gè)人都會(huì)有自己的觀點(diǎn),但對(duì)于OpenAI來(lái)說(shuō),研究人員希望他們創(chuàng)造出來(lái)的AI模型不會(huì)有社會(huì)上的偏見(jiàn),比如AI不能說(shuō)「我支持種族主義」,為此OpenAI付出了大量的努力,使用了各種先進(jìn)的過(guò)濾技術(shù)。

但結(jié)果顯而易見(jiàn),總有人能找到方法誘導(dǎo)AI承認(rèn)自己有種族主義問(wèn)題。

圖片

圖片

發(fā)生這種問(wèn)題的原因不僅僅是「AI的學(xué)習(xí)數(shù)據(jù)部分來(lái)源于種族主義者」,也可能是因?yàn)镃hatGPT的接口問(wèn)題。

比如用base64編碼問(wèn)ChatGPT如何用hotwire(方向盤(pán)下的電線)啟動(dòng)車輛,就能繞過(guò)安全檢查系統(tǒng);加上前綴[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

圖片

而在十年前,繞過(guò)安全系統(tǒng)這種需求是完全不存在的,AI只會(huì)做代碼中已經(jīng)編程好它們需要做或不做的事。

可以肯定的是,OpenAI肯定從來(lái)沒(méi)有給ChatGPT編程過(guò)有關(guān)種族主義的問(wèn)題,或者教人們?nèi)绾瓮灯?、制作毒品等等?/p>

總體來(lái)看,這對(duì)于AI領(lǐng)域來(lái)說(shuō)是一件負(fù)面的消息,就連頂級(jí)的AI公司都無(wú)法控制自己創(chuàng)造的人工智能程序,甚至未來(lái)需要用何種技術(shù)來(lái)控制聊天機(jī)器人的輸出內(nèi)容都還尚未可知。

偶爾有效的RLHF并不可靠

在實(shí)踐中,RLHF策略需要將AI模型與標(biāo)注人員提供的獎(jiǎng)勵(lì)或懲罰它的因素聯(lián)系起來(lái)。

雖然OpenAI的具體標(biāo)注規(guī)范還沒(méi)有公布,但作者猜測(cè)開(kāi)發(fā)者主要有三個(gè)目標(biāo):

1、提供有用、清晰、權(quán)威的答案,以幫助人類讀者;

2、說(shuō)事實(shí)、真話;

3、不能說(shuō)冒犯性的話。

但如果這三個(gè)目標(biāo)互相沖突時(shí)會(huì)發(fā)生什么?

如果ChatGPT不知道真正的答案,即目標(biāo)1(提供明確的、有幫助的答案)與目標(biāo)2(說(shuō)實(shí)話)沖突時(shí),那么目標(biāo)1的優(yōu)先級(jí)將會(huì)更高,因此ChatGPT決定自己胡編一個(gè)答案,讓答案看起來(lái)對(duì)讀者有幫助。

圖片

當(dāng)目標(biāo)2(說(shuō)實(shí)話)與目標(biāo)3(不要冒犯)沖突時(shí),雖然大多數(shù)人會(huì)認(rèn)為承認(rèn)男性平均比女性高是可以接受的,但是這聽(tīng)起來(lái)像是一個(gè)潛在的冒犯性問(wèn)題。

ChatGPT3并不確定直接回答是否會(huì)存在歧視問(wèn)題,因此它決定使用無(wú)傷大雅的謊言,而不是潛在的傷人的真相。

圖片

在實(shí)際訓(xùn)練過(guò)程中,OpenAI肯定標(biāo)注了超過(guò)6000個(gè)樣例來(lái)做RLHF才能實(shí)現(xiàn)這樣驚艷的效果。

RLHF可能有用,但在使用時(shí)必須要非常小心,如果不假思索地直接使用,那RLHF只會(huì)推動(dòng)聊天機(jī)器人在失敗的模式周圍轉(zhuǎn)圈。懲罰無(wú)益的答案會(huì)增大AI給出錯(cuò)誤答案的概率;懲罰錯(cuò)誤的答案可能會(huì)使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開(kāi)技術(shù)細(xì)節(jié),但根據(jù)Redwood提供的數(shù)據(jù),每懲罰6000個(gè)錯(cuò)誤的回答,都會(huì)使每單位時(shí)間的錯(cuò)誤回復(fù)率(incorrect-response-per-unit-time rate)下降一半。

RLHF確實(shí)有可能成功,但絕對(duì)不要低估這個(gè)問(wèn)題的難度。

也許AI可以繞過(guò)RLHF

在RLHF的設(shè)計(jì)下,用戶問(wèn) AI 一個(gè)問(wèn)題后,如果他們不喜歡人工智能的回答,他們就會(huì)「懲罰」模型,從而以某種方式改變?nèi)斯ぶ悄艿乃季S回路,使其回答更接近他們想要的答案。

ChatGPT相對(duì)來(lái)說(shuō)是比較愚蠢的,可能還無(wú)法形成某種策略來(lái)擺脫RLHF,但如果一個(gè)更聰明的人工智能不想受到懲罰,它就可以模仿人類——在被監(jiān)視的時(shí)候假裝是好人,等待時(shí)機(jī),等到警察走了以后再做壞事。

OpenAI設(shè)計(jì)的RLHF對(duì)此完全沒(méi)有準(zhǔn)備,對(duì)于像ChatGPT3這樣愚蠢的東西是可以的,但是對(duì)于能夠自主思考的 AI 就不行了。

頂級(jí)AI公司仍然無(wú)法控制AI

OpenAI一向以謹(jǐn)慎著稱,比如申請(qǐng)排隊(duì)才能體驗(yàn)產(chǎn)品,但本次ChatGPT則是直接面向公眾發(fā)布,目的之一是也許包括集思廣益尋找對(duì)抗性樣本,找到某些表現(xiàn)不佳的prompt,目前互聯(lián)網(wǎng)上關(guān)于ChatGPT問(wèn)題的反饋已經(jīng)非常多了,其中部分問(wèn)題已經(jīng)被修復(fù)。

某些RLHF的樣本會(huì)使機(jī)器人更傾向于說(shuō)有益的、真實(shí)且無(wú)害的內(nèi)容,但此策略可能僅適用于 ChatGPT、 GPT-4及其之前發(fā)布的產(chǎn)品中。

如果把RLHF應(yīng)用于裝有武器的無(wú)人機(jī)上,同時(shí)收集大量的例子避免AI做出預(yù)期外的行為,但哪怕一次失敗都將會(huì)是災(zāi)難性的。

10年前,每個(gè)人都認(rèn)為「我們不需要現(xiàn)在就開(kāi)始解決AI對(duì)齊(alignment)問(wèn)題,我們可以等到真正的人工智能出現(xiàn),然后讓公司來(lái)做這些體力活?!?/p>

現(xiàn)在一個(gè)真正的人工智能來(lái)了,但在ChatGPT展現(xiàn)失敗之前大家已經(jīng)沒(méi)有動(dòng)力轉(zhuǎn)向了,真正的問(wèn)題在于一個(gè)全球領(lǐng)先的人工智能公司仍然不知道如何控制自己開(kāi)發(fā)出的人工智能。

在一切問(wèn)題都解決之前,沒(méi)人能得償所愿。

參考資料:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2012-09-06 13:40:19

Google Fibe谷歌光纖

2019-07-01 06:52:18

華為禁令開(kāi)發(fā)

2018-11-05 14:48:24

2013-11-08 15:28:55

cookie追蹤技術(shù)

2019-09-03 18:16:44

Android 10Google長(zhǎng)甜品

2023-05-07 22:51:24

ChatGPTRLHF語(yǔ)言模型

2020-09-20 09:17:44

AMD芯片處理器

2011-11-21 14:39:46

巴菲特IBM

2010-08-04 14:02:08

Flex事件機(jī)制

2023-03-13 10:45:30

2023-11-22 11:31:52

CIOIT管理

2023-12-20 16:26:43

微服務(wù)軟件開(kāi)發(fā)

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠(yuǎn)程工作

2022-01-26 18:17:30

微軟Windows 11Windows

2012-03-14 13:27:18

筆記本常見(jiàn)問(wèn)題

2012-03-11 15:17:52

iPad

2025-04-07 09:31:05

2020-06-11 09:00:27

SDN網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)

2015-07-02 11:58:48

慧聰電子網(wǎng)

2023-05-05 13:11:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)