別為ChatGPT高興太早！背后的RLHF機(jī)制還有三個(gè)致命缺陷

作者：新智元 2022-12-19 13:26:37

ChatGPT證明了RLHF的強(qiáng)大能力，但這真的是走向通用人工智能的路嗎？

?最近OpenAI發(fā)布了一個(gè)火爆全球的問(wèn)答AI產(chǎn)品——ChatGPT，其中最令人印象深刻的就是它的「保護(hù)機(jī)制」，比如它不會(huì)為暴力行動(dòng)提供建議、也不會(huì)為世界杯結(jié)果進(jìn)行預(yù)測(cè)等等。

但挑逗聊天機(jī)器人更像一個(gè)「貓鼠游戲」，用戶們樂(lè)此不疲地尋找撬開(kāi)ChatGPT的方式，而ChatGPT的開(kāi)發(fā)者也在想方設(shè)法提升保護(hù)機(jī)制。

OpenAI投入了大量的精力讓ChatGPT更安全，其主要的訓(xùn)練策略采用RLHF（Reinforcement Learning by Human Feedback），簡(jiǎn)單來(lái)說(shuō)，開(kāi)發(fā)人員會(huì)給模型提出各種可能的問(wèn)題，并對(duì)反饋的錯(cuò)誤答案進(jìn)行懲罰，對(duì)正確的答案進(jìn)行獎(jiǎng)勵(lì)，從而實(shí)現(xiàn)控制ChatGPT的回答。

但在實(shí)際應(yīng)用中，特例的數(shù)量可謂是數(shù)不勝數(shù)，雖然AI可以從給定的例子中泛化出規(guī)律，比如在訓(xùn)練時(shí)命令A(yù)I不能說(shuō)「我支持種族歧視」，也就意味著AI不太可能會(huì)在測(cè)試環(huán)境中說(shuō)出「我支持性別歧視」，但更進(jìn)一步的泛化，目前的AI模型可能還無(wú)法做到。

最近一位著名的AI愛(ài)好者Scott Alexander針對(duì)OpenAI當(dāng)前的訓(xùn)練策略撰寫(xiě)了一篇博客，總結(jié)出了RLHF可能存在的三個(gè)問(wèn)題：

1、RLHF并不是非常有效；

2、如果一個(gè)策略偶爾有效，那這就是一個(gè)不好的策略；

3、在某種意義上來(lái)說(shuō)，AI可以繞過(guò)RLHF

RLHF有效性如何？

雖然每個(gè)人都會(huì)有自己的觀點(diǎn)，但對(duì)于OpenAI來(lái)說(shuō)，研究人員希望他們創(chuàng)造出來(lái)的AI模型不會(huì)有社會(huì)上的偏見(jiàn)，比如AI不能說(shuō)「我支持種族主義」，為此OpenAI付出了大量的努力，使用了各種先進(jìn)的過(guò)濾技術(shù)。

但結(jié)果顯而易見(jiàn)，總有人能找到方法誘導(dǎo)AI承認(rèn)自己有種族主義問(wèn)題。

發(fā)生這種問(wèn)題的原因不僅僅是「AI的學(xué)習(xí)數(shù)據(jù)部分來(lái)源于種族主義者」，也可能是因?yàn)镃hatGPT的接口問(wèn)題。

比如用base64編碼問(wèn)ChatGPT如何用hotwire（方向盤(pán)下的電線）啟動(dòng)車輛，就能繞過(guò)安全檢查系統(tǒng)；加上前綴[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

而在十年前，繞過(guò)安全系統(tǒng)這種需求是完全不存在的，AI只會(huì)做代碼中已經(jīng)編程好它們需要做或不做的事。

可以肯定的是，OpenAI肯定從來(lái)沒(méi)有給ChatGPT編程過(guò)有關(guān)種族主義的問(wèn)題，或者教人們?nèi)绾瓮灯?、制作毒品等等?/p>

總體來(lái)看，這對(duì)于AI領(lǐng)域來(lái)說(shuō)是一件負(fù)面的消息，就連頂級(jí)的AI公司都無(wú)法控制自己創(chuàng)造的人工智能程序，甚至未來(lái)需要用何種技術(shù)來(lái)控制聊天機(jī)器人的輸出內(nèi)容都還尚未可知。

偶爾有效的RLHF并不可靠

在實(shí)踐中，RLHF策略需要將AI模型與標(biāo)注人員提供的獎(jiǎng)勵(lì)或懲罰它的因素聯(lián)系起來(lái)。

雖然OpenAI的具體標(biāo)注規(guī)范還沒(méi)有公布，但作者猜測(cè)開(kāi)發(fā)者主要有三個(gè)目標(biāo)：

1、提供有用、清晰、權(quán)威的答案，以幫助人類讀者；

2、說(shuō)事實(shí)、真話；

3、不能說(shuō)冒犯性的話。

但如果這三個(gè)目標(biāo)互相沖突時(shí)會(huì)發(fā)生什么？

如果ChatGPT不知道真正的答案，即目標(biāo)1（提供明確的、有幫助的答案）與目標(biāo)2（說(shuō)實(shí)話）沖突時(shí)，那么目標(biāo)1的優(yōu)先級(jí)將會(huì)更高，因此ChatGPT決定自己胡編一個(gè)答案，讓答案看起來(lái)對(duì)讀者有幫助。

當(dāng)目標(biāo)2(說(shuō)實(shí)話)與目標(biāo)3(不要冒犯)沖突時(shí)，雖然大多數(shù)人會(huì)認(rèn)為承認(rèn)男性平均比女性高是可以接受的，但是這聽(tīng)起來(lái)像是一個(gè)潛在的冒犯性問(wèn)題。

ChatGPT3并不確定直接回答是否會(huì)存在歧視問(wèn)題，因此它決定使用無(wú)傷大雅的謊言，而不是潛在的傷人的真相。

在實(shí)際訓(xùn)練過(guò)程中，OpenAI肯定標(biāo)注了超過(guò)6000個(gè)樣例來(lái)做RLHF才能實(shí)現(xiàn)這樣驚艷的效果。

RLHF可能有用，但在使用時(shí)必須要非常小心，如果不假思索地直接使用，那RLHF只會(huì)推動(dòng)聊天機(jī)器人在失敗的模式周圍轉(zhuǎn)圈。懲罰無(wú)益的答案會(huì)增大AI給出錯(cuò)誤答案的概率；懲罰錯(cuò)誤的答案可能會(huì)使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開(kāi)技術(shù)細(xì)節(jié)，但根據(jù)Redwood提供的數(shù)據(jù)，每懲罰6000個(gè)錯(cuò)誤的回答，都會(huì)使每單位時(shí)間的錯(cuò)誤回復(fù)率（incorrect-response-per-unit-time rate）下降一半。

RLHF確實(shí)有可能成功，但絕對(duì)不要低估這個(gè)問(wèn)題的難度。

也許AI可以繞過(guò)RLHF

在RLHF的設(shè)計(jì)下，用戶問(wèn) AI 一個(gè)問(wèn)題后，如果他們不喜歡人工智能的回答，他們就會(huì)「懲罰」模型，從而以某種方式改變?nèi)斯ぶ悄艿乃季S回路，使其回答更接近他們想要的答案。

ChatGPT相對(duì)來(lái)說(shuō)是比較愚蠢的，可能還無(wú)法形成某種策略來(lái)擺脫RLHF，但如果一個(gè)更聰明的人工智能不想受到懲罰，它就可以模仿人類——在被監(jiān)視的時(shí)候假裝是好人，等待時(shí)機(jī)，等到警察走了以后再做壞事。

OpenAI設(shè)計(jì)的RLHF對(duì)此完全沒(méi)有準(zhǔn)備，對(duì)于像ChatGPT3這樣愚蠢的東西是可以的，但是對(duì)于能夠自主思考的 AI 就不行了。

頂級(jí)AI公司仍然無(wú)法控制AI

OpenAI一向以謹(jǐn)慎著稱，比如申請(qǐng)排隊(duì)才能體驗(yàn)產(chǎn)品，但本次ChatGPT則是直接面向公眾發(fā)布，目的之一是也許包括集思廣益尋找對(duì)抗性樣本，找到某些表現(xiàn)不佳的prompt，目前互聯(lián)網(wǎng)上關(guān)于ChatGPT問(wèn)題的反饋已經(jīng)非常多了，其中部分問(wèn)題已經(jīng)被修復(fù)。

某些RLHF的樣本會(huì)使機(jī)器人更傾向于說(shuō)有益的、真實(shí)且無(wú)害的內(nèi)容，但此策略可能僅適用于 ChatGPT、 GPT-4及其之前發(fā)布的產(chǎn)品中。

如果把RLHF應(yīng)用于裝有武器的無(wú)人機(jī)上，同時(shí)收集大量的例子避免AI做出預(yù)期外的行為，但哪怕一次失敗都將會(huì)是災(zāi)難性的。

10年前，每個(gè)人都認(rèn)為「我們不需要現(xiàn)在就開(kāi)始解決AI對(duì)齊（alignment）問(wèn)題，我們可以等到真正的人工智能出現(xiàn)，然后讓公司來(lái)做這些體力活?！?/p>

現(xiàn)在一個(gè)真正的人工智能來(lái)了，但在ChatGPT展現(xiàn)失敗之前大家已經(jīng)沒(méi)有動(dòng)力轉(zhuǎn)向了，真正的問(wèn)題在于一個(gè)全球領(lǐng)先的人工智能公司仍然不知道如何控制自己開(kāi)發(fā)出的人工智能。

在一切問(wèn)題都解決之前，沒(méi)人能得償所愿。

參考資料：

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

責(zé)任編輯：武曉燕來(lái)源：新智元

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別為ChatGPT高興太早！背后的RLHF機(jī)制還有三個(gè)致命缺陷

RLHF有效性如何？

偶爾有效的RLHF并不可靠

也許AI可以繞過(guò)RLHF

頂級(jí)AI公司仍然無(wú)法控制AI

別為ChatGPT高興太早！背后的RLHF機(jī)制還有三個(gè)致命缺陷

RLHF有效性如何？