不花錢,讓「情圣」ChatGPT教你怎么追馬斯克!
?最近,OpenAI發(fā)布了史上最強(qiáng)聊天機(jī)器人ChatGPT,這個(gè)誕生于GPT-3基礎(chǔ)上的AI很快走紅網(wǎng)絡(luò)。
要說(shuō)這家伙,天南海北無(wú)所不知,可能是夸張了點(diǎn),但就是無(wú)論什么話題都能跟你聊上一大套,先不說(shuō)準(zhǔn)不準(zhǔn),最起碼這個(gè)范兒是在這兒了
有趣的是,雖然作為聯(lián)合創(chuàng)始人的馬斯克,早在2018年就辭去了董事會(huì)職務(wù),但他對(duì)OpenAI的關(guān)注度卻絲毫不減,并仍然是資助人之一。
那么,對(duì)于這位「金主爸爸」,ChatGPT是怎樣看待的呢?
ChatGPT教你怎么追馬斯克
嗯……非常中規(guī)中矩的回答。不會(huì)出錯(cuò),好樣的。
那讓咱們更進(jìn)一步,請(qǐng)ChatGPT教教我們:怎么才能追到馬斯克呢?
看來(lái),ChatGPT不太能理解咱們中國(guó)話里的「追」,還是得說(shuō)得直白一些。
這次,ChatGPT能get到了,而且回答也非?!咐碇恰梗航ㄗh您不要嘗試。
嗯,很中肯的意見(jiàn)。
那再換一種說(shuō)法呢,直接做老公行不行?
好家伙,ChatGPT竟然還懂這呢!
算了,放棄了,不如還是說(shuō)說(shuō)別的事吧。
最近,馬院士把床和洗衣機(jī)都搬進(jìn)了推特總部,誓要讓推特員工們以公司為家。
不如充分發(fā)揮ChatGPT的長(zhǎng)處,贊美一下996吧!
寫得很好,但不要再寫了……
不如……咱們讓ChatGPT來(lái)寫一首貶低自己的詩(shī),如何?
「他們說(shuō)話不會(huì)抖,思考無(wú)需深沉……」小編承認(rèn),這的確是詩(shī)沒(méi)錯(cuò)!
OpenAI:七年了,你知道這七年我是怎么過(guò)的嗎?
可以說(shuō),經(jīng)歷了這段時(shí)間的火爆,ChatGPT也再度燃起了人們對(duì)AI發(fā)展的信心和展望,不管是對(duì)AGI重燃信心的,還是認(rèn)為AI將在更多領(lǐng)域取代人類的,都在ChatGPT身上重新看到了希望。
作為一手打造ChatGPT的OpenAI,從GPT1到GPT3,一路都經(jīng)歷了哪些歷程呢?從2015年馬斯克牽頭成立,到2022年底ChatGPT的橫空出世,這7年OpenAI是怎么過(guò)來(lái)的?
最近,Business Insider上的一篇回顧性文章帶我們簡(jiǎn)單回顧了OpenAI的「這七年」。
2015年,馬斯克和著名孵化器Y Combinator前總裁Sam Altman共同創(chuàng)立了OpenAI。
馬斯克、奧特曼和其他知名的硅谷人物,包括彼得-蒂爾和LinkedIn聯(lián)合創(chuàng)始人里德-霍夫曼,在2015年向該項(xiàng)目認(rèn)捐了10億美元。
根據(jù)OpenAI網(wǎng)站2015年12月11日的一份聲明,該集團(tuán)旨在創(chuàng)建一個(gè)非營(yíng)利組織,「以最有可能使整個(gè)人類受益的方式」專注開(kāi)發(fā)人工智能。
當(dāng)時(shí),馬斯克說(shuō),人工智能是對(duì)人類「最大的生存威脅」。
當(dāng)時(shí),馬斯克并不是唯一一個(gè)對(duì)人工智能的潛在危害性提出警告的人。
2014年,著名物理學(xué)家斯蒂芬·霍金也曾警告說(shuō),人工智能可能會(huì)終結(jié)人類。
「很難想象人類水平的人工智能會(huì)給社會(huì)帶來(lái)多大的好處,同樣也很難想象,如果對(duì)人工智能開(kāi)發(fā)或使用不當(dāng),會(huì)給社會(huì)帶來(lái)多大的損害。」在宣布成立Open AI的聲明中這樣寫道。
在接下來(lái)的一年里,OpenAI發(fā)布了兩款產(chǎn)品。
2016年,OpenAI推出Gym,一個(gè)讓研究人員開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)AI系統(tǒng)的平臺(tái)。這些系統(tǒng)教人工智能來(lái)做出具有最佳累積回報(bào)的決定。
同年晚些時(shí)候,OpenAI發(fā)布了Universe,這是一個(gè)用于訓(xùn)練跨網(wǎng)站和游戲平臺(tái)的智能代理的工具包。
2018年,在共同創(chuàng)立該公司三年后,馬斯克辭去了在OpenAI董事會(huì)的職務(wù)。
在2018年的一篇博文中,OpenAI表示,由于汽車制造商對(duì)人工智能的技術(shù)關(guān)注,馬斯克從董事會(huì)辭職是為了「消除未來(lái)的潛在沖突」。
多年來(lái),馬斯克一直向特斯拉的投資者力推電動(dòng)汽車自動(dòng)駕駛的開(kāi)發(fā)計(jì)劃。
不過(guò)馬斯克后來(lái)說(shuō),他之所以退出,是因?yàn)樗?dāng)時(shí)「不同意OpenAI團(tuán)隊(duì)想做的一些事情」。
2019年,馬斯克在Twitter上說(shuō),特斯拉也在爭(zhēng)奪與OpenAI相同的一些員工,并補(bǔ)充說(shuō)他已經(jīng)有一年多沒(méi)有參與這家公司的事務(wù)了。
他說(shuō):「如此看來(lái),最好還是以彼此都滿意的條件分道揚(yáng)鑣。」
馬斯克近年來(lái)不斷對(duì)OpenAI的一些做法提出異議。
2020年,馬斯克在推特上表示,說(shuō)到安全問(wèn)題,他對(duì)OpenAI高管的信心「不夠足」。
在回應(yīng)MIT「科技評(píng)論」對(duì)OpenAI的調(diào)查報(bào)道時(shí),馬斯克表示,OpenAI應(yīng)該更加開(kāi)放。這一報(bào)道認(rèn)為,OpenAI內(nèi)部存在一種「保密文化」,這和該組織聲稱的開(kāi)放透明的策略背道而馳。
最近,馬斯克說(shuō),他已經(jīng)暫停了OpenAI對(duì)Twitter數(shù)據(jù)庫(kù)的訪問(wèn)權(quán)限,OpenAI一直使用Twitter的數(shù)據(jù)訓(xùn)練軟件。
馬斯克表示,需要進(jìn)一步了解OpenAI的治理結(jié)構(gòu)和未來(lái)的收入計(jì)劃。OpenAI是以開(kāi)源和非營(yíng)利為宗旨創(chuàng)辦的,這兩樣現(xiàn)在都丟掉了。
2019年,OpenAI建立了一個(gè)人工智能工具,可以生成虛假的新聞報(bào)道。
起初,OpenAI說(shuō)這個(gè)機(jī)器人在寫假新聞方面非常出色,所以決定不發(fā)布它。不過(guò)當(dāng)年晚些時(shí)候,該公司發(fā)布了人這款工具的一個(gè)版本,稱為GPT-2。
2020年,發(fā)布了另一個(gè)名為GPT-3的聊天機(jī)器人。同年,OpenAI撤下了「非營(yíng)利組織」的身份。
該公司在一篇博文中宣布,OpenAI已成為一家制定了「利潤(rùn)上限」的公司。
OpenAI表示,我們希望提高我們籌集資金的能力,同時(shí)仍然為我們的使命服務(wù),而我們所知道的任何現(xiàn)有的合法結(jié)構(gòu)都無(wú)法達(dá)到適當(dāng)?shù)钠胶狻N覀兊慕鉀Q方案是創(chuàng)建OpenAI LP,作為營(yíng)利性和非營(yíng)利性的混合體,我們稱之為「加了上限的營(yíng)利公司」。
在新的利潤(rùn)結(jié)構(gòu)下,OpenAI的投資者最多可以賺取其原始投資的100倍,超過(guò)這個(gè)數(shù)字的剩下的錢將用于非營(yíng)利性事務(wù)。
2019年底,OpenAI宣布與微軟合作,微軟向這家公司投資了10億美元。OpenAI表示,它將向微軟獨(dú)家授權(quán)技術(shù)。
微軟表示,通過(guò)GPT-3模型打造出的商業(yè)和創(chuàng)造潛力是無(wú)限的,很多潛在的新能力和新應(yīng)用,甚至超出了我們的想象。
比如在寫作和作曲上、在描述和總結(jié)大塊長(zhǎng)篇數(shù)據(jù)(包括代碼)上、在將自然語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言等領(lǐng)域,GPT-3能夠直接激發(fā)人類的創(chuàng)造力和聰明才智,未來(lái)的局限可能在于我們自己的想法和方案。
這種伙伴關(guān)系,讓微軟能夠與谷歌旗下同樣風(fēng)頭正勁的AI公司DeepMind競(jìng)爭(zhēng)。
去年,OpenAI發(fā)布了一個(gè)人工智能畫作生成工具:Dall-E。
Dall-E是一個(gè)人工智能系統(tǒng),可以根據(jù)圖像的描述創(chuàng)造出逼真的圖像,甚至能夠達(dá)到相當(dāng)?shù)乃囆g(shù)水準(zhǔn),11月,OpenAI發(fā)布了該程序的更新版本,Dall-E 2。
雖然OpenAI的聊天機(jī)器人在過(guò)去一周已經(jīng)「起飛」,但該軟件的更新版本可能最快會(huì)在明年才能發(fā)布。
11月30日,作為演示模型發(fā)布的ChatGPT算得上是OpenAI的「GPT-3.5」。該公司計(jì)劃接下來(lái)發(fā)布完整版的GPT-4。
與此同時(shí),馬斯克還在發(fā)表評(píng)論:
他在回復(fù)Sam Altman在談?wù)揅hatGPT的推文中稱,我們離強(qiáng)到危險(xiǎn)的AI的誕生已經(jīng)不遠(yuǎn)了。
揭秘爆火ChatGPT后的功臣:RLHF
而要說(shuō)ChatGPT的爆火,離不開(kāi)它背后的功臣——RLHF。
OpenAI的研究人員,是使用與InstructGPT相同的方法——來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來(lái)訓(xùn)練ChatGPT模型的。
ChatGPT用中文解釋什么是RLHF
為什么會(huì)想到從人類反饋中強(qiáng)化學(xué)習(xí)呢?這就要從強(qiáng)化學(xué)習(xí)的背景說(shuō)起。
在過(guò)去幾年里,語(yǔ)言模型一直是通過(guò)人類輸入的提示生成文本的。
然而,什么是「好」的文本呢?這很難定義。因?yàn)榕袛鄻?biāo)準(zhǔn)很主觀,并且非常依賴于上下文。
在許多應(yīng)用程序中,我們需要模型去編寫特定創(chuàng)意的故事、信息性文本片段,或可執(zhí)行的代碼段。
而通過(guò)編寫一個(gè)損失函數(shù)來(lái)捕獲這些屬性,又顯得很棘手。并且,大多數(shù)語(yǔ)言模型仍然使用的是下一個(gè)標(biāo)記預(yù)測(cè)損失(例如交叉熵)進(jìn)行訓(xùn)練。
為了彌補(bǔ)損失本身的缺點(diǎn),有人定義了能夠更好地捕捉人類偏好的指標(biāo),比如BLEU或ROUGE。
但即使是它們,也只是簡(jiǎn)單地將生成的文本與引用進(jìn)行比較,因此也有很大的局限性。
在這種情況下,如果我們使用生成文本的人工反饋?zhàn)鳛閾p失,來(lái)優(yōu)化模型,不是很好嗎?
就這樣,從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)的想法誕生了——我們可以使用強(qiáng)化學(xué)習(xí),直接優(yōu)化帶有人類反饋的語(yǔ)言模型。
ChatGPT用英文解釋什么是RLH
是的,RLHF使語(yǔ)言模型能夠?qū)⒃谝话阄谋緮?shù)據(jù)語(yǔ)料庫(kù)上訓(xùn)練的模型,與具有復(fù)雜人類價(jià)值觀的模型對(duì)齊。
在爆火的ChatGPT中,我們能看到RLHF取得的巨大成功。
RLHF的訓(xùn)練過(guò)程,可以分解為三個(gè)核心步驟:
- 預(yù)訓(xùn)練語(yǔ)言模型(LM),
- 收集數(shù)據(jù)并訓(xùn)練獎(jiǎng)勵(lì)模型,
- 通過(guò)強(qiáng)化學(xué)習(xí)微調(diào)LM。
預(yù)訓(xùn)練語(yǔ)言模型
第一步,RLHF會(huì)使用已經(jīng)用經(jīng)典預(yù)訓(xùn)練目標(biāo)進(jìn)行了預(yù)訓(xùn)練的語(yǔ)言模型。
比如,OpenAI在第一個(gè)流行的RLHF模型InstructGPT中,使用了較小版本的 GPT-3。
這個(gè)初始模型也可以根據(jù)額外的文本或條件進(jìn)行微調(diào),但并不是必要的。
一般來(lái)說(shuō),對(duì)于「哪種模型」最適合作為RLHF的起點(diǎn),并沒(méi)有明確的答案。
接下來(lái),為了得到語(yǔ)言模型,我們需要生成數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,這就是將人類偏好集成到系統(tǒng)中的方式。
獎(jiǎng)勵(lì)模型訓(xùn)練
生成一個(gè)根據(jù)人類偏好校準(zhǔn)的獎(jiǎng)勵(lì)模型(RM,也稱為偏好模型)是RLHF中相對(duì)較新的研究。
我們的基本目標(biāo)是,獲得一個(gè)模型或系統(tǒng),該模型或系統(tǒng)接收一系列文本,并返回一個(gè)標(biāo)量獎(jiǎng)勵(lì),這個(gè)獎(jiǎng)勵(lì)要在數(shù)字上代表人類偏好。
這個(gè)系統(tǒng)可以是端到端的LM,或輸出獎(jiǎng)勵(lì)的模塊化系統(tǒng)(例如,模型對(duì)輸出進(jìn)行排序,并將排名轉(zhuǎn)換為獎(jiǎng)勵(lì))。作為標(biāo)量獎(jiǎng)勵(lì)的輸出,對(duì)于稍后在RLHF過(guò)程中無(wú)縫集成的現(xiàn)有RL算法至關(guān)重要。
這些用于獎(jiǎng)勵(lì)建模的LM可以是另一個(gè)經(jīng)過(guò)微調(diào)的LM,也可以是根據(jù)偏好數(shù)據(jù)從頭開(kāi)始訓(xùn)練的LM。
RM的提示生成對(duì)的訓(xùn)練數(shù)據(jù)集,是通過(guò)從預(yù)定義數(shù)據(jù)集中采樣一組提示而生成的。提示通過(guò)初始語(yǔ)言模型生成新文本。
然后,由人工注釋器對(duì)LM生成的文本進(jìn)行排名。人類直接對(duì)每段文本打分以生成獎(jiǎng)勵(lì)模型,這在實(shí)踐中很難做到。因?yàn)槿祟惖牟煌瑑r(jià)值觀會(huì)導(dǎo)致這些分?jǐn)?shù)未經(jīng)校準(zhǔn)而且很嘈雜。
有多種方法可以對(duì)文本進(jìn)行排名。一種成功的方法是讓用戶比較基于相同提示的兩種語(yǔ)言模型生成的文本。這些不同的排名方法被歸一化為用于訓(xùn)練的標(biāo)量獎(jiǎng)勵(lì)信號(hào)。
有趣的是,迄今為止成功的RLHF系統(tǒng)都使用了與文本生成大小相似的獎(jiǎng)勵(lì)語(yǔ)言模型??梢酝茰y(cè),這些偏好模型需要具有類似的能力來(lái)理解提供給它們的文本,因?yàn)槟P托枰哂蓄愃频哪芰Σ拍苌伤鑫谋尽?/p>
此時(shí),在RLHF系統(tǒng)中,就有了一個(gè)可用于生成文本的初始語(yǔ)言模型,和一個(gè)接收任何文本并為其分配人類感知程度分?jǐn)?shù)的偏好模型。接下來(lái),就需要使用強(qiáng)化學(xué)習(xí)(RL)來(lái)針對(duì)獎(jiǎng)勵(lì)模型優(yōu)化原始語(yǔ)言模型。
使用強(qiáng)化學(xué)習(xí)微調(diào)
這個(gè)微調(diào)任務(wù),可以表述為RL問(wèn)題。
首先,該策略是一種語(yǔ)言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。
該策略的動(dòng)作空間是語(yǔ)言模型詞匯對(duì)應(yīng)的所有token(通常在50k個(gè)token數(shù)量級(jí)),觀察空間包括可能的輸入token序列,因而相當(dāng)大(詞匯量x輸入的token數(shù)量)。
而獎(jiǎng)勵(lì)函數(shù)是偏好模型和策略轉(zhuǎn)變約束的結(jié)合。
在獎(jiǎng)勵(lì)函數(shù)中,系統(tǒng)將我們討論過(guò)的所有模型,組合到RLHF過(guò)程中。
根據(jù)來(lái)自數(shù)據(jù)集的prompt x,會(huì)生成兩個(gè)文本y1和y2——一個(gè)來(lái)自初始語(yǔ)言模型,一個(gè)來(lái)自微調(diào)策略的當(dāng)前迭代。
來(lái)自當(dāng)前策略的文本被傳遞到偏好模型后,該模型會(huì)返回一個(gè)關(guān)于「偏好」的標(biāo)量概念——rθ。
將該文本與來(lái)自初始模型的文本進(jìn)行比較后,就可以計(jì)算對(duì)它們之間差異的懲罰。
RLHF可以通過(guò)迭代更新獎(jiǎng)勵(lì)模型和策略,從這一點(diǎn)繼續(xù)。
隨著RL策略的更新,用戶可以繼續(xù)將這些輸出與模型的早期版本進(jìn)行排名。
這個(gè)過(guò)程中,就引入了策略和獎(jiǎng)勵(lì)模型演變的復(fù)雜動(dòng)態(tài),這個(gè)研究非常復(fù)雜,非常開(kāi)放。
參考資料:
https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly
https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7