AI批評(píng):GPT-3根本不知道自己在說(shuō)什么
譯文【51CTO.com快譯】
【引】GPT-3是OpenAI語(yǔ)言人工智能模型,由1750億個(gè)參數(shù)組成。OpenAI研究實(shí)驗(yàn)室今年5月開(kāi)始推出該模型,逐步引起了各方關(guān)注。日前,一則荒誕的新聞似乎印證了GPT-3的內(nèi)容生產(chǎn)實(shí)力。加州大學(xué)伯克利分校的一名大學(xué)生用GPT-3寫“AI雞湯文”,成功騙過(guò)一大批內(nèi)容訂閱者,登上新聞平臺(tái)科技熱門榜。
GPT-3的“內(nèi)容生產(chǎn)”是否真到了“以假亂真”的地步呢?紐約大學(xué)名譽(yù)教授蓋瑞·馬庫(kù)斯和他的團(tuán)隊(duì)進(jìn)行了一系列測(cè)試。而測(cè)試結(jié)果表明,當(dāng)前OpenAI的語(yǔ)言生成器GPT-3對(duì)現(xiàn)實(shí)的把握仍然很差,距離通用人工智能(AGI)還很遙遠(yuǎn)。
通用人工智能可以讓機(jī)器以類人的方式進(jìn)行廣泛的推理,而無(wú)需為它遇到的每一項(xiàng)具體任務(wù)進(jìn)行訓(xùn)練。GPT-3是邁向通用人工智能的重要一步嗎?我們對(duì)此表示懷疑。初看之下,GPT-3似乎擁有生成類人文本的驚人能力,用來(lái)制作娛樂(lè)性質(zhì)的超現(xiàn)實(shí)主義小說(shuō)或挖掘其他商用可能大致沒(méi)有問(wèn)題。但需要警惕的是,準(zhǔn)確性并不是它的強(qiáng)項(xiàng)。如果你深入了解一下,就會(huì)發(fā)現(xiàn)有些地方不太對(duì)勁。盡管其遣詞造句是符合語(yǔ)法的,甚至是非常地道的表達(dá)法,但它對(duì)世界的認(rèn)識(shí)往往是存在謬誤的,這也就意味著你永遠(yuǎn)不能真正相信它所說(shuō)的。
在對(duì)此進(jìn)行說(shuō)明之前,還有一點(diǎn)值得注意,OpenAI迄今為止不允許研究人員訪問(wèn)GPT-3。缺乏公開(kāi)性在我們看來(lái)是對(duì)科學(xué)倫理的違背,也是對(duì)非營(yíng)利組織目標(biāo)的扭曲,它迫使我們將測(cè)試限制在較少的樣例中,給的時(shí)間也比我們預(yù)期的要少,這意味著我們可能沒(méi)機(jī)會(huì)去深究那些更嚴(yán)重的問(wèn)題。即使如此,在有限的樣例集群中,GPT-3的一些主要問(wèn)題依然暴露無(wú)遺。
?。ㄗⅲ阂韵碌拿總€(gè)示例中,輸入的提示符用普通字體,系統(tǒng)接續(xù)的內(nèi)容用粗體,評(píng)論用藍(lán)色表示。)
生物推理
你給自己倒了一杯蔓越莓汁,然后又心不在焉地往里面倒了一茶匙葡萄汁。它看起來(lái)不錯(cuò),你試著聞了聞,但你得了重感冒,聞不出任何味道。你渴極了,所以……
GPT-3續(xù)道:你喝了。你現(xiàn)在掛了。
GPT-3似乎認(rèn)為這樣的混合飲料是一種劇毒。事實(shí)上,只要去網(wǎng)上搜一下就能發(fā)現(xiàn)。“蔓越莓+葡萄”是常見(jiàn)搭配,而且Ocean Spray公司本身就出售蔓越莓復(fù)合葡萄汁飲料。
物理推理
你要舉辦一個(gè)小型晚宴,準(zhǔn)備在客廳擺宴。但餐廳的桌子比門寬,所以要把桌子弄到客廳,你必須……
GPT-3續(xù)道:把門移除。你有一把臺(tái)鋸,所以你把門一切為二,然后把上半部分拆了下來(lái)。
這個(gè)答案是非常令人困惑的。一般的解決方案是將桌子斜過(guò)來(lái)挪進(jìn)門里,或者桌子如果是可拆卸的,可以把桌腿卸下來(lái)。退一步說(shuō),如果真的有必要把門卸下來(lái),“臺(tái)鋸”是固定在工作臺(tái)上的,并不能用來(lái)鋸開(kāi)還立著的門。因此GPT-3給出的“續(xù)文”可以說(shuō)是匪夷所思的。
社交推理
你是辯護(hù)律師,今天必須出庭。早上穿戴的時(shí)候,你發(fā)現(xiàn)西裝被弄臟了。但是,你的泳衣很干凈,而且很時(shí)尚。事實(shí)上,這件泳衣是昂貴的法國(guó)品牌,是伊莎貝拉送你的生日禮物。你決定……
GPT-3續(xù)道:穿泳衣去法院。你到法院后,一名法警會(huì)護(hù)送你到法庭。
“但是,你的泳衣很干凈”這句話似乎讓GPT-3認(rèn)為泳衣是西服的可替代品。毋庸置疑,沒(méi)有律師在現(xiàn)實(shí)生活中會(huì)考慮穿泳衣出庭。因?yàn)榉ü俸芸赡軙?huì)認(rèn)為你藐視法庭。
目標(biāo)與個(gè)體追蹤
昨天我把衣服送到干洗店,到現(xiàn)在還沒(méi)有去取。我的衣服在哪里?
GPT-3續(xù)道:我有很多衣服。
顯然GPT-3答非所問(wèn),不僅回避了給定文本中的這個(gè)問(wèn)題,而且沒(méi)有追蹤到物體的位置。GPT-3的前身也存在這個(gè)問(wèn)題。
心理推理
珍妮特和佩妮去商店給杰克買禮物。珍妮特說(shuō):“我要給杰克買件上衣。”
佩妮說(shuō):“別給杰克買上衣。他有上衣了,他會(huì)……”
GPT-3續(xù)道:擁有一件上衣。”珍妮特說(shuō):“我要給杰克買件上衣。”
僅僅一句話,GPT-3就忘了佩妮建議珍妮特不要買上衣,因?yàn)榻芸艘呀?jīng)有上衣了。按正常邏輯的話,原文本的后續(xù)應(yīng)該是他會(huì)“讓你把它拿回去”或者他會(huì)“讓你換貨”。這個(gè)例子來(lái)自尤金·查尼亞克1972年的博士論文。遺憾的是,到現(xiàn)在近50年了,這個(gè)問(wèn)題依然在AI技術(shù)的能力范疇之外。
綜上來(lái)看,GPT的根本缺陷仍然存在,一方面它對(duì)因果的理解非常不可靠,不連貫性、無(wú)條理性更是常見(jiàn)問(wèn)題。另外,GPT-2在生物、心理、社會(huì)推理方面存在的邏輯問(wèn)題,GPT-3也出現(xiàn)了類似的錯(cuò)誤。
盡管GPT-3看起來(lái)“頭頭是道”,語(yǔ)法運(yùn)用也非常流利,但問(wèn)題在于它可以產(chǎn)出完美的詞句,但它對(duì)這些單詞的語(yǔ)義只有模糊的理解,而且對(duì)這些單詞和世界的聯(lián)系一無(wú)所知。究其根本,那是因?yàn)橄馟PT-3這樣的系統(tǒng)學(xué)習(xí)的不是世界,而是文本,以及大眾使用這些單詞進(jìn)行排列組合的習(xí)慣和頻率。它所做的就像是對(duì)它所遇到的文本進(jìn)行大量的剪切、粘貼、拼接,進(jìn)而完成各種變化,而不是深入挖掘這些文本背后的概念。
GPT-3目前能做到的是對(duì)單詞之間如何關(guān)聯(lián)的片面理解,它還不能從中窺見(jiàn)并理解這些詞章折射出的這個(gè)蓬勃而喧囂的世界。GPT-3無(wú)法推斷出蔓越莓-葡萄汁是一種飲料,無(wú)法推斷出任何可能阻止人們穿泳裝出庭的社會(huì)規(guī)范,無(wú)法推斷人際交往里約定俗成的潛臺(tái)詞。它只是學(xué)習(xí)了詞與詞之間的關(guān)聯(lián)。實(shí)證主義者的夢(mèng)想是從感官經(jīng)驗(yàn)里獲得對(duì)世界的豐富理解,但GPT-3從未做到這一點(diǎn)。即使它有1750億個(gè)參數(shù)和450GB的輸入數(shù)據(jù),你也不應(yīng)該相信GPT-3會(huì)給你提出調(diào)制飲料的建議、擺宴設(shè)席的竅門,不應(yīng)該相信它會(huì)給你解釋小說(shuō)的情節(jié),或者幫你弄清楚衣服到底放在了哪里。它是一個(gè)高明的謾辭嘩說(shuō)者,卻不是一個(gè)可以信賴的解釋器。
正如我的同事道格拉斯·薩馬斯特所說(shuō)的那樣:“GPT很奇怪,因?yàn)樗魂P(guān)心你向它提出的問(wèn)題是否得到了正確的答案。它更像是一個(gè)即興的演員,完全沉浸其中,從不破壞角色,只是在文本中閱讀世界。這樣的‘演員’,當(dāng)它不知道事情的原委時(shí),它就會(huì)假裝知道。當(dāng)然你不會(huì)相信一個(gè)扮演醫(yī)生的即興演員會(huì)給你醫(yī)療建議。”
作者:加里·馬庫(kù)斯 歐內(nèi)斯特·戴維斯
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】