考那么多試,拿那么高分,大模型們真的懂語言了嗎?
十年前,IBM 的 Watson 獲得了答題節(jié)目《Jeopardy!》的冠軍,當時 IBM 宣稱:「Watson 能夠理解自然語言的所有歧義和復(fù)雜性。」然而,正如我們所看到的,Watson 隨后在試圖「用人工智能徹底改變醫(yī)學(xué)」的過程中失敗了,智能體所具備的語言能力與實際理解人類語言并不能完全劃等號。
自然語言理解一直是人工智能研究的主要目標之一。起初,研究人員試圖手動編程,讓機器理解新聞故事、小說或人類可能創(chuàng)作的任何其他內(nèi)容。結(jié)果就像 Watson 一樣,這種方法是徒勞的,人們不可能歸納出理解文本所需的所有事實、規(guī)則和假設(shè)。
近年來一種 AI 領(lǐng)域建立起一種新的范式:我們不建立顯性知識,而是讓機器學(xué)習(xí)自己理解語言——攝取大量書面文本并學(xué)習(xí)預(yù)測單詞。這種新范式現(xiàn)在被稱作語言模型,GPT-3 等基于大型神經(jīng)網(wǎng)絡(luò)的模型可以生成令人難以置信的人類散文和詩歌,并且能夠執(zhí)行復(fù)雜的語言推理。
但是 GPT-3 這樣在大量網(wǎng)絡(luò)文本上訓(xùn)練的模型真的超越了 Watson 嗎?它真的理解它生成的語言和推理嗎?這是 AI 研究界存在明顯分歧的話題。
此類討論曾經(jīng)是哲學(xué)的范疇,但在過去十年中,人工智能已經(jīng)從學(xué)術(shù)泡沫中迸發(fā)出來,進入了現(xiàn)實世界,它們對現(xiàn)實世界缺乏了解可能會產(chǎn)生非常嚴重的后果。一項研究發(fā)現(xiàn) IBM 的 Watson 曾提出了「不安全和不正確的治療建議」。另一項研究表明:谷歌的機器翻譯系統(tǒng)在為非英語患者翻譯醫(yī)療說明時出現(xiàn)了重大錯誤。
那么我們?nèi)绾未_定機器是否可以理解現(xiàn)實?1950 年,計算機科學(xué)先驅(qū)艾倫 · 圖靈試圖用「圖靈測試」來回答這個問題。然而,圖靈低估了人類被機器愚弄的可能。早在上世紀 60 年代,Joseph Weizenbaum 就構(gòu)建了一個簡單的聊天機器人 Eliza,試圖通過解釋句子讓 Eliza 模仿心理治療師講話。結(jié)果發(fā)現(xiàn) Eliza 會讓人們相信他們正在與理解自己的人交談,即使他們知道和自己對話的是一臺機器。
在 2012 年的一篇論文中,計算機科學(xué)家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 提出了一個更客觀的測試——Winograd 模式挑戰(zhàn)。這種測試方法已被 AI 語言社區(qū)采用,是當前評估機器理解的最佳方式之一。
Winograd 模式挑戰(zhàn)中包含一對句子,兩個句子僅相差一個詞,每個句子后面跟一個問題,例如:
Sentence 1: I poured water from the bottle into the cup until it was full. Question: What was full, the bottle or the cup? Sentence 2: I poured water from the bottle into the cup until it was empty. Question: What was empty, the bottle or the cup?
Sentence 1: Joe’s uncle can still beat him at tennis, even though he is 30 years older. Question: Who is older, Joe or Joe’s uncle? Sentence 2: Joe’s uncle can still beat him at tennis, even though he is 30 years younger. Question: Who is younger, Joe or Joe’s uncle? |
Winograd 模式在 2016 年被用作一場比賽的主題,其中獲勝程序僅在 58% 的句子上給出了正確答案,這幾乎和簡單猜測的準確率差不多。句子中一個詞的差異可以改變代詞所指的人或事,正確回答這些問題需要常識性的理解。Winograd 模式正是為了測試這種理解而設(shè)計的,減輕了圖靈測試對人類判斷和聊天機器人技巧的不可靠性。特別是,Winograd 的作者設(shè)計了數(shù)百個被稱為「Google-proof」的模式:機器不應(yīng)該使用谷歌搜索(或類似搜索)來正確回答問題。
然而,大型神經(jīng)網(wǎng)絡(luò)語言模型的出現(xiàn)讓人工智能程序解決 Winograd 模式的能力迅速提高。OpenAI 2020 年的一篇論文稱 GPT-3 在 Winograd 模式基準集中近 90% 的句子上都是正確的。在專門針對這些任務(wù)進行訓(xùn)練后,語言模型的表現(xiàn)甚至?xí)谩R恍┥窠?jīng)網(wǎng)絡(luò)在特定任務(wù)上甚至能達到 97% 的準確率,這種準確性和人類的表現(xiàn)已經(jīng)大致相當。這是否意味著神經(jīng)網(wǎng)絡(luò)語言模型已經(jīng)達到了人類的理解水平?
并非如此。盡管創(chuàng)作者盡了最大努力,但 Winograd 模式實際上并沒有完全經(jīng)過「Google-proof」。Winograd 模式中的挑戰(zhàn)就和許多其他 AI 語言理解測試一樣,有時允許使用快捷方式 ,讓神經(jīng)網(wǎng)絡(luò)在不理解的情況下也能表現(xiàn)良好。例如:
- 跑車超過了郵車因為它開得更快。
- 跑車超過了郵車因為它開得更慢。
在龐大的語料庫上訓(xùn)練的語言模型將吸收「跑車」和「快」之間以及「郵車」和「慢」之間的相關(guān)性,因此語言模型可以僅根據(jù)這些相關(guān)性來正確回答這些問題,而不存在真正的理解。事實證明,SuperGLUE 比賽中的許多 Winograd 模式都可以使用這類統(tǒng)計相關(guān)性。
艾倫人工智能研究所的一組研究人員嘗試解決 Winograd 模式的一些問題。2019 年,他們創(chuàng)建了一個更龐大的 Winograd 模式——WinoGrande。
WinoGrande 包含多達 44000 個句子,而不是數(shù)百個示例。這些句子是借助 Amazon Mechanical Turk 平臺獲得的,由真人編寫——每人被要求寫幾個句子對,這些句子包含多個主題,但每對句子可能相差不止一個單詞。
然后,研究人員通過用相對簡單的 AI 方法測試每個句子,將太容易解決的句子丟棄,以消除可能允許統(tǒng)計相關(guān)性捷徑的句子。與研究人員預(yù)期的一樣,與原始的 Winograd 模式相比,剩余的句子對機器提出了更困難的挑戰(zhàn),在 Winograd 模式上與人類表現(xiàn)相當?shù)纳窠?jīng)網(wǎng)絡(luò)語言模型在 WinoGrande 集合上得分要低得多。
然而,另一個驚喜很快接踵而至。在 WinoGrande 集合問世之后的兩年里,神經(jīng)網(wǎng)絡(luò)語言模型變得越來越大。而且,模型越大,它們在這項新挑戰(zhàn)上的得分似乎就越高。在本文撰寫之時,當前最好的模型(在幾 TB 的數(shù)據(jù)和數(shù)千個 WinoGrande 實例上訓(xùn)練)已經(jīng)達到了接近 90% 的準確率(人類是 94%)。這種性能的增益幾乎全部來自于神經(jīng)網(wǎng)絡(luò)語言模型規(guī)模的增大和訓(xùn)練數(shù)據(jù)體量的增加。
這些大模型真的獲得了像人類一樣的常識理解能力嗎?看起來并沒有。WinoGrande 反映出的結(jié)果有幾點需要注意。例如,由于那些句子依賴于 Amazon Mechanical Turk 平臺上的兼職人員,句子的質(zhì)量和流暢度是非常不均衡的。同時,用來剔除「non-Google-proof」句子的 AI 方法可能過于簡單,無法發(fā)現(xiàn)一個龐大的神經(jīng)網(wǎng)絡(luò)可能使用的所有統(tǒng)計捷徑。而且,該方法只適用于單個的句子,很多句子最后都會失去自己的「雙胞胎」兄弟姐妹。一項后續(xù)研究表明,神經(jīng)網(wǎng)絡(luò)語言模型只在兩個「雙胞」句子上進行測試,而且兩個測試都要正確,它們比人類的準確率要低得多,這表明早前 90% 的結(jié)果沒那么重要。
那么,從 Winograd 的失敗中我們能得出什么教訓(xùn)呢?那就是:我們通常很難根據(jù) AI 系統(tǒng)在某項特定挑戰(zhàn)中的表現(xiàn)來判斷它們是否真的理解了自己所處理的語言。我們知道,神經(jīng)網(wǎng)絡(luò)經(jīng)常會使用統(tǒng)計方面的捷徑來獲取高分,而不是真正像人類一樣去理解。
在我看來,問題的關(guān)鍵在于,理解語言就需要理解世界,而只接觸語言的機器就無法獲取這種理解能力。舉個例子,「跑車超過了郵車,因為它開得慢一些」,理解這句話需要什么前提?首先,你要知道跑車和郵車分別是什么、車是可以互相「超過」的,甚至你還要知道更基本的常識:交通工具是存在于這個世界并與之交互的對象,由人類根據(jù)自己的行程驅(qū)動。
以上這些都是我們?nèi)祟愓J為理所當然的知識,但這些知識并沒有內(nèi)嵌在機器中,也不可能被明確地寫在任何語言模型的訓(xùn)練文本中。一些認知科學(xué)家認為,在學(xué)習(xí)和理解語言方面,人類依賴于先天的、前語言的關(guān)于時空以及世界上其他基本屬性的核心知識。如果我們想讓機器像人類一樣掌握語言,我們首先需要賦予它們?nèi)祟惻c生俱來的原始原則(primordial principle)。要評估機器的理解能力,我們應(yīng)該首先評估它們對上述原則的掌握程度,有人將其稱為「嬰兒形而上學(xué)(infant metaphysics)」。
與 GPT-3 等成就輝煌的 AI 系統(tǒng)相比,訓(xùn)練并評估一個嬰兒水平的機器看起來似乎倒退了一大步。但如果目標是真實可信的理解,那這可能是唯一一條讓機器理解「它」是什么以及獲取理解「它」所需要的一切的途徑。
原文鏈接:https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】