最新研究,GPT-4暴露了缺點(diǎn)!無(wú)法完全理解語(yǔ)言歧義!
自然語(yǔ)言推理(Natural Language Inference,NLI)是自然語(yǔ)言處理中一項(xiàng)重要任務(wù),其目標(biāo)是根據(jù)給定的前提和假設(shè),來(lái)判斷假設(shè)是否可以從前提中推斷出來(lái)。然而,由于歧義是自然語(yǔ)言內(nèi)在的特征,處理歧義也是人類語(yǔ)言理解的重要組成部分。由于人類語(yǔ)言表達(dá)的多樣性,歧義處理成為解決自然語(yǔ)言推理問(wèn)題的難點(diǎn)之一。當(dāng)前,各種自然語(yǔ)言處理算法被應(yīng)用到問(wèn)答系統(tǒng)、語(yǔ)音識(shí)別、智能翻譯和自然語(yǔ)言生成等場(chǎng)景中,但即使有這些技術(shù),完全解決歧義仍然是一個(gè)極具挑戰(zhàn)性的任務(wù)。
對(duì)于 NLI 任務(wù),大型自然語(yǔ)言處理模型如 GPT-4 等確實(shí)面臨著挑戰(zhàn)。其中一個(gè)問(wèn)題是語(yǔ)言歧義導(dǎo)致模型難以準(zhǔn)確理解句子的真正含義。此外,由于自然語(yǔ)言的靈活性和多樣性,不同文本之間可能存在各種各樣的關(guān)系,這使得 NLI 任務(wù)中的數(shù)據(jù)集變得極其復(fù)雜,同時(shí)也對(duì)自然語(yǔ)言處理模型的普適性和泛化能力提出了巨大挑戰(zhàn)。因此,在處理歧義語(yǔ)言方面,如果今后大模型成功將顯得至關(guān)重要,并且大模型已被廣泛應(yīng)用于對(duì)話界面和寫(xiě)作輔助工具等領(lǐng)域。處理歧義將有助于適應(yīng)不同的背景,提高溝通的清晰性,以及識(shí)別誤導(dǎo)性或欺騙性言語(yǔ)的能力。
這篇討論大模型歧義的論文標(biāo)題使用了一語(yǔ)雙關(guān)的表達(dá),“We’re Afraid…”,既表達(dá)了當(dāng)前對(duì)語(yǔ)言模型難以準(zhǔn)確建模歧義的擔(dān)憂,又暗示了論文所描述的語(yǔ)言結(jié)構(gòu)。本文也表明,人們正在努力制定新的基準(zhǔn),以真正挑戰(zhàn)強(qiáng)大的新的大模型,以便更準(zhǔn)確地理解和生成自然語(yǔ)言,并實(shí)現(xiàn)模型上的新突破。
論文題目: We're Afraid Language Models Aren't Modeling Ambiguity
論文鏈接: https://arxiv.org/abs/2304.14399
代碼和數(shù)據(jù)地址: https://github.com/alisawuffles/ambient
本文作者計(jì)劃研究預(yù)訓(xùn)練大模型是否有能力識(shí)別和區(qū)分含有多個(gè)可能解釋的句子,評(píng)估模型如何區(qū)分不同的讀法和解釋。然而,現(xiàn)有的基準(zhǔn)測(cè)試數(shù)據(jù)通常不包含歧義的例子,因此需要自己構(gòu)建實(shí)驗(yàn)來(lái)探究這個(gè)問(wèn)題。
傳統(tǒng)的 NLI 三路標(biāo)注方案指的是一種用于自然語(yǔ)言推理(NLI)任務(wù)的標(biāo)注方式,它需要標(biāo)注者在三個(gè)標(biāo)簽中選擇一個(gè)標(biāo)簽來(lái)表示原始文本和假設(shè)之間的關(guān)系。這三個(gè)標(biāo)簽通常是“蘊(yùn)含(entailment)”、“中立(neutral)”和“矛盾(contradiction)”。
作者使用了 NLI 任務(wù)的格式來(lái)進(jìn)行實(shí)驗(yàn),采用了函數(shù)式方法,通過(guò)對(duì)前提或假設(shè)中的歧義對(duì)蘊(yùn)含關(guān)系的影響來(lái)表征歧義。作者提出了一個(gè)名為 AMBIENT(Ambiguity in Entailment)的基準(zhǔn)測(cè)試,涵蓋了各種詞匯、句法和語(yǔ)用歧義,并更廣泛地涵蓋了可能傳達(dá)多個(gè)不同信息的句子。
如圖 1 所示,歧義可能是無(wú)意識(shí)的誤解(圖 1 頂部),也可能是故意用來(lái)誤導(dǎo)聽(tīng)眾的(圖 1 底部)。例如,如果貓離開(kāi)家后迷失方向,那么從無(wú)法找到回家的路線的意義上看,它是迷路了(蘊(yùn)涵邊);如果它已經(jīng)好幾天沒(méi)有回家,那么從其他人無(wú)法找到它的意義上看,它也是迷路了(中立邊)。
▲圖1 用貓迷路解釋的歧義示例
AMBIENT 數(shù)據(jù)集介紹
精選示例
作者提供了 1645 個(gè)涵蓋多種類型歧義的句子樣例,其中包括手寫(xiě)樣本和來(lái)自現(xiàn)有NLI數(shù)據(jù)集和語(yǔ)言學(xué)教材。AMBIENT 中的每個(gè)示例都包含一組標(biāo)簽,對(duì)應(yīng)于各種可能的理解,以及每種理解的消歧重寫(xiě),如表 1 所示。
▲表1 精選示例中的前提和假設(shè)對(duì)
生成的示例
研究人員還采用了過(guò)度生成和過(guò)濾的方法來(lái)構(gòu)建一個(gè)大型的未帶標(biāo)簽的 NLI 示例語(yǔ)料庫(kù),以更全面地涵蓋不同的歧義情況。他們受到前人工作的啟發(fā),自動(dòng)識(shí)別共享推理模式的前提假設(shè)對(duì)組,并通過(guò)鼓勵(lì)創(chuàng)建具有相同模式的新示例來(lái)加強(qiáng)語(yǔ)料庫(kù)的質(zhì)量。
注釋和驗(yàn)證
針對(duì)先前步驟獲得的例子,需要進(jìn)行注釋和標(biāo)注。這一過(guò)程涉及到了兩位專家的注釋、一位專家的驗(yàn)證和匯總,以及部分作者的驗(yàn)證。同時(shí),37 名語(yǔ)言學(xué)專業(yè)的學(xué)生為每個(gè)例子選擇了一組標(biāo)簽,并提供了消歧重寫(xiě)。所有這些被注釋后的例子經(jīng)過(guò)篩選和驗(yàn)證,最終得到了 1503 個(gè)最終的例子。
具體過(guò)程如圖 2 所示:首先,使用 InstructGPT 創(chuàng)建未帶標(biāo)簽的示例,再由兩位語(yǔ)言學(xué)家獨(dú)立進(jìn)行注釋。最后,通過(guò)一位作者的整合,得到最終的注釋和標(biāo)注。
▲圖2 AMBIENT 中生成示例的注釋流程
此外,這里還探討了不同標(biāo)注者之間標(biāo)注結(jié)果的一致性問(wèn)題,以及 AMBIENT 數(shù)據(jù)集中存在的歧義類型。作者在該數(shù)據(jù)集中隨機(jī)選擇了 100 個(gè)樣本作為開(kāi)發(fā)集,其余樣本用作測(cè)試集,圖 3 是其中集合標(biāo)簽的分布情況,每個(gè)樣本都具有對(duì)應(yīng)的推理關(guān)系標(biāo)簽。研究表明,在歧義情況下,多個(gè)標(biāo)注者的標(biāo)注結(jié)果具有一致性,使用多個(gè)標(biāo)注者的聯(lián)合結(jié)果可以提高標(biāo)注準(zhǔn)確性。
▲圖3 AMBIENT 中集合標(biāo)簽的分布
歧義是否說(shuō)明了“不同意”?
該研究分析了在傳統(tǒng)的 NLI 三路標(biāo)注方案下,標(biāo)注者在對(duì)含歧義輸入進(jìn)行標(biāo)注時(shí)的行為。研究發(fā)現(xiàn),標(biāo)注者可以意識(shí)到歧義,并且歧義是導(dǎo)致標(biāo)簽差異的主要原因,因此挑戰(zhàn)了“不同意”是模擬例子不確定性的流行假設(shè)。
在研究中,采用 AMBIENT 數(shù)據(jù)集,雇傭了 9 名眾包工作者對(duì)每個(gè)含歧義的例子進(jìn)行標(biāo)注。
任務(wù)分為三步:
- 標(biāo)注含歧義的例子
- 識(shí)別可能的不同解釋
- 標(biāo)注已消除歧義的例子
其中,步驟 2 中,三個(gè)可能的解釋包括兩個(gè)可能的意思和一個(gè)類似但不完全相同的句子。最后,對(duì)每個(gè)可能的解釋,都將其代入原始例子得到三個(gè)新的 NLI 例子,讓標(biāo)注者分別選擇一個(gè)標(biāo)簽。
此實(shí)驗(yàn)的結(jié)果支持了假設(shè):在單標(biāo)注體系下,原始的模糊例子會(huì)產(chǎn)生高度不一致的結(jié)果,即在給句子打標(biāo)簽的過(guò)程中,人們對(duì)于模糊不清的句子容易產(chǎn)生不同的判斷,導(dǎo)致結(jié)果不一致。但是,當(dāng)在任務(wù)中加入消除歧義的步驟后,注釋員們普遍能夠識(shí)別并驗(yàn)證句子的多種可能性,結(jié)果的不一致性得到了大幅度解決。因此,消除歧義是減少注釋員主觀性對(duì)結(jié)果影響的有效方法。
評(píng)估大模型上的表現(xiàn)
Q1. 能否直接生成與消歧有關(guān)的內(nèi)容
該部分重點(diǎn)在于測(cè)試語(yǔ)言模型在上下文中直接生成消歧和對(duì)應(yīng)標(biāo)簽的學(xué)習(xí)能力。為此,作者構(gòu)建了一個(gè)自然提示并使用自動(dòng)評(píng)估和人工評(píng)估來(lái)驗(yàn)證模型的表現(xiàn),如表 2 所示。
▲表2 當(dāng)前提不明確時(shí),用于生成歧義消除任務(wù)的 few-shot 模板
在測(cè)試中,每個(gè)示例都有 4 個(gè)其他測(cè)試示例作為上下文,并使用 EDIT-F1 指標(biāo)和人工評(píng)估來(lái)計(jì)算得分和正確性。實(shí)驗(yàn)結(jié)果如表 3 顯示,GPT-4 在測(cè)試中表現(xiàn)最佳,實(shí)現(xiàn)了18.0%的 EDIT-F1 得分和 32.0% 的人工評(píng)估正確性。此外,還觀察到大模型在消歧時(shí)常常采用加入額外上下文的策略來(lái)直接確認(rèn)或否定假設(shè)。不過(guò)需要注意的是,人工評(píng)估可能會(huì)高估模型準(zhǔn)確報(bào)告歧義來(lái)源的能力。
▲表3 大模型在 AMBIENT 上的性能
Q2. 能否識(shí)別出合理解釋的有效性
該部分主要研究了大模型在識(shí)別含有歧義的句子時(shí)的表現(xiàn)。通過(guò)創(chuàng)建一系列真假陳述模板,并對(duì)模型進(jìn)行 zero-shot 測(cè)試,研究人員評(píng)估了大模型在選擇正誤之間的預(yù)測(cè)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,最佳模型是 GPT-4,然而,在考慮歧義性的情況下,GPT-4 在回答所有四個(gè)模板的歧義解釋中的表現(xiàn)比隨機(jī)猜測(cè)的準(zhǔn)確率還低。此外,大模型在問(wèn)題上存在一致性問(wèn)題,對(duì)于同一個(gè)歧義句子的不同解釋對(duì),模型可能會(huì)出現(xiàn)內(nèi)部矛盾的情況。
這些發(fā)現(xiàn)提示我們,需要進(jìn)一步研究如何提高大模型對(duì)含有歧義的句子的理解能力,并更好地評(píng)估大模型的性能。
Q3. 通過(guò)不同解釋模擬開(kāi)放式連續(xù)生成
這一部分主要研究基于語(yǔ)言模型的歧義理解能力。通過(guò)給定上下文,對(duì)語(yǔ)言模型進(jìn)行測(cè)試,比較模型對(duì)于不同可能解釋下的文本延續(xù)的預(yù)測(cè)。為了衡量模型對(duì)于歧義的處理能力,研究人員通過(guò)在相應(yīng)語(yǔ)境下比較模型在給定歧義和給定正確語(yǔ)境下所產(chǎn)生的概率和期望差異,用 KL 散度來(lái)衡量模型的“驚奇度”,并且引入隨機(jī)替換名詞的“干擾句”來(lái)進(jìn)一步測(cè)試模型的能力。
實(shí)驗(yàn)結(jié)果表明,F(xiàn)LAN-T5 的正確率最高,但不同測(cè)試套件(LS 涉及同義詞替換,PC 涉及拼寫(xiě)錯(cuò)誤的修正,SSD 涉及語(yǔ)法結(jié)構(gòu)修正)和不同模型的表現(xiàn)結(jié)果不一致,說(shuō)明歧義仍然是模型的一個(gè)嚴(yán)重挑戰(zhàn)。
多標(biāo)簽 NLI 模型實(shí)驗(yàn)
如表 4 所示,在已有帶有標(biāo)簽變化的數(shù)據(jù)上微調(diào) NLI 模型仍有較大提升空間,特別是多標(biāo)簽 NLI 任務(wù)中。
▲表4 多標(biāo)簽 NLI 模型在 AMBIENT 上的性能
檢測(cè)誤導(dǎo)性的政治言論
這項(xiàng)實(shí)驗(yàn)研究了對(duì)政治言論的不同理解方式,證明了對(duì)不同理解方式敏感的模型可被有效利用。研究結(jié)果如表 5 所示,針對(duì)有歧義的句子,一些解釋性的釋義可以自然而然地消除歧義,因?yàn)檫@些釋義只能保留歧義或者明確表達(dá)一個(gè)特定的意義。
▲表5 本文檢測(cè)方法標(biāo)記為有歧義的政治言論
此外,針對(duì)這種預(yù)測(cè)的釋義,可以揭示歧義的根源。通過(guò)進(jìn)一步分析誤報(bào)的結(jié)果,作者還發(fā)現(xiàn)了很多事實(shí)核查中沒(méi)有提到的歧義,說(shuō)明這些工具在預(yù)防誤解方面具有很大的潛力。
小結(jié)
如同本文中所指出的那樣,自然語(yǔ)言的歧義性將是模型優(yōu)化中的一個(gè)關(guān)鍵挑戰(zhàn)。我們期待未來(lái)的技術(shù)發(fā)展中,自然語(yǔ)言理解模型能夠更加準(zhǔn)確地識(shí)別文本中的上下文和重點(diǎn),并在處理歧義性文本時(shí)表現(xiàn)出更高的敏感度。盡管我們已經(jīng)建立了評(píng)估自然語(yǔ)言處理模型識(shí)別歧義的基準(zhǔn),并能夠更好地了解模型在這個(gè)領(lǐng)域中的局限性,但這仍然是一個(gè)非常具有挑戰(zhàn)性的任務(wù)。
夕小瑤科技說(shuō) 原創(chuàng)
作者 |智商掉了一地、Python