自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究表明大型語言模型在邏輯推理方面存在問題

譯文
人工智能
人工智能系統(tǒng)針對(duì)自然語言處理和理解問題有幾個(gè)基準(zhǔn)測(cè)試,例如GLUE、SuperGLUE、SNLI和SqUAD。隨著Transformer規(guī)模變得越來越大,并在更大的數(shù)據(jù)集上接受訓(xùn)練,Transformer已經(jīng)能夠在這些基準(zhǔn)上逐步改進(jìn)。

譯者 | 李睿

審校 | 孫淑娟

在具有感知功能的聊天機(jī)器人成為熱門話題之前,大型語言模型(LLM)就已經(jīng)引起了人們更多的興奮和擔(dān)憂。近年來,經(jīng)過大量文本訓(xùn)練的深度學(xué)習(xí)模型——大型語言模型(LLM) 在幾個(gè)用于衡量語言理解能力的基準(zhǔn)方面表現(xiàn)出色。

諸如GPT-3和LaMDA之類的大型語言模型設(shè)法在較長(zhǎng)的文本中保持連貫性。它們似乎對(duì)不同的主題很了解,并在冗長(zhǎng)的對(duì)話中保持一致。大型語言模型(LLM)已經(jīng)變得如此令人信服,以至于有些人將它們與人格和更高形式的智力聯(lián)系在一起。

但是大型語言模型(LLM)能像人類一樣進(jìn)行邏輯推理嗎?根據(jù)加州大學(xué)洛杉磯分??茖W(xué)家發(fā)布的一篇研究論文,在大型語言模型(LLM)中使用的深度學(xué)習(xí)架構(gòu)Transformers并沒有學(xué)習(xí)模擬推理功能。與其相反,電腦們找到了明智的方法來學(xué)習(xí)推理問題中固有的統(tǒng)計(jì)特征。

研究人員在一個(gè)有限的問題空間中測(cè)試了當(dāng)前流行的Transformer架構(gòu)BERT。他們的研究結(jié)果表明,BERT可以準(zhǔn)確地響應(yīng)訓(xùn)練空間中分布內(nèi)示例的推理問題,但不能推廣到基于相同問題空間的其他分布中的示例。

而這些測(cè)試突出了深度神經(jīng)網(wǎng)絡(luò)的一些缺點(diǎn)以及用于評(píng)估它們的基準(zhǔn)。

1.如何衡量人工智能中的邏輯推理?

人工智能系統(tǒng)針對(duì)自然語言處理和理解問題有幾個(gè)基準(zhǔn)測(cè)試,例如GLUE、SuperGLUE、SNLI和SqUAD。隨著Transformer規(guī)模變得越來越大,并在更大的數(shù)據(jù)集上接受訓(xùn)練,Transformer已經(jīng)能夠在這些基準(zhǔn)上逐步改進(jìn)。

值得注意的是,人工智能系統(tǒng)在這些基準(zhǔn)上的表現(xiàn)通常與人類智能進(jìn)行比較。人類在這些基準(zhǔn)上的表現(xiàn)與常識(shí)和邏輯推理能力密切相關(guān)。但目前尚不清楚大型語言模型的改進(jìn)是因?yàn)樗鼈儷@得了邏輯推理能力,還是因?yàn)樗鼈兘佑|了大量文本。

為了驗(yàn)證這一點(diǎn),加州大學(xué)洛杉磯分校的研究人員開發(fā)了SimpleLogic,這是一類基于命題邏輯的邏輯推理問題。為了確保語言模型的推理能力經(jīng)過嚴(yán)格測(cè)試,研究人員通過使用模板語言結(jié)構(gòu)消除了語言差異。SimpleLogic問題由一組事實(shí)、規(guī)則、查詢和標(biāo)簽組成。事實(shí)是已知為“真”的謂詞。規(guī)則是條件,定義為條款。查詢是機(jī)器學(xué)習(xí)模型必須響應(yīng)的問題。標(biāo)簽是查詢的答案,也就是“真”或“假”。 SimpleLogic問題被編譯成連續(xù)的文本字符串,其中包含語言模型在訓(xùn)練和推理期間所期望的信號(hào)和分隔符。 

圖片

以SimpleLogic格式提出的問題SimpleLogic的特點(diǎn)之一是它的問題是自包含的,不需要先驗(yàn)知識(shí)。這一點(diǎn)尤其重要,因?yàn)檎缭S多科學(xué)家所說,當(dāng)人類說話時(shí),他們忽略了共享的知識(shí)。這就是為什么當(dāng)被問及每個(gè)人都知道的基本世界知識(shí)的問題時(shí),語言模型經(jīng)常陷入陷阱的原因。相比之下,SimpleLogic為開發(fā)人員提供解決其問題所需的一切。 因此,任何查看SimpleLogic格式提出的問題的開發(fā)人員都應(yīng)該能夠推斷其規(guī)則,并能夠處理新示例,無論他們的背景知識(shí)如何。

2.統(tǒng)計(jì)特征和邏輯推理

研究人員證明,SimpleLogic中的問題空間可以用一個(gè)推理函數(shù)來表示。研究人員進(jìn)一步表明,BERT有足夠的能力解決SimpleLogic中的所有問題,它們可以人工調(diào)整機(jī)器學(xué)習(xí)模型的參數(shù)來表示推理功能。

然而,當(dāng)它們?cè)赟impleLogic示例數(shù)據(jù)集上訓(xùn)練BERT時(shí),該模型無法自行學(xué)習(xí)推理功能。機(jī)器學(xué)習(xí)模型設(shè)法在一個(gè)數(shù)據(jù)分布上實(shí)現(xiàn)近乎完美的準(zhǔn)確性。但它并沒有推廣到同一問題空間內(nèi)的其他分布。盡管訓(xùn)練數(shù)據(jù)集覆蓋了整個(gè)問題空間,并且所有分布都來自同一推理函數(shù),但情況仍然如此。

圖片

BERT Transformer模型的容量足以表示SimpleLogic的推理功能

(注:這與分布外泛化挑戰(zhàn)不同,后者適用于開放空間問題。當(dāng)模型無法泛化到OOD數(shù)據(jù)時(shí),當(dāng)處理不在其訓(xùn)練集分布范圍內(nèi)的數(shù)據(jù)時(shí),其性能會(huì)顯著下降。)

研究人員寫道:“經(jīng)過進(jìn)一步調(diào)查,我們?yōu)檫@個(gè)悖論提供了一個(gè)解釋:僅在分布測(cè)試示例上達(dá)到高精度的模型還沒有學(xué)會(huì)推理。事實(shí)上,該模型已經(jīng)學(xué)會(huì)在邏輯推理問題中使用統(tǒng)計(jì)特征來進(jìn)行預(yù)測(cè),而不是模擬正確的推理功能?!?/p>

這一發(fā)現(xiàn)凸顯了將深度學(xué)習(xí)用于語言任務(wù)的一個(gè)重要挑戰(zhàn)。神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)發(fā)現(xiàn)和擬合統(tǒng)計(jì)特征。在某些應(yīng)用程序中,這可能非常有用。例如,在情感分析中,某些詞和情感類別之間存在很強(qiáng)的相關(guān)性。

然而,對(duì)于邏輯推理任務(wù),即使存在統(tǒng)計(jì)特征,其模型也應(yīng)該嘗試找到并學(xué)習(xí)潛在的推理功能。

研究人員寫道:“當(dāng)我們?cè)噲D對(duì)神經(jīng)模型進(jìn)行端到端的訓(xùn)練,以解決既涉及邏輯推理又涉及先驗(yàn)知識(shí)且呈現(xiàn)語言差異的自然語言處理(NLP)任務(wù)時(shí),應(yīng)該小心謹(jǐn)慎?!彼麄儚?qiáng)調(diào),SimpleLogic帶來的挑戰(zhàn)在現(xiàn)實(shí)世界中變得更加嚴(yán)峻,大型語言模型(LLM)所需的大量信息根本不包含在數(shù)據(jù)中。

研究人員觀察到,當(dāng)他們從訓(xùn)練數(shù)據(jù)集中刪除一個(gè)統(tǒng)計(jì)特征時(shí),語言模型在相同問題空間的其他分布上的性能得到了改善。然而,問題是發(fā)現(xiàn)和刪除多個(gè)統(tǒng)計(jì)特征說起來容易做起來難。正如研究人員在論文中指出的那樣,“此類統(tǒng)計(jì)特征可能數(shù)不勝數(shù),并且極其復(fù)雜,因此很難從訓(xùn)練數(shù)據(jù)中刪除?!?/p>

3.深度學(xué)習(xí)中的推理

不幸的是,隨著語言模型規(guī)模的變大,邏輯推理問題并沒有消失。它只是隱藏在龐大的架構(gòu)和非常大的訓(xùn)練語料庫中。大型語言模型(LLM)可以描述事實(shí)并且很好地將句子拼接在一起,但是在邏輯推理方面,他們?nèi)匀皇褂媒y(tǒng)計(jì)特征進(jìn)行推理,這不是一個(gè)堅(jiān)實(shí)的基礎(chǔ)。而且,沒有跡象表明通過向Transformers添加層、參數(shù)和注意力頭,邏輯推理的差距將被彌合。

這篇論文與其他顯示神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)邏輯規(guī)則方面的局限性的工作一致,例如生命游戲或視覺數(shù)據(jù)的抽象推理。該論文強(qiáng)調(diào)了當(dāng)前語言模型面臨的主要挑戰(zhàn)之一。正如加州大學(xué)洛杉磯分校的研究人員所指出的,“一方面,當(dāng)一個(gè)模型被訓(xùn)練來從數(shù)據(jù)中學(xué)習(xí)一項(xiàng)任務(wù)時(shí),它總是傾向于學(xué)習(xí)統(tǒng)計(jì)模式,這些模式固有地存在于推理示例中;然而,另一方面,邏輯規(guī)則從不依賴統(tǒng)計(jì)模式來進(jìn)行推理。由于很難構(gòu)建一個(gè)不包含統(tǒng)計(jì)特征的邏輯推理數(shù)據(jù)集,因此從數(shù)據(jù)中學(xué)習(xí)推理是很困難的?!?/p>

原文鏈接:https://bdtechtalks.com/2022/06/27/large-language-models-logical-reasoning/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-12-01 08:00:00

2022-11-30 10:05:27

VMware

2021-04-02 09:40:06

量子計(jì)算芯片超算

2024-02-04 14:04:46

AIGC

2025-03-03 09:40:00

2015-09-21 09:52:57

邏輯推理

2023-07-19 14:50:01

網(wǎng)絡(luò)安全勒索軟件

2025-01-27 12:03:11

2024-04-26 08:53:46

自動(dòng)駕駛人工智能大型語言模型

2025-03-13 12:09:27

2024-10-16 13:50:00

模型AI

2023-05-22 15:46:56

模型訓(xùn)練

2025-03-11 13:07:58

2024-04-16 16:14:01

人工智能LLMRAG

2024-12-31 09:55:23

2023-06-02 15:47:49

2024-12-19 09:48:59

2024-12-23 07:20:00

LLM逆向思維語言模型

2023-06-19 16:05:22

大型語言模型人工智能

2023-05-29 06:54:57

知識(shí)圖譜神經(jīng)和符號(hào)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)