自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

新聞 機器學習
近年來,機器學習雖然被廣泛使用,但是卻不能很好的解決自然語言理解問題,其中可能涉及很多原因,ONTOLOGIK.AI 的創(chuàng)始人和首席NLU科學家Walid Saba給出了自己的觀點。

自然語言理解(NLU)是人工智能的核心課題之一,也被廣泛認為是最困難和最具標志性的任務。近年來,機器學習雖然被廣泛使用,但是卻不能很好的解決自然語言理解問題,其中可能涉及很多原因,ONTOLOGIK.AI 的創(chuàng)始人和首席NLU科學家Walid Saba給出了自己的觀點。

[[417828]]

20 世紀 90 年代早期,一場統(tǒng)計學革命取代了人工智能,并在 2000 年達到頂峰,而神經(jīng)網(wǎng)絡憑借深度學習成功回歸。這一經(jīng)驗主義轉(zhuǎn)變吞噬了人工智能的所有子領(lǐng)域,其中這項技術(shù)最具爭議的應用領(lǐng)域是自然語言處理。

以數(shù)據(jù)為驅(qū)動的經(jīng)驗方法在 NLP 中被廣泛使用的原因主要包括:符號和邏輯方法在取得三十年的霸權(quán)后未能產(chǎn)生可擴展的 NLP 系統(tǒng),從而導致 NLP 中所謂的經(jīng)驗方法(EMNLP)興起,這些方法可以用數(shù)據(jù)驅(qū)動、基于語料庫、統(tǒng)計和機器學習來統(tǒng)稱。

這種向經(jīng)驗主義轉(zhuǎn)變的背后動機非常簡單:在我們對語言是如何工作、以及語言如何與日??谡Z中談論的世界知識相關(guān)聯(lián)的,在對這些了解之前,經(jīng)驗和數(shù)據(jù)驅(qū)動的方法有助于構(gòu)建文本處理應用程序。正如 EMNLP 的先驅(qū)之一 Kenneth Church 所解釋的那樣,在 NLP 領(lǐng)域,倡導數(shù)據(jù)驅(qū)動和統(tǒng)計方法的科研人員,他們對解決簡單的語言任務感興趣,其動機從來不是暗示語言就是這樣工作的,而是做簡單的事情總比什么都不做要好。Church 認為這種轉(zhuǎn)變動機被嚴重誤解了,正如 McShane 在 2017 年所指出的,后來的幾代人誤解了這種經(jīng)驗趨勢。

[[417829]]

EMNLP 會議創(chuàng)立者、先驅(qū)之一 Kenneth Church。

這種被誤導的趨勢導致了一種不幸的情況:堅持使用大型語言模型(large language model, LLM)構(gòu)建 NLP 系統(tǒng),這需要巨大的計算能力,而且試圖通過記憶大量數(shù)據(jù)來接近自然語言對象,這種做法是徒勞的。這種偽科學的方法不僅浪費時間和資源,而且會誤導新一代的年輕科學家,錯誤地讓他們認為語言就是數(shù)據(jù)。更糟糕的是,這種做法還阻礙了自然語言理解(NLU)的發(fā)展。

相反,現(xiàn)在應該重新思考 NLU 方法,因為對于 NLU 來說,大數(shù)據(jù)方法不但在心理上、認知上,甚至計算上都讓人難以置信,而且盲目數(shù)據(jù)驅(qū)動的方法在理論上和技術(shù)上也是有缺陷的。

自然語言處理 VS 自然語言理解

雖然自然語言處理(NLP)和自然語言理解(NLU)經(jīng)?;Q使用,但是兩者之間存在實質(zhì)性差異,突出這種差異至關(guān)重要。事實上,區(qū)分自然語言處理和自然語言理解之間的技術(shù)差異,我們可以意識到以數(shù)據(jù)驅(qū)動和機器學習的方法雖然適用于 NLP 任務,但這種方法與 NLU 無關(guān)。以 NLP 中最常見的下游任務為例:

  • 摘要;
  • 主題抽??;
  • 命名實體識別;
  • 語義檢索;
  • 自動標簽;
  • 聚類。

上述任務與 PAC(Probably Approximately Correct, 可能近似正確)范式一致。具體地,NLP 系統(tǒng)的輸出評估是主觀的:沒有客觀的標準來判斷諸如一個摘要優(yōu)于另一個,或某個系統(tǒng)提取的主題、短語比另一個系統(tǒng)提取的更好等等。然而,自然語言理解不允許有這樣的自由度。要完全理解一個話語或一個問題,需要理解說話者試圖表達的唯一思想。為了理解這個復雜的過程,以自然語言查詢?yōu)槔?/p>

我們是否有一位退休的 BBC 記者在冷戰(zhàn)期間駐扎在東歐國家?

在數(shù)據(jù)庫中,對上述查詢將有且只有一個正確答案。將上述表達轉(zhuǎn)化為正確的 SQL 或者 SPARQL 查詢具有很大的挑戰(zhàn)性。這個問題背后的關(guān)鍵點包括:

  • 需要正確解讀「退休的 BBC 記者」,即所有曾在 BBC 工作、現(xiàn)已退休的記者的集合;
  • 通過保留那些曾經(jīng)也在一些「東歐國家」工作過的「退休 BBC 記者」來進一步過濾上述內(nèi)容。除了地理限制,還有時間限制,那些「退休的 BBC 記者」的工作時間必須是「冷戰(zhàn)期間」;
  • 以上意味著將介詞短語「在冷戰(zhàn)期間」附加到「駐扎」而不是「東歐國家」;
  • 進行正確的量詞范圍界定:我們尋找的不是在某個東歐國家工作的一個(單一)記者,而是在任何東歐國家工作的任何記者。

以上對語義的理解不會是可能、大致正確,而是非常確定的絕對正確。換句話說,我們必須從對上述問題的多種可能解釋中得出唯一一種含義,根據(jù)常識知識,推出提問者問題背后的想法??偠灾瑢ζ胀谡Z的真正理解與單純的文本(或語言)處理是完全不同的問題。在文本(或語言)處理中,我們可以接受近似正確的結(jié)果——結(jié)果在可接受的概率下也是正確的。

通過這個簡短的描述,我們應該可以清楚地了解為什么 NLP 與 NLU 不同,以及為什么 NLU 對機器來說是困難的。但是 NLU 的困難到底是什么呢?

NLU 難點在于缺失文本現(xiàn)象

所謂的缺失文本現(xiàn)象(missing text phenomenon, MTP),可以將其理解為 NLP 任務挑戰(zhàn)的核心。語言交流的過程如下圖所示:說者將思想編碼為某種語言表達,然后聽者將該語言表達解碼為說者意圖傳達的思想。

[[417830]]

圖 1:說者和聽者的語言交流過程。

解碼過程就是 NLU 中的 U——也就是說,理解語言話語背后的思想正是解碼過程需要做的事情。此外,在這個解碼過程中沒有近似或任何自由度——也就是說,從一個話語的多種可能意義來看,說話人想要表達的思想只有一個,而解碼過程中的「理解」必須達到這一個思想,這正是 NLU 困難的原因。

在這種復雜的交流中,有兩種可能的優(yōu)化方案:(1)說者可以壓縮(和最小化)在編碼中發(fā)送的信息量,并希望聽者在解碼(解壓縮)過程中做一些額外的工作;(2)說者盡最大努力傳遞所有必要的信息來傳達思想,而聽者幾乎什么也不用做。

隨著過程的自然演變,上述兩種方案似乎已經(jīng)得到一個很好的平衡,即說者和聽者的總體工作都得到了同樣的優(yōu)化。這種優(yōu)化導致說者可以編碼盡可能少的信息,而忽略其他信息。遺漏的信息對于說者和聽者來說,是可以通過安全假設獲得的信息,這正是我們經(jīng)常說的普通背景知識。

為了理解這一過程的復雜性,以下圖為例:黃色框中的是未優(yōu)化的信息,以及我們通常所說的信息量同等但小得多的文本信息(綠色框中信息)。

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

綠色框中信息要短很多,這正是我們說話的方式,語言雖短,但傳達的是與較長信息相同的思想。通常我們不會明確地說出所有想要表達的東西:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

也就是說,為了有效地溝通,我們在交流中通常不會說認為對方說都知道的信息。這也正是為什么我們都傾向于忽略相同的信息——因為我們都了解每個人都知道的,而這正是我們所謂的共同背景知識。人類在大約 20 萬年的進化過程中,發(fā)展出的這一天才優(yōu)化過程非常有效。但這就是 NLU 的問題所在:機器不知道我們遺漏了什么信息,因為機器不知道我們都知道什么。最終結(jié)果導致 NLU 是非常困難的,因為如果一個軟件程序不能以某種方式揭示人類在語言交流中遺漏和隱含的所有東西,它就不能完全理解我們語言話語背后的思想。這實際上才是 NLU 的挑戰(zhàn),而不是解析、詞干分析、詞性標記、命名實體識別等。

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

圖 2:NLU 中很多挑戰(zhàn)都是因為缺失文本現(xiàn)象造成的:圖中缺失的文本(隱式的假設)用紅色表示。

上述示例表明,NLU 的挑戰(zhàn)在于發(fā)現(xiàn)缺失信息,并隱含地認為這些信息是共享背景知識。下圖 3 進一步解釋了缺失文本現(xiàn)象:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

我們在下文給出三個原因來解釋為什么機器學習和數(shù)據(jù)驅(qū)動方法不能解決 NLU 問題。

ML 方法與 NLU 無關(guān):ML 是壓縮,語言理解需要解壓縮

用機器來實現(xiàn)自然語言理解是非常困難的,因為我們?nèi)粘?谡Z所表達的都是高度壓縮信息,「理解」的挑戰(zhàn)在于解壓縮出丟失文本。這對人類來說是很簡單的事情,但對機器來說卻大不相同,因為機器不知道人類掌握的知識。但 MTP 現(xiàn)象恰恰說明了為什么數(shù)據(jù)驅(qū)動與機器學習方法會在 NLP 任務中有效,但是在 NLU 中不起作用。

研究者在數(shù)學上已經(jīng)建立了可學習性和可壓縮性(COMP)之間的等價關(guān)系。也就是說,只有當數(shù)據(jù)高度可壓縮(即它有很多冗余)時,在數(shù)據(jù)集中才會發(fā)生可學習性,反之亦然。雖然證明可壓縮性和可學習性之間的關(guān)系相當復雜,但直觀上很容易理解:可學習性是關(guān)于理解大數(shù)據(jù)的,它在多維空間中找到一個函數(shù)可以覆蓋所有的數(shù)據(jù)集信息。因此,當所有數(shù)據(jù)點都可以壓縮成一個流形時,就會發(fā)生可學習性。但是 MTP 告訴我們 NLU 是關(guān)于解壓縮的。以下列內(nèi)容為例:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

機器學習是將大量數(shù)據(jù)泛化為單個函數(shù)。另一方面,由于 MTP,自然語言理解需要智能的解壓縮技術(shù),以發(fā)現(xiàn)所有缺失和隱式假設文本。因此,機器學習和語言理解是不相容的——事實上,它們是矛盾的。

ML 方法甚至與 NLU 無關(guān):統(tǒng)計意義不大

ML 本質(zhì)上是一種基于數(shù)據(jù)發(fā)現(xiàn)某些模式(相關(guān)性)的范式。研究者希望在自然語言中出現(xiàn)的各種現(xiàn)象在統(tǒng)計上存在顯著差異。舉例來說:

1. 獎杯裝不進手提箱,因為它太

1a. 小

1b. 大

同義詞與反義詞(例如小和大,開和關(guān)等)以相同的概率出現(xiàn)在上下文中,因此,在統(tǒng)計上來說 (1a) 和(1b) 是等價的,然而 (1a) 和(1b)所代表的內(nèi)容也是相當不同的:在此句中,「它」在 (1a)中隱含的意思是指手提箱小,但在 (1b) 中是指獎杯大,盡管它們的語義相差很大,但是 (1a) 和(1b)在統(tǒng)計上是等價的。因此,統(tǒng)計分析不能建模(甚至不能近似)語義。

ML 方法甚至與 NLU 無關(guān):intenSion

邏輯學家長期以來一直在研究一種稱為「intension」的語義概念。為了解釋什么是「intension」,首先要從所謂的語義三角(meaning triangle)開始講起,如下圖所示:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

在語義三角中,每個「事物(或每個認知對象)」都具有三部分:一個指代概念符號,以及這個概念(有時)具有的一些實例。以「獨角獸」這個概念為例,在現(xiàn)實生活中并沒有實際的示例。概念本身是其所有潛在實例的理想化模板,可以想象,幾個世紀以來,哲學家、邏輯學家和認知科學家一直在爭論概念的本質(zhì)及其定義,不管那場辯論如何,我們可以在一件事情上達成一致:一個概念(通常由某個符號 / 標簽引用)由一組特性集合和屬性定義,也許還有附加公理和既定事實等。然而,一個概念與實際(不完美)實例不同,在完美的數(shù)學世界中也是如此。舉例而言,雖然下面的算術(shù)表達式都具有相同的擴展,但它們具有不同的「intension」:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

上圖中所有表達式的值都是 16,在某種意義(它們的值)上來說是相等的,但這只是屬性之一。事實上,上面的表達式還有其他幾個屬性,比如語法結(jié)構(gòu)(為什么 a 和 d 是不同的)、運算符的數(shù)量等。其中值只是一個屬性,可以稱為擴展(extension),而所有屬性的集合是 intension。在應用科學(工程、經(jīng)濟學等)中,我們可以認為這些對象是相等的,如果它們在值上是相等的,但在認知中,這種相等是不存在的。舉例來說:

不同于NLP,數(shù)據(jù)驅(qū)動方法與機器學習無法攻克NLU,原因有三點

假設 (1) 是真的——也就是說,假設 (1) 確實發(fā)生了,并且我們見證了它。盡管如此,這并不意味著我們可以假設 (2) 為真,盡管我們所做的只是將 (1) 中的 16 替換為一個(假設),而該假設等于它的值。我們用一個假定等于它的對象替換了陳述中的一個對象,并且我們從真實的事物推斷出不真實的事物!雖然在物理科學中可以很容易地用一個屬性的對象來替換它,但這在認知中是行不通的。

總結(jié)來說,本文討論了機器學習和數(shù)據(jù)驅(qū)動方法與 NLU 無關(guān)的三個原因(盡管這些方法可能用于一些本質(zhì)上是壓縮任務的文本處理任務)。在傳達思想時,我們傳遞的是高度壓縮的語言信息,需要大腦來解釋和揭示所有缺失但隱含的背景信息。在很多方面,構(gòu)建大語言模型時,機器學習和數(shù)據(jù)驅(qū)動方法都在徒勞地試圖尋找數(shù)據(jù)中根本不存在的東西。我們必須意識到,日常的口語信息,并不是理想的語言數(shù)據(jù)。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2010-03-01 15:08:05

WCF單向操作

2010-03-11 14:13:20

Python編程

2023-03-27 08:17:48

2013-03-20 10:05:01

英特爾逆襲ARM

2022-02-13 08:36:46

數(shù)字人民幣支付寶微信錢包

2010-07-22 16:50:00

2016-07-15 10:37:37

云性能云計算

2015-09-20 15:50:46

2020-06-01 13:58:20

機器學習統(tǒng)計建模數(shù)據(jù)科學

2014-12-23 10:12:44

融云即時通訊云IM3.0

2010-06-29 10:41:39

2018-07-30 23:58:14

工業(yè)制造互聯(lián)網(wǎng)網(wǎng)絡安全

2024-06-28 12:05:24

jsNode模塊

2025-04-21 01:10:00

jsnode代碼

2011-06-14 17:14:33

SEO

2021-07-22 23:33:13

手機內(nèi)存5G

2022-01-24 14:42:03

手機技術(shù)廠商

2010-10-15 14:28:39

無線WLAN安全規(guī)范

2017-07-19 13:08:27

人工智能機器學習深度學習

2017-07-21 12:52:32

人工智能機器學習神經(jīng)網(wǎng)絡
點贊
收藏

51CTO技術(shù)棧公眾號