語言學(xué)家重出江湖!從「發(fā)音」開始學(xué):這次AI模型要自己教自己
?試圖讓計算機(jī)理解人類的語言一直是人工智能領(lǐng)域邁不過的難關(guān)。
早期的自然語言處理模型通常采用人工設(shè)計特征,需要專門的語言學(xué)家手工編寫pattern,但最終效果卻并不理想,甚至AI研究一度陷入寒冬。?
每當(dāng)我開除一個語言學(xué)家,語音識別系統(tǒng)就更準(zhǔn)確了。
Every time I fire a linguist, the performance of the speech recognizer goes up.
——Frederick Jelinek
有了統(tǒng)計模型、大規(guī)模預(yù)訓(xùn)練模型以后,特征抽取是不用做了,但仍然需要對指定任務(wù)進(jìn)行數(shù)據(jù)標(biāo)注,而且最關(guān)鍵的問題在于:訓(xùn)練得到的模型還是不懂人類的語言。
所以,我們是不是該從語言最初的形態(tài)開始重新研究:人類到底是怎么獲得語言能力的?
最近來自康奈爾大學(xué)、麻省理工學(xué)院和麥吉爾大學(xué)的研究人員在Nature Communications上發(fā)表了一篇論文,提出一個算法合成模型的框架,在人類語言的最基礎(chǔ)部分,即詞法音位學(xué)(morpho-phonology)上開始教AI學(xué)習(xí)語言,直接從聲音中構(gòu)建語言的詞法。
論文鏈接:https://www.nature.com/articles/s41467-022-32012-w
詞法音位學(xué)是語言學(xué)分支之一,主要關(guān)注語素(即最小的意義單位)在組合成詞時發(fā)生的音變,試圖給出一系列規(guī)則,以預(yù)判語言中音素的規(guī)律變聲。
比如說英語中的復(fù)數(shù)語素寫作-s或是-es,但讀音卻有三種[s]、[z] 及 [?z],比如cats的發(fā)音為/k?ts/, dogs的發(fā)音為/dagz/, horses的發(fā)音為/h?rs?z/。
人類在學(xué)習(xí)復(fù)數(shù)發(fā)音轉(zhuǎn)換時,首先根據(jù)詞法學(xué)(morphology),意識到復(fù)數(shù)后綴實際上是/z/;然后根據(jù)音位學(xué)(phonlogy),將后綴基于詞干中的聲韻,如清輔音等轉(zhuǎn)換成/s/或/?z/
其他語言也有同樣的音位詞法規(guī)律,研究人員從58種語言的音位教科書上收集得到了70個數(shù)據(jù)集,每個數(shù)據(jù)集只包含幾十到幾百個單詞,并且只包含少數(shù)語法現(xiàn)象,實驗表明在自然語言中尋找語法結(jié)構(gòu)的方法也可以模擬嬰兒學(xué)習(xí)語言的過程。
通過對這些語言數(shù)據(jù)集執(zhí)行分層貝葉斯推理(hierarchical Bayesian inference),研究人員發(fā)現(xiàn)該模型僅從一個或幾個樣例中就可以獲取新的詞法音位規(guī)則,并且能夠提取出通用的跨語言模式,并以緊湊的、人類可理解的形式表達(dá)出來。
讓AI模型做「語言學(xué)家」
人類的智能主要體現(xiàn)在建立認(rèn)知世界理論的能力,比如自然語言形成后,語言學(xué)家總結(jié)了一套規(guī)則來幫助兒童更快速地學(xué)習(xí)特定語言,而當(dāng)下的AI模型卻無法總結(jié)規(guī)則,形成一套其他人可理解的理論框架。
在建立模型之前要解決一個核心問題:「如何描述一個詞」,比如說一個詞的學(xué)習(xí)過程包括了解詞的概念、意圖、用法、發(fā)音以及含義等。
在構(gòu)建詞表時,研究人員把每個詞表示為一個<音標(biāo),語義集合>對,例如open表示為</opεn/, [stem: OPEN]>, 過去式表示為</d/, [tense: PAST]>,組合得到的opened表示為</opεnd/, [stem: OPEN, [tense: PAST]]>
有了數(shù)據(jù)集以后,研究人員建立了一個模型,通過最大后驗概率推理來解釋在一組pair集合上生成語法規(guī)則,對詞的變化進(jìn)行解釋。
在聲音的表示上,音素(原子音)被表示為二元特征的向量,比如/m/,/n/,是鼻音,然后基于該特征空間定義語音規(guī)則。
研究人員采用經(jīng)典的規(guī)則表述方式,即情境相關(guān)記憶(context-dependent),有時也稱之為SPE-style規(guī)則,其廣泛應(yīng)用于英語的音型(Sound Pattern of English)表示。
每個規(guī)則的寫法是
(focus)→(structural_change)/(left_trigger)_(right_trigger),意思是只要左/右觸發(fā)環(huán)境緊靠focus的左/右,焦點音素就會根據(jù)結(jié)構(gòu)變化進(jìn)行轉(zhuǎn)換。
觸發(fā)環(huán)境指定了特征的連接(表征音素的集合),例如在英語中,只要左邊的音素是[-sonorant],在詞末的發(fā)音就會從/d/變成/t/,寫成規(guī)則就是[-sonorant] → [-voice]/[-voice -sonorant]_#,比如說walked應(yīng)用這一規(guī)則后,發(fā)音就從/w?kd/轉(zhuǎn)化為/w?kt/。
當(dāng)這種規(guī)則被限制為不能循環(huán)應(yīng)用于自己的輸出時,規(guī)則和詞法學(xué)就對應(yīng)于雙向有理函數(shù)(2-way rational functions),又對應(yīng)于有窮狀態(tài)轉(zhuǎn)換器(finite-state transductions)。有人認(rèn)為有窮狀態(tài)轉(zhuǎn)換器的空間有足夠的表現(xiàn)力來涵蓋形態(tài)語音學(xué)中已知的經(jīng)驗現(xiàn)象,并代表了對語音學(xué)理論實際使用的描述能力的限制。
為了學(xué)習(xí)這種語法,研究人員采用了貝葉斯程序?qū)W習(xí)(Bayesian Program Learning, BPL)的方法。將每個語法規(guī)則T建模為一種編程語言中的程序,這種語言捕捉了問題空間的特定領(lǐng)域的約束。所有語言共同的語言結(jié)構(gòu)被稱為通用語法(universal grammar)。該方法可以被看作是語言學(xué)中一個長期存在的方法的現(xiàn)代實例,并采用人類可理解的生成性代表來正式確定通用語法。
在定義好BPL需要解決的問題后,在所有程序的搜索空間都是無窮大,不給出如何解決這個問題的任何指導(dǎo)方向,且缺乏像梯度下降或馬爾科夫鏈蒙特卡洛這樣局部優(yōu)化算法所利用的局部平穩(wěn)性的情況下,研究人員采用了一種基于約束的程序合成的策略,將優(yōu)化問題轉(zhuǎn)化為組合約束滿足問題,并使用布爾可滿足性(SAT)求解器來解決。
這些求解器實現(xiàn)了詳盡但相對有效地搜索,并保證在有足夠時間的情況下,會找到一個最優(yōu)解。使用Sketch程序合成器可以解決與某些數(shù)據(jù)一致的最小的語法,但必須符合語法大小的上限。
但在實踐中,SAT求解器所采用的窮舉搜索技術(shù)無法擴(kuò)展到解釋大型語料庫所需的海量規(guī)則。
為了將求解器擴(kuò)展到大型和復(fù)雜的理論,研究人員從兒童獲得語言能力和科學(xué)家建立理論的一個基本特征中得到了啟發(fā)。
兒童并不是一蹴而就地學(xué)習(xí)語言,而是通過語言發(fā)展的中間階段,逐步豐富他們對語法和詞匯的掌握。同樣地,一個復(fù)雜的科學(xué)理論可能從一個簡單的概念內(nèi)核開始,然后逐漸發(fā)展到涵蓋越來越多的語言現(xiàn)象。
基于上述想法,研究人員又設(shè)計了一種程序合成算法,從一個小程序開始,然后反復(fù)使用SAT求解器來尋找小的修改點,使其能夠解釋越來越多的數(shù)據(jù)。具體來說,就是找到一個對當(dāng)前理論的反例,然后使用求解器詳盡地探索可以容納這個反例的理論的所有小修改的空間。
但這種啟發(fā)式的方法缺乏SAT求解的完整性保證:盡管重復(fù)調(diào)用一個完整的、精確的SAT求解器,但它并不能保證找到一個最優(yōu)解,不過每一次重復(fù)調(diào)用都比直接對整個數(shù)據(jù)進(jìn)行優(yōu)化要難得多。因為約束每個新的理論在理論空間中接近其前一個理論會導(dǎo)致約束滿足問題的多項式縮小,從而使搜索時間呈指數(shù)級增長,而SAT求解器在最壞的情況下是以指數(shù)級增長的。
在實驗評估階段,研究人員從語言學(xué)教科書中搜集了70個問題,每個問題都要求對一些自然語言中的一些形式的理論進(jìn)行綜合分析。這些問題的難度范圍很廣,涵蓋了多種多樣的自然語言現(xiàn)象。
自然語言也多種多樣,包括音調(diào)語言,例如,在Kerewe語(坦桑尼亞的一種班圖語)中,to count是/kubala/,但to count it是/kukíbála/,其中重音標(biāo)記高音調(diào)。
也有元音和諧(vowel harmony)的語言,例如土耳其有/el/,/t∫an/,分別表示手,鐘,以及/el-ler/,/t∫an-lar/,分別表示手和鐘的復(fù)數(shù);還有許多其他語言現(xiàn)象,如同化和外延式。
在評估上,首先衡量該模型發(fā)現(xiàn)正確的詞表的能力。與ground-truth詞表相比,該模型在60%的基準(zhǔn)中發(fā)現(xiàn)了與問題的全部詞庫正確匹配的語法,并在79%的問題中正確解釋了大部分的詞庫。
通常情況下,每個問題的正確詞庫比正確的規(guī)則更明確,任何從正確的詞庫中產(chǎn)生完整數(shù)據(jù)的規(guī)則必須與模型可能提出的任何基礎(chǔ)規(guī)則具有觀察上的等效性。因此,與基礎(chǔ)真理詞庫的一致性應(yīng)該作為一個指標(biāo)來衡量同步化的規(guī)則在數(shù)據(jù)上是否有正確的行為,該評估與規(guī)則的質(zhì)量相關(guān)。
為了測試這個假設(shè),研究人員隨機(jī)抽取了15個問題,并與一位專業(yè)語言學(xué)家協(xié)商,對發(fā)現(xiàn)的規(guī)則進(jìn)行評分。同時測量召回率(正確恢復(fù)的實際語音規(guī)則的比例)和精確度(恢復(fù)的規(guī)則中實際出現(xiàn)的比例)。在精度和召回率的指標(biāo)下,可以發(fā)現(xiàn)規(guī)則的準(zhǔn)確性與詞庫的準(zhǔn)確性呈正相關(guān)。
當(dāng)系統(tǒng)得到所有詞庫的正確性時,它很少引入無關(guān)的規(guī)則(高精度),而且?guī)缀蹩偸堑玫剿姓_的規(guī)則(高召回率)。?