從語言建模到隱馬爾可夫模型:一文詳述計(jì)算語言學(xué)
計(jì)算語言學(xué)(computational linguistics)是一門跨學(xué)科的研究領(lǐng)域,它試圖找出自然語言的規(guī)律,建立運(yùn)算模型,最終讓電腦能夠像人類般分析、理解和處理自然語言。
過去,計(jì)算語言學(xué)的研究一般由專門負(fù)責(zé)利用電腦處理自然語言的計(jì)算機(jī)科學(xué)家進(jìn)行。由于近年的研究顯示人類語言的復(fù)雜性超乎想象,現(xiàn)在的計(jì)算語言學(xué)研究多由來自不同學(xué)科的專家共同進(jìn)行。一般來說,研究隊(duì)伍的成員有計(jì)算機(jī)科學(xué)家、語言學(xué)家、語言專家(熟悉有關(guān)研究項(xiàng)目所要處理的語言的人),以至研究人工智能、認(rèn)知心理學(xué)、數(shù)學(xué)、邏輯學(xué)等的專家。
本文為大家介紹一篇全面概述計(jì)算語言學(xué)的論文,希望能有助于各位讀者全面了解計(jì)算語言學(xué)。以下是該論文的目錄,機(jī)器之心將簡要介紹該論文所涉及到的五個(gè)主題,即語言建模與概率、機(jī)器翻譯、序列標(biāo)注與隱馬爾可夫模型、解析與 PCFG、主題模型與 PLSA 和 Gibbs 采樣,幾乎每章都有編程任務(wù)和習(xí)題。該論文在最初是 13 年發(fā)布的,但 16 年進(jìn)行了許多修正與更新。
論文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf
下文將分章節(jié)提供更新后的簡介與地址:
***章:語言建模與概率論
章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf
實(shí)際上概率方法在現(xiàn)代計(jì)算語言學(xué)中是十分普遍的,該論文所有討論的方法和主題都是是基于或涉及到各種各樣的概率模型。本章節(jié)主要是希望能提供這些最基本的概率論知識(shí),并為其它章節(jié)打下堅(jiān)實(shí)的基礎(chǔ)。實(shí)際上,本論文所述的各種語言模型都需要一定的概率論基礎(chǔ),但這些概率論基礎(chǔ)只需要最簡單的概念和公式就行。更加具體的概率論請(qǐng)查閱概率論相關(guān)書籍。
本章介紹了概率、一元文本建模、上下文依賴和 n 元語言模型。
第二章:機(jī)器翻譯
章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf
統(tǒng)計(jì)機(jī)器翻譯背后的概念十分簡單,假定我們翻譯中文和英文,那么我們首先需要一組中英平行語料庫,即語料庫中的中文句和英文句之間的距離非常短,然后我們使用這一些語料庫對(duì)兩種語言進(jìn)行概率建模,***在進(jìn)行預(yù)測(cè)的時(shí)候只需要選擇概率***的語句作為譯文就完成了翻譯。
本章介紹了機(jī)器翻譯的基本原理、IBM Model 1 和 Model 2、基于短語的機(jī)器翻譯和解碼。不過本章節(jié)沒有介紹機(jī)器翻譯的深度學(xué)習(xí)方法,比如說 RNN、LSTM、注意力機(jī)制等,但仍然非常有助于初學(xué)者系統(tǒng)地了解統(tǒng)計(jì)機(jī)器翻譯。
第三章:序列標(biāo)注與隱馬爾可夫模型
章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf
序列標(biāo)注問題即給定一個(gè)長度為 n 的序列 x=(x_1, . . . , x_n),還有長度為 n 的輸出序列 y = (y_1, . . . , y_n),其中 y_i ∈ Y 為 x_i 的標(biāo)注。很多語言處理任務(wù)都是采用的這種框架,因此序列標(biāo)注問題在計(jì)算語言學(xué)中占據(jù)十分重要的地位。
本章我們介紹了隱馬爾可夫模型(HMM),一種適合這類任務(wù)的非常優(yōu)雅的技術(shù)。HMM 首先用于語音識(shí)別,i 是對(duì)時(shí)間的度量。
隱馬爾可夫模型(Hidden Markov model):顯馬爾可夫過程是完全確定性的——一個(gè)給定的狀態(tài)經(jīng)常會(huì)伴隨另一個(gè)狀態(tài)。交通信號(hào)燈就是一個(gè)例子。相反,隱馬爾可夫模型通過分析可見數(shù)據(jù)來計(jì)算隱藏狀態(tài)的發(fā)生。隨后,借助隱藏狀態(tài)分析,隱馬爾可夫模型可以估計(jì)可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態(tài))可用于預(yù)測(cè)晴天、雨天、多云天的概率。
- 優(yōu)點(diǎn):容許數(shù)據(jù)的變化性,適用于識(shí)別(recognition)和預(yù)測(cè)操作
- 場景舉例:面部表情分析、氣象預(yù)測(cè)
本章介紹了隱馬爾可夫模型、most likely label 和維特比解碼、如何使用 HMM 確定序列概率、后向概率、評(píng)估 HMM 參數(shù)、前向-后向算法中的 MT 參數(shù)、使用 HMM 的平滑(smoothing)算法、詞性歸納(part-of-speech induction)。
第四章:解析與 PCFG
章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf
在自然語言,如英語中,詞與詞連接起來構(gòu)成詞組,詞組和詞組連接起來構(gòu)成新的詞組。例如,在句子「Sam thinks Sandy likes the book」中,單詞「the」和「book」結(jié)合起來構(gòu)成了名詞詞組(NP)「the book」,「the book」又和動(dòng)詞「like」連接起來構(gòu)成了動(dòng)詞詞組(VP)「likes the book」,它與「Sandy」連接起來構(gòu)成了嵌入句或語句(S)「Sandy likes the book」。本章的主題就是解析——從單詞串中發(fā)現(xiàn)某種結(jié)構(gòu)。
本章首先介紹了短語結(jié)構(gòu)樹和依賴樹,然后介紹概率上下文無關(guān)語法(PCFG),以及使用 PCFG 進(jìn)行解析和如何評(píng)估 PCFG,之后介紹了 scoring parser。本章還介紹了評(píng)估 treebank 中較好的語法以及如何對(duì) A 解析器進(jìn)行編程。
第五章:主題模型與 PLSA 和 Gibbs 采樣
章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf
本章主要介紹主題模型,寫出獲取概念「aboutness」的程序。
本章介紹了主題模型、概率潛在語義分析(PLSA)和學(xué)習(xí) PLSA 參數(shù)。
主題模型(Topic Model)在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型。直觀來講,如果一篇文章有一個(gè)中心思想,那么一些特定詞語會(huì)更頻繁的出現(xiàn)。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現(xiàn)的頻率會(huì)高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現(xiàn)的頻率會(huì)高些。而有些詞例如「這個(gè)」、「和」大概在兩篇文章中出現(xiàn)的頻率會(huì)大致相等。但真實(shí)的情況是,一篇文章通常包含多種主題,而且每個(gè)主題所占比例各不相同。因此,如果一篇文章 10% 和貓有關(guān),90% 和狗有關(guān),那么和狗相關(guān)的關(guān)鍵字出現(xiàn)的次數(shù)大概會(huì)是和貓相關(guān)的關(guān)鍵字出現(xiàn)次數(shù)的 9 倍。一個(gè)主題模型試圖用數(shù)學(xué)框架來體現(xiàn)文檔的這種特點(diǎn)。主題模型自動(dòng)分析每個(gè)文檔,統(tǒng)計(jì)文檔內(nèi)的詞語,根據(jù)統(tǒng)計(jì)的信息來斷定當(dāng)前文檔含有哪些主題,以及每個(gè)主題所占的比例各為多少。主題模型最初是運(yùn)用于自然語言處理相關(guān)方向,但目前已經(jīng)延伸至生物信息學(xué)等其它領(lǐng)域。
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】