自然語言處理必讀:5本平衡理論與實(shí)踐的書籍
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
當(dāng)談到學(xué)習(xí)方法時(shí),我們常常會(huì)提到教程、博客文章、在線課程等等,書本總是會(huì)被忽略掉。即使是在找一本關(guān)于某個(gè)主題的書,也會(huì)很快發(fā)現(xiàn)這樣的書太多了,無法快速判斷哪一本最適合自己。
為了幫助你解決問題,我?guī)湍氵x擇5本關(guān)于自然語言處理的書,不像其他的書單,除了第一本之外,這些書都不是免費(fèi)的,但事實(shí)證明它們是值得投資的,希望能對(duì)大家有所幫助。
1. 應(yīng)用Python進(jìn)行自然語言處理(Natural Language Processing with Python)
本書由Steven Bird, Ewan Klein 和 Edward Loper編寫,你可以從Python系統(tǒng)的角度學(xué)習(xí)自然語言處理的實(shí)用基礎(chǔ)知識(shí),更適合初學(xué)者。它也稱為NLTK書籍,應(yīng)用Python進(jìn)行自然語言處理在整個(gè)過程中都很大程度上依賴于NLTK庫。以下摘自這本書的序言:
“本書對(duì)NLP領(lǐng)域介紹通俗易懂。它可以用于個(gè)人學(xué)習(xí),也可以作為自然語言處理或計(jì)算語言學(xué)課程的教科書,或者作為人工智能、文本挖掘或語料庫語言學(xué)課程的補(bǔ)充。本書非常實(shí)用,包含數(shù)百個(gè)例子和分級(jí)練習(xí)。本書適合所有人,無論以前的編程經(jīng)驗(yàn)如何,只要你想學(xué)如何編程并分析書面語言,就可以讀它。”
如上所述,這本書絕對(duì)實(shí)用。雖然你肯定會(huì)在進(jìn)行過程中得到概念解釋,但毫無疑問,這本書的確是為那些希望用Python實(shí)現(xiàn)NLP解決方案的人而設(shè)計(jì)的。
2. 使用PyTorch進(jìn)行自然語言處理(NaturalLanguage Processing with PyTorch)
本書的作者是Delip Rao和Brian McMahan,其中并沒有介紹NLP領(lǐng)域的傳統(tǒng)技術(shù),而是介紹了如今使用的神經(jīng)網(wǎng)絡(luò)。這門學(xué)科的另一種實(shí)用方法是使用PyTorch進(jìn)行自然語言處理,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于NLP中。
從這本書的網(wǎng)站你可以直接看到一些主題,包括:
- 探索計(jì)算圖表和監(jiān)督學(xué)習(xí)范式
- 掌握PyTorch優(yōu)化張量操作庫的基礎(chǔ)知識(shí)
- 對(duì)傳統(tǒng)的NLP概念和方法進(jìn)行概述
- 學(xué)習(xí)建立神經(jīng)網(wǎng)絡(luò)的基本概念
- 使用嵌入來表示單詞、句子、文檔和其他特性
- 探索序列預(yù)測并生成Seq2seq模型
- 學(xué)習(xí)構(gòu)建生產(chǎn)NLP系統(tǒng)的設(shè)計(jì)模式
從更傳統(tǒng)的(基于非神經(jīng)網(wǎng)絡(luò))NLP技術(shù)到當(dāng)代NLP,NLP越來越依賴于深度學(xué)習(xí)。
3. 用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行自然語言處理(Neural Network Methods for Natural Language Processing)
這是Yoav Goldberg寫的關(guān)于NLP的神經(jīng)網(wǎng)絡(luò)方法的書。本書針對(duì)NLP相關(guān)的概念進(jìn)行了深入解釋,你可以學(xué)習(xí)如何輕松地用代碼實(shí)現(xiàn)它們。以下摘自本書網(wǎng)站:
“這本書著重于神經(jīng)網(wǎng)絡(luò)模型在自然語言數(shù)據(jù)中的應(yīng)用。本書第一部分和第二部分涵蓋了監(jiān)督機(jī)器學(xué)習(xí)和前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),在語言數(shù)據(jù)上使用機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),以及使用基于向量而不是符號(hào)表征的單詞。”
“本書第三部分和第四部分介紹了更專業(yè)的神經(jīng)網(wǎng)絡(luò)架構(gòu),包括一維卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、條件生成模型和基于注意力的模型。這些架構(gòu)和技術(shù)是機(jī)器翻譯、句法分析和許多其他應(yīng)用程序的最新算法背后的驅(qū)動(dòng)力。”
在理論或解釋性領(lǐng)域,自然語言處理的神經(jīng)網(wǎng)絡(luò)方法將大大加強(qiáng)你對(duì)基于現(xiàn)代神經(jīng)網(wǎng)絡(luò)的NLP方法是如何工作的理解。
4. 自然語言處理的語言學(xué)基礎(chǔ)(LinguisticFundamentals for Natural Language Processing)
在使用NLP時(shí),盲目學(xué)習(xí)語言基礎(chǔ)并不好一個(gè)好主意,而且在缺乏任何語言正式學(xué)習(xí)經(jīng)歷的情況下,如果要從純計(jì)算的角度研究NLP或計(jì)算語言學(xué)時(shí),你要注意的地方就有很多了。本書旨在幫助你彌合這一差距。
網(wǎng)站上這樣描述此書:
- 本書旨在提供一種簡潔易懂的信息,它關(guān)于形態(tài)和句法結(jié)構(gòu)的人類語言,可以用于創(chuàng)造更復(fù)雜、更獨(dú)立的語言,因此是更成功的NLP系統(tǒng)。”
- 本書第一章的以下內(nèi)容支撐這一點(diǎn):關(guān)于語言結(jié)構(gòu)的知識(shí)可以為NLP的機(jī)器學(xué)習(xí)方法提供特征設(shè)計(jì)的信息。更具體地說:語言結(jié)構(gòu)的知識(shí)將導(dǎo)致機(jī)器學(xué)習(xí)呈現(xiàn)更好的特征。”
- 本書由100個(gè)為更好地理解形態(tài)和語法的要點(diǎn)組成,與要點(diǎn)組成相關(guān)主題的章節(jié)也包含在內(nèi)。如果你沒有語言學(xué)背景,讀起來可能有些辛苦,但它將讓你更好地理解語言,并在NLP職業(yè)生涯中熟練使用。”
5. 自然語言處理實(shí)踐(NaturalLanguage Processing in Action)
Hobson Lane, Hannes Hapke 和Cole Howard合著的這本書將帶我們回到現(xiàn)實(shí)。本書涵蓋了傳統(tǒng)的和基于神經(jīng)網(wǎng)絡(luò)的NLP方法,可以看作是書單中前兩本書的組合,其中涵蓋了使用現(xiàn)代工具,如TensorFlow和Keras的實(shí)際編碼解決方案。
摘自本書網(wǎng)站:
“《自然語言處理實(shí)際應(yīng)用》是一本指南,幫助你建立可以閱讀和解釋人類語言的機(jī)器。你將使用現(xiàn)成的Python包來捕獲文本中的含義并做出反應(yīng)。本書擴(kuò)展了傳統(tǒng)的NLP方法,包括神經(jīng)網(wǎng)絡(luò)、現(xiàn)代深度學(xué)習(xí)算法和生成技術(shù),幫助你解決現(xiàn)實(shí)問題,如提取日期和名字,編寫文本,和回答自由形式的問題。”
圖源:unsplash
本書是目前市場上最新的、最全面和最實(shí)用的書。但你也可以根據(jù)想要進(jìn)入的系統(tǒng)以及想要獲得的細(xì)節(jié)水平,并考慮其他一些因素,來選擇更適合自己的書籍。
這5本都是絕對(duì)值得一讀的好書,你要做的是弄清楚自己到底想學(xué)什么,再做出相應(yīng)的選擇,接著讀下去,絕對(duì)會(huì)大有收獲。