自然語言處理(nlp)比計算機視覺(cv)發(fā)展緩慢,而且更難!
1. 搶跑的nlp
nlp發(fā)展的歷史非常早,因為人從計算機發(fā)明開始,就有對語言處理的需求。各種字符串算法都貫穿于計算機的發(fā)展歷史中。偉大的喬姆斯基提出了生成文法,人類擁有的處理語言的最基本框架,自動機(正則表達式),隨機上下文無關分析樹,字符串匹配算法KMP,動態(tài)規(guī)劃。
nlp任務里如文本分類,成熟的非常早,如垃圾郵件分類等,用樸素貝葉斯就能有不錯的效果。20年前通過純統(tǒng)計和規(guī)則都可以做機器翻譯了。相比,在cv領域,那時候mnist分類還沒搞好呢。
90年代,信息檢索的發(fā)展提出BM25等一系列文本匹配算法,Google等搜索引擎的發(fā)展將nlp推向了高峰。相比CV領域暗淡的一些。
2. 特征抽取困難的cv
cv的前身就有一個領域叫圖像處理,研究圖片的壓縮、濾波、邊緣提取,天天擺弄著一個叫l(wèi)enna的美女。
早期的計算機視覺領域受困于特征提取的困難,無論是HOG還是各種手工特征提取,都沒辦法取得非常好的效果。
大規(guī)模商業(yè)化應用比較困難。而同期nlp里手工特征➕svm已經(jīng)搞的風生水起了。
3. 深度學習的崛起- 自動特征提取
近些年,非?;鸨纳疃葘W習模型簡單可以概括為:
深度學習 = 特征提取器➕分類器
一下子解決cv難于手工提取特征的難題,所以給cv帶來了爆發(fā)性的進展。深度學習的思路就是讓模型自動從數(shù)據(jù)中學習特征提取,從而生成了很多人工很難提取的特征:

4. nlp的知識困境
不是說nlp在這波深度學習浪潮下沒有進展,而是說突破并沒有cv那么巨大。很多文本分類任務,你用一個巨復雜的雙向LTSM的效果,不見得比好好做手工feature + svm好多少,而svm速度快、小巧、不需要大量數(shù)據(jù)、不需要gpu,很多場景真不見得深度學習的模型就比svm、gbdt等傳統(tǒng)模型就好用。
而nlp更大的難題在于知識困境。不同于cv的感知智能,nlp是認知智能,認知就必然涉及到知識的問題,而知識卻又是最離散最難于表示的。