圖像文字識別—人工智能的慧眼
前言
人類對世界的感知大約80%是通過視覺獲取的,因此,如何讓計算機具備甚至超越人類的視覺能力一直以來都是科學研究的重要方向。圖像文字識別技術(shù)是計算機視覺技術(shù)的重要組成部分,在日常生活中具有重要的價值和意義。
現(xiàn)狀
圖像文字識別是指識別圖像中的文字。傳統(tǒng)的文字識別的一般框架如圖1所示,包括預處理、特征提取、分類器設(shè)計三個主要模塊[1]。首先經(jīng)過預處理操作,形成規(guī)定的圖片大小,使字符位置在圖片中心,然后對預處理后的圖片提取字符特征,***分類器根據(jù)提取的特征對字符進行分類。圖像文字識別的預處理部分主要包括樣本歸一化、平滑去噪、偽樣本生成技術(shù);特征提取部分可以分為結(jié)構(gòu)特征和統(tǒng)計特征兩種,結(jié)構(gòu)特征主要是對文字結(jié)構(gòu)、筆畫或部件來進行提取,統(tǒng)計特征目前比較常用的是Garbor特征和Gradient特征;分類器常用的有SVM、HMM、二次判決函數(shù)等。
圖1 傳統(tǒng)文字識別框架圖
近幾年,基于上述方法在識別性能上的研究進展不大,主要是字符分類結(jié)果主要依賴于提取的特征,但是很難設(shè)計出比較穩(wěn)健的特征。而自從有了深度學習技術(shù),文字識別又有了新的活力,我們可以利用深度學習技術(shù)如CNN、DNN、RNN可以把文字識別問題解決的很好并且識別過程也不像傳統(tǒng)方法那么復雜,不用做預處理和手工設(shè)計特征、提取特征操作,直接將文字圖像作為網(wǎng)絡(luò)的輸入。并且文字識別一直是深度學習一個主要的應(yīng)用方向,上世紀90年代,深度學習的先驅(qū)者如Y. Lecun和Bengio合作設(shè)計了LeNet5解決了手寫數(shù)字識別問題,圖2是他們在貝爾實驗室做的Demo。
圖2 手寫數(shù)字識別demo圖
而簡單利用深度學習解決漢字識別,效果并不是很理想,近幾年研究者針對漢字識別問題也做了大量的工作,發(fā)現(xiàn)加上一些領(lǐng)域的知識并結(jié)合CNN的方法可以更好地解決中文識別問題。如使用數(shù)據(jù)生成技術(shù)生成大量的樣本數(shù)據(jù)來防止過擬合問題[2]和傳統(tǒng)特征提取方法結(jié)合CNN方法提高識別效果。Zhong[3]等人提出用特征提取+CNN的方法來識別手寫漢字,提取的特征是八方向的Garbor特征、梯度特征和HOG特征,積字的特征圖如圖3所示。他們改進的AlexNet和GoogleNet網(wǎng)絡(luò)結(jié)構(gòu)如圖4與圖5所示,和原先結(jié)構(gòu)相比他們在輸入層做了改進,將特征圖像也作為輸入層,***的集成網(wǎng)絡(luò)結(jié)構(gòu)的識別結(jié)果在CASIA-HWDB數(shù)據(jù)集上達到96.74%,***超過人類的識別水平(96.13%)。
圖3“積”字特征圖
圖4 離線手寫體漢字識別AlexNet結(jié)構(gòu)圖
圖5 離線手寫體漢字識別GoogleNet結(jié)構(gòu)圖
目前,使用深度學習技術(shù)進行單字符識別在某種程度上取得了很好的效果,大量學者開始研究含序列信息的文本行的識別[4]。針對此問題,有極大潛力的解決方法是應(yīng)用神經(jīng)回歸網(wǎng)絡(luò)(RNN)模型、LSTM、BLSTM(Bidirectional long short term memory)等模型,因為這些模型對序列數(shù)據(jù)有很好的建模能力,因此它們適合解決有時序先后順序信息的文字行識別的問題?;贚STM-RNN方法在英文、拉丁文等西方語言的文本行識別中取得了很好的效果[5-7],文獻[8]***將LSTM-RNN模型用于中文的文本行識別,也達到此領(lǐng)域先進的水平。總之RNN+CNN可以訓練端到端的深度學習模型,也是研究文字識別的主要方法。
應(yīng)用
文字識別在生活中有廣泛的應(yīng)用。例如我們比較熟悉的移動設(shè)備上的手寫文字識別,手寫輸入功能已成為移動設(shè)備(手機、pad)的標配。
圖6 移動設(shè)備手寫識別
文字識別實現(xiàn)辦公自動化將紙質(zhì)文件轉(zhuǎn)換為電子文檔。還有證件的識別和郵政地址的識別也早已得到應(yīng)用。
圖7 文檔圖像識別
此外,文字識別還有很多有趣的應(yīng)用,比如可以輔助我們進行圖像的搜索和分類,AR眼鏡實現(xiàn)實時場景包括街景文字的翻譯。
圖8 場景文字識別
在未來,文字識別也有很大的應(yīng)用市場,如在圖像搜索引擎、自動駕駛、金融保險、AR、智能機器人、教育醫(yī)療等方面都有很多的應(yīng)用[9]。并且還可以產(chǎn)生很多的創(chuàng)新應(yīng)用,如可以讓盲人看懂世界、盲人看大片等。
結(jié)語
目前的人工智能中有不同的識別引擎,也就相當于用不同的眼睛來解決視覺感知問題,并且文字識別作為人工智能中一個典型的模式識別問題,雖經(jīng)歷了幾十年的發(fā)展取得了很好的成就,但做的還不夠智能和通用。其在許多方面都還值得研究,如把手寫、表單、名片、場景文字等用一個通用的統(tǒng)一的方案來解決這個問題,這樣文字識別這個眼睛才能真正稱得上是人工智能中一只智慧的眼睛。
參考文獻:
[1] 金連文, 鐘卓耀, 楊釗,等. 深度學習在手寫漢字識別中的應(yīng)用綜述[J]. 自動化學報, 2016, 42(8):1125-1141.
[2] Yang W, Jin L, Liu M. Chinese character-level writer identification using path signature feature, DropStroke and deep CNN[J]. 2015:546-550.
[3] Zhong Z, Jin L, Xie Z. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:846-850.
[4] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[J]. 2016.
[5] Frinken V, Uchida S. Deep BLSTM neural networks for unconstrained continuous handwritten text recognition[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:911-915.
[6] Rawls S, Cao H, Kumar S, et al. Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR[C]// Iapr International Conference on Document Analysis and Recognition. IEEE Computer Society, 2017:155-160.
[7] Simistira F, Ulhassan A, Papavassiliou V, et al. Recognition of historical Greek polytonic scripts using LSTM networks[C]// International Conference on Document Analysis and Recognition. 2015:766-770.
[8] Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN[C]// International Conference on Document Analysis and Recognition. IEEE, 2015:171-175.
[9] https://v.qq.com/x/page/u0516hq8ql5.html.
【本文為51CTO專欄作者“中國保密協(xié)會科學技術(shù)分會”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】