自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="5ndxv"></bdo>

<style id="5ndxv"></style>

^{<thead id="5ndxv"></thead>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

華為OCR技術(shù)讓人工智能應(yīng)用擁有一雙“慧眼”

作者：佚名 2017-09-25 12:20:59

企業(yè)動(dòng)態(tài)

華為OCR依托于華為云強(qiáng)大的計(jì)算和處理能力，將陸續(xù)推出單據(jù)類、證件類和通用文本的文字檢測(cè)和識(shí)別服務(wù)。

隨著深度學(xué)習(xí)在大規(guī)模圖像分類數(shù)據(jù)集上獲得巨大成功，越來(lái)越多的公司將業(yè)務(wù)聚焦在圖像處理的計(jì)算機(jī)視覺(jué)領(lǐng)域，其中一個(gè)關(guān)鍵技術(shù)就是圖像OCR（optical character recognition，光學(xué)字符識(shí)別）。

什么是OCR呢？

OCR是指光學(xué)設(shè)備(掃描儀、數(shù)碼相機(jī)等)檢查紙上打印的字符，通過(guò)檢測(cè)暗、亮的模式確定其形狀，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程，其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字，將人眼的能力延伸到機(jī)器上。

OCR在物流、醫(yī)療、金融、保險(xiǎn)、傳統(tǒng)制造業(yè)等領(lǐng)域都有著廣泛的應(yīng)用。如此多的領(lǐng)域朝著智能化和物流數(shù)字化方向發(fā)展，都要求具有高效穩(wěn)健的OCR技術(shù)，通過(guò)機(jī)器自動(dòng)識(shí)別圖片文字的智能化應(yīng)用前景十分可觀。但是圖片（包括掃描件和手機(jī)照片）往往存在噪聲、傾斜、變形、背景復(fù)雜、文字多樣等各種問(wèn)題，文字定位和識(shí)別的難度很大。華為大數(shù)據(jù)&AI團(tuán)隊(duì)通過(guò)強(qiáng)力投入，研發(fā)出華為自己的OCR拳頭產(chǎn)品。重點(diǎn)應(yīng)用場(chǎng)景之一是表格單據(jù)的識(shí)別，通過(guò)結(jié)構(gòu)化輸出表格單據(jù)中的文字信息，在業(yè)務(wù)審核中給公司節(jié)省大量的人力。

華為OCR依托于華為云強(qiáng)大的計(jì)算和處理能力，將陸續(xù)推出單據(jù)類、證件類和通用文本的文字檢測(cè)和識(shí)別服務(wù)。

價(jià)值在哪？

華為公司在全球每年有幾百萬(wàn)份銷售訂單，使得每年需要處理上百萬(wàn)份單據(jù)?，F(xiàn)在的單據(jù)處理方式還停留在通過(guò)人工方式將單據(jù)內(nèi)容手動(dòng)錄入到系統(tǒng)中，人工錄入的方式除了效率低以外，還存在員工疏忽或者疲勞導(dǎo)致的誤操作。如何快速、準(zhǔn)確的處理如此數(shù)量龐大的單據(jù)成為了一大訴求。通過(guò)該OCR技術(shù)自動(dòng)采集關(guān)鍵數(shù)據(jù)，建立數(shù)據(jù)資產(chǎn)，并進(jìn)行大數(shù)據(jù)分析，可以有效降低華為的運(yùn)營(yíng)成本，提升業(yè)務(wù)效率。通過(guò)智能化服務(wù)，可幫助華為在全球節(jié)省大量人力；分析海關(guān)估價(jià)等關(guān)鍵信息，控制每年千萬(wàn)美金級(jí)的風(fēng)險(xiǎn)敞口，業(yè)務(wù)流程自動(dòng)化比例大幅提升。

不僅限于華為內(nèi)部，華為OCR有效利用華為云計(jì)算的優(yōu)勢(shì)，基于松耦合、高復(fù)用性和易于維護(hù)的原則，建設(shè)了OCR公有云服務(wù)，以統(tǒng)一的網(wǎng)絡(luò)訪問(wèn)接口方式，對(duì)外部應(yīng)用系統(tǒng)提供滿足不同需求的OCR識(shí)別服務(wù)，可以為醫(yī)療、海關(guān)、物流、金融、傳統(tǒng)制造業(yè)等領(lǐng)域的企業(yè)提供高效、低成本的數(shù)據(jù)采集方案，大大節(jié)省了人工數(shù)據(jù)采集、構(gòu)建信息系統(tǒng)和維護(hù)升級(jí)的成本，讓企業(yè)更智能。目前，在金融領(lǐng)域，華為為某知名保險(xiǎn)公司提供保單識(shí)別、醫(yī)療單據(jù)識(shí)別，幫助保險(xiǎn)公司提高工作效率，加快理賠的速度；在傳統(tǒng)制造業(yè)領(lǐng)域，華為幫助某公司識(shí)別藥品說(shuō)明書，幫助公司快速構(gòu)建藥品說(shuō)明書的信息庫(kù)。

有什么難點(diǎn)和挑戰(zhàn)？

華為的OCR場(chǎng)景包括對(duì)掃描的表格單據(jù)、手機(jī)拍攝的照片進(jìn)行文字信息提取和識(shí)別，考慮到客戶和應(yīng)用場(chǎng)景的多樣性，主要面臨以下挑戰(zhàn)：

掃描的單據(jù)往往存在虛線干擾、版面缺失、傾斜、暗光、扭曲、噪聲等情況，定位難度大。
文字千變?nèi)f化，例如字體、字號(hào)、顏色、筆畫寬度等不固定，方向任意；小數(shù)點(diǎn)、近似英文數(shù)字、特殊符號(hào)、連接詞、藝術(shù)字等，容易被漏檢或誤識(shí)別。
語(yǔ)言種類繁多，經(jīng)常是中英文混合，多種語(yǔ)言混合等場(chǎng)景，識(shí)別難度加大。
表格單據(jù)經(jīng)常存在蓋章（印章覆蓋文字）、錯(cuò)行(文字溢出表格單元，與表格線交叉)的情況，也造成文字識(shí)別干擾，極大影響識(shí)別準(zhǔn)確率。
拍照上傳的圖片存在噪聲、模糊、光線變化、形變、復(fù)雜背景干擾等問(wèn)題，對(duì)文字定位和識(shí)別的準(zhǔn)確度是巨大挑戰(zhàn)。

華為有什么關(guān)鍵技術(shù)？

對(duì)于上述挑戰(zhàn)，華為OCR的總體技術(shù)方案包括圖像預(yù)處理、業(yè)界領(lǐng)先的深度學(xué)習(xí)文字定位和文字識(shí)別引擎以及后處理糾錯(cuò)模塊3部分，并對(duì)各個(gè)模塊進(jìn)行技術(shù)突破，取得了明顯的效果：

圖像預(yù)處理技術(shù)：針對(duì)蓋章和錯(cuò)行的問(wèn)題，通過(guò)對(duì)Autoencoder自編碼器模型的大幅改進(jìn)，直接分離文字、表格線與蓋章3種目標(biāo)，消除了表格線和蓋章對(duì)文字的干擾，同時(shí)消除噪聲，極大簡(jiǎn)化了后續(xù)的文字識(shí)別和版面分析過(guò)程，提高了準(zhǔn)確度。該模型采用FCN（Fully Convolutional Network，全卷積網(wǎng)絡(luò)）網(wǎng)絡(luò)結(jié)構(gòu)，并將原始圖片輸入層與后面多層直接相連，減少信息損失和文字變形。該模型能適應(yīng)各種尺寸的圖片輸入，訓(xùn)練和預(yù)測(cè)速度都很快。
文字定位技術(shù)：

表單文字定位：在處理表單類文本識(shí)別場(chǎng)景，采用傾斜矯正算法、最大輪廓提取算法、表格線去干擾算法和文字框定位算法等多種技術(shù)手段相互融合。
證件文字定位：為支持各種復(fù)雜場(chǎng)景下的證件OCR，采用基于深度學(xué)習(xí)和全卷積網(wǎng)絡(luò)的關(guān)鍵點(diǎn)定位技術(shù)將證件從各種復(fù)雜背景中提取出來(lái)，并進(jìn)行方向和透視角度的矯正；然后將文字定位轉(zhuǎn)換成對(duì)物體檢測(cè)問(wèn)題，改進(jìn)SSD物體檢測(cè)框架，以適應(yīng)文字長(zhǎng)寬比極大的特點(diǎn)；采用多尺度輸入的方法，進(jìn)一步提高文字定位的精度。

基于視覺(jué)注意力的深度學(xué)習(xí)文字識(shí)別技術(shù)：采用視覺(jué)注意力模型（CNN+LSTM+Attention技術(shù)），該模型首先在圖像上采用滑動(dòng)窗口CNN（Convolutional Neural Network，卷積神經(jīng)網(wǎng)絡(luò)）的方法進(jìn)行圖像特征提??；然后在CNN的頂部堆疊一個(gè)LSTM（Long Short-Term Memory networks，長(zhǎng)短期記憶網(wǎng)絡(luò)）進(jìn)行序列特征提取；最后，使用注意力模型作為解碼器輸出最終的文字序列。

圖1基于視覺(jué)注意力的深度學(xué)習(xí)文字識(shí)別技術(shù)

多策略后驗(yàn)糾錯(cuò)技術(shù)：對(duì)于固定模板的表單或證件，采用詞庫(kù)+編輯距離+集成學(xué)習(xí)的策略，對(duì)常見(jiàn)詞進(jìn)行詞典庫(kù)數(shù)據(jù)收集，采用編輯距離進(jìn)行更正。對(duì)關(guān)鍵數(shù)字部分，采取多個(gè)圖像預(yù)處理手段進(jìn)行集成學(xué)習(xí)給出最終結(jié)果置信度，并進(jìn)行可能出錯(cuò)的報(bào)警；對(duì)于通用的文字識(shí)別，特別是中文長(zhǎng)句識(shí)別，對(duì)OCR識(shí)別出的Top N結(jié)果，采用語(yǔ)言模型+Viterbi算法，計(jì)算最短路徑，輸出概率最高的結(jié)果。

圖2表格單據(jù)OCR解決方案

圖3發(fā)票的定位效果

服務(wù)優(yōu)勢(shì)

識(shí)別精度高：采用業(yè)界先進(jìn)的深度學(xué)習(xí)模型以及遷移學(xué)習(xí)模型優(yōu)化技術(shù)，萬(wàn)億級(jí)海量訓(xùn)練樣本，識(shí)別率和召回率達(dá)到業(yè)界領(lǐng)先水平。
魯棒性好：產(chǎn)品采用黑邊處理、自動(dòng)糾偏、去噪、圖像自動(dòng)旋轉(zhuǎn)、多種二值化等方法處理圖像，能適應(yīng)任意版面/旋轉(zhuǎn)/扭曲/復(fù)雜背景/光照/模糊場(chǎng)景下的文字檢測(cè)識(shí)別。
支持多類單據(jù)識(shí)別：支持多種類型的表格、發(fā)票等單據(jù)識(shí)別，結(jié)構(gòu)化輸出，幫助客戶快速便捷的完成紙質(zhì)單據(jù)的電子化；也可為客戶定制各種個(gè)性化的OCR服務(wù)，滿足不同客戶的需求。
服務(wù)穩(wěn)定高效：采用最新的大數(shù)據(jù)集群技術(shù)，后臺(tái)服務(wù)器穩(wěn)定可靠，系統(tǒng)毫秒級(jí)響應(yīng)。
云服務(wù)，標(biāo)準(zhǔn)API支持：服務(wù)使用簡(jiǎn)單便捷，兼容性強(qiáng)。

我們下一步將有什么？

目前華為還在布局各類證件、通用文字識(shí)別等相關(guān)的OCR產(chǎn)品，將會(huì)陸續(xù)提供更豐富的OCR服務(wù)和基于OCR的解決方案，支持更多應(yīng)用場(chǎng)景，滿足更多客戶的需求。例如，通過(guò)拍照掃描等方式，提供身份信息的快速自動(dòng)錄入體驗(yàn)，以提高邊檢/酒店/旅游/公共安全以及電商等行業(yè)領(lǐng)域的工作效率；自然場(chǎng)景OCR可以捕獲現(xiàn)實(shí)中多種場(chǎng)景下的文字，可有效支持虛擬現(xiàn)實(shí)、人機(jī)交互、圖像檢索、無(wú)人駕駛、車牌識(shí)別、工業(yè)自動(dòng)化等領(lǐng)域中廣泛的應(yīng)用。

責(zé)任編輯：張燕妮來(lái)源：華為

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="m1hmo"></style>

<sub id="m1hmo"></sub>