6大人工智能應(yīng)用關(guān)鍵技術(shù),終于有人講明白了
01 機(jī)器人流程自動(dòng)化(Robotic Process Automation,RPA)
RPA(Robotic Process Automation,機(jī)器人流程自動(dòng)化)的定義:通過(guò)特定的、可模擬人類在計(jì)算機(jī)界面上進(jìn)行操作的技術(shù),按規(guī)則自動(dòng)執(zhí)行相應(yīng)的流程任務(wù),代替或輔助人類完成相關(guān)的計(jì)算機(jī)操作。
與大家通常所認(rèn)為的具備機(jī)械實(shí)體的“機(jī)器人”不同,RPA本質(zhì)上是一種能按特定指令完成工作的軟件,這種軟件安裝在個(gè)人計(jì)算機(jī)或大型服務(wù)器上,通過(guò)模擬鍵盤、鼠標(biāo)等人工操作來(lái)實(shí)現(xiàn)辦公操作的自動(dòng)化。
▲圖1-1 RPA是未來(lái)辦公創(chuàng)新和發(fā)展的趨勢(shì)
RPA也被形象地稱為數(shù)字化勞動(dòng)力(Digital Labor),是因?yàn)槠渚C合運(yùn)用了大數(shù)據(jù)、人工智能、云計(jì)算等技術(shù),通過(guò)操縱用戶圖形界面(GUI)中的元素,模擬并增強(qiáng)人與計(jì)算機(jī)的交互過(guò)程,從而能夠輔助執(zhí)行以往只有人類才能完成的工作,或者作為人類高強(qiáng)度工作的勞動(dòng)力補(bǔ)充。
自2015年以來(lái),人工智能技術(shù)和RPA在同一時(shí)間大幅度發(fā)展和進(jìn)步,恰好相輔相成,匯合在了一起。自然而然地,RPA和AI兩者的結(jié)合運(yùn)用,帶來(lái)了一股非常獨(dú)特的智能化應(yīng)用的發(fā)展潮流,我們稱之為智能RPA技術(shù),或者IPA技術(shù)(Intelligent Processing Automation),即智能流程自動(dòng)化技術(shù)(如圖1-2所示)。
▲圖1-2 智能RPA的構(gòu)成:RPA+AI=IPA
換句話說(shuō)就是,RPA是基礎(chǔ),需要與其他技術(shù)手段整合在一起,方能實(shí)現(xiàn)IPA及其優(yōu)勢(shì)。
商業(yè)社會(huì)對(duì)流程自動(dòng)化的功能的期望將與日俱增,將機(jī)器學(xué)習(xí)等AI技術(shù)運(yùn)用到RPA中,將人工智能功能集成到產(chǎn)品套件中,以提供更多類型的自動(dòng)化功能,已經(jīng)成為未來(lái)RPA發(fā)展的主流趨勢(shì)。
02 光學(xué)字符識(shí)別(Optical Character Recognition,OCR)
OCR技術(shù)是指利用電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。通俗地說(shuō)就是,對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,以獲取文字及版面信息的技術(shù)。
OCR技術(shù)一般可分為如圖3-1所示的5個(gè)階段。
▲圖3-1 OCR技術(shù)的5個(gè)階段
下面具體說(shuō)明OCR的識(shí)別流程。
1. 圖像處理
針對(duì)圖像的成像問(wèn)題進(jìn)行修正。常見(jiàn)的圖像預(yù)處理過(guò)程包括:幾何變換(透視、扭曲、旋轉(zhuǎn)等)、畸變校正、去除模糊、圖像增強(qiáng)和光線校正、二值化處理等。
2. 文字檢測(cè)
檢測(cè)文本所在位置、范圍及其布局,通常還包括版面分析和文字行檢測(cè)等。文字檢測(cè)解決的主要問(wèn)題是哪里有文字,文字的范圍有多大。
文字檢測(cè)采用的處理算法一般包括:Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD。
3. 文字識(shí)別
在文本檢測(cè)的基礎(chǔ)上,對(duì)文本內(nèi)容進(jìn)行識(shí)別,將圖像中的文本信息轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別和處理的文本信息。文字識(shí)別主要解決的問(wèn)題是每個(gè)文字是什么。
文字識(shí)別常采用的處理算法包括:CRNN、Attention OCR、RNNLM、BERT。
4. 文本抽取
從文字識(shí)別結(jié)果中抽取出需要的字段或要素。
文本抽取常采用的處理算法包括:CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex。
5. 輸出
輸出最終的文字識(shí)別結(jié)果或者文本抽取結(jié)果。
03 機(jī)器學(xué)習(xí)/大數(shù)據(jù)分析
機(jī)器學(xué)習(xí)/大數(shù)據(jù)分析是一種用于設(shè)計(jì)復(fù)雜模型和算法并以此實(shí)現(xiàn)預(yù)測(cè)功能的方法,即計(jì)算機(jī)有能力去學(xué)習(xí),而不是依靠預(yù)先編寫的代碼。它能夠基于對(duì)現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)的觀察,自行識(shí)別結(jié)構(gòu)化數(shù)據(jù)中的模型,并以此來(lái)輸出對(duì)未來(lái)結(jié)果的預(yù)測(cè)。
機(jī)器學(xué)習(xí)是一種通過(guò)“監(jiān)督”和“無(wú)監(jiān)督”學(xué)習(xí)來(lái)識(shí)別結(jié)構(gòu)化數(shù)據(jù)中的模式(例如日常性能數(shù)據(jù))的算法。監(jiān)督算法是指在根據(jù)自己的輸入做出預(yù)測(cè)之前,會(huì)從輸入和輸出的結(jié)構(gòu)化數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)。無(wú)監(jiān)督算法是指觀察結(jié)構(gòu)化數(shù)據(jù),并對(duì)已識(shí)別的模式提供相關(guān)見(jiàn)解。
機(jī)器學(xué)習(xí)和高級(jí)分析可能會(huì)改變保險(xiǎn)公司的游戲規(guī)則,例如,在提高合規(guī)性、降低成本結(jié)構(gòu),以及從新的見(jiàn)解中獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。高級(jí)分析已經(jīng)在領(lǐng)先的人力資源部門中得到了廣泛應(yīng)用,主要用于確定和評(píng)估領(lǐng)導(dǎo)者和管理者的核心品質(zhì),以便更好地預(yù)測(cè)行為、規(guī)劃職業(yè)發(fā)展道路和下一任領(lǐng)導(dǎo)崗位歸屬。
04 自然語(yǔ)言生成(Natural Language Generation,NLG)
計(jì)算機(jī)具有與人一樣的表達(dá)能力和寫作能力,它遵循某種規(guī)則,將從數(shù)據(jù)中觀察到的信息轉(zhuǎn)換成高質(zhì)量的自然語(yǔ)言文本。例如,自動(dòng)識(shí)別會(huì)議郵件中的主題、數(shù)字地名、人名地址并生成行程表備忘錄,或者識(shí)別出合同條款的關(guān)鍵內(nèi)容并將摘要的重點(diǎn)生成列表。
關(guān)于自然語(yǔ)言生成及自然語(yǔ)言處理的詳細(xì)介紹,請(qǐng)閱讀《詳解自然語(yǔ)言處理(NLP)5大語(yǔ)義分析技術(shù)及14類應(yīng)用(建議收藏) 》
05 智能工作流(Smart Workflow)
智能工作流是一種用于流程管理的軟件工具,其中集成了由人和機(jī)器共同執(zhí)行的工作,允許用戶實(shí)時(shí)啟動(dòng)和跟蹤端到端流程的狀態(tài),以便于管理不同組之間的切換,包括機(jī)器人與人類用戶之間的切換,同時(shí)還能提供瓶頸階段的統(tǒng)計(jì)數(shù)據(jù)。
隨著社會(huì)和科技的不斷進(jìn)步,各個(gè)領(lǐng)域都開(kāi)始逐步朝著自動(dòng)化、智能化的方向快速發(fā)展。工作流相關(guān)技術(shù)的研究也越來(lái)越受重視,并廣泛地應(yīng)用于制造業(yè)、軟件開(kāi)發(fā)、銀行金融、生物醫(yī)學(xué)等不同領(lǐng)域。
工作流不但能夠自動(dòng)化地處理相關(guān)的活動(dòng)和任務(wù),減少人機(jī)交互處理過(guò)程中帶來(lái)的潛在錯(cuò)誤,而且能夠精確化每一個(gè)處理步驟,最大化地提高生成效率,并且將工作流應(yīng)用到動(dòng)態(tài)、可變且靈活的應(yīng)用場(chǎng)景當(dāng)中。
近年來(lái),在大數(shù)據(jù)、人工智能的背景下,工作流中的業(yè)務(wù)流程日趨復(fù)雜,所面臨的環(huán)境和數(shù)據(jù)也日趨復(fù)雜,由需求分析引起的業(yè)務(wù)過(guò)程重新建模或由維護(hù)升級(jí)引起的過(guò)程模式變更和改進(jìn)也變得越來(lái)越頻繁。
在這種動(dòng)態(tài)多變的復(fù)雜環(huán)境下,如何快速識(shí)別出任務(wù),然后快速高效并有針對(duì)性地處理工作流問(wèn)題,已成為目前工作流任務(wù)研究的關(guān)鍵問(wèn)題。
RPA軟件機(jī)器人在工作過(guò)程中,也會(huì)遇到很多類似的情況。工作流的復(fù)雜多變,會(huì)導(dǎo)致RPA作業(yè)流程的復(fù)雜多變,使其無(wú)法做到自適應(yīng),這將會(huì)大大影響RPA軟件機(jī)器人的作業(yè)效率。
因此,需要通過(guò)智能工作流的技術(shù),實(shí)現(xiàn)動(dòng)態(tài)地調(diào)整RPA里的任務(wù)設(shè)定,以及RPA業(yè)務(wù)流程的自動(dòng)變更和自動(dòng)升級(jí),在智能工作流的指導(dǎo)下實(shí)現(xiàn)自適應(yīng)作業(yè)模式。
實(shí)現(xiàn)智能工作流的方法有很多,比如,美國(guó)J.H.Holland教授提出的基于遺傳算法的工作流調(diào)度,Pandey S等提出的基于粒子群優(yōu)化算法的啟發(fā)式算法(PSO)可用于不同資源的智能調(diào)度。除此之外,還有很多基于自然界和仿生學(xué)的智能算法,比如,混合蛙跳算法、布谷鳥(niǎo)搜索算法、蝙蝠算法、人工蜂群算法等。
目前比較常見(jiàn)的方法是實(shí)現(xiàn)一種基于智能規(guī)劃的工作流處理模式,該模式不再是單純地將不同的活動(dòng)當(dāng)作對(duì)彼此沒(méi)有影響的單獨(dú)事件,而是有針對(duì)性地考慮多個(gè)事件的共同影響。
該模式充分考慮了工作流和智能規(guī)劃之間的相似之處,通過(guò)智能規(guī)劃推導(dǎo)出不同工作流任務(wù)之間的內(nèi)在邏輯關(guān)系,并從其他的渠道和外部信息中充分挖掘潛在的關(guān)系。
逐步改進(jìn)傳統(tǒng)工作流中的問(wèn)題,使用全新的智能規(guī)劃的手段,從表面動(dòng)作中挖掘出潛在的信息,過(guò)濾噪聲數(shù)據(jù),進(jìn)而實(shí)現(xiàn)流程的自動(dòng)修正,最后,通過(guò)前面得出的結(jié)論,有針對(duì)性地修改之前的RPA作業(yè)流程,實(shí)現(xiàn)自適應(yīng)性的作業(yè)模式和作業(yè)過(guò)程。
06 認(rèn)知智能體(Cognitive Agent)
認(rèn)知智能體是一種結(jié)合了機(jī)器學(xué)習(xí)和自然語(yǔ)言生成的技術(shù),并在此基礎(chǔ)上加入情感檢測(cè)功能以做出判斷和分析,使其能夠執(zhí)行任務(wù),交流溝通,從數(shù)據(jù)集中學(xué)習(xí),甚至根據(jù)情感檢測(cè)結(jié)果作出決策。換句話說(shuō),機(jī)器會(huì)像人一樣產(chǎn)生“情感共鳴、精神共振”,真正成為一個(gè)完全虛擬的勞動(dòng)力(或者智能體)。
在客服領(lǐng)域,英國(guó)某汽車保險(xiǎn)公司通過(guò)使用認(rèn)知智能體技術(shù),將客戶轉(zhuǎn)化率提高了22%,驗(yàn)證錯(cuò)誤率降低了40%,整體投資回報(bào)率達(dá)到了330%。
當(dāng)然,德勤、安永等咨詢公司也坦然表示,就現(xiàn)階段許多企業(yè)的流程管理與系統(tǒng)的基礎(chǔ)能力來(lái)看,仍存在著大量的基礎(chǔ)建設(shè)工作有待開(kāi)展。而打造智能流程自動(dòng)化所需的部分核心技術(shù)(例如認(rèn)知智能體等)也還停留在雛形階段。
智能包含三個(gè)方面,分別是計(jì)算智能、感知智能和認(rèn)知智能。
- 在計(jì)算智能方面,計(jì)算機(jī)的速度早已遠(yuǎn)遠(yuǎn)超過(guò)人工的效率。
- 在感知智能方面,隨著OCR、NLP等技術(shù)的發(fā)展,目前也已經(jīng)能夠?qū)崿F(xiàn)很多的效果。
- 但是在認(rèn)知智能方面,即使在某些特定領(lǐng)域,自然語(yǔ)言的處理也已經(jīng)可以得到比人工更好的成績(jī),但是在某些領(lǐng)域,特別是知識(shí)理解、知識(shí)推理、知識(shí)判斷等方面,還有很多需要逐步積累、逐步完善的地方。
按照機(jī)器能否產(chǎn)生自我認(rèn)知和機(jī)器人的適用范圍,人工智能分為弱人工智能和強(qiáng)人工智能,其中弱人工智能里的機(jī)器沒(méi)有自我意識(shí),不具備真正的推理和獨(dú)立解決問(wèn)題的能力,通常只適用于解決特定條件下的某種問(wèn)題。當(dāng)前人工智能的研究主要在弱人工智能領(lǐng)域。
而在強(qiáng)人工智能方面,機(jī)器具有一定的自我意識(shí),能夠通過(guò)學(xué)習(xí)拓展功能。對(duì)于當(dāng)前不具備的功能或者當(dāng)前不了解的知識(shí),能通過(guò)自行學(xué)習(xí)獲得。
當(dāng)前條件下,全面的強(qiáng)人工智能還面臨技術(shù)能力、社會(huì)倫理等多方面的挑戰(zhàn),但是在某些領(lǐng)域的特定場(chǎng)景下,具備認(rèn)知智能能力和學(xué)習(xí)能力的人工智能軟件,不僅能夠優(yōu)化作業(yè)流程、快速響應(yīng)、覆蓋更多不同的情況,同時(shí)還能夠最大限度地避免技術(shù)風(fēng)險(xiǎn)和應(yīng)用風(fēng)險(xiǎn),是一個(gè)非常有價(jià)值的研究方向。
認(rèn)知智能有很多種定義,其中,復(fù)旦大學(xué)肖仰華教授曾經(jīng)提到過(guò),所謂讓機(jī)器具備認(rèn)知智能是指讓機(jī)器能夠像人一樣思考,而這種思考能力具體體現(xiàn)在如下幾個(gè)方面。
- 第一,機(jī)器具備能夠理解數(shù)據(jù)、理解語(yǔ)言進(jìn)而理解現(xiàn)實(shí)世界的能力。
- 第二,機(jī)器具備能夠解釋數(shù)據(jù)、解釋過(guò)程進(jìn)而解釋現(xiàn)象的能力。
- 第三,機(jī)器具備推理、規(guī)劃等一系列人類所獨(dú)有的認(rèn)知能力,也就是說(shuō)認(rèn)知智能需要解決推理、規(guī)劃、聯(lián)想、創(chuàng)作等一系列復(fù)雜任務(wù)。
智能體是指駐留在某一環(huán)境下,能夠持續(xù)自主地發(fā)揮作用,具備駐留性、反應(yīng)性、社會(huì)性、主動(dòng)性特征的計(jì)算實(shí)體。根據(jù)著名人工智能學(xué)者,美國(guó)斯坦福大學(xué)Hayes-Roth教授的理論“智能體能夠持續(xù)執(zhí)行三項(xiàng)功能:感知環(huán)境中的動(dòng)態(tài)條件、執(zhí)行動(dòng)作影響環(huán)境、進(jìn)行推理以解釋感知信息、求解問(wèn)題和決定動(dòng)作”。
從前面的定義我們可以看出,認(rèn)知智能體能夠感知到環(huán)境中的動(dòng)態(tài)條件,然后根據(jù)這些條件執(zhí)行相應(yīng)的動(dòng)作來(lái)影響現(xiàn)有的環(huán)境,同時(shí)其還能夠用推理來(lái)解釋感知信息,求解相關(guān)問(wèn)題,決定后續(xù)動(dòng)作。
將認(rèn)知智能體與RPA相結(jié)合,我們能夠得到一個(gè)具備認(rèn)知智能的機(jī)器人,它可以根據(jù)所涉及的應(yīng)用系統(tǒng)和其他環(huán)境的變化動(dòng)態(tài)感知下一步需要做的事情,同時(shí)執(zhí)行相應(yīng)的動(dòng)作來(lái)影響對(duì)應(yīng)的環(huán)境信息,實(shí)現(xiàn)智能錄入、智能監(jiān)控、智能文檔處理和輔助判定。
與此同時(shí),認(rèn)知智能體通過(guò)RPA技術(shù)在處理業(yè)務(wù)的同時(shí),還能夠?qū)W習(xí)到相關(guān)的經(jīng)驗(yàn)和知識(shí),逐步掌握識(shí)別重點(diǎn)的能力。
認(rèn)知智能體的研究包含了多種不同的方法,近年來(lái),隨著分布式人工智能、信息科學(xué)和網(wǎng)絡(luò)科學(xué)的不斷發(fā)展,面向動(dòng)態(tài)環(huán)境下的分布式協(xié)同決策已經(jīng)成為認(rèn)知智能體的一個(gè)重要的研究方式。這種方式在以多無(wú)人機(jī)系統(tǒng)、多機(jī)器人系統(tǒng)為代表的典型無(wú)中心式多智能體系統(tǒng)中得到了廣泛的應(yīng)用。
與此同時(shí),受限于自身設(shè)計(jì),智能體對(duì)所在環(huán)境和系統(tǒng)常呈現(xiàn)出信息的部分可觀測(cè)特征,而有限的智能體之間的交互和外部的約束也使得獲得全局信息需要付出極高的代價(jià)。
同時(shí),無(wú)中心式的多智能體系統(tǒng)在應(yīng)用中呈現(xiàn)出了與社會(huì)網(wǎng)絡(luò)相類似的自組結(jié)構(gòu)和相應(yīng)的復(fù)雜網(wǎng)絡(luò)特征,即網(wǎng)絡(luò)中單個(gè)智能體通常僅能連接/交互所在局部網(wǎng)絡(luò)中的小部分智能體,傳統(tǒng)的集中式協(xié)同模型則不再適用。
此外,類似于社會(huì)網(wǎng)絡(luò)中人與人之間的有限信息交換便可大大提升個(gè)體的決策效率,同樣的方法能否應(yīng)用到相應(yīng)的研究當(dāng)中,也處于不斷的嘗試過(guò)程中。