為提升信貸領(lǐng)域業(yè)務(wù)辦理過程中合同影像信息提取效率,中國工商銀行軟件開發(fā)中心利用業(yè)界前沿技術(shù)多模態(tài)識別技術(shù)對圖片、視頻等文件內(nèi)容進(jìn)行智能提取和解讀,逐步覆蓋傳統(tǒng)技術(shù)無法解決的影像識別場景,包括不規(guī)則表格、目標(biāo)信息描述模糊、打包影像等,大幅提升了合同處理效率。
工商銀行軟件開發(fā)中心先前引入了基于光學(xué)字符識別(OCR)與規(guī)則或自然語言處理(NLP)模型的自動化識別技術(shù);然而,該技術(shù)對合同元素位置、上下文結(jié)構(gòu)等不一致性的理解能力有一定局限,因此在某些復(fù)雜合同的信息提取上,精確度較難提升,主要體現(xiàn)在以下幾個方面:第一,合同格式一般具有多樣性,如不規(guī)則表格、傾斜文字、打鉤標(biāo)記以及不規(guī)則元素布局等,這些格式可能破壞文本結(jié)構(gòu)的完整性;第二,合同中目標(biāo)信息的描述可能較為散亂或模糊,如付款日期和支付方式等,需要深入理解上下文語義并進(jìn)行轉(zhuǎn)化;第三,客戶常常將多份文件打包上傳,識別前需準(zhǔn)確拆分文件,也增加了識別的復(fù)雜性。
為了解決上述問題,中國工商銀行軟件開發(fā)中心結(jié)合當(dāng)前業(yè)界先進(jìn)的模型技術(shù),形成“通用+專業(yè)”模型組合方案,具體方案如下:
1.利用通用模型增強多模態(tài)元素提取
借助多模態(tài)模型在圖文識別上的泛化能力,顯著提升在處理復(fù)雜非標(biāo)準(zhǔn)化合同中打鉤、表格、涂抹、印章等長尾場景下的關(guān)鍵信息提取精度,同時實現(xiàn)跨頁圖片內(nèi)容的深度理解。此外,通過對多模態(tài)模型進(jìn)行增量預(yù)訓(xùn)練、全參數(shù)微調(diào)以及模型視覺修復(fù),進(jìn)一步優(yōu)化非標(biāo)準(zhǔn)化合同影像中目標(biāo)信息的理解準(zhǔn)確度。
左:打鉤、標(biāo)黑選項的理解;右:不規(guī)則表格內(nèi)容提取
2.專業(yè)模型組合適配垂類定制需求
首先,為了處理通用模型可能遇到的輸入限制,工商銀行軟件開發(fā)中心引入了合同拆分模型。這個模型專門設(shè)計用于從包含數(shù)十頁的合并合同影像包中,按照順序拆解出各個單獨的文件,如貿(mào)易合同、發(fā)票、補充條款等。這種拆分功能不僅解決了通用模型一次只能處理有限數(shù)量頁面的問題,還為后續(xù)的處理步驟提供了有序的輸入,提高了業(yè)務(wù)流程的效率。
其次,圖像精選和增強模型在處理過程中起到關(guān)鍵作用。它負(fù)責(zé)對拆分后的單份文件進(jìn)行篩選,只保留那些包含關(guān)鍵要素的頁面,同時對這些頁面進(jìn)行圖像增強,比如提高對比度、清晰度,以確保通用模型能夠準(zhǔn)確識別圖像中的文字和圖形。通過這種預(yù)處理,通用模型的輸入質(zhì)量得以優(yōu)化,從而提升了其在識別關(guān)鍵信息時的準(zhǔn)確率。
合同拆分+精選效果圖示:模型將5頁影像拆分成2份合同,并剔除無關(guān)的一頁
再次,為了滿足特定領(lǐng)域的定制需求,工商銀行軟件開發(fā)中心建設(shè)了專門的分類模型,對貿(mào)易合同、發(fā)票、補充條款等不同類型的文件進(jìn)行分類?;谏疃葘W(xué)習(xí)算法,通過學(xué)習(xí)不同文件類型的特征,將文件正確地分配到適合的類別中。這種分類能力有助于通用模型專注于處理特定類型的文件,提高了整體處理的針對性和準(zhǔn)確性。
最后,為了系統(tǒng)性地提高準(zhǔn)確率,引入圖像文字校驗?zāi)P停瑢νㄓ媚P洼敵龅淖R別結(jié)果進(jìn)行二次校對,通過比對原文本和識別結(jié)果,識別并修正可能存在的錯誤。這種“雙保險”策略有助于識別出錯誤的信息,從而提升了整個識別流程的準(zhǔn)確率。
3.重塑交互方式提升用戶體驗
通過引入元素高亮模型,優(yōu)化用戶界面,使得客戶經(jīng)理可以實時對照并進(jìn)行調(diào)整,這不僅增強了業(yè)務(wù)感知,也提高了參與度。調(diào)整前后數(shù)據(jù)的回流被用于形成再訓(xùn)練數(shù)據(jù),形成一個高效的迭代優(yōu)化閉環(huán),持續(xù)提升模型性能。
AI輔助下的新交互模式
相較于傳統(tǒng)技術(shù),本方案在合同關(guān)鍵信息抽取的精確度和召回率上實現(xiàn)了30%以上的提升,同時合同影像的識別覆蓋率也提升了50%以上。因而,單份合同的處理耗時縮短了60%,多份合同處理時間減少80%以上。
中國工商銀行軟件開發(fā)中心已將該方案應(yīng)用到信貸業(yè)務(wù)非標(biāo)準(zhǔn)合同的智能解讀和提取上,不僅提高了復(fù)雜多模態(tài)數(shù)據(jù)內(nèi)容抽取的精確度和效率,也優(yōu)化了客戶經(jīng)理的使用體驗,使他們能夠更加專注于核心業(yè)務(wù)決策。