阿里來了位技術(shù)新童鞋,一秒K.O八位律師
阿里妹導(dǎo)讀:批改作文、同聲翻譯、制作海報(bào)……人工智能技術(shù)已經(jīng)越來越多地運(yùn)用在我們的日常生活中。而在法務(wù)領(lǐng)域,除了國外 LawGeex 在多個(gè)法務(wù)領(lǐng)域的應(yīng)用外,目前在國內(nèi)暫無成熟運(yùn)作產(chǎn)品。
最近,阿里巴巴信息平臺(tái)企業(yè)數(shù)據(jù)智能部的工程師們,悄悄解鎖了這項(xiàng)成就。下面我們一起來看看。
AI 與法務(wù),會(huì)擦出怎樣的火花?
日前在阿里巴巴內(nèi)部,進(jìn)行了這樣一場特殊的“比賽”。600 份在線協(xié)議,8 位專業(yè)律師用了一周時(shí)間完成審核,而人工智能僅用時(shí) 1 秒,并且在這 600 份協(xié)議中,標(biāo)記出的問題準(zhǔn)確率達(dá)到 100%。
這是阿里巴巴信息平臺(tái)企業(yè)數(shù)據(jù)智能部的工程師們,自主研發(fā)的智能合同診斷系統(tǒng),用 AI 代替法務(wù)進(jìn)行互聯(lián)網(wǎng)在線協(xié)議的審核工作。究竟 AI 在法務(wù)領(lǐng)域如何運(yùn)用?背后有哪些技術(shù)原理?以下是我們給出的解決方案。
背景
互聯(lián)網(wǎng)背景下的消費(fèi)者權(quán)益保護(hù)成為大眾關(guān)注的新焦點(diǎn)。這其中就包括了客戶服務(wù)協(xié)議、用戶隱私協(xié)議等消費(fèi)者與運(yùn)營商簽署的互聯(lián)網(wǎng)在線協(xié)議問題。阿里巴巴因?yàn)闃I(yè)務(wù)線眾多,對于此類協(xié)議的審查與更新工作更是一項(xiàng)龐大工程。
目前人工審核一份在線協(xié)議的平均時(shí)長在 30 分鐘左右,并且由于文字量大、規(guī)則多,人工檢查不可能 100% 覆蓋,人工審核標(biāo)準(zhǔn)不夠統(tǒng)一。有沒有可能讓 AI 來代替法務(wù)進(jìn)行審核工作?在這樣的背景下,智能合同診斷系統(tǒng)上線了。
這套智能合同診斷系統(tǒng)主要做兩件事,一是判斷出不該出現(xiàn)的內(nèi)容(如:違反法律法規(guī)的違禁詞、侵犯消費(fèi)者權(quán)限的條款、模糊表述等);二是判斷哪些是原本應(yīng)該出現(xiàn)的內(nèi)容,并給出修改建議或推薦用詞。
智能合同診斷系統(tǒng)檢查出風(fēng)險(xiǎn)點(diǎn),并給出推薦表述
看似簡單,但實(shí)際在系統(tǒng)學(xué)習(xí)過程中卻困難重重:
1、法律語言表達(dá)和自然語言的差異性
目前普遍在做的 NLP 應(yīng)用,大部分是基于自然語言進(jìn)行處理。例如社交網(wǎng)絡(luò)語言,更加接近人們對話的用語表達(dá)。而法律用語和自然語言用語之間存在較大差異,法律語言通常有其特定領(lǐng)域的表達(dá)規(guī)范和邏輯,和我們通常的自然語言表述有較大差異。這就導(dǎo)致了現(xiàn)有的研究成果無法直接應(yīng)用于法務(wù)領(lǐng)域,需要做特定領(lǐng)域的遷移。
2、技術(shù)和業(yè)務(wù)場景的鴻溝
如果不具備法務(wù)法律領(lǐng)域相關(guān)知識(shí)基礎(chǔ),有好的 NLP 技術(shù)也不一定能在法務(wù)領(lǐng)域落地。能夠?qū)⒎▌?wù)領(lǐng)域需求抽象并和技術(shù)相結(jié)合,具有很大挑戰(zhàn),需要跨領(lǐng)域人才和多領(lǐng)域人才密切配合。
3、標(biāo)注數(shù)據(jù)的稀缺性
在法務(wù)領(lǐng)域,數(shù)據(jù)十分稀缺,而且往往涉及到敏感信息和商業(yè)機(jī)密,導(dǎo)致了數(shù)據(jù)無法共享。有些場景僅有少量標(biāo)注數(shù)據(jù)。
4、較高的準(zhǔn)確性要求
法務(wù)領(lǐng)域?qū)λ惴ㄖ笜?biāo)要求較高,特別有些場景對算法的召回率有嚴(yán)格要求,因?yàn)橐坏┞┑絷P(guān)鍵信息有可能造成較大的法律風(fēng)險(xiǎn);此外,法務(wù)很多場景對算法可解釋性要求較高,因此算法不但要知其然還要知其所以然。
解決方案
在搭建系統(tǒng)時(shí),***步就是針對法務(wù)領(lǐng)域建立行業(yè)詞庫和知識(shí)圖譜。
只有首先教會(huì)系統(tǒng)理解法律術(shù)語,而不是自然語言,接下來才能更好訓(xùn)練系統(tǒng)去理解法律概念?;诎⒗锇桶痛罅康脑诰€協(xié)議、合同、訴訟等各種法律文書,采用大規(guī)模無監(jiān)督的短語挖掘方法 Phrase Mining[1,2] 能自動(dòng)從文書中提取出行業(yè)關(guān)聯(lián)度較強(qiáng)的短語,例如:“包括但不限于”、“授權(quán)委托書”、“過失侵權(quán)行為”等;
同時(shí),法務(wù)專家會(huì)根據(jù)特定業(yè)務(wù)場景梳理出業(yè)務(wù)規(guī)則,比如在在線協(xié)議領(lǐng)域,就標(biāo)注出一份禁止用語清單,以及出現(xiàn)相關(guān)禁用語的對應(yīng)推薦詞可供機(jī)器學(xué)習(xí)。比如:“一經(jīng)公告、立即生效”的推薦表述為“公告之后的 7 日后生效”等。針對大量這些法務(wù)規(guī)則輸入,從技術(shù)角度解析為知識(shí)圖譜上的點(diǎn),變?yōu)橛?jì)算機(jī)可以處理的格式。
詞的向量表示
基于大規(guī)模訓(xùn)練的通用詞向量幾乎對所有 NLP 任務(wù)都有顯著幫助。而針對法務(wù)領(lǐng)域而言,由于有其特定的領(lǐng)域特性,我們在通用的詞向量基礎(chǔ)上,加入了大量法務(wù)領(lǐng)域文書的語料,使得學(xué)習(xí)到的詞向量在法務(wù)領(lǐng)域表現(xiàn)更為突出。
普通的詞向量模型大多采用 Word2Vec 或者 GloVe 訓(xùn)練得到,最近的一項(xiàng)研究[3]發(fā)現(xiàn)基于 context 的詞向量 ELMo 能夠進(jìn)一步提升幫助多個(gè) NLP 任務(wù)。
基于 context 的詞向量本質(zhì)是語言模型的詞向量,詞向量不僅僅是詞本身的函數(shù),也同時(shí)是句子里面其他詞以及序列位置的函數(shù)。在法務(wù)領(lǐng)域中我們也嘗試了 ELMo 語言模型得到詞向量,提升了模型性能。
冷啟動(dòng)和快速樣本標(biāo)注
標(biāo)注數(shù)據(jù)一直是機(jī)器學(xué)習(xí)問題最重要的要素之一,只有擁有了大量標(biāo)注數(shù)據(jù)才能訓(xùn)練得到比較好的模型。然而在法務(wù)領(lǐng)域,標(biāo)注數(shù)據(jù)的獲取是非常昂貴的,需要具備法律專業(yè)的人士進(jìn)行標(biāo)注。
為了取得效率和成本的權(quán)衡,我們首先基于專家輸入的規(guī)則和知識(shí)圖譜,構(gòu)建了基于規(guī)則系統(tǒng)的自動(dòng)標(biāo)注服務(wù),能夠?qū)Υ媪繑?shù)據(jù)進(jìn)行自動(dòng)打標(biāo)。另一方面,可以替換關(guān)鍵詞,自動(dòng)生成標(biāo)注數(shù)據(jù)。例如:“一經(jīng)公告、立即生效”,可以將“立即”替換為“立刻”、“立馬”、“即刻”等,通過這種方式可以生成大量的標(biāo)注數(shù)據(jù)。
主動(dòng)學(xué)習(xí)。規(guī)則畢竟是有限的,雖然可以解決一部分問題,但是無法解決模型的泛化能力,最終還是需要依賴一部分人工標(biāo)注。為了減少人工標(biāo)注成本,可以采用主動(dòng)學(xué)習(xí)方法。每次僅需要人工標(biāo)注最不確定的那些少量樣本就可以很大程度提升模型的性能。
多模型組合
文本分類技術(shù)也經(jīng)歷了從傳統(tǒng)基于規(guī)則、人工特征到目前基于深度學(xué)習(xí)的技術(shù)演變過程。目前比較流行的技術(shù)方案是基于 RNN 的序列模型、基于 CNN 的模型,以及在此基礎(chǔ)上演化而來的各種變種,比如結(jié)合注意力(attention)機(jī)制,用預(yù)訓(xùn)練的詞嵌入(Word Embedding)等方法。
在法務(wù)垂直領(lǐng)域中,我們利用 ELMo 構(gòu)建了領(lǐng)域特性的詞向量作為模型的輸入,針對在線協(xié)議審查這一具體問題設(shè)計(jì)了一種結(jié)合 CNN 和 RNN 的深度神經(jīng)網(wǎng)絡(luò):C-GRU 模型。不僅充分捕捉了核心詞與周圍詞的關(guān)系,也解決了長句依賴問題。
深度學(xué)習(xí)模型雖然能較好解決違規(guī)表述的分類問題,但是由于模型對于用戶而言是黑盒,可解釋性差。在線協(xié)議智能審核不僅要找到違規(guī)的條款表述,還需要定位到具體哪些詞語引起的,以及需要改成什么樣的才是推薦的表述。
因此我們的最終方案采取深度學(xué)習(xí)模型負(fù)責(zé)高召回,將所有可能產(chǎn)生違規(guī)表述的條款檢測出來。然后采用句法分析和規(guī)則方法對條款進(jìn)行解析,定位到具體違規(guī)表述的位置和推薦表達(dá)。這種方案的優(yōu)點(diǎn)是利用深度學(xué)習(xí)提高召回率,用規(guī)則進(jìn)行精確定位。
目前在線協(xié)議 AI 診斷系統(tǒng)除了極大提升協(xié)議審核效率,實(shí)現(xiàn)秒級審核速度,平均準(zhǔn)確率在 94% 以上,每年相當(dāng)于節(jié)省 130 人日的工作量。
未來規(guī)劃
近年來,以深度學(xué)習(xí)和自然語言處理為代表的人工智能技術(shù)取得巨大突破,也開始在法律智能領(lǐng)域嶄露頭角,受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。智能合同診斷只是我們在智能法務(wù)領(lǐng)域的***步探索,除此之外,更多在合同、訴訟文書以及裁決文書上的工作正在進(jìn)行中。
在技術(shù)上,我們進(jìn)一步和阿里巴巴機(jī)器智能技術(shù)(MIT) 合作共建,加強(qiáng)在行業(yè)知識(shí)圖譜構(gòu)建、機(jī)器閱讀理解以及信息抽取技術(shù)在法律領(lǐng)域應(yīng)用的研究與探索。沉淀法律領(lǐng)域基礎(chǔ)數(shù)據(jù)資源,構(gòu)建領(lǐng)域特點(diǎn)的自然語言處理平臺(tái),共同服務(wù)于多樣化的法律業(yè)務(wù)中。
除了自然語言處理技術(shù)之外,我們還會(huì)在音視頻技術(shù)上加大投入,如圖像識(shí)別,光學(xué)字符識(shí)別(OCR)、手寫字符識(shí)別、ASR 等。用于處理不同類型的法律材料,解決自然語言處理上游多源信息輸入問題。我們的最終目標(biāo)是構(gòu)建全鏈路全能力的法務(wù) AI 能力。
相信法務(wù) AI 能力的建設(shè)和完善能夠服務(wù)于廣大普通用戶、律師、法院等法律行業(yè)從業(yè)者。