“郁金香”打造智能問答助手,暢通疫情防控期政務(wù)信息觸達渠道
面對突如其來的疫情,大眾對于信息的即時性、透明度和傳達效率有了更高的關(guān)注。在此背景下,北京市經(jīng)濟和信息化局和CCF大數(shù)據(jù)專家委員會,聯(lián)合北京智源人工智能研究院,共同舉辦了科技戰(zhàn)疫·大數(shù)據(jù)公益挑戰(zhàn)賽。一支名為“郁金香”的算法團隊在595支參賽隊伍中表現(xiàn)突出,取得了A榜第二、B榜第三的不俗成績。
據(jù)悉,郁金香是一支算法和工程經(jīng)驗豐富的業(yè)界團隊,其成員以一覽群智公司成員為主,也有來自于印信科技的得力外援。成員都是深耕NLP深度學(xué)習(xí)、信息檢索/互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘等領(lǐng)域的資深專家。整個算法開發(fā)從立項到測評結(jié)束歷時30天。
本次比賽通過DataFountain平臺進行,圍繞“疫情政務(wù)問答助手”這一賽題展開。疫情政務(wù)問答助手旨在通過對惠民惠企政策數(shù)據(jù)的收集與處理,通過人機對話式問答的方式,對用戶提出的政策疑問快速、準確地定位相關(guān)政策文檔以及其內(nèi)相關(guān)內(nèi)容返回給用戶,幫助各行業(yè)企業(yè)準確掌握相關(guān)政策,更好地復(fù)工復(fù)產(chǎn)。
疫情政務(wù)問答是一個結(jié)合全文檢索和閱讀理解的復(fù)雜任務(wù),其任務(wù)設(shè)置非常貼近人類在面對信息時的判斷邏輯:面對問題,參賽系統(tǒng)不光要找出文檔庫中的相關(guān)文檔,還要定位出其中跟問題最相關(guān)的內(nèi)容。這就跟人類在文檔中檢索時的流程類似:為什么這個文檔與問題最相關(guān)?是因為里面有這么一段話,能夠最好地回答待解決的問題。
有的放矢:直面“疫情政務(wù)問答”的復(fù)雜性
對于學(xué)界大部分機器閱讀理解任務(wù)的數(shù)據(jù)集,提問及其答案所在文檔往往是直接對應(yīng)的,閱讀理解模型無須在海量文檔中去尋找相關(guān)文檔。但在真實場景中,對于用戶給出的一個問題,首先我們需要確定其答案在哪個文檔中,然后才能通過閱讀理解模型來找出實際答案。而這個答案文檔往往需要通過檢索這一步驟得到。因而在疫情政務(wù)問答這個任務(wù)中,其中有兩個因素會影響任務(wù)效果:其一,檢索模塊不一定能夠保證精準召回包含答案的文檔;其二,在召回的多篇可能存在答案的文檔里,正確答案所在的位置不確定。而且政務(wù)文檔篇幅一般都很長,答案可能也很長,這也會加大任務(wù)難度。
在信息檢索和認知智能方面的深厚經(jīng)驗和快速迭代改善模型的能力,是郁金香團隊成功的兩大關(guān)鍵。郁金香團隊采用基于ElasticSearch的全文檢索模塊和基于Transformer結(jié)構(gòu)的閱讀理解模型方案,綜合展示了其在問題理解、內(nèi)容搜索、答案提取等多個環(huán)節(jié)的全面算法能力。問答系統(tǒng)主要分為“信息檢索”和“閱讀理解”兩部分。“郁金香”在設(shè)計疫情政務(wù)問答系統(tǒng)時以競賽為目標、實用性為導(dǎo)向,針對疫情文本的領(lǐng)域特殊性,在整個方案的細節(jié)上進行了多重優(yōu)化。整體方案在競賽中取得了優(yōu)異成績,也再次驗證了相關(guān)文本理解技術(shù)通用方案的先進性。
在競賽中,郁金香團隊攻克了幾大技術(shù)難題:
難題1:中文分詞作為中文自然語言理解中的基礎(chǔ)技術(shù),其準確程度直接影響著下游任務(wù)的效果。在ES中,ik是常用的中文分詞工具。但由于政務(wù)文本的領(lǐng)域特殊性,ik工具的效果受到很大限制。
應(yīng)對1:針對政務(wù)文檔的特殊性,郁金香團隊利用多種語義理解工具,對文檔進行語義信息理解, 通過對文檔進行深度解析,提取出其中的實體名詞、長名詞、專有名詞、新詞等關(guān)鍵要素,構(gòu)建了自定義詞典,以保證實際分詞效果。
難題2:檢索模塊中一種常見的誤召回是由于事件主體不匹配導(dǎo)致的。舉例來說,有人提問:“蘇州市如何推行政務(wù)服務(wù)事項網(wǎng)上辦理?”檢索結(jié)果可能是其他地區(qū)“推進政務(wù)服務(wù)事項網(wǎng)上辦理”的相關(guān)內(nèi)容。
應(yīng)對2:在政務(wù)問答請求中,文本的事件主體往往是唯一且一致的。所以在文本理解中,郁金香團隊進行了事件主體的提取,來保證事件主體相匹配。同時為了避免強規(guī)則過濾造成的誤殺,方案將事件主體放到了一個新的索引域中。查詢時如果問句中能夠發(fā)現(xiàn)事件主體,就增加對事件主體索引域的查詢。此外,對于請求中的行政區(qū)劃類事件主體特別設(shè)置了對于其上級行政區(qū)劃的容錯處理。
難題3:賽題訓(xùn)練數(shù)據(jù)較少,閱讀理解模型泛化能力受限。
應(yīng)對3:郁金香團隊采用集成學(xué)習(xí)技術(shù),實現(xiàn)了全面的融合模型方案,集成模型中內(nèi)含了近二十個基礎(chǔ)模型,并對不同模型智能分配權(quán)重。權(quán)重的分配取決于模型在驗證集上的表現(xiàn)。對于使用全量數(shù)據(jù)訓(xùn)練的模型,其權(quán)重更高。同時加入Fast Gradient Method(FGM)算法,生成對抗樣本,進一步提高模型的泛化能力。
難題4:政務(wù)文檔往往很長,遠超閱讀理解模型的長度限制。在進行閱讀理解任務(wù)時,長文檔需要被截斷成多個文本片段。然而簡單的進行定長截斷很容易讓答案丟失,并脫離上下文語境。
應(yīng)對4:郁金香團隊發(fā)現(xiàn)絕大部分答案都是在一個句子中,所以采用了基于中文分句的分段算法進行文本預(yù)處理。具體來說,將中文分句后的句子序列作為文本基本片段,規(guī)定最長子段落是滿足最長序列長度的最長連續(xù)句子序列,得到滿足條件的片段。進而通過衡量兩個子片段的交叉度,優(yōu)化子片段整體冗余度,來選取切分合理的子片段,以保證消除冗余的同時也能降低答案丟失的風險。
多點開花:智能語義搜索引擎的應(yīng)用
這一智能問答系統(tǒng)的方案不僅在競賽中有出色表現(xiàn),也已經(jīng)在智能搜索、智能問答方面實現(xiàn)了應(yīng)用落地。此方案以自然語言作為交互形式,極大提高了用戶體驗。
據(jù)了解,華夏基金研報智能搜索系統(tǒng)就是應(yīng)用該方案的典型之一。券商的研報對股民價值很高,但研報長,文字多,投資者要從中獲得對自身有益的投資參考往往耗時耗力。如今,這一研報智能搜索系統(tǒng)針對研報中的預(yù)評級、跟蹤報告、走勢圖、調(diào)研紀要、投資建議等搜索意圖,通過NL2SQL以及結(jié)合研報問答助手的閱讀理解,能幫助投資者更快、更簡單、更高效的讀懂研報。只需要一個以日常語言的問題,相關(guān)關(guān)鍵內(nèi)容即時展現(xiàn),極大提高了信息獲取的效率。
此外,基于該技術(shù)方案的智能語義搜索引擎產(chǎn)品支持不同行業(yè)不同領(lǐng)域的場景拓展。這一產(chǎn)品用知識圖譜融合行業(yè)領(lǐng)域內(nèi)的知識庫,集成問答助手模型通過自然語言“問答式”的語義輸入為用戶提供更精準的智能檢索服務(wù)。
面向政府,這一搜索引擎可以針對政府內(nèi)海量數(shù)據(jù)的治理、語義解析、智能查詢,助力政府搭建智能化信息綜合應(yīng)用平臺;面向電商,支持針對電商領(lǐng)域目標商品的精準檢索,可根據(jù)用戶畫像推薦更為個性化的搜索結(jié)果;面向媒體,支持大型媒體網(wǎng)站的應(yīng)用場景,將海量信息進行深度整合,深度挖掘數(shù)據(jù)價值;面向金融,通過整合金融市場信息,進行動態(tài)獲取、解析,為金融機構(gòu)提供更全面、精準的金融數(shù)據(jù)和信息;面向公安,基于公安系統(tǒng)的行業(yè)特點,可以提供針對公安行業(yè)的信息檢索、問題研判和知識管理平臺。
傳統(tǒng)的搜索引擎一般是通過簡單機械式的條件組合進行查詢,交互體驗較差,列表形式過于單一,而且針對多源異構(gòu)數(shù)據(jù)的處理能力不足。相較而言,智能語義搜索引擎產(chǎn)品支持多源異構(gòu)數(shù)據(jù)融合,搜索結(jié)果形式呈現(xiàn)多樣,支持針對自然語言“問答式”的語義輸入,搜索功能強大,搜索結(jié)果也更為便捷。
【小結(jié)】基于語義理解的智能對話、智能搜索越來越多地深入我們的日常生活。放眼未來,相關(guān)應(yīng)用將能依托基于世界構(gòu)建的巨大的知識圖譜,結(jié)合語義理解,提供給用戶前所未有的便捷體驗。相比傳統(tǒng)的檢索技術(shù),以語義理解為基石的智能對話、智能檢索為人機交互提供了更智能、更高效、更善解人意的互動。當搜索不再限于幾個關(guān)鍵詞的形態(tài),當搜索引擎對各垂直領(lǐng)域連接程度逐漸加深,智能對話、智能搜索可能真正實現(xiàn)“無處不在”。