自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

新聞 人工智能
2021 年模式識別與機器智能前沿研討會于 10 月 29 日上午在線上舉行,來自中山大學的林倞教授分享了題為《視覺語義理解的新趨勢:從表達學習到知識及因果融合》的主旨演講。

 [[435334]]

2021 年模式識別與機器智能前沿研討會于 10 月 29 日上午線上舉行。會議由中國自動化學會模式識別與機器智能(Pattern Recognition and Machine Intelligence,PRMI)主辦,旨在將從事模式識別與人工智能各個方向的頂尖學者與研究人員聚集在一起進行技術分享,以便開展相關領域的交流與合作。在研討會中,來自中山大學的林倞教授分享了關于《視覺語義理解的新趨勢:從表達學習到知識及因果融合》的報告。表達學習和知識推理一直是模式識別與計算機視覺中的核心研究內容,兩者的有效結合將成為打開當代通用人工智能的第一扇門。然而在機器視覺的背景下,如何將認知推理、知識表示與機器學習等多個領域的技術融會打通,依然是一個極具挑戰(zhàn)和迫切的難題。

在報告中,林倞教授首先簡要回顧了計算機視覺領域從傳統(tǒng)到現(xiàn)代的研究發(fā)展趨勢,然后分享了他在表達學習和知識融合方面的一系列代表性工作。林倞教授認為目前絕大部分的知識融合表達學習工作依然無法完全實現(xiàn)兩者的有效融合,主要原因是高維度的視覺大數(shù)據難以避免地夾雜了各種混淆因子,導致深度學習模型難以從這些數(shù)據中提取無偏誤的表征與因果相關的知識。鑒于此,林倞教授提出融入因果關系理解的知識表達學習的新視角和新方法。與現(xiàn)有因果推斷作用于固定的低維度統(tǒng)計特征的做法不同,融合因果關系理解的表達學習往往需要結合復雜的多模態(tài)結構知識,以因果關系指導表達學習,再用學習到的表征反繹因果關系。最后林倞教授分享了他所帶領的中山大學人機物智能融合實驗室(以下簡稱 HCP 實驗室)最近在因果表達學習領域的研究進展,并展示了如何將因果表達學習與多模態(tài)結構知識融合實現(xiàn)去數(shù)據偏見的解釋性和優(yōu)越模型性能。

以下為機器之心根據林倞教授的演講內容進行的整理。

計算機視覺語義理解:從過去到現(xiàn)在

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 1.David Marr 首次對計算機視覺系統(tǒng)應該要做什么給出了觀點

計算器視覺奠基人之一的 David Marr 在他的著作《視覺》[1]一書中提出了視覺理解研究的核心問題(見圖 1):視覺系統(tǒng)應以構建環(huán)境的二維或三維表達,使得我們可以與之交互(這里的交互意味著學習,理解和推理)。David Marr 把計算視覺表達分成幾個層面,從單純的二維視覺圖像,然后到代表邊緣結構和輪廓信息的原始簡約圖(Primal Sketch),再到包含一定程度深度信息的模態(tài) 2.5 維簡約圖(2.5-D Sketch),最后到完整的三維表達。長期以來,計算視覺領域都圍繞這樣一個脈絡來開展研究工作。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 2. 神經網絡架構隨著研究的深入變得越來越復雜

后續(xù)的視覺研究越來越多地跟機器學習,特別是深度學習相關。2010 年,當時的主流做法是利用特征工程,比如 HOG[2],LBP[3],來提取圖像的統(tǒng)計特征,再結合一些如特征金字塔等的特征增強方法,最后利用支持向量機等判別器來完成識別任務。自 2012 年起,深度卷積神經網絡在 ImageNET 圖像識別大賽中大放異彩,其技術本質上是舍棄了人工構建特征時造成的信息丟失,轉而直接從圖像中學習并提取判別性更強的視覺表達。于是越來越多的研究者開始關注如何利用更強的深度模型去提升視覺表達的學習能力,從殘差網絡到今天的 Visual Transformer 架構[4,5],近十年來的計算機視覺研究圍繞著如何構建強大的表達學習模型這個主題。在深度學習蓬勃發(fā)展的過程中,各類視覺任務(如物體識別,檢測,圖像分割等)的性能不斷提升。然而,該研究路線也逐漸遇到了瓶頸,這是因為僅僅通過設計神經網絡模型,很多關于計算機視覺理解的問題無法得到根本解決。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 3. 計算機視覺研究的兩大新出路:高效的視覺表達學習與視覺知識推理

這些問題我們可以歸納為兩大方面(圖 3)。第一是強調訓練"性價比"(Cost-effective)的高效表達學習。圖靈獎得主 Yan Lecun 在三年前的神經信息處理系統(tǒng)大會上的專題報告中,曾拿蛋糕作為比喻,其大意是如何利用無標注數(shù)據或者挖掘無標注信息,才是人工智能目前最值得關注的研究方向。這個方向包括了無監(jiān)督學習,遷移學習或者自監(jiān)督學習等[6,7],其技術核心是發(fā)掘圖像視頻數(shù)據中的一些內在屬性和先驗信息,通過預訓練的方法先得到歸納偏置再拓展到下游任務中去,從而提升整個深度神經網絡模型的訓練效率,這類方法在自然語言理解、計算機視覺等領域有著諸多成功的應用,被認為是最近主流的一種研究和工程實踐方法。第二,當我們試圖跳出視覺表達學習的框架,用宏觀的角度去看數(shù)據擬合的時候,我們會發(fā)現(xiàn)有很多領域上的問題,由于數(shù)據并沒有很好地呈現(xiàn)完整的知識,通過擬合數(shù)據得到的模型往往無法排除數(shù)據帶來的偏見。因此不論采用的是卷積神經網絡,圖神經網絡或者是最近大熱的 Transformer 模型,最終模型學習到的知識可能是錯誤的,并且無法解釋。于是從 18 年開始,就有許多工作便試圖將知識圖譜、常識庫等一些結構化、符號化的知識表達與表達學習相結合,轉向更高理解層面的視覺知識推理研究。這些知識規(guī)則有兩個核心作用。首先,在有標注樣本缺乏的一些情況下,可以用這種知識規(guī)則去改善模型的學習能力。其次,知識規(guī)則指導的學習也可以讓訓練出來的深度神經模型與人類認知保持一定程度的一致,增強其可解釋性。

高效表達學習與視覺知識推理

基于上述兩個方面問題,本人分享一下我們實驗室最近的幾個研究工作。

針對第一個問題,我們今年有一個與牛津大學 Philip Torr 合作的 ICCV 工作[9],內容是關于如何有效地構建訓練樣本組合,來實現(xiàn)高效的自監(jiān)督表達學習,從而促進模型訓練(見圖 4)。更具體地說,現(xiàn)有的研究表明,即使自監(jiān)督對比學習能夠讓預訓練模型取得逼近甚至超越全監(jiān)督預訓練模型的效果,其代價是需要超過十倍的訓練量。而我們的研究揭示了對比學習中的兩個矛盾現(xiàn)象,我們稱之為欠聚類和過度聚類問題:欠聚類意味著當用于對比學習的負樣本對不足以區(qū)分所有實際對象類時,模型無法有效地學習并發(fā)現(xiàn)類間樣本之間的差異;過度聚類意味著模型無法有效地從過多的負樣本對中學習特征,迫使模型將實際相同類別的樣本過度聚類到不同的聚類中。欠聚類和過度聚類是造成自監(jiān)督學習效率低下的主要原因,而我們提出了一種高效的截斷三元組樣本對組合方法,采用三元組損失趨于最大化正對和負對之間的相對距離來解決聚類不足問題;并通過從所有負樣本中選擇一個負樣本代理來構建負對,來避免過度聚類。從實驗結果來看,我們的方法基本上能夠在兩倍于全監(jiān)督訓練量下達到其預訓練模型水平,比起現(xiàn)有的自監(jiān)督訓練方法提高了 5 倍的效率。然后在下游任務的遷移上,如物體檢測和行人再識別,在主流的大型數(shù)據集上都驗證了這種方法的高效性,該方法訓練出來的模型性能甚至優(yōu)于一些全監(jiān)督方法。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 4. 中山大學 HCP 實驗室關于研究高效自監(jiān)督表達學習的最新成果,可以節(jié)省 80% 訓練量的情況下,達到同樣的模型性能

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 5. 中山大學 HCP 實驗室在視覺推理方向上的代表性工作:通用圖像解析

而在視覺理解中的知識推理這一方面問題,我們實驗室早在 2017 年就開展了相關研究,取得的成果也比較多。我首先介紹一下我們團隊利用知識推理去輔助高層視覺語義理解的兩個工作。第一個工作是關于如何實現(xiàn)通用的圖像解析(Image Parsing,可看作是一種精細化的語義分割任務)模型[10] (見圖 5)。通常要實現(xiàn)在某個領域上的圖像解析,我們是要利用大量本領域上的圖像數(shù)據參與模型訓練的,這一方面往往不符合高效表達學習的設定,而另一方面,要讓其實現(xiàn)在另一個領域上面的圖像解析,模型則必須重新進行訓練,因為新領域的圖像分布和類別跟舊領域不一樣。為了擺脫這些局限,我們的工作利用跨領域之間的知識共通性作為橋梁,將人類知識和標簽分類法納入到圖卷積網絡中構造新的遷移學習跨領域推理算法,再通過語義感知圖推理和傳輸在多個域中保持一致性,實現(xiàn)跨域圖像解析的語義包融和互補。我們的方法在著名人體解析數(shù)據集 LIP(順帶一提,該數(shù)據集也是由我們團隊于 2017 年的 CVPR 工作中首次提出,在用于數(shù)次研討會的專項比賽后,其已成為人體解析領域里面的著名基準數(shù)據集)中表現(xiàn)出非常優(yōu)秀的跨領域人體解析效果。另外,在全景分割任務中,我們的方法也在跨領域遷移情況下達到了當前最先進的性能。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 6. 中山大學 HCP 實驗室在視覺推理方向上的代表性工作:融合知識推理的視覺問答

第二個工作是關于如何融入外部知識去完成視覺問答任務[11](見圖 6)。具體來說,視覺問答任務的技術本質需要實現(xiàn)對圖像和對應語言的同步理解,這需要在完備的知識空間里面進行推理。然而現(xiàn)存的大部分視覺問答的推理是通過配對封閉領域下的問答數(shù)據而實現(xiàn)的,其訓練的模型極容易產生偏誤,難以泛化到開放世界下的問答場景中。我們的工作提出了第一個融合外部知識進行多段推理的數(shù)據集,該數(shù)據集衍生于真實的問答情況,同時提供了從數(shù)據領域到知識圖譜的推理路徑標簽。這有助于衡量視覺問答過程的模型推理可解釋性,同時也比較容易應對未出現(xiàn)過的提問情況。我們基于樹層次結構提出了針對該問題的模塊化視覺推理問答網絡,能夠靈活結合結構知識庫進行視覺表達學習,高效地推演出問題答案。

除了高層視覺語義理解外,基于知識的視覺推理也可以被應用到一些傳統(tǒng)的視覺任務當中,突破現(xiàn)有模型的性能瓶頸。接下來我簡要介紹一下我們團隊在這方面的四個工作。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 7. 中山大學 HCP 實驗室利用視覺推理技術提高復雜場景下大規(guī)模物體檢測的性能

第一個是我們在 CVPR-19 提出的 RCNN 系列衍生模型 Reasoning-RCNN,將基于知識圖譜的常識推理技術整合到神經符號模型中,從而讓物體檢測網絡在所有對象區(qū)域上具備自適應全局推理的能力,能有效應對大規(guī)模物體檢測問題中的長尾數(shù)據分布,嚴重的遮擋和類別模糊性等挑戰(zhàn)。Reasoning-RCNN 不僅能在視覺層面上傳播信息,同時也在全局知識范圍內學習所有類別的高級語義表示?;跈z測網絡的特征表示,Reasoning-RCNN 首先通過收集每個類別先前的分類層權重來生成全局語義池,然后通過聯(lián)系全局語義池中上下文的不同語義來自適應地強化每個對象特征的信息。這讓 Reasoning-RCNN 具備可擴展集成任何知識的能力。在三個大規(guī)模物體檢測的基準數(shù)據集(物體種類可以多達數(shù)千個)中,Reasoning-RCNN 實現(xiàn)了 15%-37% 的最優(yōu)性能提升。該研究也被全球人工智能行業(yè)戰(zhàn)略研究公司 TOPBOTS 評選為 2019 年計算機視覺領域最前沿的十個工作之一。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 8. 中山大學 HCP 實驗室利用視覺推理技術去解決大規(guī)模類別數(shù)量下的小樣本單分類和多分類視覺物體識別問題

我們第二個工作專注于利用外部知識推理去輔助小樣本分類的建?!,F(xiàn)有基于元學習的解決辦法在不同的小樣本類別的子任務之間的偏差較大,而我們的工作通過外部知識構建小樣本類別和多數(shù)類別之間的全局聯(lián)系,其優(yōu)勢在于穩(wěn)定小樣本分類模型訓練和提高其分類魯棒性。具體來說,它首先構建一個結構化的知識圖譜,通過推理不同的類別的共現(xiàn)概率去建模所有類別的全局聯(lián)系,然后引入標簽語義來指導學習特定于語義的特征初始化標簽。我們將知識圖譜中每一個節(jié)點看作某個類別的單分類模型,并通過圖神經網絡推理去實現(xiàn)它們的消息傳播機制從而進行語義關聯(lián)的模型訓練。該方法能有效解決超大規(guī)模類別的單分類小樣本物體識別問題,同時也能夠輕易擴展到多標簽小樣本分類問題當中。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 9. 中山大學 HCP 實驗室利用視覺推理技術去解決視覺關系分類中的長尾問題

我們第三個工作研究的是以判別對象和關系標簽為目的的長尾視覺關系分類。當前大多數(shù)方法通常通過遵循 {主體,客體} 的固定推理路徑來識別低頻率出現(xiàn)的關系三元組。然而,這種固定的依賴路徑的知識整合往往忽略了常識知識和真實場景之間的語義差距,容易受到對象和關系標簽的數(shù)據集偏差影響。為了緩解這種情況,我們提出了可配置圖推理來分解視覺關系的推理路徑,并結合外部知識,實現(xiàn)對每幅圖像中每種關系類型的可配置知識選擇和個性化圖推理。給定常識知識圖,可配置圖推理網絡學習匹配和檢索不同子路徑的知識,并有選擇地組合知識路由路徑,彌合了常識知識與現(xiàn)實場景之間的語義鴻溝。大量的實驗表明,可配置圖推理網絡在幾個流行的基準測試中始終優(yōu)于以前的最新方法。

在第四個工作中,我們專注于圖像描述分割問題。該任務的實質是在給定某個自然語言描述下作出跟該表述相關的圖像分割,而難點在于如何在抽象的語言表述中實現(xiàn)精細化的分割結果。我們試圖通過解析給定語言表述的依賴樹結構去實現(xiàn)多模態(tài)推理結果。技術上來說,我們提出了基于樹結構的多模態(tài)循環(huán)神經網絡模塊,將低層特征通過語義引導融合到高層特征中,貫徹自底向上的語義一致性。實驗證明了我們這個方法能夠有效學習語言描述的粗粒度語義與像素層面的精細語義的對應,從而在該任務中進行多模態(tài)推理實現(xiàn)優(yōu)秀的分割效果。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 10. 中山大學 HCP 實驗室利用視覺推理技術去實現(xiàn)描述性圖像分割中的多模態(tài)推理

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 11. 基于構建輔助任務去實現(xiàn)數(shù)學推理題求解

最后值得一提的是,我們基于高效自監(jiān)督學習和知識推理的研究思想也可拓展到一些自然語言處理的領域。在今年 ACL 上(圖 11),我們提出了一個基于自監(jiān)督輔助任務學習進行推理,再實現(xiàn)數(shù)學應用題求解。每一個輔助任務所解決的都是關于應用題里條件的具體描述情況,而對這類信息的正確把握實際上是推理過程中的中間結果,對最終求解起著重要作用。我們利用神經符號模型將輔助任務信息和樹結構推理模型結合起來,最后的模型在四個現(xiàn)有的基準數(shù)據集上達到了目前最優(yōu)的效果。

因果推理與因果表達學習

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 12. 因果推理的兩大技術流派:以 Judea Pearl 為首的結構因果模型和以 Donald Rubin 為首的潛在結果框架

結合知識與推理的表達學習,推動著視覺理解從下層感知逐漸往上層認知過渡,極大地促進了模式識別與人工智能學界的發(fā)展。然而要通往認知智能的終點,單純依賴知識與表達學習仍然遠遠不夠。一方面,現(xiàn)存的絕大部分深度學習技術無法避免的一個問題就是主要關注關聯(lián)而忽略因果,因此其訓練的模型在魯棒性和解釋性方面都會出現(xiàn)很多問題。另一方面,高維度視覺大數(shù)據的復雜性往往導致其模型訓練難以避免各種混淆因子的影響,導致最后學習到的表征與知識蘊含難以預測的數(shù)據偏誤。于是,相關研究工作開始考慮在視覺理解過程中去介入"反思"的機制,其本質就是試圖將因果推理的思想融入到表達學習中,達到真正的"知其然,亦知其所以然"的目的。

因果發(fā)現(xiàn)與推理

有關"因果"兩字的定義往往可以追溯到上古各個哲學流派的討論,而近代的多個學科也有獨立提出其見解的一系列研究。在統(tǒng)計學習與人工智能領域中,比較廣為人知的有兩個技術派系。第一個派系以 Jerzy Neyman 教授和 Donald Rubin 教授各自獨立提出的潛在結果框架(Potential Outcome Framework)[12]為主要分析工具,基于不同的隨機對照實驗組作為研究對象,考察其條件個體受試作用(Conditional Individual Treatment Effect)作為判別不同變量之間是否存在因果關系的主要依據。而第二個派系則以 2010 年的圖靈獎得主 Judea Pearl 教授為首,提倡從三個層次的因果階梯出發(fā)去理解世事萬物變量之間的因果關系 [13]。其階梯的第一層"關聯(lián)",指的是事物變量同時發(fā)生的聯(lián)合概率,也正是目前深度學習能夠解釋的深層的變量統(tǒng)計關系。Reichenbach 教授[14] 明確指出統(tǒng)計相關性所蘊含的信息是嚴格小于因果關系的,因此要得到更深層次的因果關系信息我們必須把因果理解上升到第二層次的"干預",即對這個世界的我們感興趣的事物做某種改變,那么有各種的可能性,而不同的改變會有不同的結果,從而讓其反饋而獲取更多信息。最后,由于現(xiàn)實世界并不允許我們能夠進行任意的交互和改變,一個典型的例子是在固定某個時間變量下,我們往往只能做出一次干預和觀察。因此,我們需要把因果關系的理解上升到第三層的"反事實",也就是對于每一次干預的發(fā)生,我們都能借助類似人類"反思"的過程,去比較其干預和不干預下的結果差異?;趯σ蚬P系的深刻理解,Judea Pearl 教授進一步提出了因果圖模型(Causal Diagram)和 Do 算子(Do-operator)作為其研究因果關系的理論框架和實現(xiàn)因果推理的工具。在其著作《為什么》一書中,他闡明了潛在結果框架和因果圖模型之間的共通性,證明了真理縱使表現(xiàn)形式不同,其結論總是殊途同歸的道理。

因果表達學習

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 13. Joshua Bengio 教授對因果推理和表達學習的新理解

值得注意的是,縱使因果推理已有廣泛的算法研究,要讓其與深度學習模型結合指導復雜的視覺理解任務,依然存在不少挑戰(zhàn)。一方面是該類算法假設的因果圖往往是固定的,而且復雜度也比較低,另一方面則是其因果假設與推理的變量單元也經常是低維度變量,蘊含的信息量很少。但是,真實世界的推理單元往往是具有豐富語義信息的高維度變量(如物體),觀測結果最初往往并未對推理進行結構化。有鑒于此,圖靈獎得主,深度學習研究領域的泰斗 Joshua Bengio 教授在最近的研究中提出了他對深度學習和因果關系的獨到見解[15]。他認為深度學習擬合的是一個單一的數(shù)據分布,其本意就是只有一個觀測世界,而一般的深度學習則是去擬合該世界的唯一分布。但由于我們的世界是動態(tài)變化而且分裂通向多元未來的,這意味著現(xiàn)有的深度學習實際上是在過擬合我們的觀測世界,而對未來的改變卻顯得無能為力。因此,Bengio 教授進一步提出了"因果表示學習"的概念,試圖從數(shù)據中學習到這些變量表達以及建立結構關系,同時去學習,擬合不同世界,不同可能下的分布情況。這過程當中就會對應到因果理解中的干預和思,從而與不同的下游任務構建起關系。Bengio 教授的"因果表示學習"概念深深地影響了最近的計算機視覺領域的一些研究,如弱監(jiān)督語義分割,視覺對話,零樣本學習等(見圖 14)。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 14. 最近的一些關于計算機視覺結合因果表達學習的工作研究

因果學習與知識融合

最后本人分享一下我們實驗室最近在因果表達學習的一些研究進展,這包含了兩個工作。第一個是計算機視覺的工作,研究的是如何結合因果圖進行圖像合成的;而第二個工作則跳脫計算機視覺的局限,研究醫(yī)學診療數(shù)據下面的無偏推理問題:多輪對話下的自動醫(yī)療問診。不同于現(xiàn)有大部分對因果表達學習的探索,我們這兩個工作強調了如何利用外部知識或者數(shù)據中已有的結構信息,去輔助因果表達學習完成更加復雜的任務,對因果表達學習領域的未來研究具有一定的啟發(fā)性。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 15. 中山大學 HCP 實驗室關于表達學習生成模型結合因果圖推理的研究工作

在第一個工作中,我們研究如何在給定一個語義場景圖的情況下,實現(xiàn)從高層抽象語義到底層視覺數(shù)據的圖像生成。這可以看成是場景圖預測的反問題。而實現(xiàn)的過程中有兩個難點:一個是如何保證生成的圖像蘊含的語義信息與給定場景圖的語義信息保持一致;另一個則是如何讓生成圖像的布局具有解耦性,就是修改布局的其中一部分語義不會引起整個圖像的扭曲。而要實現(xiàn)這種結構上的布局解耦,實際上就是把相關變量看成是混淆因子來進行因果表達學習的過程。于是我們可以看到,從場景圖到合成圖像的生成過程,我們都可以用結合外部知識的因果圖來表示。我們利用了生成對抗學習網絡架構實現(xiàn)逼真的圖像生成,同時采用變分自編碼器的特性學習隱空間表達,使生成圖像中對應的元素符合解耦性。而生成學習的目的則是在保持生成圖像盡可能逼真的前提下,如何讓生成的圖像語義在結構因果關系的約束下,同時保持內在語義和外部知識的一致性。實驗的結果也驗證了,我們的方法不但能從場景圖中生成語義一致的圖像,還可以對其中的結構語義信息進行動態(tài)刪減和增加,同時保持被編輯外的圖像語義不會受到干擾和改變。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 16. 中山大學 HCP 實驗室利用因果推理技術實現(xiàn)可解釋醫(yī)療自動診斷的研究工作

我們的第二個工作研究的是醫(yī)療自動診斷,即訓練一個代理模型與患者進行動態(tài)交互問診,在準確的前提下盡可能快地提前結束問診并進行疾病的診斷。這本質上是一個數(shù)據挖掘建模結合機器學習的問題,現(xiàn)有的方法基本上是利用觀測數(shù)據去構建一個患者模擬器,從而模擬交互問診過程并對診斷代理模型進行訓練。但這個醫(yī)療對話的模擬過程實際上使用的是觀測的被動數(shù)據,這會造成兩大因果類的偏誤問題。第一個情況是,如果某一個病人的問診記錄存在從未被醫(yī)生問起某種癥狀的時候,當問診策略訪問到該病人的記錄進行交互訓練的時候,患者模擬器只會返回 “不知道” 的空值回答,因而代理模型是無法構建針對該癥狀時的問診策略的。這是因為該病人對于此癥狀的對話數(shù)據只存在于反事實世界中而沒在真實世界中出現(xiàn)過。該問題被我們稱為默認答案偏差,經常會發(fā)生在醫(yī)療診斷的數(shù)據中,原因非常好理解:真實世界中的醫(yī)生往往都是通過先驗知識去搜索最短的問診路線,不存在試錯的過程。而另外一個問題是,由于現(xiàn)存的患者模擬器是基于純經驗的,從因果推斷的角度,它代表的數(shù)據往往只能反映出過去某一個觀測。而基于這些觀測訓練出來的問診代理模型,其策略也只會過擬合到這個觀測世界中,而在面對醫(yī)療診斷的時候,這個分布查詢偏差問題往往是致命的,因為這些信息在代理模型進行查詢的過程中往往會帶來數(shù)據偏見,使得最后的診斷結果產生錯誤。

我們的工作試圖利用因果結構圖對不同癥狀和疾病因子進行分析,再結合潛在結果框架去消除這兩類偏差,最終實現(xiàn)無偏,可解釋的醫(yī)療自動診斷。受到潛在結果模型技術的傾向評分匹配啟發(fā),我們首先提出基于傾向分數(shù)的患者模擬器,其目的是取代受到數(shù)據偏見影響的觀察數(shù)據患者模擬器,通過從其他記錄中提取知識來有效回答未記錄的詢問(圖 - 16 的左邊子圖)。更具體地說,我們的方法首先通過因果結構圖去判定出每次詢問過程中的哪些因素是對撞因子,接著基于每個觀測數(shù)據中被詢問的癥狀和疾病的關系,用傾向性評分匹配策略去計算每個記錄的傾向性評分并聚類不同的詢問記錄。那么對于每個觀測記錄中不存在的癥狀詢問,我們都可以通過其聚類的其他觀測記錄去尋找類似的答案,其詢問結果滿足潛在結果框架下的無偏估計。不但如此,這個方法可以被用于所有基于交互的自動問診代理模型的訓練中,讓其克服由于交互方式不當造成的問診答案偏差。另外,為了克服分布查詢偏差,我們在利用基于傾向分數(shù)的患者模擬器同時,提出了一種漸進式代理網絡模型,把策略分解為癥狀查詢和疾病診斷的兩部分(圖 - 16 的右邊子圖)。詢問過程由診斷過程以自上而下的方式驅動,以詢問癥狀對患者的未知方面進行干預。其干預結果可以進一步推斷多個在未來可能會產生的交互情景?;诮换Σ煌奈磥戆l(fā)展軌跡進行聚類,我們可以依據不同的聚類結果對應到不同的疾病判斷中。因此每個完成交互后的軌跡,并將對應不同的疾病診斷,而最大化不同聚類簇之間的距離,則能夠增強結束對話時候的疾病診斷置信度。該診斷過程實際上可以被看作是到神經科學里面的發(fā)散模型:在心理和概率上描繪患者,并通過干預想象的問題(例如“如果患者咳嗽怎么辦?”)在該心理表征中進一步解釋原因,具有現(xiàn)有疾病診斷智能體不能比擬的可解釋能力。通過上述干預,我們提出的代理能夠根據癥狀的存在與否進行診斷,以消除分布詢問偏差。

中山大學林倞解讀視覺語義理解新趨勢:表達學習到知識及因果融合

圖 17. 基于因果推理醫(yī)療自動診斷的具體實現(xiàn)框架

我們采納了兩個真實場景下采樣的數(shù)據集對我們的工作進行評測。對于傾向分數(shù)的患者模擬器,由于真實場景的測試數(shù)據也是觀測數(shù)據,我們基于反事實推斷衍生的評價標注去衡量其是否能夠有效實現(xiàn)反事實推斷。另外再引入癥狀密度(symptom density)去測量我們的模擬器是否可以避免陷入回答 “不知道” 這些無意義的回答中。最后,我們雇傭了一部分來自中山醫(yī)學院的學生去評價不同智能體代理的疾病診斷效果。我們的實驗結果表明了現(xiàn)有基于觀測數(shù)據進行交互訓練的智能體,其診斷結果極容易受到現(xiàn)存交互記錄數(shù)據影響,難以訓練出在真實場景下可靠的問診模型。而我們提出的患者模擬器則能夠比較好地適應這種變化。同時,不論是基于觀測測試數(shù)據的準確率還是專業(yè)人員評價,我們的代理策略模型也體現(xiàn)出了更優(yōu)秀的疾病診斷效果。

總結

我們從計算機視覺作為切入點,見證了人工智能從 David Marr 樸素的視覺理解概念開始,一路到今天以深度神經網絡模型和表達學習為研究軸心的蓬勃發(fā)展。同時,我們也發(fā)現(xiàn)了該路線漸漸走到了奇點。不同于一些學派認為表達學習難以學習高層認知,我們主張目前的表達學習應該結合知識推理和因果模型去實現(xiàn)下一階段的技術飛躍:因為知識推理可以實現(xiàn)從人類知識到機器認知的一致遷移,而因果模型則為理解機器推理提供嚴謹?shù)募夹g手段。我們實驗室關于知識推理和因果模型的一系列工作也從側面驗證了我們的觀點。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2023-03-14 14:06:52

訓練模型

2021-02-24 15:38:37

數(shù)據語言架構

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2024-01-29 06:40:00

AI模型

2020-11-05 16:21:15

中山大學

2025-03-17 10:25:28

2024-02-29 13:55:00

模型訓練

2025-03-17 12:48:50

2016-12-24 00:08:11

教育信息化

2024-01-12 13:10:06

AI數(shù)據

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2014-11-13 10:17:30

中山大學新炬網絡學院大數(shù)據技術

2015-11-18 17:12:25

太一星晨/應用交付

2015-10-15 19:23:29

負載均衡應用交付太一星晨

2024-03-28 13:19:05

AI數(shù)據

2023-08-22 13:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號