OpenAI的可解釋性挑戰(zhàn)與解釋性人工智能(XAI)在醫(yī)療診斷中的關(guān)鍵作用 精華
在上周于瑞士日內(nèi)瓦舉行的國際電信聯(lián)盟 AI for Good 全球峰會上,OpenAI 首席執(zhí)行官 Sam Altman 在被問及該公司的大型語言模型 (LLM) 的實際運作方式時感到很困惑。Sam Altman 承認 OpenAI 實際上并不了解其 AI 的工作原理,“我們當然還沒有解決可解釋性問題?!監(jiān)penAI已籌集數(shù)百億美元用于開發(fā)改變世界的人工智能技術(shù)。但有一個明顯的問題:它仍然難以理解其技術(shù)實際上是如何運作的。
《觀察家報》援引他的話說:“我們當然還沒有解決可解釋性問題”,這實際上是說,該公司尚未弄清楚如何追溯其人工智能模型經(jīng)常出現(xiàn)的奇怪和不準確的輸出,以及它為得出這些答案而做出的決定。Altman 的回答并不令人滿意,這也凸顯了新興人工智能領域的一個真正問題。長期以來,研究人員一直在努力解釋幕后自由“思考”的過程,人工智能聊天機器人幾乎可以神奇地、毫不費力地對任何向它們提出的問題做出反應。
人工智能的可解釋性對于其發(fā)展和應用至關(guān)重要。如果人工智能系統(tǒng)的決策無法被合理解釋,公眾將難以信任和接受這些技術(shù)??山忉屝杂兄谧屓藗兝斫饽P偷倪\作方式,從而建立對其的信任。在將人工智能模型投入實際應用時,組織需要建立信心,而可解釋性正是幫助實現(xiàn)這一目標的關(guān)鍵因素??山忉屝杂兄诮M織采用負責任的人工智能開發(fā)方法。通過理解模型的決策過程,開發(fā)人員可以確保系統(tǒng)按預期運行,并滿足監(jiān)管標準。如果要允許受決策影響的人質(zhì)疑或更改結(jié)果,可解釋性也十分重要。
隨著醫(yī)療領域中人工智能應用的不斷增加,解釋性成為了一個關(guān)鍵問題。醫(yī)生、研究人員和患者需要理解AI系統(tǒng)的決策過程,以便更好地信任和接受這些技術(shù)。所以有必要探討醫(yī)療AI的解釋需求,為醫(yī)學界和技術(shù)界提供指導。近日由劍橋大學精神病學系和計算機科學與技術(shù)系的研究人員組成的研究團隊發(fā)表的論文《The Explanation Necessity for Healthcare AI》對醫(yī)療人工智能的解釋需求進行了深入分析。通過考慮專家觀察的變異性、評估協(xié)議的穩(wěn)健性和應用的表示維度,他們提出了四個不同的解釋需求類別:自解釋應用、半解釋應用、不可解釋的應用和新模式發(fā)現(xiàn)應用。這些分類有助于確定不同AI應用的解釋需求,從而確保AI系統(tǒng)既準確又可靠。研究團隊的專業(yè)知識可能涵蓋醫(yī)療應用和計算機科學,使他們非常適合探索醫(yī)療 AI 的解釋必要性,這篇論文對從事醫(yī)療人工智能研究和開發(fā)的團隊非常重要。
解釋必要性
研究團隊提出了一個新的分類系統(tǒng),用于指導醫(yī)療人工智能應用中所需解釋的級別。這個系統(tǒng)包括四個不同的解釋必要性類別:患者或樣本(局部)級別、隊列或數(shù)據(jù)集(全局)級別,或兩者都需要。文章還介紹了一個數(shù)學公式,用于區(qū)分這些類別,并為研究人員提供了一個實用框架,以確定醫(yī)療AI應用中所需解釋的必要性和深度??紤]到的三個關(guān)鍵因素是:評估協(xié)議的穩(wěn)健性、專家觀察的變異性和應用的表示維度。
解釋性人工智能(XAI)在醫(yī)療實踐中的使用至關(guān)重要,因為它在疾病診斷和患者護理中發(fā)揮著重要作用。XAI在建立算法信任、理解風險、識別治療目標、洞察疾病進展、治療反應、支持決策制定以及實現(xiàn)閉環(huán)控制方面起著關(guān)鍵作用。因此,一個健全的AI框架解釋可以有助于設計安全參數(shù),以供監(jiān)管機構(gòu)考慮潛在治療方法。
盡管許多研究提出了增強AI系統(tǒng)可解釋性的方法,但關(guān)于何時以及在何種程度上需要解釋性的具體指導仍然存在空白。特別是文獻中缺乏實用的指導,以區(qū)分解釋必要性是針對個別患者或樣本的預測(局部級別),還是需要解碼整個模型以預測整個隊列或數(shù)據(jù)集(全局級別)。
論文還討論XAI的兩種方法論途徑:事后和透明。事后方法在預測后與AI技術(shù)一起使用,以解釋(否則不可解釋或“黑箱”)AI預測,并揭示復雜數(shù)據(jù)集中的非線性映射。透明方法則關(guān)注具有模擬性、可分解性和透明性(“白盒”)等固有屬性的AI模型。
盡管AI模型如深度學習網(wǎng)絡通常能夠?qū)崿F(xiàn)高精度和高效率,但XAI面臨的“維度詛咒”挑戰(zhàn)強調(diào)了簡化模型和變量選擇技術(shù)的必要性,即使這可能犧牲了精度和效率。盡管存在權(quán)衡,XAI可以促進對算法的信任,幫助理解風險和副作用,幫助識別治療目標,提供對疾病進展及其對治療的反應的洞察,支持決策制定,實現(xiàn)閉環(huán)控制,并有助于為受監(jiān)管的治療方法設計安全參數(shù)。
論文強調(diào)AI研究社區(qū)需要一個框架,概述何時以及如何使用局部和全局解釋性技術(shù)。這將指明XAI在醫(yī)學和其他領域的適當應用,確保AI工具不僅提供準確的結(jié)果,而且也是透明和值得信賴的。
分類系統(tǒng)
研究團隊提出了一個分類系統(tǒng),用于確定解釋的需求,并指示何時使用局部和全局解釋。這個分類基于評估協(xié)議的穩(wěn)健性、專家意見的變異程度以及特定任務的表示維度。這些類別包括:
1.自解釋應用:適用于不需要解釋AI內(nèi)部機制的任務,因為專家意見的變異性非常低,評估協(xié)議非常穩(wěn)健,AI應用的表示維度較低,并且可以直接理解AI的預測。在這些情況下不需要解釋。
2.半解釋應用:具有穩(wěn)健的評估協(xié)議,專家意見變異性較低,AI應用的表示維度為低到中等。這類別要求在AI學習過程中提供解釋,以確保有效的訓練。需要局部解釋。
3.不可解釋的AI應用:特點是缺乏穩(wěn)健的評估協(xié)議,專家意見變異性較高,AI應用的表示維度為中到高。在這些情況下,需要局部和全局解釋。
4.新模式發(fā)現(xiàn)的AI應用:特點是缺乏穩(wěn)健的評估協(xié)議,專家意見變異性顯著,AI應用的表示維度較高,并且對AI預測背后的機制和功能存在重大差距。在這些情況下,需要局部和全局解釋,以及進一步的評估來驗證通過這些解釋捕獲的新模式。
對于分類解釋必要性的參數(shù),他們使用了三個關(guān)鍵參數(shù):
- 專家觀察的變異性(具有相同經(jīng)驗水平的觀察者的觀察變異性)。
- 評估協(xié)議的穩(wěn)健性(具有不同經(jīng)驗水平的觀察者的觀察變異性)。
- AI應用的表示維度。
在評估專家觀察的變異性時,他們采用了《報告可靠性和一致性研究的指南》(GRRAS)的術(shù)語。我們主要關(guān)注“一致性”,它表示分數(shù)或觀察結(jié)果的相似程度,以及“觀察者間(或觀察者間)一致性”,它表示在相似評估條件下,兩個或多個觀察者是否達到相同的結(jié)果。在醫(yī)學應用中,觀察者間變異性(具有相同經(jīng)驗水平的觀察者)的κ值在0.00到0.20之間被分類為“輕微”,而在0.21到0.40之間被視為“一般”。一般來說,0.60、0.70或0.80的值是可靠性系數(shù)標簽的最低標準,但對于關(guān)鍵個體決策,建議使用更高的值,如0.90或0.95。
圖1專家觀察的可變性和評估協(xié)議對解釋必要性和閾值區(qū)域分類的穩(wěn)健性。
第二個關(guān)鍵參數(shù)是評估協(xié)議的穩(wěn)健性。他們建議測量不同經(jīng)驗水平的觀察者之間的變異性(經(jīng)驗不足、經(jīng)驗豐富、專家)。穩(wěn)健的評估協(xié)議定義為響應的變異性較低,表明存在清晰、明確定義的可解釋協(xié)議,可以適應不同的經(jīng)驗水平。
解釋的框架
研究團隊提出了一個解釋的框架,基于三個關(guān)鍵參數(shù):專家觀察的變異性、評估協(xié)議的穩(wěn)健性和AI應用的表示維度。這個框架將AI應用分為四個不同的類別。
1.自解釋應用:這些應用涵蓋了協(xié)議已經(jīng)建立(觀察者具有不同經(jīng)驗水平)且專家變異性較低(觀察者具有相同經(jīng)驗水平)的任務。在這些應用中,不需要解釋AI網(wǎng)絡的隱藏參數(shù)。因此這類應用在文獻中被稱為“白盒應用”。
2.半解釋應用:這些應用也有穩(wěn)健的評估協(xié)議(觀察者具有不同經(jīng)驗水平),但專家變異性在低到中等之間(觀察者具有相同經(jīng)驗水平)。在這些應用中,需要部分解釋以確認AI的訓練過程的準確性。需要局部解釋。
3.不可解釋的AI應用:這些應用的評估協(xié)議沒有建立(觀察者具有不同經(jīng)驗水平),而專家變異性在中到高之間(觀察者具有相同經(jīng)驗水平)。在這些應用中,需要局部和全局解釋。
4.新模式發(fā)現(xiàn)的AI應用:這些應用的評估協(xié)議非常不穩(wěn)定(觀察者具有不同經(jīng)驗水平),而專家變異性很高(觀察者具有相同經(jīng)驗水平)。在這些應用中,需要局部和全局解釋,以及進一步的評估來驗證通過這些解釋捕獲的新模式。
此外他們還指出,在涉及高風險和關(guān)鍵個體決策的研究中,需要根據(jù)實際情況調(diào)整閾值。在這些理想情況下,“觀察者間一致性”值應該超過標準閾值0.70、0.80,甚至0.95,作為可靠性系數(shù)的最低標準。這有助于在決策過程中保持更高的可靠性和穩(wěn)健性,從而維護安全性并減少潛在風險。
解釋必要性的評估需要考慮專家觀察的變異性、評估協(xié)議的穩(wěn)健性和AI應用的表示維度。這些因素共同決定了解釋的需求級別,從而確保AI系統(tǒng)既準確又可靠。
在醫(yī)療應用中,解釋性對于人工智能(AI)的可接受實施通常至關(guān)重要。特別是在醫(yī)療領域,決策直接影響患者,并且對AI系統(tǒng)的信任至關(guān)重要。這種信任通常建立在AI提供的解釋和解讀上。盡管AI可解釋性取得了顯著進展,但在醫(yī)學背景下,什么時候以及在何種程度上需要解釋仍然需要明確的指導。他們提出了一個新穎的解釋必要性分類系統(tǒng),指導所需解釋的級別:患者或樣本(局部)級別、隊列或數(shù)據(jù)集(全局)級別,或兩者兼而有之。
這個分類系統(tǒng)考慮了三個關(guān)鍵因素:
1.評估協(xié)議的穩(wěn)健性:這是指評估AI模型性能的協(xié)議是否可靠。如果協(xié)議穩(wěn)健,那么解釋的需求可能較低。
2.專家觀察的變異性:不同專家對AI輸出的觀察是否存在較大的變異。如果變異性較低,那么解釋的需求可能較低。
3.應用的表示維度:這是指AI應用的輸入和輸出之間的相關(guān)性。如果相關(guān)性不足,解釋的需求可能較高。
圖2:人工智能應用的代表性維度和解釋的必要性。
具體而言,他們將AI應用的解釋需求分為以下幾類:
白盒應用:這些應用具有清晰的評估協(xié)議和強烈的輸入-輸出相關(guān)性,因此不需要解釋模型的隱藏參數(shù)。這類應用被稱為“白盒應用”。
灰盒應用:這些應用具有一定的評估協(xié)議,但專家觀察的變異性較大,且AI應用的表示維度適中。因此,需要對特定樣本進行局部解釋。這類應用被稱為“灰盒應用”。
黑盒應用:這些應用沒有明確的評估協(xié)議,專家觀察的變異性較高,且AI應用的表示維度較高。因此,需要使用整個數(shù)據(jù)集進行全局解釋。這類應用被稱為“黑盒應用”。
新模式發(fā)現(xiàn)應用:這些應用通過將全局解釋與基于超級數(shù)據(jù)集的統(tǒng)計模型對齊,計算初始AI任務的潛在顯著標記。這類應用用于非明確的評估協(xié)議、高專家觀察變異性和高表示維度的情況。
研究團隊提出的數(shù)學框架可以幫助研究人員確定醫(yī)學AI應用中解釋的必要性和深度。
圖3:深度學習應用程序可解釋性需求的數(shù)學公式
應用案例
自解釋型應用:某些醫(yī)學應用不需要深入理解AI內(nèi)部機制,因為評估協(xié)議變異性低(0.00-0.10)且專家觀察之間變異性?。?.00-0.05)。例如,從腹部計算機斷層掃描(CT)中分割人體器官和同一患者的多模態(tài)圖像配準 。
半解釋型應用:某些應用需要更大的評估協(xié)議變異性,需要局部解釋以確保適當?shù)挠柧殹@缇哂幸呀⒓膊≡u估協(xié)議的分類任務。隨著人口老齡化,神經(jīng)退行性疾病的早期診斷變得越來越重要。阿爾茨海默病是一種常見的神經(jīng)退行性疾病,對患者的生活質(zhì)量和家庭造成嚴重影響。利用腦部MRI掃描圖像進行阿爾茨海默病的分類診斷。MRI掃描可以顯示腦部結(jié)構(gòu)和異常變化,例如腦萎縮等。解釋需求:由于阿爾茨海默病的早期癥狀不明顯,需要對AI模型的決策過程進行局部解釋,以驗證特定患者的診斷結(jié)果的準確性。
非解釋型應用:卵巢癌的早期診斷,即使使用多模態(tài)成像(MRI、超聲和計算機斷層掃描),也難以在早期階段檢測。卵巢癌是女性中常見的惡性腫瘤之一,但早期診斷非常困難。利用多模態(tài)醫(yī)學圖像(例如MRI、CT、超聲等)進行卵巢癌的早期診斷。由于卵巢癌的癥狀不明顯,需要利用多模態(tài)圖像來提高診斷準確性。解釋需求:由于評估協(xié)議不穩(wěn)定,專家意見變異性很高,需要對AI模型的決策過程進行全局解釋,以驗證新的診斷模式。
新模式發(fā)現(xiàn)應用:神經(jīng)退行性疾病的早期診斷,這些疾病在經(jīng)驗豐富的專業(yè)人員中仍存在知識空白。早期階段的神經(jīng)退行性疾?。ㄈ绨柎暮D。┑脑\斷對患者的治療和管理至關(guān)重要。利用多模態(tài)醫(yī)學圖像(例如MRI、PET等)進行早期階段的神經(jīng)退行性疾病的診斷。這類應用需要對全局和局部的決策進行解釋,以驗證新的診斷模式。解釋需求:評估協(xié)議不穩(wěn)定,專家意見變異性很高,需要對局部和全局的決策進行解釋,以驗證新的診斷模式。
框架應用領域
在他們提出的框架中,任何人都可以確定應用程序的解釋必要性。在醫(yī)學成像應用中,一些應用程序由于評估協(xié)議的變異性低(0.00-0.10),專家觀察的變異性低(0.00-0.05),應用的二維表示,以及AI預測的直接性,因此對AI內(nèi)部機制的理解需求最小。例如,從腹部計算機斷層掃描(CT)中的人體器官分割和同一人的多模態(tài)圖像注冊。這些類型的應用程序可能會從XAI方法中受益,以優(yōu)化目的而不是增強信任。因此可以可靠地評估AI模型的性能,而無需額外的解釋。
其他應用程序涉及更大的評估協(xié)議變異性,需要局部解釋以確保適當?shù)挠柧?,例如具有既定疾病評估協(xié)議(0.05-0.15)和二維表示的分類任務。隨著全球人口老齡化,神經(jīng)退行性疾病可能會越來越普遍。基于MRI掃描的大腦的二元AI分類,用于診斷阿爾茨海默病或健康老化,是一項低專家間觀察變異性(0.05-0.15)的任務,因為當存在時,腦萎縮清晰可見,并且不需要多模態(tài)數(shù)據(jù)集即可高性能(低表示維度)。根據(jù)提出的框架,這種應用程序是自解釋的或半解釋的。檢測診斷前多年的早期階段要困難得多。
即使在經(jīng)驗豐富的專業(yè)人士中,知識差距也可能持續(xù)存在,AI有潛力提供見解并穩(wěn)定協(xié)議的有效性和關(guān)鍵方面(0.25-0.40)。這對于尚未牢固建立疾病評估協(xié)議的分類任務(新模式發(fā)現(xiàn))尤其如此。卵巢癌是女性中最常見的癌癥之一,預后不確定(0.20-0.40),即使使用多模態(tài)成像(MRI、超聲和計算機斷層掃描)也難以在早期階段檢測到。這種AI應用被歸類為不可解釋的,甚至是新模式發(fā)現(xiàn)的應用。
膿毒癥是感染引起的危及生命的急性免疫反應,會導致器官損傷。在治療有效的早期階段進行診斷是復雜的。在醫(yī)療保健獲取有限的地方,預后特別差。除了臨床和實驗室評估外,胸部X光片和全身計算機斷層掃描在診斷和疾病管理中有幫助。因此,在這個醫(yī)學主題的大多數(shù)AI應用中,專家間的觀察變異性很高(0.25-0.40),評估協(xié)議的穩(wěn)健性低(0.30-0.40),應用的表示維度需要是多模態(tài)的。這些應用程序是新模式發(fā)現(xiàn)的應用程序。
圖4:解釋必要性的建議框架。該框架由兩個主要流程組成:一個用于評估觀察者之間的可變性,另一個用于表示維度。最初,用戶計算具有“相同經(jīng)驗水平”和“不同經(jīng)驗水平”的觀察者的觀察者間變異性的平均值。然后應用閾值(圖1)來識別表1中的兩個“初始解釋必要性分類”。以及表2。如果這些類別不同(“不同”),裁決專家會確定最適合該案件的類別。第二個流程側(cè)重于應用程序的表示維度,如圖2所示。最后對結(jié)果進行“類別決定”陳述。如果它們一致(“我”),則確定最終的XAI需求類別(“解釋必要性級別”)。否則裁決專家會為申請確定最合適的類別。
他們提出的框架可以應用于自然或汽車等各種計算機視覺領域。為了概括,我們提供了這些領域應用的例子。然而在每個領域中,準確確定協(xié)議和閾值是必要的。在自然計算機視覺應用中,如圖像中的動物分類和氣候回歸,通常需要局部解釋(半解釋)。這種需求是因為專家知識的變異性最小(0.05-0.10),評估協(xié)議的穩(wěn)健性是直接的,應用的維度表示通常是二維的。相比之下,汽車計算機視覺通常不需要解釋。這是因為這些任務相對簡單,具有清晰的評估指標,最少的專家參與,以及主要是二到三維表示的應用(自解釋)。
展望
解釋性連同準確性和一致性,是AI系統(tǒng)獲得科學家和醫(yī)療專業(yè)人員信任的重要方面,即使他們并不完全理解算法是如何工作的。雖然XAI的使用通常很重要,但在臨床環(huán)境中它變得至關(guān)重要,因為依賴AI驅(qū)動工具做出的決策可能直接影響患者的健康。雖然許多研究專注于增強AI系統(tǒng)的可解釋性,我們強調(diào)缺乏用戶指導的建議,即何時使用解釋性技術(shù)以及在何種程度上(全局、局部或兩者)。
在這個角度,他們通過將AI解釋的必要性分為四個不同的組別來解決文獻中的這一重要差距:自解釋應用、半解釋應用、不可解釋應用和新模式發(fā)現(xiàn)。這些分類是根據(jù)專家觀察的變異性、評估協(xié)議的穩(wěn)定性和應用的表示維度來確定的。
通過訪問不同經(jīng)驗水平的專家觀察的平均變異性,并將其與同一水平的專家觀察的平均變異性進行比較,他們可以建立一個初始分類。如果臨床應用被識別為高風險,調(diào)整提出的閾值以與應用的風險水平一致變得至關(guān)重要。例如,與最初提出的不到0.60的不接受率相比,應用可能需要更高的閾值,如0.80、0.90甚至0.95。
他們還考慮了AI應用的維度表示,根據(jù)他們的建議修訂解釋必要性類別。與提出的框架一致,他們提出了這些類別的數(shù)學表述,以涵蓋廣泛的解釋要求。這種數(shù)學表述和建議的框架可以用來提供AI應用所需的基本解釋。
他們已經(jīng)開發(fā)一個全面的框架,研究人員可以輕松地為他們的AI應用定制。他們的框架有助于確定他們特定醫(yī)療應用的最合適的解釋必要性。這使他們能夠提供必要的解釋,支持提供透明、安全和可信賴的AI框架,同時也加強了受監(jiān)管治療的安全參數(shù)。
我們再回頭看OpenAI公司,奧特曼最近解散了公司整個所謂的“超級協(xié)調(diào)”團隊,該團隊致力于尋找“引導和控制比我們更聰明的人工智能系統(tǒng)”的方法——只是為了任命自己為替代“安全委員會”的領導人。盡管不知道公司的核心產(chǎn)品實際上是如何運作的,但奧特曼最大的經(jīng)濟利益還是向投資者保證公司致力于安全保障。這是一件令人擔心的大事。
參考資料:
1.https://futurism.com/sam-altman-admits-openai-understand-ai
2. https://arxiv.org/abs/2406.00216
本文轉(zhuǎn)載自??大噬元獸???,作者: FlerkenS ??大噬元獸??
