Hinton的預(yù)言要實(shí)現(xiàn)了!美加頂尖大學(xué)Nature發(fā)文:全科醫(yī)學(xué)人工智能GMAI不止要取代「放射科醫(yī)生」
圖靈獎(jiǎng)得主、深度學(xué)習(xí)先驅(qū)Hinton曾預(yù)言到,「人們現(xiàn)在應(yīng)該停止培訓(xùn)放射科醫(yī)生。很明顯,在五年內(nèi),深度學(xué)習(xí)會(huì)比放射科醫(yī)生做得更好。這可能需要10年的時(shí)間,但我們已經(jīng)有了足夠多的放射科醫(yī)生?!?/span>
我認(rèn)為,如果你是一名放射科醫(yī)生,你就像一只已經(jīng)走到懸崖邊緣、但還沒(méi)有往下看的野狼。
近七年過(guò)去了,人工智能技術(shù)僅僅參與并替代了部分放射員的技術(shù)工作,并且存在功能單一、訓(xùn)練數(shù)據(jù)不足等問(wèn)題,讓放射科醫(yī)生的飯碗依然握得很牢。
但ChatGPT類的基礎(chǔ)模型發(fā)布后,人工智能模型的能力得到了前所未有的提升,可以處理多模態(tài)數(shù)據(jù)、無(wú)需微調(diào)即可適應(yīng)新任務(wù)的in-context學(xué)習(xí)能力,高度靈活、可重復(fù)使用的人工智能模型的迅速發(fā)展或許會(huì)在醫(yī)學(xué)領(lǐng)域引入新的能力。
最近,來(lái)自多所美國(guó)哈佛大學(xué)、斯坦福大學(xué)、耶魯醫(yī)學(xué)院、加拿大多倫多大學(xué)等多所頂尖高校、醫(yī)療機(jī)構(gòu)的研究人員在Nature上聯(lián)合提出了一種全新的醫(yī)學(xué)人工智能范式,即「全科醫(yī)學(xué)人工智能」(generalist medical artificial intelligence, GMAI)。
論文鏈接:?https://www.nature.com/articles/s41586-023-05881-4?
GMAI 模型將能夠使用很少或不使用任務(wù)特定的標(biāo)記數(shù)據(jù)執(zhí)行各種各樣的任務(wù)。通過(guò)對(duì)大型、多樣化數(shù)據(jù)集的自監(jiān)督訓(xùn)練,GMAI可以靈活地解釋醫(yī)學(xué)模式的不同組合,包括來(lái)自成像、電子健康記錄、實(shí)驗(yàn)室結(jié)果、基因組學(xué)、圖表或醫(yī)學(xué)文本的數(shù)據(jù)。
反過(guò)來(lái),模型還可以生成具有表達(dá)能力的輸出,如自由文本解釋、口頭推薦或圖像注釋,展現(xiàn)先進(jìn)的醫(yī)學(xué)推理能力。
研究人員在文中為 GMAI 確定了一組具有高影響力的潛在應(yīng)用場(chǎng)景,并列出了具體的技術(shù)能力和訓(xùn)練數(shù)據(jù)集。
作者團(tuán)隊(duì)預(yù)計(jì),GMAI 應(yīng)用程序?qū)?huì)挑戰(zhàn)目前的驗(yàn)證醫(yī)學(xué)AI設(shè)備,并改變與大型醫(yī)學(xué)數(shù)據(jù)集收集相關(guān)的做法。
醫(yī)療AI通用模型的潛力
GMAI模型有望比目前的醫(yī)學(xué)人工智能模型解決更多樣化和更具挑戰(zhàn)性的任務(wù),甚至對(duì)具體的任務(wù)幾乎沒(méi)有標(biāo)簽要求。
在GMAI的三個(gè)定義能力中,「能執(zhí)行動(dòng)態(tài)指定的任務(wù)」和「能支持?jǐn)?shù)據(jù)模式的靈活組合」可以讓GMAI模型和用戶之間進(jìn)行靈活的互動(dòng);第三種能力要求GMAI模型形式化表示醫(yī)學(xué)領(lǐng)域的知識(shí),并能夠進(jìn)行高級(jí)醫(yī)學(xué)推理。
最近發(fā)布的一些基礎(chǔ)模型已經(jīng)表現(xiàn)出了部分GMAI的能力,通過(guò)靈活地結(jié)合多模態(tài),可以在測(cè)試階段動(dòng)態(tài)地指定一個(gè)新的任務(wù),但要建立一個(gè)具有上述三種能力的GMAI模型仍需要進(jìn)一步的發(fā)展,例如現(xiàn)有的醫(yī)學(xué)推理模型(如GPT-3或PaLM)并不是多模態(tài)的,也無(wú)法生成可靠的事實(shí)性陳述。
靈活的交互 Flexible interactions
GMAI為用戶提供了通過(guò)自定義查詢與模型互動(dòng)的能力,使不同的受眾更容易理解人工智能的見(jiàn)解,并為不同的任務(wù)和設(shè)置提供更大的靈活性。
目前人工智能模型只能處理非常局限的一組任務(wù),并生成一套僵化的、預(yù)先確定好的輸出,比如說(shuō)模型可以檢測(cè)一種特定的疾病,接受某種圖像,輸出結(jié)果為患這種疾病的可能性。
相比之下,自定義查詢可以輸入用戶拍腦袋想出來(lái)問(wèn)題,比如「解釋一下這個(gè)頭部MRI掃描中出現(xiàn)的腫塊,它更可能是腫瘤還是膿腫?」。
此外,查詢可以讓用戶定制其輸出的格式,比如「這是一個(gè)膠質(zhì)母細(xì)胞瘤患者的后續(xù)MRI掃描,用紅色標(biāo)出可能是腫瘤的部分?!?/span>
自定義查詢可以實(shí)現(xiàn)兩個(gè)關(guān)鍵能力,即「動(dòng)態(tài)任務(wù)」和「多模態(tài)輸入輸出」。
自定義查詢可以教導(dǎo)人工智能模型在運(yùn)行中解決新的問(wèn)題,動(dòng)態(tài)地指定新的任務(wù),而無(wú)需對(duì)模型重新訓(xùn)練。
例如,GMAI可以回答高度具體的、以前未見(jiàn)過(guò)的問(wèn)題,比如「根據(jù)這個(gè)超聲波結(jié)果,膽囊壁的厚度是多少毫米?」。
GMAI模型可能難以完成涉及未知概念或病理的新任務(wù),而上下文學(xué)習(xí)(in-context learning)可以讓用戶用很少的幾個(gè)例子來(lái)教GMAI學(xué)習(xí)新概念,比如「這里有10個(gè)以前患有一種新出現(xiàn)的疾病的病人的病史,即感染了Langya henipavirus,現(xiàn)在的這個(gè)病人也感染Langya henipavirus的可能性有多大?」。
自定義查詢還可以接受包含多模態(tài)的復(fù)雜醫(yī)療信息,比如臨床醫(yī)生在詢問(wèn)診斷時(shí),可能會(huì)在查詢中輸入報(bào)告、波形信號(hào)、實(shí)驗(yàn)室結(jié)果、基因組圖譜和成像研究等;GMAI模型還可以靈活地將不同的模式納入回答中,例如用戶可能要求提供文本答案和附帶的可視化信息。
醫(yī)學(xué)領(lǐng)域知識(shí)
與臨床醫(yī)生形成鮮明對(duì)比的是,傳統(tǒng)的醫(yī)學(xué)人工智能模型在為其特定任務(wù)進(jìn)行訓(xùn)練之前,通常缺乏對(duì)醫(yī)學(xué)領(lǐng)域背景的了解(如病理生理過(guò)程等),只能完全依賴輸入數(shù)據(jù)的特征和預(yù)測(cè)目標(biāo)之間的統(tǒng)計(jì)關(guān)聯(lián)。
缺乏背景信息會(huì)導(dǎo)致很難訓(xùn)練一個(gè)特定醫(yī)療任務(wù)的模型,特別是當(dāng)任務(wù)數(shù)據(jù)稀缺時(shí)。
GMAI模型可以通過(guò)形式化表示醫(yī)學(xué)知識(shí)來(lái)解決這些缺陷,例如知識(shí)圖譜等結(jié)構(gòu)可以讓模型對(duì)醫(yī)學(xué)概念和它們之間的關(guān)系進(jìn)行推理;此外,在基于檢索的方法的基礎(chǔ)上,GMAI可以從現(xiàn)有的數(shù)據(jù)庫(kù)中檢索相關(guān)的背景,其形式包括文章、圖像或之前的案例。
由此得到的模型可以提出一些警告,比如「這個(gè)病人可能會(huì)發(fā)展成急性呼吸窘迫綜合征,因?yàn)檫@個(gè)病人最近因嚴(yán)重的胸腔創(chuàng)傷入院,而且盡管吸入的氧氣量增加了,但病人動(dòng)脈血中的氧分壓卻持續(xù)下降?!?/span>
由于GMAI模型甚至可能被要求提供治療建議,盡管大部分是在觀察數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練,該模型推斷和利用醫(yī)學(xué)概念和臨床發(fā)現(xiàn)之間的因果關(guān)系的能力將對(duì)臨床適用性起到關(guān)鍵作用。
最后,通過(guò)獲取豐富的分子和臨床知識(shí),GMAI模型可以通過(guò)借鑒相關(guān)問(wèn)題的知識(shí)來(lái)解決數(shù)據(jù)有限的任務(wù)。
機(jī)遇
GMAI有潛力通過(guò)改善護(hù)理和減少臨床醫(yī)生的工作量來(lái)影響實(shí)際的醫(yī)療過(guò)程。
可控性(Controllability)
GMAI可以讓用戶精細(xì)地控制其輸出的格式,使復(fù)雜的醫(yī)療信息更容易獲得和理解,所以需要某種GMAI模型根據(jù)受眾需求對(duì)模型輸出進(jìn)行重新復(fù)述。
由GMAI提供的可視化結(jié)果也需要精心定制,比如通過(guò)改變視角或用文字標(biāo)注重要特征等,模型還可以潛在地調(diào)整其輸出中特定領(lǐng)域的細(xì)節(jié)水平,或?qū)⑵浞g成多種語(yǔ)言,與不同的用戶進(jìn)行有效溝通。
最后,GMAI的靈活性使其能夠適應(yīng)特定的地區(qū)或醫(yī)院,遵循當(dāng)?shù)氐牧?xí)俗和政策,用戶可能需要關(guān)于如何查詢GMAI模型,以及有效利用其輸出的正式指導(dǎo)。
適應(yīng)性(Adaptability)
現(xiàn)有的醫(yī)療人工智能模型難以應(yīng)對(duì)分布的轉(zhuǎn)變,但由于技術(shù)、程序、環(huán)境或人口的不斷變化,數(shù)據(jù)的分布可能會(huì)發(fā)生巨大變化。
GMAI可以通過(guò)上下文學(xué)習(xí)(in-context learning)跟上轉(zhuǎn)變的步伐,例如醫(yī)院可以教GMAI模型解釋來(lái)自全新掃描儀的X射線,只需輸入提示和幾個(gè)樣例即可。
也就是說(shuō),GMAI可以即時(shí)適應(yīng)新的數(shù)據(jù)分布,而傳統(tǒng)的醫(yī)療人工智能模型則需要在全新的數(shù)據(jù)集上重新訓(xùn)練;不過(guò)目前只有在大型語(yǔ)言模型中觀察到了上下文學(xué)習(xí)(in-context learning)的能力。
為了確保GMAI能夠適應(yīng)上下文的變化,GMAI模型需要在來(lái)自多個(gè)互補(bǔ)數(shù)據(jù)源以及多樣化的數(shù)據(jù)上進(jìn)行訓(xùn)練。
比如為了適應(yīng)2019年冠狀疾病的新變種,一個(gè)成功的模型可以檢索過(guò)去變種的特征,并在面對(duì)查詢中的新上下文時(shí)更新這些特征,一個(gè)臨床醫(yī)生可能直接輸入「檢查這些胸部X射線,看看是否有奧密克戎」。
模型可以對(duì)比德?tīng)査凅w,考慮將支氣管和血管周圍的浸潤(rùn)作為關(guān)鍵信號(hào)。
盡管用戶可以通過(guò)提示詞手動(dòng)調(diào)整模型行為,但新技術(shù)也可以發(fā)揮自動(dòng)納入人類反饋的作用。
用戶可以對(duì)GMAI模型的每個(gè)輸出進(jìn)行評(píng)價(jià)或評(píng)論,就像ChatGPT使用的強(qiáng)化學(xué)習(xí)反饋技術(shù),可以借此改變GMAI模型的行為。
適用性(Applicability)
大規(guī)模的人工智能模型已經(jīng)成為眾多下游應(yīng)用的基礎(chǔ),例如GPT-3在發(fā)布后的幾個(gè)月內(nèi)就已經(jīng)為不同行業(yè)的300多個(gè)應(yīng)用程序提供了技術(shù)支持。
醫(yī)學(xué)基礎(chǔ)模型中,CheXzero可用于檢測(cè)胸部X光片中的幾十種疾病,并且不需要在這些疾病的顯式標(biāo)簽上進(jìn)行訓(xùn)練。
向GMAI的范式轉(zhuǎn)變將推動(dòng)具有廣泛能力的大規(guī)模醫(yī)療AI模型的開(kāi)發(fā)和發(fā)布,可以作為各種下游臨床應(yīng)用的基礎(chǔ):既可以直接使用GMAI的輸出,也可以將GMAI的結(jié)果作為中間表示,后續(xù)再接入一個(gè)小型的領(lǐng)域內(nèi)模型。
需要注意的是,這種靈活的適用性也是一把雙刃劍,所有存在于基礎(chǔ)模型中的故障都會(huì)在下游應(yīng)用中繼續(xù)傳播。
挑戰(zhàn)
雖然GMAI模型有諸多優(yōu)勢(shì),但相比其他領(lǐng)域,醫(yī)學(xué)領(lǐng)域的安全風(fēng)險(xiǎn)特別高,所以還需要應(yīng)對(duì)確保安全部署的難題。
有效性/確認(rèn)(Validation)
GMAI模型由于其前所未有的多功能性,所以想要進(jìn)行能力驗(yàn)證也十分困難。
目前的人工智能模型都是針對(duì)特定任務(wù)而設(shè)計(jì)的,所以只需要在那些預(yù)定義的用例中進(jìn)行驗(yàn)證即可,比如從大腦核磁共振成像中診斷出特定類型的癌癥。
但GMAI模型還可以執(zhí)行終端用戶首次提出的先前未見(jiàn)過(guò)的任務(wù)(例如在腦部MRI中診斷其他疾?。?,如何預(yù)測(cè)所有的故障模式是一個(gè)更難的問(wèn)題。
開(kāi)發(fā)者和監(jiān)管機(jī)構(gòu)需要負(fù)責(zé)解釋GMAI模型是如何被測(cè)試的,以及它們被批準(zhǔn)用于哪些用例;GMAI界面本身的設(shè)計(jì)應(yīng)該在進(jìn)入未知領(lǐng)域時(shí)提出「標(biāo)簽外使用」的警告,而不能自信地編造不準(zhǔn)確的信息。
更廣泛地說(shuō),GMAI獨(dú)特的廣泛能力要求監(jiān)管部門(mén)有遠(yuǎn)見(jiàn),要求機(jī)構(gòu)和政府政策適應(yīng)新的范式,還將重塑保險(xiǎn)安排和責(zé)任分配。
驗(yàn)證(Verification)
與傳統(tǒng)的人工智能模型相比,GMAI模型可以處理異常復(fù)雜的輸入和輸出,使臨床醫(yī)生更難確定其正確性。
例如傳統(tǒng)模型在對(duì)病人的癌癥進(jìn)行分類時(shí),可能只考慮一項(xiàng)成像研究結(jié)果,只需要一名放射科醫(yī)生或病理學(xué)家就可以驗(yàn)證該模型的輸出是否正確。
而GMAI模型可能會(huì)考慮兩種輸入,并可能輸出初始分類、治療建議和涉及可視化、統(tǒng)計(jì)分析和文獻(xiàn)參考的多模式論證。
在這種情況下,可能需要一個(gè)多學(xué)科小組(由放射科醫(yī)生、病理科醫(yī)生、腫瘤科醫(yī)生和其他專家組成)來(lái)判斷GMAI的輸出是否正確。
因此,無(wú)論是在驗(yàn)證期間還是在模型部署之后,對(duì)GMAI輸出的事實(shí)核查都是一個(gè)嚴(yán)峻的挑戰(zhàn)。
創(chuàng)建者可以通過(guò)納入可解釋技術(shù)使GMAI輸出更容易驗(yàn)證,例如,讓GMAI的輸出包括可點(diǎn)擊的文獻(xiàn)及具體的證據(jù)段落,使臨床醫(yī)生能夠更有效地驗(yàn)證GMAI的預(yù)測(cè)。
最后,至關(guān)重要的是,GMAI模型應(yīng)準(zhǔn)確表達(dá)不確定性,防止用過(guò)度自信的陳述來(lái)誤導(dǎo)用戶。
社會(huì)偏見(jiàn)(Social bias)
醫(yī)學(xué)人工智能模型可能會(huì)延續(xù)社會(huì)的偏見(jiàn),并對(duì)邊緣化人群造成傷害。
在開(kāi)發(fā)GMAI時(shí),這些風(fēng)險(xiǎn)可能會(huì)更加明顯,海量數(shù)據(jù)的需求和復(fù)雜性會(huì)使模型難以確保沒(méi)有不良的偏見(jiàn)。
GMAI模型必須得到徹底驗(yàn)證,以確保它們?cè)谔囟ㄈ巳海ㄈ缟贁?shù)群體)中的表現(xiàn)不會(huì)不佳。
即使在部署后,模型也需要進(jìn)行持續(xù)的審計(jì)和監(jiān)管,因?yàn)殡S著模型遇到新的任務(wù)和環(huán)境,可能會(huì)出現(xiàn)新的問(wèn)題,迅速識(shí)別和修復(fù)偏見(jiàn)必須是開(kāi)發(fā)者、供應(yīng)商和監(jiān)管者的首要任務(wù)。
隱私(Privacy)
GMAI模型的開(kāi)發(fā)和使用對(duì)患者隱私構(gòu)成了嚴(yán)重風(fēng)險(xiǎn),可能會(huì)接觸到豐富的病人特征,包括臨床測(cè)量和信號(hào)、分子特征和人口統(tǒng)計(jì)信息以及行為和感官追蹤數(shù)據(jù)。
此外,GMAI模型可能會(huì)使用更大的架構(gòu),更容易記憶訓(xùn)練數(shù)據(jù)并直接重復(fù)給用戶,可能會(huì)暴露訓(xùn)練數(shù)據(jù)集中的敏感病人數(shù)據(jù)。
可以通過(guò)去身份化和限制對(duì)個(gè)別病人的信息收集量,減少暴露數(shù)據(jù)造成的損害。
隱私問(wèn)題也并不限于訓(xùn)練數(shù)據(jù),部署的GMAI模型也可能暴露當(dāng)前病人的數(shù)據(jù),例如提示性可以欺騙GPT-3等模型,使其忽略之前的指令;惡意用戶可以強(qiáng)迫模型忽略「不暴露信息」的指令以提取敏感數(shù)據(jù)。