想和醫(yī)生“搶生意”?人工智能須攻破這三大難關
十多年過去,深度學習給了人工智能發(fā)展的契機,再加上并行計算(parallel computing)的快速處理能力,以及海量數(shù)據(jù)的訓練,人工智能在很多場景中得以應用,包括語音、圖像識別、人臉識別,以及語言翻譯和自動駕駛等。
但是,醫(yī)學領域和上述場景不同,后者已經(jīng)擁有大量的經(jīng)過標記的數(shù)據(jù),而前者則沒有。醫(yī)學博士亞伯拉罕·韋爾蓋斯(Abraham Verghese)表示,要想突破這一難關,人類必須開發(fā)出更多人工智能的潛力。開發(fā)的關鍵,在于如何讓機器脫離對標注數(shù)據(jù)的依賴,擁有人類大腦的學習能力,將一個領域的知識應用于另一個領域。
此外,人工智能雖然頗具爭議,但其能夠帶來的優(yōu)勢也十分喜人。醫(yī)學博士埃里克·J.托波爾(Eric J. Topol)認為,這些優(yōu)勢很快會給醫(yī)院帶來許多改變。
人工智能未來將面臨的挑戰(zhàn)
獲得人類的學習方式
未來,人工智能將面臨許多挑戰(zhàn),其中最主要、最關鍵的是如何獲得人類的學習方式。
人工智能目前的學習方式是“監(jiān)督式學習”,也就是研究者需要將經(jīng)過標記的數(shù)據(jù)輸入其程序之中進行學習訓練。顯然,“監(jiān)督式學習”并不是人類學習的方式,人類的學習方式為“遷移學習”(transfer learning),也就是將一個領域的知識應用到另一個從未接觸過的領域。
這也是“學習”真正的意義。如果一個人在有限的領域所學到的知識,無法應用到其他領域,那就說明其并沒有學到那個領域的基本、抽象的概念。
目前,人工智能過度依賴計算機模型,而不是真實的環(huán)境。以糖尿病性視網(wǎng)膜病變?yōu)槔?,在計算機模擬的實驗室環(huán)境下,研究人員做了4組實驗,其診斷數(shù)據(jù)準確率高達98%至99%。但回到臨床實驗時,準確率下降至約90%。
從計算機到真實的環(huán)境,原始數(shù)據(jù)集的準確率呈現(xiàn)下降的趨勢。如果人工智能的發(fā)展停留在監(jiān)督式學習階段,那么未來計算機模擬數(shù)據(jù)和臨床數(shù)據(jù)的差異會進一步擴大。
因此,如何擺脫監(jiān)督式學習,或者說如何實現(xiàn)知識遷移學習,是人工智能技術在未來10年取得突破性進展的關鍵。
自然語言處理
2020年,大多數(shù)臨床醫(yī)生每和患者相處1小時,就意味著在電子病歷上花費2小時,且每天晚上,他們還要在電子郵件上消耗1小時。
在韋爾蓋斯看來,既然人工智能和視網(wǎng)膜病變的診斷都取得了突破性進展,現(xiàn)在是時候處理醫(yī)生工作不斷被電子文字打斷的問題了。他認為,人工智能中的自然語言處理技術(Natural Language Processing, NLP)或許會有所幫助。
所謂自然語言,其實就是人類所用的語言。文字轉錄就是自然語言處理的進展之一。
梅蘭妮·米切爾(Melanie Mitchell)是一位人工智能領域的專家,著有《人工智能:人類思維學習指南》(Artificial Intelligence: A Guide for Thinking Humans),現(xiàn)任職于美國圣塔菲研究所(Santa Fe Institute,SFI)和波特蘭州立大學(Portland State University)。她的哥哥曾經(jīng)是一名醫(yī)療記錄員,每天的工作就是按照醫(yī)生的口述,記錄病歷。但現(xiàn)在,這份工作已經(jīng)被自然語言處理系統(tǒng)取代了。
米切爾表示,這是醫(yī)學上一個巨大的進步,因為它證明了蠻力統(tǒng)計(brute-force statistics)是一個有效的方式。之所以稱其為“蠻力”,是因為自然語言處理系統(tǒng)并不懂得人類的語言,但仍然可以進行轉錄。事實上,不同語言間的翻譯也是如此——有很多翻譯效果良好的軟件,使用的也是“蠻力統(tǒng)計”方法。
但是,“蠻力統(tǒng)計”不是自然語言處理技術的終點。米切爾認為,真正的自然語言處理技術可以滿足更多需求,包括真正理解人類語言,如,IBM Watson技術平臺。
如果沒有時間閱讀所有發(fā)表的醫(yī)學文獻,IBM Watson能夠在閱讀指定文獻后,回答你的問題。要做到這一點,IBM Watson需要做到理解文獻內(nèi)容,而“理解”文字比翻譯,或單純的文字轉錄要困難許多。
米切爾表示,這種“理解”目前還不確定到底是什么,但有一點非常明確,那就是“理解”也不是人工智能技術真正的終點,甚至可以說還相距甚遠。
復制危機
2020年早些時候,中國的研究人員發(fā)布了一個可預測新冠肺炎確診患者死亡率的模型,準確率超過90%。該模型選取了3個標志物,分別是C-反應蛋白、淋巴細胞計數(shù)和乳酸脫氫酶。
2020年12月中旬,《自然》子刊《機器智能》(Nature Machine Intelligence)上發(fā)表了三篇來自美國、荷蘭和法國的研究報告,否定了此前中國的研究。研究人員分別檢測了本國新冠肺炎確診患者后發(fā)現(xiàn),如果依靠中國研究中的三種標記物來預測死亡率,其準確率不足50%。
這就是“復制危機”(replication crisis)。復制危機是醫(yī)學界普遍存在的問題。有人可能會認為,電腦處理比人工處理更客觀,因此解決復制危機可以依靠電腦,但事實并非如此。
電腦系統(tǒng)、數(shù)據(jù)本身、數(shù)據(jù)的處理過程中存在各種各樣的影響因素,研究人員或許認為電腦已經(jīng)把影響因素排除了,但有些影響因素,研究人員根本預想不到。因此,復制他人的研究成果極為困難。
如今,為了盡量避免復制危機,一些權威期刊在發(fā)表文章之前,要求研究人員給出研究數(shù)據(jù)的全部細節(jié),包括如何展開研究等。
但是,在人工智能領域,人工智能專家沒有接受過這本屬于其他領域的訓練,沒有系統(tǒng)學習統(tǒng)計學和避免科研成果不可復制的方法。因此,“復制危機”已成為人工智能應用于醫(yī)學實踐的新的阻礙。
人工智能和醫(yī)學的融合趨勢
很多人可能會問,“人工智能帶來了如此多的問題和威脅!為什么還要研究人工智能?”
米切爾表示,這些質疑都是合理的,但不可否認的是,人工智能可能帶來的優(yōu)勢也十分驚人,特別是其在醫(yī)學上的應用。而且,這些優(yōu)勢很快會給醫(yī)院帶來許多改變。
托波爾表示,隨著自然語言處理技術的不斷發(fā)展,敲擊鍵盤錄入文字的形式首先會從醫(yī)學領域消失。隨著鍵盤的消失,醫(yī)生和患者能夠做到真正的對話,相處時間也將得以延長。
從長遠來看,人工智能的數(shù)據(jù)和算法會不斷擴大其可驗證的空間,最終變得可復制,當然還是脫離不開人類的監(jiān)督。
除給醫(yī)院帶來好處以外,人工智能還有其他驚人的潛力。例如,偏遠地區(qū)的居民可以獲得跟城市居民一樣的醫(yī)療服務;老年人可以獲得跟年輕人一樣的療效;行動不便的人可以獲得跟健康人一樣的定期護理體驗;遠程醫(yī)療等。
此外,未來,人工智能的算法會給予患者更多的尊重。到時,患者的數(shù)據(jù)不會只掌握在醫(yī)生和護士手中。作為數(shù)據(jù)的生產(chǎn)者,患者也可以通過傳感器、電子病歷等各種方式查看并了解自己的診療數(shù)據(jù)。
米切爾表示,科技的落腳點始終在“人”身上,人工智能技術更多是作為輔助工具,拓寬醫(yī)生的診療照護能力,從而為患者提供更好的醫(yī)療服務。人工智能技術能夠給醫(yī)生帶來許多幫助,并不會對醫(yī)生這個職業(yè)造成威脅。