谷歌新型 AI 系統(tǒng)在復(fù)雜診斷中表現(xiàn)超越醫(yī)生 原創(chuàng)
最近,《自然》雜志上的一篇新論文引發(fā)了關(guān)注。它展示了谷歌如何用 AI 改變醫(yī)療的未來:通過自動化技術(shù)降低成本、減輕醫(yī)生負(fù)擔(dān),使他們能夠?qū)⒏嗑ν度氲綇?fù)雜病例的處理中。
當(dāng)你帶著疑難雜癥就醫(yī)時,自然希望得到準(zhǔn)確的診斷。然而,即便經(jīng)驗豐富的醫(yī)生,有時也會對疑難病情感到棘手。有些癥狀或許并無大礙,但有些則需要深入檢查。近年來,人工智能在醫(yī)療領(lǐng)域發(fā)展迅猛,尤其在模式識別類任務(wù)中表現(xiàn)突出。谷歌近期在“AI 醫(yī)生”研發(fā)上取得了重大突破。
AI 在醫(yī)學(xué)領(lǐng)域的應(yīng)用由來已久。多年來,各類算法(包括基于AI 的算法)持續(xù)協(xié)助醫(yī)生和研究人員開展圖像分析等工作。近期研究表明,AI 系統(tǒng),特別是大型語言模型(LLM),能夠輔助醫(yī)生進行診斷,部分研究中其準(zhǔn)確率甚至與專業(yè)醫(yī)生相當(dāng)。不過,谷歌此次的研究有所不同。谷歌研究院推出的新型 LLM,專門采用“癥狀-診斷”關(guān)聯(lián)數(shù)據(jù)進行訓(xùn)練。雖然這只是一個開始,未來仍面臨諸多挑戰(zhàn),但可以確定的是:一個強大的新型 AI 正在進入醫(yī)療診斷領(lǐng)域,我們需要為此做好準(zhǔn)備。本文將重點探討這個新系統(tǒng)的運行原理,同時也會提及它引發(fā)的思考——既有谷歌論文中探討的內(nèi)容,也有在醫(yī)生、保險公司、政策制定者等群體中引發(fā)熱議的話題。
來自谷歌的強大醫(yī)療診斷 AI 系統(tǒng)
復(fù)雜大語言模型 (LLM,即通過海量數(shù)據(jù)訓(xùn)練、能夠“理解”并生成自然語言文本的 AI系統(tǒng))的出現(xiàn),徹底變革了我們處理、分析、提煉和生成信息的方式。尤其是最新的大語言模型,具備了精細(xì)化文本推理與對話能力,使其有望成為診斷復(fù)雜認(rèn)知任務(wù)的得力助手。實際上,我現(xiàn)在討論的谷歌這項新研究,只是這個快速發(fā)展領(lǐng)域中的又一進展,旨在探索這些先進 AI 工具如何理解臨床工作流程并提供助力。
這項研究已通過同行評審,發(fā)表于頂尖期刊《自然》,在醫(yī)學(xué)界引發(fā)廣泛關(guān)注。在題為《通過大型語言模型實現(xiàn)精確鑒別診斷》的論文中,谷歌研究院介紹了一款專用 LLM——AMIE(Articulate Medical Intelligence Explorer)。該模型基于臨床數(shù)據(jù)進行訓(xùn)練,旨在輔助醫(yī)生診斷,甚至未來可能獨立完成診斷工作。研究人員讓 AMIE 處理數(shù)百個真實復(fù)雜的疑難病例,測試其生成鑒別診斷(醫(yī)生專業(yè)術(shù)語)的能力 。
想看完整技術(shù)細(xì)節(jié)的論文在這里:??https://www.nature.com/articles/s41586-025-08869-4??
出人意料的結(jié)果
這項研究結(jié)果令人十分吃驚。當(dāng) AMIE 僅依據(jù)病例報告的文字描述進行診斷單獨運行,其診斷準(zhǔn)確率竟顯著高于經(jīng)驗豐富的醫(yī)生(在未借助 AI 輔助的情況下)!AMIE 給出的前 10 個診斷中包含正確診斷的概率接近 60%,而醫(yī)生獨立判斷時這一概率僅約 34%。
更值得關(guān)注的是,獨立運作的 AMIE 表現(xiàn)甚至比有 AMIE 輔助的醫(yī)生還要略勝一籌!雖然借助 AMIE 輔助的醫(yī)生比使用谷歌搜索等常規(guī)工具時準(zhǔn)確率顯著提高(超過51%),但在這些疑難病例中,單看準(zhǔn)確率指標(biāo),AI 仍略勝一籌。
研究中還發(fā)現(xiàn)一個驚人之處:在 AMIE 與人類專家的對比實驗中,這個 AI 系統(tǒng)僅分析了病例報告中的文字內(nèi)容。而人類醫(yī)生面對的是完整的病例報告,不僅包含 AMIE 分析的文字信息,還涵蓋圖像(如 X 光片、病理切片)和表格(如化驗結(jié)果)等數(shù)據(jù)。即便缺乏這些圖片、表格信息,AMIE 的表現(xiàn)依然超越了未借助 AI 輔助的醫(yī)生。這一結(jié)果既令人贊嘆,也為未來醫(yī)療 AI 的發(fā)展指明了方向:整合并理解文字、圖像、基因組數(shù)據(jù)、傳感器原始數(shù)據(jù)等多類型數(shù)據(jù),將是醫(yī)療 AI 實現(xiàn)全面模擬臨床評估的關(guān)鍵環(huán)節(jié)。
AMIE 作為超專業(yè) LLM
那么,像 AMIE 這樣的 AI 為何能表現(xiàn)得如此出色,甚至超越部分經(jīng)驗豐富的人類專家呢?
從技術(shù)本質(zhì)來看,AMIE 的底層架構(gòu)仍基于大語言模型(LLM),與 GPT-4、谷歌 Gemini 等模型具有相似的技術(shù)基因。但 AMIE 并非僅僅掌握醫(yī)學(xué)知識的普通聊天機器人,而是為臨床診斷推理專門深度優(yōu)化的專業(yè)系統(tǒng)。正如《自然》期刊論文中詳細(xì)闡述的,其技術(shù)優(yōu)勢源于以下幾方面的針對性改進:
- 專業(yè)化訓(xùn)練數(shù)據(jù):在包含海量診斷信息的醫(yī)學(xué)文獻數(shù)據(jù)庫中,對基礎(chǔ) LLM 進行定向微調(diào)。
- 指令適配訓(xùn)練:通過訓(xùn)練使模型精準(zhǔn)理解并執(zhí)行特定臨床指令,例如生成鑒別診斷列表、拆解推理邏輯鏈條、實現(xiàn)符合醫(yī)療場景的交互式溝通。
- 基于人類反饋的強化學(xué)習(xí)(RLHF):很可能引入臨床醫(yī)生的專業(yè)反饋數(shù)據(jù),對模型輸出進行迭代優(yōu)化,使其結(jié)果更趨精準(zhǔn)、安全且貼合臨床需求。
- 推理增強技術(shù):采用特定算法強化模型在癥狀、病史與潛在疾病間建立邏輯關(guān)聯(lián)的能力,這一技術(shù)路徑與谷歌 Gemini 2.5 Pro 等強大的推理模型具有相似性。
值得注意的是,根據(jù)論文數(shù)據(jù),AMIE 在自動評估環(huán)節(jié)優(yōu)于 GPT-4,證明了其專業(yè)領(lǐng)域優(yōu)化的價值。但遺憾的是,論文未將 AMIE 與其他通用大語言模型(包括谷歌自研的 Gemini 2.5 Pro 等 “智能” 模型)進行橫向?qū)Ρ?—— 這一缺失令人費解,甚至讓人對論文審稿環(huán)節(jié)的嚴(yán)謹(jǐn)性產(chǎn)生疑問。
另一個關(guān)鍵特性在于,AMIE 支持交互式診療輔助模式。臨床醫(yī)生可通過實時提問深入探究模型的推理依據(jù) —— 這一設(shè)計與傳統(tǒng)靜態(tài)診斷系統(tǒng)形成了本質(zhì)差異。
如何進行診斷效果評估?
衡量診斷的性能和準(zhǔn)確性并非易事,這或許會引起有數(shù)據(jù)科學(xué)背景讀者的興趣。在這項研究中,研究人員沒有單純評估 AMIE 的表現(xiàn)。他們采用隨機對照的方法,將 AMIE 與三組醫(yī)生進行對比:第一組是未借助任何輔助工具的醫(yī)生;第二組是使用標(biāo)準(zhǔn)搜索工具(如谷歌、PubMed 等)的醫(yī)生;第三組是由 AMIE 輔助的醫(yī)生(這組醫(yī)生也能使用搜索工具,但使用頻率較低)。
研究人員對數(shù)據(jù)的分析也沒有局限于簡單的準(zhǔn)確率。他們運用了多項指標(biāo),其中最關(guān)鍵的是“前 n 位準(zhǔn)確率”(Top-n accuracy),即判斷正確診斷是否出現(xiàn)在 AMIE 給出的前 1 個、前 3 個、前 5 個或前 10 個可能性中。此外,還有“質(zhì)量分?jǐn)?shù)”(用于評估診斷列表與最終診斷的接近程度)、“適當(dāng)性”和“全面性”——后兩個指標(biāo)由不了解診斷列表來源的獨立專科醫(yī)生進行評分。
這種全面的評估方式,比單純依靠一個準(zhǔn)確率數(shù)值更能反映實際情況。通過與醫(yī)生獨立診斷及使用常規(guī)工具的情況進行對比,也能更準(zhǔn)確地衡量 AI 在實際應(yīng)用中帶來的價值。
為什么 AI 在診斷方面表現(xiàn)如此出色?
與其他專業(yè)醫(yī)療 AI 一樣,AMIE 同樣基于海量醫(yī)學(xué)文獻、病例研究和臨床數(shù)據(jù)完成訓(xùn)練。這類系統(tǒng)不僅能夠處理復(fù)雜醫(yī)學(xué)信息、識別潛在規(guī)律,更在罕見病檢索能力上展現(xiàn)出顯著優(yōu)勢 —— 其響應(yīng)速度與信息覆蓋廣度遠(yuǎn)超人類大腦,后者往往需要同時處理多重臨床任務(wù)。值得注意的是,AMIE 針對醫(yī)生診斷的邏輯推理過程進行了專項優(yōu)化,這一特性雖與其他推理模型存在相似性,但其應(yīng)用場景被高度聚焦于臨床診斷領(lǐng)域。
在研究選取的 “診斷難題”(案例均源自權(quán)威的《新英格蘭醫(yī)學(xué)雜志》)中,AMIE 能夠不帶人類常見認(rèn)知偏見地遍歷所有可能性,這或許是其核心優(yōu)勢之一。正如社交媒體上針對該論文的評論所指出:AI 不僅在常規(guī)病例中表現(xiàn)穩(wěn)定,更在極具挑戰(zhàn)性的復(fù)雜病例中展現(xiàn)出突破能力,這無疑是其技術(shù)價值的重要體現(xiàn)。
AI 獨立診斷 vs. AI + 醫(yī)生協(xié)作
研究中一個值得探討的現(xiàn)象是:AMIE 獨立診斷時的表現(xiàn)略微優(yōu)于有 AMIE 輔助的醫(yī)生,這一結(jié)果初看令人困惑。從理論而言,將經(jīng)驗豐富的臨床判斷與 AI 的數(shù)據(jù)分析能力相結(jié)合,本應(yīng)實現(xiàn)更優(yōu)診斷效能(既往研究亦證實此點)。事實上,有 AMIE 輔助的醫(yī)生群體確實顯著優(yōu)于無 AI 輔助的醫(yī)生,其給出的診斷列表更全面、更精準(zhǔn)。但有趣的是,AMIE 獨立運行時的表現(xiàn)竟小幅超越其輔助人類的場景。
為何在本次研究中 AI 獨立診斷略占優(yōu)勢?部分醫(yī)學(xué)專家在社交媒體分析指出,這一細(xì)微差異未必意味著醫(yī)生對 AI 形成 “拖累”,更可能源于醫(yī)生對 AI 系統(tǒng)的操作尚不熟練,尚未建立高效的人機協(xié)作模式導(dǎo)致的。畢竟,AI 在特定任務(wù)的純數(shù)據(jù)分析能力上本就具備天然優(yōu)勢,這與人類日常使用大語言模型時未必能實現(xiàn)完美配合的邏輯相似。
這種現(xiàn)象類似于人類剛開始使用大語言模型時的情況:醫(yī)生可能受到'錨定偏見'的影響,固守原有思維模式,或者還不熟悉如何向 AI 提問來獲取關(guān)鍵信息。本質(zhì)上,這是一種全新的人機協(xié)作范式,需要醫(yī)患雙方共同探索磨合。
AI 未來會取代醫(yī)生嗎?
答案顯然是否定的。理解 AI 的技術(shù)局限性至關(guān)重要:
- “診斷難題” 與真實診療場景的差異現(xiàn)有研究基于書面病例報告展開,這類信息經(jīng)過濃縮與結(jié)構(gòu)化處理,與臨床實踐中醫(yī)生通過醫(yī)患互動獲取的原始信息截然不同。真實醫(yī)療場景涵蓋病史采集、體格檢查、非語言信號解讀、醫(yī)患信任建立及全流程治療管理 —— 這些能力(至少在當(dāng)前階段)仍屬 AI 的技術(shù)盲區(qū)。醫(yī)學(xué)的核心不僅是數(shù)據(jù)處理,更包含人際連接、同理心及不確定性管理,例如安慰劑效應(yīng)、幻肢痛診療等復(fù)雜臨床現(xiàn)象均難以被算法完全模擬。
- AI 的內(nèi)在缺陷大語言模型仍存在 “幻覺” 風(fēng)險,可能輸出看似合理但實際錯誤的信息。即便 AMIE 未來投入臨床應(yīng)用(目前尚未達(dá)到這一階段),其運行仍需資深專業(yè)人員的全程監(jiān)督。
- 診斷環(huán)節(jié)的局限性生成鑒別診斷列表僅是診療流程的起點。完整的醫(yī)療服務(wù)包含病情評估、治療決策、患者教育、隨訪管理等多個環(huán)節(jié),這些領(lǐng)域不僅超出當(dāng)前專業(yè) AI 的能力范圍,更因涉及人文關(guān)懷與動態(tài)判斷而難以被技術(shù)完全替代。
緊隨其后:邁向?qū)υ捠皆\斷 AI
更值得關(guān)注的是,在同一期《自然》雜志中,繼 AMIE 論文之后,谷歌研究院同步發(fā)表了另一篇論文!該論文表明,在模擬醫(yī)患診斷對話場景中(而非單純分析癥狀,而是完整模擬患者與醫(yī)生 / AMIE 的真實交互過程),AMIE 的表現(xiàn)再次超越人類醫(yī)生!換言之,首篇論文證實了 AMIE 在客觀診斷層面的優(yōu)勢,而第二篇論文則揭示:該 AI 系統(tǒng)在診斷結(jié)果溝通環(huán)節(jié)(無論是信息傳達(dá)質(zhì)量還是共情能力)同樣實現(xiàn)突破。
兩組數(shù)據(jù)差異顯著:在 159 個模擬病例中,參與評估的??漆t(yī)生在 32 項指標(biāo)中的 30 項判定 AI 表現(xiàn)優(yōu)于初級保健醫(yī)生;模擬患者群體則在 26 項指標(biāo)中的 25 項更青睞 AMIE 的溝通方式。
第二篇論文在這里:??https://www.nature.com/articles/s41586-025-08866-7??
醫(yī)學(xué)界應(yīng)當(dāng)重視起來了
盡管存在諸多限制,但這項研究及類似研究都釋放出強烈信號:專業(yè) AI 正迅猛發(fā)展,其不僅能增強人類專家的能力,在某些特定任務(wù)上甚至已超越人類水平。
醫(yī)學(xué)協(xié)會、執(zhí)照管理機構(gòu)、教育機構(gòu)、政策制定者、保險公司,以及每一個可能成為 AI 健康診查對象的人,都需要關(guān)注此事。這一問題必須成為政府優(yōu)先考量的議題。
以 AMIE 及未來類似的 AI 工具為例,它們可協(xié)助醫(yī)生更快速、精準(zhǔn)地診斷復(fù)雜疾病,進而有望改善患者的治療效果,尤其在醫(yī)療專業(yè)資源匱乏的地區(qū)。這類工具或許還能幫助醫(yī)生快速識別和篩選健康或低風(fēng)險患者,減輕其工作負(fù)擔(dān),使其能夠?qū)⒕杏谔幚砀鼑?yán)重的病例。這一切既可能增加解決復(fù)雜健康問題的機會,同時也能降低成本、縮短等待時間。
如同在諸多其他領(lǐng)域一樣,AI 遲早會改變醫(yī)生的角色。未來,AI 或許可承擔(dān)更多初步診斷的繁重工作,讓醫(yī)生有更多時間與患者溝通互動、開展復(fù)雜決策并制定治療計劃 —— 正如一些人所期待的,這或許還能緩解醫(yī)生因文書工作繁瑣、看診時間緊迫而產(chǎn)生的職業(yè)倦怠。正如有人在社交媒體討論該論文時提及的:并非每個醫(yī)生都愿意一小時看診 4 名甚至更多患者,同時還要完成所有文書工作。
為 AMIE 這類系統(tǒng)的潛在應(yīng)用做好準(zhǔn)備,我們需要制定相應(yīng)規(guī)則:如何安全、合乎倫理地將這些工具整合到醫(yī)療流程中?如何在確?;颊甙踩耐瑫r避免過度依賴 AI ?若 AI 輔助診斷出現(xiàn)差錯,責(zé)任該如何界定?目前,這些問題尚未有明確、統(tǒng)一的答案。
醫(yī)生需要接受培訓(xùn),學(xué)習(xí)如何高效使用這些新工具,了解其優(yōu)勢與局限,并適應(yīng)這種人機協(xié)作的新模式。這場變革必須讓醫(yī)學(xué)專業(yè)人士參與其中,而非將其強加于人。
最后,我們還需思考:如何確保這些強大的工具不會加劇現(xiàn)有的醫(yī)療資源分配不均,反而能助力縮小專業(yè)知識獲取層面的差距?
結(jié)論
我們的目標(biāo)并非取代醫(yī)生,而是為其賦能。像 AMIE 這樣的 AI 系統(tǒng),作為知識淵博的助手,具備巨大潛力。無論是在日常醫(yī)療場景中,還是在特殊環(huán)境下(如災(zāi)區(qū)、疫情期間),甚至在偏遠(yuǎn)或極端場景中(如遠(yuǎn)洋輪船、太空飛船或外星基地),均可能發(fā)揮重要作用。但要安全有效地釋放這種潛力,需要醫(yī)學(xué)界從現(xiàn)在起就以積極、審慎的態(tài)度參與到這項飛速發(fā)展的技術(shù)中來。未來診斷工作很可能采用 AI 輔助模式,因此我們需要及早制定這種合作的規(guī)范和準(zhǔn)則,因此,我們必須從今天開始為這種合作制定規(guī)則。
參考文獻
關(guān)于 AMIE 的介紹文章:??邁向準(zhǔn)確的差異化診斷與大型語言模型??
關(guān)于 AMIE 經(jīng)測試患者評估的結(jié)果文章:??邁向會話式診斷人工智能??
譯者介紹
劉汪洋,51CTO社區(qū)編輯,昵稱:明明如月,一個擁有 5 年開發(fā)經(jīng)驗的某大廠高級 Java 工程師。
原文標(biāo)題:??Google’s New AI System Outperforms Physicians in Complex Diagnoses??,作者:Luciano Abriata
