自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌新型 AI 系統(tǒng)在復雜診斷中表現(xiàn)超越醫(yī)生

譯文 精選
人工智能
本文將重點探討這個新系統(tǒng)的運行原理,同時也會提及它引發(fā)的思考——既有谷歌論文中探討的內(nèi)容,也有在醫(yī)生、保險公司、政策制定者等群體中引發(fā)熱議的話題。

譯者 | 劉汪洋

審校 | 重樓

最近,《自然》雜志上的一篇新論文引發(fā)了關(guān)注。它展示了谷歌如何用 AI 改變醫(yī)療的未來:通過自動化技術(shù)降低成本、減輕醫(yī)生負擔,使他們能夠?qū)⒏嗑ν度氲綇碗s病例的處理中。

當你帶著疑難雜癥就醫(yī)時,自然希望得到準確的診斷。然而,即便經(jīng)驗豐富的醫(yī)生,有時也會對疑難病情感到棘手。有些癥狀或許并無大礙,但有些則需要深入檢查。近年來,人工智能在醫(yī)療領(lǐng)域發(fā)展迅猛,尤其在模式識別類任務中表現(xiàn)突出。谷歌近期在“AI 醫(yī)生”研發(fā)上取得了重大突破。

AI 在醫(yī)學領(lǐng)域的應用由來已久。多年來,各類算法(包括基于AI 的算法)持續(xù)協(xié)助醫(yī)生和研究人員開展圖像分析等工作。近期研究表明,AI 系統(tǒng),特別是大型語言模型(LLM),能夠輔助醫(yī)生進行診斷,部分研究中其準確率甚至與專業(yè)醫(yī)生相當。不過,谷歌此次的研究有所不同。谷歌研究院推出的新型 LLM,專門采用“癥狀-診斷”關(guān)聯(lián)數(shù)據(jù)進行訓練。雖然這只是一個開始,未來仍面臨諸多挑戰(zhàn),但可以確定的是:一個強大的新型 AI 正在進入醫(yī)療診斷領(lǐng)域,我們需要為此做好準備。本文將重點探討這個新系統(tǒng)的運行原理,同時也會提及它引發(fā)的思考——既有谷歌論文中探討的內(nèi)容,也有在醫(yī)生、保險公司、政策制定者等群體中引發(fā)熱議的話題。

來自谷歌的強大醫(yī)療診斷 AI 系統(tǒng)

復雜大語言模型 (LLM,即通過海量數(shù)據(jù)訓練、能夠“理解”并生成自然語言文本的 AI系統(tǒng))的出現(xiàn),徹底變革了我們處理、分析、提煉和生成信息的方式。尤其是最新的大語言模型,具備了精細化文本推理與對話能力,使其有望成為診斷復雜認知任務的得力助手。實際上,我現(xiàn)在討論的谷歌這項新研究,只是這個快速發(fā)展領(lǐng)域中的又一進展,旨在探索這些先進 AI 工具如何理解臨床工作流程并提供助力。

這項研究已通過同行評審,發(fā)表于頂尖期刊《自然》,在醫(yī)學界引發(fā)廣泛關(guān)注。在題為《通過大型語言模型實現(xiàn)精確鑒別診斷》的論文中,谷歌研究院介紹了一款專用 LLM——AMIE(Articulate Medical Intelligence Explorer)。該模型基于臨床數(shù)據(jù)進行訓練,旨在輔助醫(yī)生診斷,甚至未來可能獨立完成診斷工作。研究人員讓 AMIE 處理數(shù)百個真實復雜的疑難病例,測試其生成鑒別診斷(醫(yī)生專業(yè)術(shù)語)的能力 。

想看完整技術(shù)細節(jié)的論文在這里:https://www.nature.com/articles/s41586-025-08869-4

出人意料的結(jié)果

這項研究結(jié)果令人十分吃驚。當 AMIE 僅依據(jù)病例報告的文字描述進行診斷單獨運行,其診斷準確率竟顯著高于經(jīng)驗豐富的醫(yī)生(在未借助 AI 輔助的情況下)!AMIE 給出的前 10 個診斷中包含正確診斷的概率接近 60%,而醫(yī)生獨立判斷時這一概率僅約 34%。

更值得關(guān)注的是,獨立運作的 AMIE 表現(xiàn)甚至比有 AMIE 輔助的醫(yī)生還要略勝一籌!雖然借助 AMIE 輔助的醫(yī)生比使用谷歌搜索等常規(guī)工具時準確率顯著提高(超過51%),但在這些疑難病例中,單看準確率指標,AI 仍略勝一籌。

研究中還發(fā)現(xiàn)一個驚人之處:在 AMIE 與人類專家的對比實驗中,這個 AI 系統(tǒng)僅分析了病例報告中的文字內(nèi)容。而人類醫(yī)生面對的是完整的病例報告,不僅包含 AMIE 分析的文字信息,還涵蓋圖像(如 X 光片、病理切片)和表格(如化驗結(jié)果)等數(shù)據(jù)。即便缺乏這些圖片、表格信息,AMIE 的表現(xiàn)依然超越了未借助 AI 輔助的醫(yī)生。這一結(jié)果既令人贊嘆,也為未來醫(yī)療 AI 的發(fā)展指明了方向:整合并理解文字、圖像、基因組數(shù)據(jù)、傳感器原始數(shù)據(jù)等多類型數(shù)據(jù),將是醫(yī)療 AI 實現(xiàn)全面模擬臨床評估的關(guān)鍵環(huán)節(jié)。

AMIE 作為超專業(yè) LLM

那么,像 AMIE 這樣的 AI 為何能表現(xiàn)得如此出色,甚至超越部分經(jīng)驗豐富的人類專家呢?

從技術(shù)本質(zhì)來看,AMIE 的底層架構(gòu)仍基于大語言模型(LLM),與 GPT-4、谷歌 Gemini 等模型具有相似的技術(shù)基因。但  AMIE 并非僅僅掌握醫(yī)學知識的普通聊天機器人,而是為臨床診斷推理專門深度優(yōu)化的專業(yè)系統(tǒng)。正如《自然》期刊論文中詳細闡述的,其技術(shù)優(yōu)勢源于以下幾方面的針對性改進:

  • 專業(yè)化訓練數(shù)據(jù):在包含海量診斷信息的醫(yī)學文獻數(shù)據(jù)庫中,對基礎(chǔ) LLM 進行定向微調(diào)。
  • 指令適配訓練:通過訓練使模型精準理解并執(zhí)行特定臨床指令,例如生成鑒別診斷列表、拆解推理邏輯鏈條、實現(xiàn)符合醫(yī)療場景的交互式溝通。
  • 基于人類反饋的強化學習(RLHF):很可能引入臨床醫(yī)生的專業(yè)反饋數(shù)據(jù),對模型輸出進行迭代優(yōu)化,使其結(jié)果更趨精準、安全且貼合臨床需求。
  • 推理增強技術(shù):采用特定算法強化模型在癥狀、病史與潛在疾病間建立邏輯關(guān)聯(lián)的能力,這一技術(shù)路徑與谷歌 Gemini 2.5 Pro 等強大的推理模型具有相似性。

值得注意的是,根據(jù)論文數(shù)據(jù),AMIE 在自動評估環(huán)節(jié)優(yōu)于 GPT-4,證明了其專業(yè)領(lǐng)域優(yōu)化的價值。但遺憾的是,論文未將 AMIE 與其他通用大語言模型(包括谷歌自研的 Gemini 2.5 Pro 等 “智能” 模型)進行橫向?qū)Ρ?—— 這一缺失令人費解,甚至讓人對論文審稿環(huán)節(jié)的嚴謹性產(chǎn)生疑問。

另一個關(guān)鍵特性在于,AMIE 支持交互式診療輔助模式。臨床醫(yī)生可通過實時提問深入探究模型的推理依據(jù) —— 這一設(shè)計與傳統(tǒng)靜態(tài)診斷系統(tǒng)形成了本質(zhì)差異。

如何進行診斷效果評估?

衡量診斷的性能和準確性并非易事,這或許會引起有數(shù)據(jù)科學背景讀者的興趣。在這項研究中,研究人員沒有單純評估 AMIE 的表現(xiàn)。他們采用隨機對照的方法,將 AMIE 與三組醫(yī)生進行對比:第一組是未借助任何輔助工具的醫(yī)生;第二組是使用標準搜索工具(如谷歌、PubMed 等)的醫(yī)生;第三組是由 AMIE 輔助的醫(yī)生(這組醫(yī)生也能使用搜索工具,但使用頻率較低)。

研究人員對數(shù)據(jù)的分析也沒有局限于簡單的準確率。他們運用了多項指標,其中最關(guān)鍵的是“前 n 位準確率”(Top-n accuracy),即判斷正確診斷是否出現(xiàn)在 AMIE 給出的前 1 個、前 3 個、前 5 個或前 10 個可能性中。此外,還有“質(zhì)量分數(shù)”(用于評估診斷列表與最終診斷的接近程度)、“適當性”和“全面性”——后兩個指標由不了解診斷列表來源的獨立??漆t(yī)生進行評分。

這種全面的評估方式,比單純依靠一個準確率數(shù)值更能反映實際情況。通過與醫(yī)生獨立診斷及使用常規(guī)工具的情況進行對比,也能更準確地衡量 AI 在實際應用中帶來的價值。

為什么 AI 在診斷方面表現(xiàn)如此出色?

與其他專業(yè)醫(yī)療 AI 一樣,AMIE 同樣基于海量醫(yī)學文獻、病例研究和臨床數(shù)據(jù)完成訓練。這類系統(tǒng)不僅能夠處理復雜醫(yī)學信息、識別潛在規(guī)律,更在罕見病檢索能力上展現(xiàn)出顯著優(yōu)勢 —— 其響應速度與信息覆蓋廣度遠超人類大腦,后者往往需要同時處理多重臨床任務。值得注意的是,AMIE 針對醫(yī)生診斷的邏輯推理過程進行了專項優(yōu)化,這一特性雖與其他推理模型存在相似性,但其應用場景被高度聚焦于臨床診斷領(lǐng)域。

在研究選取的 “診斷難題”(案例均源自權(quán)威的《新英格蘭醫(yī)學雜志》)中,AMIE 能夠不帶人類常見認知偏見地遍歷所有可能性,這或許是其核心優(yōu)勢之一。正如社交媒體上針對該論文的評論所指出:AI 不僅在常規(guī)病例中表現(xiàn)穩(wěn)定,更在極具挑戰(zhàn)性的復雜病例中展現(xiàn)出突破能力,這無疑是其技術(shù)價值的重要體現(xiàn)。

AI 獨立診斷 vs. AI + 醫(yī)生協(xié)作

研究中一個值得探討的現(xiàn)象是:AMIE 獨立診斷時的表現(xiàn)略微優(yōu)于有 AMIE 輔助的醫(yī)生,這一結(jié)果初看令人困惑。從理論而言,將經(jīng)驗豐富的臨床判斷與 AI 的數(shù)據(jù)分析能力相結(jié)合,本應實現(xiàn)更優(yōu)診斷效能(既往研究亦證實此點)。事實上,有 AMIE 輔助的醫(yī)生群體確實顯著優(yōu)于無 AI 輔助的醫(yī)生,其給出的診斷列表更全面、更精準。但有趣的是,AMIE 獨立運行時的表現(xiàn)竟小幅超越其輔助人類的場景。

為何在本次研究中 AI 獨立診斷略占優(yōu)勢?部分醫(yī)學專家在社交媒體分析指出,這一細微差異未必意味著醫(yī)生對 AI 形成 “拖累”,更可能源于醫(yī)生對 AI 系統(tǒng)的操作尚不熟練,尚未建立高效的人機協(xié)作模式導致的。畢竟,AI 在特定任務的純數(shù)據(jù)分析能力上本就具備天然優(yōu)勢,這與人類日常使用大語言模型時未必能實現(xiàn)完美配合的邏輯相似。

這種現(xiàn)象類似于人類剛開始使用大語言模型時的情況:醫(yī)生可能受到'錨定偏見'的影響,固守原有思維模式,或者還不熟悉如何向 AI 提問來獲取關(guān)鍵信息。本質(zhì)上,這是一種全新的人機協(xié)作范式,需要醫(yī)患雙方共同探索磨合。

AI 未來會取代醫(yī)生嗎?

答案顯然是否定的。理解 AI 的技術(shù)局限性至關(guān)重要:

  • “診斷難題” 與真實診療場景的差異 現(xiàn)有研究基于書面病例報告展開,這類信息經(jīng)過濃縮與結(jié)構(gòu)化處理,與臨床實踐中醫(yī)生通過醫(yī)患互動獲取的原始信息截然不同。真實醫(yī)療場景涵蓋病史采集、體格檢查、非語言信號解讀、醫(yī)患信任建立及全流程治療管理 —— 這些能力(至少在當前階段)仍屬 AI 的技術(shù)盲區(qū)。醫(yī)學的核心不僅是數(shù)據(jù)處理,更包含人際連接、同理心及不確定性管理,例如安慰劑效應、幻肢痛診療等復雜臨床現(xiàn)象均難以被算法完全模擬。
  • AI 的內(nèi)在缺陷 大語言模型仍存在 “幻覺” 風險,可能輸出看似合理但實際錯誤的信息。即便 AMIE 未來投入臨床應用(目前尚未達到這一階段),其運行仍需資深專業(yè)人員的全程監(jiān)督。
  • 診斷環(huán)節(jié)的局限性 生成鑒別診斷列表僅是診療流程的起點。完整的醫(yī)療服務包含病情評估、治療決策、患者教育、隨訪管理等多個環(huán)節(jié),這些領(lǐng)域不僅超出當前專業(yè) AI 的能力范圍,更因涉及人文關(guān)懷與動態(tài)判斷而難以被技術(shù)完全替代。

緊隨其后:邁向?qū)υ捠皆\斷 AI

更值得關(guān)注的是,在同一期《自然》雜志中,繼 AMIE 論文之后,谷歌研究院同步發(fā)表了另一篇論文!該論文表明,在模擬醫(yī)患診斷對話場景中(而非單純分析癥狀,而是完整模擬患者與醫(yī)生 / AMIE 的真實交互過程),AMIE 的表現(xiàn)再次超越人類醫(yī)生!換言之,首篇論文證實了 AMIE 在客觀診斷層面的優(yōu)勢,而第二篇論文則揭示:該 AI 系統(tǒng)在診斷結(jié)果溝通環(huán)節(jié)(無論是信息傳達質(zhì)量還是共情能力)同樣實現(xiàn)突破。

兩組數(shù)據(jù)差異顯著:在 159 個模擬病例中,參與評估的??漆t(yī)生在 32 項指標中的 30 項判定 AI 表現(xiàn)優(yōu)于初級保健醫(yī)生;模擬患者群體則在 26 項指標中的 25 項更青睞 AMIE 的溝通方式。

第二篇論文在這里:https://www.nature.com/articles/s41586-025-08866-7

醫(yī)學界應當重視起來了

盡管存在諸多限制,但這項研究及類似研究都釋放出強烈信號:專業(yè) AI 正迅猛發(fā)展,其不僅能增強人類專家的能力,在某些特定任務上甚至已超越人類水平。

醫(yī)學協(xié)會、執(zhí)照管理機構(gòu)、教育機構(gòu)、政策制定者、保險公司,以及每一個可能成為 AI 健康診查對象的人,都需要關(guān)注此事。這一問題必須成為政府優(yōu)先考量的議題。

以 AMIE 及未來類似的 AI 工具為例,它們可協(xié)助醫(yī)生更快速、精準地診斷復雜疾病,進而有望改善患者的治療效果,尤其在醫(yī)療專業(yè)資源匱乏的地區(qū)。這類工具或許還能幫助醫(yī)生快速識別和篩選健康或低風險患者,減輕其工作負擔,使其能夠?qū)⒕杏谔幚砀鼑乐氐牟±?。這一切既可能增加解決復雜健康問題的機會,同時也能降低成本、縮短等待時間。

如同在諸多其他領(lǐng)域一樣,AI 遲早會改變醫(yī)生的角色。未來,AI 或許可承擔更多初步診斷的繁重工作,讓醫(yī)生有更多時間與患者溝通互動、開展復雜決策并制定治療計劃 —— 正如一些人所期待的,這或許還能緩解醫(yī)生因文書工作繁瑣、看診時間緊迫而產(chǎn)生的職業(yè)倦怠。正如有人在社交媒體討論該論文時提及的:并非每個醫(yī)生都愿意一小時看診 4 名甚至更多患者,同時還要完成所有文書工作。

為 AMIE 這類系統(tǒng)的潛在應用做好準備,我們需要制定相應規(guī)則:如何安全、合乎倫理地將這些工具整合到醫(yī)療流程中?如何在確?;颊甙踩耐瑫r避免過度依賴 AI ?若 AI 輔助診斷出現(xiàn)差錯,責任該如何界定?目前,這些問題尚未有明確、統(tǒng)一的答案。

醫(yī)生需要接受培訓,學習如何高效使用這些新工具,了解其優(yōu)勢與局限,并適應這種人機協(xié)作的新模式。這場變革必須讓醫(yī)學專業(yè)人士參與其中,而非將其強加于人。

最后,我們還需思考:如何確保這些強大的工具不會加劇現(xiàn)有的醫(yī)療資源分配不均,反而能助力縮小專業(yè)知識獲取層面的差距?

結(jié)論

我們的目標并非取代醫(yī)生,而是為其賦能。像 AMIE 這樣的 AI 系統(tǒng),作為知識淵博的助手,具備巨大潛力。無論是在日常醫(yī)療場景中,還是在特殊環(huán)境下(如災區(qū)、疫情期間),甚至在偏遠或極端場景中(如遠洋輪船、太空飛船或外星基地),均可能發(fā)揮重要作用。但要安全有效地釋放這種潛力,需要醫(yī)學界從現(xiàn)在起就以積極、審慎的態(tài)度參與到這項飛速發(fā)展的技術(shù)中來。未來診斷工作很可能采用 AI 輔助模式,因此我們需要及早制定這種合作的規(guī)范和準則,因此,我們必須從今天開始為這種合作制定規(guī)則。

參考文獻

關(guān)于 AMIE 的介紹文章:邁向準確的差異化診斷與大型語言模型

關(guān)于 AMIE 經(jīng)測試患者評估的結(jié)果文章:邁向會話式診斷人工智能

譯者介紹

劉汪洋,51CTO社區(qū)編輯,昵稱:明明如月,一個擁有 5 年開發(fā)經(jīng)驗的某大廠高級 Java 工程師。

原文標題:Google’s New AI System Outperforms Physicians in Complex Diagnoses,作者:Luciano Abriata

責任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2018-04-23 10:42:43

AI醫(yī)療醫(yī)生

2024-01-15 00:19:24

2024-11-19 12:21:45

2011-06-21 10:33:02

VMware

2025-04-21 16:28:16

AI醫(yī)生生成式AI醫(yī)療AI

2010-03-12 08:55:48

Windows 7企業(yè)部署

2020-01-08 13:30:37

DeepMind乳腺癌人工智能

2025-02-13 09:09:58

OpenratorAI驅(qū)動智能體

2025-01-26 13:20:49

谷歌AI模型Titans

2019-02-14 15:06:50

AI人工智能臨床診斷

2018-06-01 09:52:23

AI卷積神經(jīng)網(wǎng)絡診斷皮膚癌

2025-02-10 08:37:04

2013-01-05 15:26:23

消費者報告運營商iPhone 5

2015-07-07 09:59:53

2017-07-02 05:45:50

分布式對抗網(wǎng)絡模型

2024-12-02 10:47:45

Go語言Java

2025-04-03 17:05:35

2011-07-04 10:10:08

2009-04-20 08:30:15

GoogleAndroid移動OS
點贊
收藏

51CTO技術(shù)棧公眾號