自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="qqn6a"></sub>

<cite id="qqn6a"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌新型 AI 系統(tǒng)在復雜診斷中表現(xiàn)超越醫(yī)生

作者：劉汪洋 2025-04-22 08:13:39

本文將重點探討這個新系統(tǒng)的運行原理，同時也會提及它引發(fā)的思考——既有谷歌論文中探討的內(nèi)容，也有在醫(yī)生、保險公司、政策制定者等群體中引發(fā)熱議的話題。

譯者 | 劉汪洋

審校 | 重樓

最近，《自然》雜志上的一篇新論文引發(fā)了關(guān)注。它展示了谷歌如何用 AI 改變醫(yī)療的未來：通過自動化技術(shù)降低成本、減輕醫(yī)生負擔，使他們能夠?qū)⒏嗑ν度氲綇碗s病例的處理中。

當你帶著疑難雜癥就醫(yī)時，自然希望得到準確的診斷。然而，即便經(jīng)驗豐富的醫(yī)生，有時也會對疑難病情感到棘手。有些癥狀或許并無大礙，但有些則需要深入檢查。近年來，人工智能在醫(yī)療領(lǐng)域發(fā)展迅猛，尤其在模式識別類任務中表現(xiàn)突出。谷歌近期在“AI 醫(yī)生”研發(fā)上取得了重大突破。

AI 在醫(yī)學領(lǐng)域的應用由來已久。多年來，各類算法（包括基于AI 的算法）持續(xù)協(xié)助醫(yī)生和研究人員開展圖像分析等工作。近期研究表明，AI 系統(tǒng)，特別是大型語言模型（LLM），能夠輔助醫(yī)生進行診斷，部分研究中其準確率甚至與專業(yè)醫(yī)生相當。不過，谷歌此次的研究有所不同。谷歌研究院推出的新型 LLM，專門采用“癥狀-診斷”關(guān)聯(lián)數(shù)據(jù)進行訓練。雖然這只是一個開始，未來仍面臨諸多挑戰(zhàn)，但可以確定的是：一個強大的新型 AI 正在進入醫(yī)療診斷領(lǐng)域，我們需要為此做好準備。本文將重點探討這個新系統(tǒng)的運行原理，同時也會提及它引發(fā)的思考——既有谷歌論文中探討的內(nèi)容，也有在醫(yī)生、保險公司、政策制定者等群體中引發(fā)熱議的話題。

來自谷歌的強大醫(yī)療診斷 AI 系統(tǒng)

復雜大語言模型（LLM，即通過海量數(shù)據(jù)訓練、能夠“理解”并生成自然語言文本的 AI系統(tǒng)）的出現(xiàn)，徹底變革了我們處理、分析、提煉和生成信息的方式。尤其是最新的大語言模型，具備了精細化文本推理與對話能力，使其有望成為診斷復雜認知任務的得力助手。實際上，我現(xiàn)在討論的谷歌這項新研究，只是這個快速發(fā)展領(lǐng)域中的又一進展，旨在探索這些先進 AI 工具如何理解臨床工作流程并提供助力。

這項研究已通過同行評審，發(fā)表于頂尖期刊《自然》，在醫(yī)學界引發(fā)廣泛關(guān)注。在題為《通過大型語言模型實現(xiàn)精確鑒別診斷》的論文中，谷歌研究院介紹了一款專用 LLM——AMIE（Articulate Medical Intelligence Explorer）。該模型基于臨床數(shù)據(jù)進行訓練，旨在輔助醫(yī)生診斷，甚至未來可能獨立完成診斷工作。研究人員讓 AMIE 處理數(shù)百個真實復雜的疑難病例，測試其生成鑒別診斷（醫(yī)生專業(yè)術(shù)語）的能力。

想看完整技術(shù)細節(jié)的論文在這里：https://www.nature.com/articles/s41586-025-08869-4

出人意料的結(jié)果

這項研究結(jié)果令人十分吃驚。當 AMIE 僅依據(jù)病例報告的文字描述進行診斷單獨運行，其診斷準確率竟顯著高于經(jīng)驗豐富的醫(yī)生（在未借助 AI 輔助的情況下）！AMIE 給出的前 10 個診斷中包含正確診斷的概率接近 60%，而醫(yī)生獨立判斷時這一概率僅約 34%。

更值得關(guān)注的是，獨立運作的 AMIE 表現(xiàn)甚至比有 AMIE 輔助的醫(yī)生還要略勝一籌！雖然借助 AMIE 輔助的醫(yī)生比使用谷歌搜索等常規(guī)工具時準確率顯著提高（超過51%），但在這些疑難病例中，單看準確率指標，AI 仍略勝一籌。

研究中還發(fā)現(xiàn)一個驚人之處：在 AMIE 與人類專家的對比實驗中，這個 AI 系統(tǒng)僅分析了病例報告中的文字內(nèi)容。而人類醫(yī)生面對的是完整的病例報告，不僅包含 AMIE 分析的文字信息，還涵蓋圖像（如 X 光片、病理切片）和表格（如化驗結(jié)果）等數(shù)據(jù)。即便缺乏這些圖片、表格信息，AMIE 的表現(xiàn)依然超越了未借助 AI 輔助的醫(yī)生。這一結(jié)果既令人贊嘆，也為未來醫(yī)療 AI 的發(fā)展指明了方向：整合并理解文字、圖像、基因組數(shù)據(jù)、傳感器原始數(shù)據(jù)等多類型數(shù)據(jù)，將是醫(yī)療 AI 實現(xiàn)全面模擬臨床評估的關(guān)鍵環(huán)節(jié)。

AMIE 作為超專業(yè) LLM

那么，像 AMIE 這樣的 AI 為何能表現(xiàn)得如此出色，甚至超越部分經(jīng)驗豐富的人類專家呢？

從技術(shù)本質(zhì)來看，AMIE 的底層架構(gòu)仍基于大語言模型（LLM），與 GPT-4、谷歌 Gemini 等模型具有相似的技術(shù)基因。但 AMIE 并非僅僅掌握醫(yī)學知識的普通聊天機器人，而是為臨床診斷推理專門深度優(yōu)化的專業(yè)系統(tǒng)。正如《自然》期刊論文中詳細闡述的，其技術(shù)優(yōu)勢源于以下幾方面的針對性改進：

專業(yè)化訓練數(shù)據(jù)：在包含海量診斷信息的醫(yī)學文獻數(shù)據(jù)庫中，對基礎(chǔ) LLM 進行定向微調(diào)。
指令適配訓練：通過訓練使模型精準理解并執(zhí)行特定臨床指令，例如生成鑒別診斷列表、拆解推理邏輯鏈條、實現(xiàn)符合醫(yī)療場景的交互式溝通。
基于人類反饋的強化學習（RLHF）：很可能引入臨床醫(yī)生的專業(yè)反饋數(shù)據(jù)，對模型輸出進行迭代優(yōu)化，使其結(jié)果更趨精準、安全且貼合臨床需求。
推理增強技術(shù)：采用特定算法強化模型在癥狀、病史與潛在疾病間建立邏輯關(guān)聯(lián)的能力，這一技術(shù)路徑與谷歌 Gemini 2.5 Pro 等強大的推理模型具有相似性。

值得注意的是，根據(jù)論文數(shù)據(jù)，AMIE 在自動評估環(huán)節(jié)優(yōu)于 GPT-4，證明了其專業(yè)領(lǐng)域優(yōu)化的價值。但遺憾的是，論文未將 AMIE 與其他通用大語言模型（包括谷歌自研的 Gemini 2.5 Pro 等 “智能” 模型）進行橫向?qū)Ρ?—— 這一缺失令人費解，甚至讓人對論文審稿環(huán)節(jié)的嚴謹性產(chǎn)生疑問。

另一個關(guān)鍵特性在于，AMIE 支持交互式診療輔助模式。臨床醫(yī)生可通過實時提問深入探究模型的推理依據(jù) —— 這一設(shè)計與傳統(tǒng)靜態(tài)診斷系統(tǒng)形成了本質(zhì)差異。

如何進行診斷效果評估？

衡量診斷的性能和準確性并非易事，這或許會引起有數(shù)據(jù)科學背景讀者的興趣。在這項研究中，研究人員沒有單純評估 AMIE 的表現(xiàn)。他們采用隨機對照的方法，將 AMIE 與三組醫(yī)生進行對比：第一組是未借助任何輔助工具的醫(yī)生；第二組是使用標準搜索工具（如谷歌、PubMed 等）的醫(yī)生；第三組是由 AMIE 輔助的醫(yī)生（這組醫(yī)生也能使用搜索工具，但使用頻率較低）。

研究人員對數(shù)據(jù)的分析也沒有局限于簡單的準確率。他們運用了多項指標，其中最關(guān)鍵的是“前 n 位準確率”（Top-n accuracy），即判斷正確診斷是否出現(xiàn)在 AMIE 給出的前 1 個、前 3 個、前 5 個或前 10 個可能性中。此外，還有“質(zhì)量分數(shù)”（用于評估診斷列表與最終診斷的接近程度）、“適當性”和“全面性”——后兩個指標由不了解診斷列表來源的獨立?？漆t(yī)生進行評分。

這種全面的評估方式，比單純依靠一個準確率數(shù)值更能反映實際情況。通過與醫(yī)生獨立診斷及使用常規(guī)工具的情況進行對比，也能更準確地衡量 AI 在實際應用中帶來的價值。

為什么 AI 在診斷方面表現(xiàn)如此出色？

與其他專業(yè)醫(yī)療 AI 一樣，AMIE 同樣基于海量醫(yī)學文獻、病例研究和臨床數(shù)據(jù)完成訓練。這類系統(tǒng)不僅能夠處理復雜醫(yī)學信息、識別潛在規(guī)律，更在罕見病檢索能力上展現(xiàn)出顯著優(yōu)勢 —— 其響應速度與信息覆蓋廣度遠超人類大腦，后者往往需要同時處理多重臨床任務。值得注意的是，AMIE 針對醫(yī)生診斷的邏輯推理過程進行了專項優(yōu)化，這一特性雖與其他推理模型存在相似性，但其應用場景被高度聚焦于臨床診斷領(lǐng)域。

在研究選取的 “診斷難題”（案例均源自權(quán)威的《新英格蘭醫(yī)學雜志》）中，AMIE 能夠不帶人類常見認知偏見地遍歷所有可能性，這或許是其核心優(yōu)勢之一。正如社交媒體上針對該論文的評論所指出：AI 不僅在常規(guī)病例中表現(xiàn)穩(wěn)定，更在極具挑戰(zhàn)性的復雜病例中展現(xiàn)出突破能力，這無疑是其技術(shù)價值的重要體現(xiàn)。

AI 獨立診斷 vs. AI + 醫(yī)生協(xié)作

研究中一個值得探討的現(xiàn)象是：AMIE 獨立診斷時的表現(xiàn)略微優(yōu)于有 AMIE 輔助的醫(yī)生，這一結(jié)果初看令人困惑。從理論而言，將經(jīng)驗豐富的臨床判斷與 AI 的數(shù)據(jù)分析能力相結(jié)合，本應實現(xiàn)更優(yōu)診斷效能（既往研究亦證實此點）。事實上，有 AMIE 輔助的醫(yī)生群體確實顯著優(yōu)于無 AI 輔助的醫(yī)生，其給出的診斷列表更全面、更精準。但有趣的是，AMIE 獨立運行時的表現(xiàn)竟小幅超越其輔助人類的場景。

為何在本次研究中 AI 獨立診斷略占優(yōu)勢？部分醫(yī)學專家在社交媒體分析指出，這一細微差異未必意味著醫(yī)生對 AI 形成 “拖累”，更可能源于醫(yī)生對 AI 系統(tǒng)的操作尚不熟練，尚未建立高效的人機協(xié)作模式導致的。畢竟，AI 在特定任務的純數(shù)據(jù)分析能力上本就具備天然優(yōu)勢，這與人類日常使用大語言模型時未必能實現(xiàn)完美配合的邏輯相似。

這種現(xiàn)象類似于人類剛開始使用大語言模型時的情況：醫(yī)生可能受到'錨定偏見'的影響，固守原有思維模式，或者還不熟悉如何向 AI 提問來獲取關(guān)鍵信息。本質(zhì)上，這是一種全新的人機協(xié)作范式，需要醫(yī)患雙方共同探索磨合。

AI 未來會取代醫(yī)生嗎？

答案顯然是否定的。理解 AI 的技術(shù)局限性至關(guān)重要：

“診斷難題” 與真實診療場景的差異 現(xiàn)有研究基于書面病例報告展開，這類信息經(jīng)過濃縮與結(jié)構(gòu)化處理，與臨床實踐中醫(yī)生通過醫(yī)患互動獲取的原始信息截然不同。真實醫(yī)療場景涵蓋病史采集、體格檢查、非語言信號解讀、醫(yī)患信任建立及全流程治療管理 —— 這些能力（至少在當前階段）仍屬 AI 的技術(shù)盲區(qū)。醫(yī)學的核心不僅是數(shù)據(jù)處理，更包含人際連接、同理心及不確定性管理，例如安慰劑效應、幻肢痛診療等復雜臨床現(xiàn)象均難以被算法完全模擬。
AI 的內(nèi)在缺陷 大語言模型仍存在 “幻覺” 風險，可能輸出看似合理但實際錯誤的信息。即便 AMIE 未來投入臨床應用（目前尚未達到這一階段），其運行仍需資深專業(yè)人員的全程監(jiān)督。
診斷環(huán)節(jié)的局限性 生成鑒別診斷列表僅是診療流程的起點。完整的醫(yī)療服務包含病情評估、治療決策、患者教育、隨訪管理等多個環(huán)節(jié)，這些領(lǐng)域不僅超出當前專業(yè) AI 的能力范圍，更因涉及人文關(guān)懷與動態(tài)判斷而難以被技術(shù)完全替代。

緊隨其后：邁向?qū)υ捠皆\斷 AI

更值得關(guān)注的是，在同一期《自然》雜志中，繼 AMIE 論文之后，谷歌研究院同步發(fā)表了另一篇論文！該論文表明，在模擬醫(yī)患診斷對話場景中（而非單純分析癥狀，而是完整模擬患者與醫(yī)生 / AMIE 的真實交互過程），AMIE 的表現(xiàn)再次超越人類醫(yī)生！換言之，首篇論文證實了 AMIE 在客觀診斷層面的優(yōu)勢，而第二篇論文則揭示：該 AI 系統(tǒng)在診斷結(jié)果溝通環(huán)節(jié)（無論是信息傳達質(zhì)量還是共情能力）同樣實現(xiàn)突破。

兩組數(shù)據(jù)差異顯著：在 159 個模擬病例中，參與評估的?？漆t(yī)生在 32 項指標中的 30 項判定 AI 表現(xiàn)優(yōu)于初級保健醫(yī)生；模擬患者群體則在 26 項指標中的 25 項更青睞 AMIE 的溝通方式。

第二篇論文在這里：https://www.nature.com/articles/s41586-025-08866-7

醫(yī)學界應當重視起來了

盡管存在諸多限制，但這項研究及類似研究都釋放出強烈信號：專業(yè) AI 正迅猛發(fā)展，其不僅能增強人類專家的能力，在某些特定任務上甚至已超越人類水平。

醫(yī)學協(xié)會、執(zhí)照管理機構(gòu)、教育機構(gòu)、政策制定者、保險公司，以及每一個可能成為 AI 健康診查對象的人，都需要關(guān)注此事。這一問題必須成為政府優(yōu)先考量的議題。

以 AMIE 及未來類似的 AI 工具為例，它們可協(xié)助醫(yī)生更快速、精準地診斷復雜疾病，進而有望改善患者的治療效果，尤其在醫(yī)療專業(yè)資源匱乏的地區(qū)。這類工具或許還能幫助醫(yī)生快速識別和篩選健康或低風險患者，減輕其工作負擔，使其能夠?qū)⒕杏谔幚砀鼑乐氐牟±?。這一切既可能增加解決復雜健康問題的機會，同時也能降低成本、縮短等待時間。

如同在諸多其他領(lǐng)域一樣，AI 遲早會改變醫(yī)生的角色。未來，AI 或許可承擔更多初步診斷的繁重工作，讓醫(yī)生有更多時間與患者溝通互動、開展復雜決策并制定治療計劃 —— 正如一些人所期待的，這或許還能緩解醫(yī)生因文書工作繁瑣、看診時間緊迫而產(chǎn)生的職業(yè)倦怠。正如有人在社交媒體討論該論文時提及的：并非每個醫(yī)生都愿意一小時看診 4 名甚至更多患者，同時還要完成所有文書工作。

為 AMIE 這類系統(tǒng)的潛在應用做好準備，我們需要制定相應規(guī)則：如何安全、合乎倫理地將這些工具整合到醫(yī)療流程中？如何在確?；颊甙踩耐瑫r避免過度依賴 AI ？若 AI 輔助診斷出現(xiàn)差錯，責任該如何界定？目前，這些問題尚未有明確、統(tǒng)一的答案。

醫(yī)生需要接受培訓，學習如何高效使用這些新工具，了解其優(yōu)勢與局限，并適應這種人機協(xié)作的新模式。這場變革必須讓醫(yī)學專業(yè)人士參與其中，而非將其強加于人。

最后，我們還需思考：如何確保這些強大的工具不會加劇現(xiàn)有的醫(yī)療資源分配不均，反而能助力縮小專業(yè)知識獲取層面的差距？

結(jié)論

我們的目標并非取代醫(yī)生，而是為其賦能。像 AMIE 這樣的 AI 系統(tǒng)，作為知識淵博的助手，具備巨大潛力。無論是在日常醫(yī)療場景中，還是在特殊環(huán)境下（如災區(qū)、疫情期間），甚至在偏遠或極端場景中（如遠洋輪船、太空飛船或外星基地），均可能發(fā)揮重要作用。但要安全有效地釋放這種潛力，需要醫(yī)學界從現(xiàn)在起就以積極、審慎的態(tài)度參與到這項飛速發(fā)展的技術(shù)中來。未來診斷工作很可能采用 AI 輔助模式，因此我們需要及早制定這種合作的規(guī)范和準則，因此，我們必須從今天開始為這種合作制定規(guī)則。

參考文獻

關(guān)于 AMIE 的介紹文章：邁向準確的差異化診斷與大型語言模型

關(guān)于 AMIE 經(jīng)測試患者評估的結(jié)果文章：邁向會話式診斷人工智能

譯者介紹

劉汪洋，51CTO社區(qū)編輯，昵稱：明明如月，一個擁有 5 年開發(fā)經(jīng)驗的某大廠高級 Java 工程師。

原文標題：Google’s New AI System Outperforms Physicians in Complex Diagnoses，作者：Luciano Abriata

責任編輯：姜華來源： 51CTO內(nèi)容精選

大型語言模型 LLM 人工智能

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="ue1ws"><optgroup id="ue1ws"></optgroup></kbd>

<wbr id="ue1ws"><menu id="ue1ws"></menu></wbr>