自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等

發(fā)布于 2025-4-2 00:54
瀏覽
0收藏


AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)

摘要

人工智能通過(guò)大型語(yǔ)言模型(LLMs)顯著改變了醫(yī)療保健領(lǐng)域,尤其在靜態(tài)醫(yī)學(xué)問(wèn)答基準(zhǔn)測(cè)試中表現(xiàn)出色。然而,由于醫(yī)患互動(dòng)的復(fù)雜性,評(píng)估LLMs在現(xiàn)實(shí)世界臨床應(yīng)用的潛力仍然具有挑戰(zhàn)性。為此,我們引入了“人工智能醫(yī)院”這一多智能體框架,模擬醫(yī)生(玩家)與包括患者和檢查員在內(nèi)的非玩家角色(NPCs)之間的動(dòng)態(tài)醫(yī)療互動(dòng)。這種設(shè)置允許在模擬的臨床場(chǎng)景中更實(shí)際地評(píng)估LLMs的表現(xiàn)。我們開(kāi)發(fā)了“多視圖醫(yī)療評(píng)估”(MVME)基準(zhǔn)測(cè)試,利用高質(zhì)量的中文醫(yī)療記錄和多種評(píng)估策略來(lái)量化由LLM驅(qū)動(dòng)的醫(yī)生智能體在癥狀收集、檢查建議和診斷方面的表現(xiàn)。此外,提出了一種爭(zhēng)議解決協(xié)作機(jī)制,通過(guò)迭代討論提升醫(yī)療互動(dòng)能力。盡管有所改進(jìn),當(dāng)前的LLM(包括GPT-4)在多輪互動(dòng)場(chǎng)景中的表現(xiàn)與非互動(dòng)場(chǎng)景相比仍有顯著差距。我們的研究結(jié)果強(qiáng)調(diào)了進(jìn)一步研究的必要性,以縮小這些差距并提高大型語(yǔ)言模型在臨床決策方面的能力。

數(shù)據(jù)、代碼和實(shí)驗(yàn)結(jié)果均在??https://github.com/LibertFan/AI_Hospital??開(kāi)源。

??https://aclanthology.org/2025.coling-main.680/??

AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)

核心速覽

研究背景

  1. 研究問(wèn)題:這篇文章要解決的問(wèn)題是如何評(píng)估大型語(yǔ)言模型(LLMs)在真實(shí)世界臨床診斷中的應(yīng)用潛力。盡管LLMs在靜態(tài)醫(yī)學(xué)問(wèn)答基準(zhǔn)測(cè)試中表現(xiàn)出色,但在動(dòng)態(tài)的醫(yī)患互動(dòng)中仍存在顯著挑戰(zhàn)。
  2. 研究難點(diǎn):該問(wèn)題的研究難點(diǎn)包括:動(dòng)態(tài)診斷過(guò)程涉及多輪互動(dòng),而現(xiàn)有的LLMs在多輪互動(dòng)場(chǎng)景中的表現(xiàn)遠(yuǎn)不如非互動(dòng)場(chǎng)景;LLMs難以通過(guò)互動(dòng)收集全面的患者信息并推薦正確的醫(yī)學(xué)檢查。
  3. 相關(guān)工作:在LLMs應(yīng)用于醫(yī)學(xué)領(lǐng)域之前,已有研究嘗試創(chuàng)建醫(yī)療領(lǐng)域的代理,但這些代理通常缺乏靈活性,難以準(zhǔn)確模擬復(fù)雜的醫(yī)療場(chǎng)景。近年來(lái),隨著LLMs的發(fā)展,其在復(fù)雜任務(wù)解決方面取得了顯著進(jìn)展,但在疾病診斷方面的應(yīng)用仍面臨挑戰(zhàn)。

研究方法

這篇論文提出了AI Hospital框架,用于模擬真實(shí)的動(dòng)態(tài)醫(yī)療互動(dòng),并開(kāi)發(fā)了多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn)來(lái)評(píng)估LLMs在臨床診斷中的表現(xiàn)。具體來(lái)說(shuō):

  1. AI Hospital框架:該框架包括兩個(gè)非玩家角色(NPC):患者和檢查員,以及一個(gè)玩家角色:醫(yī)生。醫(yī)生通過(guò)與患者和檢查員的互動(dòng)來(lái)完成患者的診斷,并生成完整的診斷報(bào)告。
  2. AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  3. 多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn):基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄,評(píng)估LLMs驅(qū)動(dòng)的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。評(píng)估方法包括基于鏈接的自動(dòng)評(píng)估、基于模型的評(píng)估和人工評(píng)估。
  4. 爭(zhēng)議解決協(xié)作機(jī)制:提出了一種協(xié)作機(jī)制,通過(guò)多個(gè)醫(yī)生獨(dú)立診斷同一病例,生成不同的對(duì)話(huà)軌跡和診斷報(bào)告,然后通過(guò)中心代理促進(jìn)有效討論,達(dá)成共識(shí)。

實(shí)驗(yàn)設(shè)計(jì)

  1. 數(shù)據(jù)收集:從iyi.com網(wǎng)站收集了506份高質(zhì)量的醫(yī)療記錄,涵蓋12個(gè)專(zhuān)科、48個(gè)亞專(zhuān)科和多種疾病。AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  2. 實(shí)驗(yàn)設(shè)置:使用多個(gè)醫(yī)生代理,包括GPT-3.5、GPT-4、Wenxin-4和Qwen-Max,隨機(jī)選擇50份病歷樣本,每個(gè)代理生成50輪多輪對(duì)話(huà)軌跡。手動(dòng)標(biāo)注所有指標(biāo)并報(bào)告平均值。
  3. 評(píng)估指標(biāo):包括癥狀收集、檢查建議和診斷等方面的評(píng)估?;阪溄拥脑u(píng)估使用ICD-10標(biāo)準(zhǔn)計(jì)算實(shí)體重疊度;基于模型的評(píng)估使用GPT-4作為評(píng)估器,采用離散評(píng)分系統(tǒng);人工評(píng)估由專(zhuān)業(yè)醫(yī)生進(jìn)行,遵循與GPT-4評(píng)估器相同的評(píng)分標(biāo)準(zhǔn)。

結(jié)果與分析

  1. AI Hospital框架的有效性:實(shí)驗(yàn)結(jié)果表明,AI Hospital框架能夠有效模擬真實(shí)的醫(yī)療互動(dòng),所有指標(biāo)的平均值均超過(guò)95,表明代理行為可靠且一致。
  2. 各種醫(yī)生代理的性能:在多輪互動(dòng)場(chǎng)景中,現(xiàn)有LLMs的表現(xiàn)顯著低于一步GPT-4方法。例如,GPT-4在診斷準(zhǔn)確性、推理和治療計(jì)劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。
  3. AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動(dòng)模擬器中評(píng)估大模型的表現(xiàn) - 阿里、華中科技等-AI.x社區(qū)
  4. 協(xié)作機(jī)制的效果:協(xié)作機(jī)制在一定程度上提高了性能,但仍未能達(dá)到上限。主要原因是醫(yī)生代理未能準(zhǔn)確推薦必要的醫(yī)學(xué)檢查,以及在互動(dòng)過(guò)程中未能詢(xún)問(wèn)關(guān)鍵的相關(guān)癥狀。
  5. 診斷性能與信息完整性的關(guān)系:分析表明,患者信息的完整性越高,診斷質(zhì)量越高。當(dāng)前LLMs難以通過(guò)互動(dòng)動(dòng)態(tài)收集全面的信息,推薦正確的醫(yī)學(xué)檢查也是一個(gè)挑戰(zhàn)。

總體結(jié)論

這篇論文通過(guò)引入AI Hospital框架和多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn),首次系統(tǒng)地評(píng)估了LLMs在模擬醫(yī)療互動(dòng)中的能力。結(jié)果表明,盡管LLMs在靜態(tài)醫(yī)學(xué)問(wèn)答中表現(xiàn)出色,但在動(dòng)態(tài)診斷場(chǎng)景中仍存在顯著局限性。未來(lái)的研究應(yīng)致力于改進(jìn)LLMs的訓(xùn)練,以縮小與人類(lèi)專(zhuān)家在臨床醫(yī)學(xué)中的差距。

論文評(píng)價(jià)

優(yōu)點(diǎn)與創(chuàng)新

  1. 引入AI Hospital框架論文首次提出了基于大型語(yǔ)言模型(LLM)的多代理框架,模擬真實(shí)的醫(yī)療互動(dòng),全面評(píng)估LLM在復(fù)雜臨床場(chǎng)景中的能力。
  2. 建立MVME基準(zhǔn)開(kāi)發(fā)了多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn),利用高質(zhì)量的中文病歷記錄,評(píng)估LLM驅(qū)動(dòng)的醫(yī)生代理在收集癥狀、推薦檢查和診斷方面的表現(xiàn)。
  3. 提出爭(zhēng)議解決協(xié)作機(jī)制提出了一種協(xié)作機(jī)制,通過(guò)迭代討論提高診斷準(zhǔn)確性,展示了LLM在臨床診斷中的應(yīng)用潛力。
  4. 數(shù)據(jù)集可視化與統(tǒng)計(jì)對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)的可視化與統(tǒng)計(jì)分析,展示了數(shù)據(jù)集的多樣性和復(fù)雜性,強(qiáng)調(diào)了醫(yī)生代理在面對(duì)數(shù)百種檢查選項(xiàng)時(shí)需要具備的強(qiáng)大信息收集能力。
  5. 多部門(mén)性能分析分析了不同醫(yī)院部門(mén)的LLM性能,揭示了交互能力與診斷能力之間的正相關(guān)性,強(qiáng)調(diào)了考慮每個(gè)醫(yī)療專(zhuān)業(yè)的特定要求和復(fù)雜性在部署LLM時(shí)的重要性。

不足與反思

  1. 數(shù)據(jù)集局限性數(shù)據(jù)集主要來(lái)源于中文病歷記錄,可能限制了研究結(jié)果的通用性,難以推廣到其他語(yǔ)言和醫(yī)療系統(tǒng)。
  2. 患者代理設(shè)置的影響未探討不同患者背景、文化和偏見(jiàn)對(duì)模型性能的影響。
  3. 外部工具的利用未研究醫(yī)生代理利用外部工具、外部知識(shí)或基于多模態(tài)醫(yī)療信息做出決策的能力。
  4. 資源消耗依賴(lài)大量LLM API進(jìn)行新模型的測(cè)試會(huì)消耗大量資源,并可能增加碳排放。
  5. 框架的復(fù)雜性提出的AI Hospital和協(xié)作機(jī)制基于相對(duì)簡(jiǎn)單的框架,可能未能完全捕捉真實(shí)世界臨床合作的復(fù)雜性,需要在更多樣化和實(shí)際的設(shè)置中進(jìn)一步細(xì)化和驗(yàn)證。

關(guān)鍵問(wèn)題及回答

問(wèn)題1:AI Hospital框架是如何設(shè)計(jì)的,它如何模擬真實(shí)的醫(yī)療互動(dòng)?

AI Hospital框架包括兩個(gè)非玩家角色(NPC):患者和檢查員,以及一個(gè)玩家角色:醫(yī)生。醫(yī)生通過(guò)與患者和檢查員的互動(dòng)來(lái)完成患者的診斷,并生成完整的診斷報(bào)告。具體來(lái)說(shuō),患者代理會(huì)根據(jù)病歷中的基本信息與醫(yī)生進(jìn)行對(duì)話(huà),提供癥狀和既往病史等信息。醫(yī)生則會(huì)根據(jù)這些信息詢(xún)問(wèn)更多的細(xì)節(jié),并建議進(jìn)行必要的醫(yī)學(xué)檢查。檢查員代理會(huì)提供相應(yīng)的檢查結(jié)果,醫(yī)生再根據(jù)這些結(jié)果進(jìn)行診斷,并最終生成診斷報(bào)告。整個(gè)對(duì)話(huà)過(guò)程被限制在預(yù)定的最大回合數(shù)內(nèi),以確保對(duì)話(huà)的結(jié)構(gòu)化和有限性。

問(wèn)題2:多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn)是如何構(gòu)建的,它包括哪些評(píng)估方法?

多視圖醫(yī)學(xué)評(píng)估(MVME)基準(zhǔn)基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄來(lái)評(píng)估LLMs驅(qū)動(dòng)的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。具體評(píng)估方法包括:

  1. 基于鏈接的自動(dòng)評(píng)估計(jì)算診斷結(jié)果部分的實(shí)體重疊度,使用ICD-10標(biāo)準(zhǔn)提取疾病實(shí)體并計(jì)算其重疊度,以衡量最終診斷的準(zhǔn)確性。
  2. 基于模型的評(píng)估使用GPT-4作為評(píng)估器,對(duì)診斷報(bào)告的各個(gè)部分(如癥狀收集、檢查建議、診斷結(jié)果等)進(jìn)行離散評(píng)分,評(píng)分標(biāo)準(zhǔn)為1到4(從差到優(yōu))。
  3. 人工評(píng)估由專(zhuān)業(yè)醫(yī)生進(jìn)行,遵循與GPT-4評(píng)估器相同的評(píng)分標(biāo)準(zhǔn),對(duì)診斷報(bào)告的各個(gè)方面進(jìn)行詳細(xì)評(píng)估。

問(wèn)題3:實(shí)驗(yàn)結(jié)果表明LLMs在多輪互動(dòng)場(chǎng)景中的表現(xiàn)如何,與一步GPT-4方法相比有哪些差距?

實(shí)驗(yàn)結(jié)果表明,現(xiàn)有LLMs在多輪互動(dòng)場(chǎng)景中的表現(xiàn)顯著低于一步GPT-4方法。具體來(lái)說(shuō),GPT-4在診斷準(zhǔn)確性、推理和治療計(jì)劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。這表明LLMs在動(dòng)態(tài)診斷場(chǎng)景中仍存在顯著局限性,難以通過(guò)互動(dòng)收集全面的患者信息并推薦正確的醫(yī)學(xué)檢查。此外,協(xié)作機(jī)制雖然在一定程度上提高了性能,但仍未能達(dá)到上限,主要原因是醫(yī)生代理未能準(zhǔn)確推薦必要的醫(yī)學(xué)檢查,以及在互動(dòng)過(guò)程中未能詢(xún)問(wèn)關(guān)鍵的相關(guān)癥狀。

本文轉(zhuǎn)載自??知識(shí)圖譜科技??,作者:Wolfgang

已于2025-4-2 09:57:46修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦