自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等

發(fā)布于 2025-2-4 17:53
瀏覽
0收藏

知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等-AI.x社區(qū)

摘要

生成式大型語言模型(LLMs)通過實現(xiàn)快速、類人的文本生成改變了人工智能領(lǐng)域,但它們面臨挑戰(zhàn),包括管理不準(zhǔn)確的信息生成。諸如提示工程、檢索增強(qiáng)生成(RAG)以及整合特定領(lǐng)域知識圖譜(KGs)等策略旨在解決這些問題。然而,尤其是在通過Web API使用封閉訪問LLM的開發(fā)者中,實現(xiàn)實驗的管理、可重復(fù)性和驗證所需水平仍存在挑戰(zhàn),這增加了與外部工具集成的復(fù)雜性。為解決這一問題,我們正在探索一種軟件架構(gòu),通過優(yōu)先考慮靈活性和可追溯性來增強(qiáng)LLM工作流程,同時促進(jìn)更準(zhǔn)確和可解釋的輸出。我們描述了我們采用的方法,并提供了一個營養(yǎng)案例研究,展示了其將大型語言模型(LLMs)與RAG和知識圖譜(KGs)整合以獲得更強(qiáng)大AI解決方案的能力。

LLM experimentation through knowledge graphs: Towards improved management, repeatability, and verification - ScienceDirect

??https://www.sciencedirect.com/science/article/pii/S1570826824000398??

核心速覽

研究背景

  1. 研究問題:這篇文章要解決的問題是如何通過知識圖譜(Knowledge Graphs, KGs)和檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)來改進(jìn)大型語言模型(LLMs)的管理、可重復(fù)性和驗證。LLMs在生成類似人類的文本方面取得了顯著進(jìn)展,但面臨著生成不準(zhǔn)確信息的挑戰(zhàn)。
  2. 研究難點(diǎn):該問題的研究難點(diǎn)包括:實現(xiàn)LLMs實驗的管理、可重復(fù)性和驗證的期望水平,特別是對于通過Web API使用封閉訪問LLMs的開發(fā)者,這簡化了與外部工具的集成。
  3. 相關(guān)工作:該問題的研究相關(guān)工作包括:prompt工程、RAG框架和基于權(quán)威領(lǐng)域本體的知識圖譜(KGs)的使用?,F(xiàn)有的RAG框架旨在緩解LLMs響應(yīng)中的幻覺和過時知識或缺失信息的問題。KGs作為結(jié)構(gòu)化的外部信息源,已被用于增強(qiáng)LLMs的可靠性和可解釋性。

研究方法

這篇論文提出了一種軟件架構(gòu),用于增強(qiáng)LLMs的工作流程,優(yōu)先考慮靈活性、可追溯性和可重復(fù)性,同時促進(jìn)更準(zhǔn)確和可解釋的輸出。具體來說,

  • 靈活性和可追溯性:ChatBS-NexGen架構(gòu)允許用戶交互式地定制和組合高級提示策略,而無需編程知識。通過直觀的界面,用戶可以輕松配置提示策略(如少樣本學(xué)習(xí)、思維鏈、驗證鏈)、動態(tài)槽位的信息告知系統(tǒng)和用戶提示,以及輸入數(shù)據(jù)集。此外,還包括設(shè)置模型溫度、提示重新提交次數(shù)和選擇不同的LLMs等選項。所有這些特性共同促進(jìn)了LLMs實驗的靈活性。
    知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等-AI.x社區(qū)
  • RAG和KG增強(qiáng)的LLMs實驗:評估模塊旨在通過將LLMs的主要實體與領(lǐng)域知識圖譜或開放網(wǎng)絡(luò)連接起來,進(jìn)行驗證、基準(zhǔn)測試和專家分析。實驗使用的KG平臺是Whyis,一個下一代的、具有動態(tài)代理交互的有知覺黑板架構(gòu)。評估模塊包括子模塊用于實體識別和構(gòu)建標(biāo)記實體圖,利用Whyis的高級功能,使跨多個LLMs和單個LLMs的多次重新提交的響應(yīng)之間的比較成為可能。
  • 營養(yǎng)案例研究:使用一個包含100名患者數(shù)據(jù)的食品和營養(yǎng)領(lǐng)域的數(shù)據(jù)集進(jìn)行實驗。目標(biāo)是評估LLMs生成的飲食建議的適用性,考慮到個人因素如性別、年齡、性別、體重、健康指標(biāo)、慢性疾病診斷以及飲食限制和偏好。

實驗設(shè)計

  • 數(shù)據(jù)收集:實驗使用了包含100名患者數(shù)據(jù)的食品和營養(yǎng)領(lǐng)域的數(shù)據(jù)集。每個患者的個人信息包括性別、年齡、性別、體重、健康指標(biāo)、慢性疾病診斷、飲食限制和偏好等。
  • 實驗設(shè)計:在典型的測試運(yùn)行中,用戶(營養(yǎng)研究組的成員)使用ChatBS-NexGen用戶界面輸入以下信息和選擇數(shù)據(jù)源:提示策略、LLMs、提示重新提交次數(shù)、KG鏈接等。然后,ChatBS-NexGen執(zhí)行提示設(shè)計子模塊,實例化100個提示并提交給選定的LLMs。提交控制器子模塊提交(并重新提交10次)每個實例化的提示,接收其響應(yīng)并將其傳遞給評估步驟。
  • 樣本選擇:選擇了100名患者的數(shù)據(jù)進(jìn)行實驗,每個患者的提示實例化和重新提交10次。
  • 參數(shù)配置:用戶可以選擇不同的提示策略(如少樣本學(xué)習(xí)、思維鏈、驗證鏈)、LLMs(如GPT-4o mini和Llama 3.1-8B)、提示重新提交次數(shù)等。

結(jié)果與分析

  • 驗證結(jié)果:在100名患者的實驗中,LLMs推薦了483種不同的食物類型,其中178種(36.8%)可以通過FoodKG進(jìn)行驗證。對于30名糖尿病患者,LLMs推薦了260種不同的食物類型,其中123種(47.3%)可以通過FoodKG進(jìn)行驗證。
  • 高GI食物的推薦:在推薦的10種高GI(≥50)食物中,LLMs對糖尿病患者提出了不同的建議。例如,Llama 3.1向10名糖尿病患者推薦了“蜂蜜”,占糖尿病患者的33%,而GPT-4o mini推薦了“菠蘿”,占30%。
    知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等-AI.x社區(qū)
  • 響應(yīng)一致性:通過計算不同LLMs和同一LLMs的多次響應(yīng)之間的Jaccard相似系數(shù),發(fā)現(xiàn)不同LLMs之間以及同一LLMs的不同響應(yīng)之間的一致性較低。例如,GPT-4o mini對同一患者的10個響應(yīng)之間的Jaccard相似系數(shù)為0.05,表明只有5%的食物在所有響應(yīng)中被共享。

    知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等-AI.x社區(qū)

知識圖譜增強(qiáng)營養(yǎng)健康大模型:邁向改進(jìn)的管理、可重復(fù)性和驗證 - RPI等-AI.x社區(qū)

總體結(jié)論

這篇論文提出了一種新的架構(gòu)ChatBS-NexGen,用于改進(jìn)LLMs實驗的管理、可重復(fù)性和驗證。通過結(jié)合RAG和KGs,該架構(gòu)能夠提供更準(zhǔn)確和可解釋的輸出,并通過詳細(xì)的日志記錄確保實驗的可追溯性。未來的研究方向包括支持多模態(tài)輸入輸出、自動提示策略、與XAI框架的集成、邏輯一致性驗證器和對抗場景模擬器等。

論文評價

優(yōu)點(diǎn)與創(chuàng)新

  1. 靈活的架構(gòu)設(shè)計:ChatBS-NexGen架構(gòu)通過直觀的界面和模塊化的設(shè)計,支持多種提示策略、不同的LLM架構(gòu)、數(shù)據(jù)輸入和實驗設(shè)置,確保了實驗的靈活性。
  2. 可追溯性:整個實驗過程被詳細(xì)記錄,包括時間戳、提示數(shù)據(jù)、模型版本、響應(yīng)元數(shù)據(jù)等,確保了實驗的可追溯性。
  3. 重復(fù)性控制:通過日志記錄和多次執(zhí)行,可以重現(xiàn)相同的實驗條件,評估LLMs響應(yīng)的變化,增強(qiáng)了實驗的重復(fù)性。
  4. RAG和KG集成:該架構(gòu)支持檢索增強(qiáng)生成(RAG)和知識圖譜(KG)的集成,顯著提高了響應(yīng)的驗證性和解釋能力。
  5. 營養(yǎng)案例研究:通過真實的醫(yī)療項目案例,展示了該架構(gòu)在實際應(yīng)用中的潛力,特別是在處理LLMs生成的飲食建議時,能夠識別不適當(dāng)?shù)耐扑]和高變異性。
  6. 多模型支持:支持多種LLMs的交互和評估,增強(qiáng)了平臺的通用性和實用性。

不足與反思

  1. 知識圖譜的局限性:在應(yīng)用領(lǐng)域中,知識圖譜的數(shù)據(jù)不完整和查詢構(gòu)建的復(fù)雜性是主要限制因素。許多知識圖譜缺乏關(guān)鍵屬性或完全缺失,限制了其在詳細(xì)和可靠分析中的應(yīng)用。
  2. 標(biāo)準(zhǔn)化本體的重要性:采用標(biāo)準(zhǔn)化和權(quán)威本體對于增強(qiáng)不同系統(tǒng)之間的互操作性至關(guān)重要。需要開發(fā)方法將詳細(xì)的溯源元數(shù)據(jù)嵌入知識圖譜中,并展示其在提高可靠性和實用性方面的應(yīng)用。
  3. 查詢機(jī)制的改進(jìn):需要改進(jìn)知識圖譜查詢機(jī)制,簡化領(lǐng)域特定數(shù)據(jù)的檢索過程,以便用戶更容易使用。
  4. 未來研究方向:包括支持多模態(tài)輸入輸出、引入自動提示策略、通過與XAI框架集成提供高級解釋能力、整合邏輯一致性驗證器和對抗場景模擬器、動態(tài)集成多樣化指標(biāo)進(jìn)行上下文評估、關(guān)注安全驗證和偏見緩解等方面的工作。

關(guān)鍵問題及回答

問題1:ChatBS-NexGen架構(gòu)如何實現(xiàn)LLMs實驗的靈活性和可追溯性?

ChatBS-NexGen架構(gòu)通過以下方式實現(xiàn)LLMs實驗的靈活性和可追溯性:

  1. 靈活性:用戶可以通過直觀的界面交互式地定制和組合高級提示策略,如少樣本學(xué)習(xí)、思維鏈(CoT)、驗證鏈等。用戶還可以輸入動態(tài)槽位和相應(yīng)的數(shù)據(jù)集,并設(shè)置模型溫度、提示重提交次數(shù)和選擇不同的LLMs。這些功能使得平臺能夠適應(yīng)多樣化的實驗要求和用例。
  2. 可追溯性:整個實驗過程被詳細(xì)記錄,包括時間戳、輸入提示、模型版本、響應(yīng)元數(shù)據(jù)、實驗參數(shù)和外部集成等信息。這些日志確保了每一步驟都可以被追蹤和審計,從而提高了實驗的透明度和可重復(fù)性。

問題2:在營養(yǎng)案例研究中,ChatBS-NexGen如何利用知識圖譜(KGs)驗證LLMs生成的飲食建議?

  1. 實體識別:首先,ChatBS-NexGen識別出LLMs響應(yīng)中的食物名稱。
  2. 鏈接到KG:然后,將這些食物名稱鏈接到FoodKG和WhatToMake本體。FoodKG包含了食物的詳細(xì)信息,如血糖指數(shù)(GI),這些信息用于驗證LLMs的建議是否適合特定的健康狀況。
  3. 驗證和分析:通過比對FoodKG中的信息,ChatBS-NexGen能夠驗證LLMs推薦的食物是否合適。例如,對于糖尿病患者,系統(tǒng)可以檢查推薦食物的高GI值,并提供相應(yīng)的反饋。

問題3:ChatBS-NexGen在處理LLMs響應(yīng)的相似性分析時采用了哪些方法?這些方法揭示了什么?

ChatBS-NexGen采用了兩種方法來分析LLMs響應(yīng)的相似性:

  1. 跨LLMs比較:通過計算不同LLMs(如Llama-3.1和GPT-4o mini)之間響應(yīng)的Jaccard相似系數(shù),來比較它們對同一患者的推薦結(jié)果。例如,Llama-3.1和GPT-4o mini對同一患者推薦的食品覆蓋范圍分別為42%和39%。
  2. 同一LLMs內(nèi)部比較:通過計算同一LLMs(如GPT-4o mini)多次響應(yīng)之間的Jaccard相似系數(shù),來評估其一致性。例如,GPT-4o mini對同一患者生成的10個響應(yīng)的Jaccard相似系數(shù)為0.05,表明不同響應(yīng)之間的一致性很低,推薦結(jié)果存在顯著差異。

這些方法揭示了LLMs在生成推薦時存在的高變異性和一致性挑戰(zhàn),強(qiáng)調(diào)了在管理和驗證LLMs響應(yīng)時需要更多的自動化和結(jié)構(gòu)化工具。

本文轉(zhuǎn)載自 ??知識圖譜科技??,作者:KGGPT

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦