自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="d6lwf"></sub>

<cite id="d6lwf"></cite>

<blockquote id="d6lwf"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？原創(chuàng)

發(fā)布于 2025-4-9 12:17

瀏覽

0收藏

本篇分享RAG與long context結(jié)合的實(shí)踐方案。

本篇始于一個(gè)老生常談的話題，“一旦大模型的Context Length變大，RAG還有沒有存活的必要？”

RAG主要通過問題從知識(shí)庫中找相關(guān)答案，然后把檢索到的內(nèi)容再用大模型總結(jié)；Long context相當(dāng)于把全部文本內(nèi)容輸入給大模型，利用大模型查找或總結(jié)。

這兩者評(píng)估的維度包括成本、是否使模型變得更智能、是否可以混合檢索和推理、是否可以緩存、推理時(shí)間等等。

其實(shí)兩者之爭也相當(dāng)于左右手之爭，最近在工作場景中遇到越來越多兩者不同的場景，本篇就來分享一下目前是如何結(jié)合兩種方法。

下面是一個(gè)具體示例。

目前有5M token量級(jí)的私有化醫(yī)療知識(shí)庫，需要搭建智能問診系統(tǒng)，如何巧妙結(jié)合RAG與Long context設(shè)計(jì)你的最優(yōu)方案？

1. 思路

首先來梳理一下需求：醫(yī)療場景對(duì)準(zhǔn)確性要求非常高，另外知識(shí)更新頻繁，并且需要處理病史、檢查報(bào)告等長文本。

那么現(xiàn)在來分析一下這兩種技術(shù)起到的作用：

RAG優(yōu)勢：可以精準(zhǔn)定位最新知識(shí)，降低幻覺風(fēng)險(xiǎn)
Long context優(yōu)勢：可以結(jié)合推理理解復(fù)雜癥狀關(guān)聯(lián)，處理多輪對(duì)話上下文

另外基于現(xiàn)狀進(jìn)行分析，首先如果只用LLM，5M token的文檔全量輸入LLM從哪個(gè)角度考慮都是不現(xiàn)實(shí)的，成本高，性能還差；如果單純使用RAG又可能遺漏跨文檔關(guān)聯(lián)推理。

2. 方案

首先設(shè)計(jì)一個(gè)動(dòng)態(tài)路由層，主要需要做三件事，包括相關(guān)文檔查找，潛在文檔關(guān)聯(lián)以及深度語義關(guān)聯(lián)。

第一層：相關(guān)文檔查找

基于輕量級(jí)Embedding模型快速檢索，篩選Top5相關(guān)文檔，這里還有一些顯得比較專業(yè)的trick，比如Embedding模型是如何選擇的？BAAI or bge-small？是否合理？有沒有做query rewriting？等等。

第二層：潛在文檔關(guān)聯(lián)

可以構(gòu)建文檔關(guān)系圖譜，通過Graph RAG識(shí)別潛在關(guān)聯(lián)文檔；也可以自建一個(gè)知識(shí)圖譜架構(gòu)進(jìn)行識(shí)別。

第三層：深度語義關(guān)聯(lián)

對(duì)精選的3-5份文檔使用Long context窗口進(jìn)行深度語義關(guān)聯(lián)分析。

另外建立緩存也是必須的，緩存優(yōu)化策略包括直接建立癥狀-診斷pair的向量緩存庫，長尾查詢，動(dòng)態(tài)模型切換等等。

更精細(xì)的調(diào)整還包括：

漸進(jìn)式的上下文注入：首次響應(yīng)的時(shí)候使用RAG精準(zhǔn)片段和關(guān)鍵元數(shù)據(jù)，在追問階段采用滑動(dòng)窗口機(jī)制（不無限制增加上下文，需要保留最相關(guān)的部分），逐步注入關(guān)聯(lián)文檔的全文。
多重驗(yàn)證：使用輸出結(jié)果反向檢索知識(shí)庫，進(jìn)行實(shí)時(shí)校驗(yàn)；后期構(gòu)建診斷邏輯鏈的可視化追溯校驗(yàn)。

從上面的步驟基本可以完成整個(gè)方案的設(shè)計(jì)，如果更細(xì)節(jié)的話面試官可能會(huì)讓寫一個(gè)動(dòng)態(tài)路由的代碼，下面是一個(gè)示例

class MedicalReasoner:
    def __init__(self):
        self.retriever = HybridRetriever(knowledge_graph)  # 結(jié)合向量+圖檢索
        self.llm = MedPaLM(chunk_size=8192)  # 定制醫(yī)療長文本處理模型
    def diagnose(self, query):
        # 階段1：精準(zhǔn)檢索
        base_docs = self.retriever.search(query)  
        # 階段2：上下文增強(qiáng)
        extended_context = self._expand_context(base_docs)  
        # 階段3：長文本推理
        return self.llm.generate(
            prompt=build_prompt(query, extended_context),
            max_tokens=2048
        )

最后如果還需要更深度的表達(dá)，還有一些細(xì)節(jié)內(nèi)容可以去潤色，比如：

建立快速檢索的過程中，用fasis進(jìn)行索引還是自研了召回機(jī)制，采用了什么壓縮策略？如何評(píng)估召回好不好？有沒有對(duì)RAG prompt進(jìn)行優(yōu)化，進(jìn)行引導(dǎo)式摘要、多段拼接、answer-aware檢索等等...

文轉(zhuǎn)載自公眾號(hào)，作者：喜歡瓦力的卷卷

原文鏈接：???https://mp.weixin.qq.com/s/LLipYnSBWC-I0dC_ZZS3UA???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

RAG 開發(fā)四大痛點(diǎn)及解決方案

玄姐聊AGI ? 2590瀏覽 ? 0回復(fù)
NL2SQL：基于LLM的解決方案是最好的嗎？

大語言模型論文跟蹤 ? 5173瀏覽 ? 0回復(fù)
微軟：RAG并不是你唯一的解決方案！

PaperAgent ? 2588瀏覽 ? 0回復(fù)
大模型面經(jīng)——以醫(yī)療領(lǐng)域?yàn)槔?em>RAG基礎(chǔ)與實(shí)際應(yīng)用中的痛點(diǎn)

shizhi02 ? 2616瀏覽 ? 0回復(fù)
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2431瀏覽 ? 0回復(fù)
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2003瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2424瀏覽 ? 0回復(fù)
大模型面經(jīng)—RAG工程實(shí)踐經(jīng)驗(yàn)總結(jié)

shizhi02 ? 2234瀏覽 ? 0回復(fù)
大模型面經(jīng)—分布式訓(xùn)練指南

shizhi02 ? 1929瀏覽 ? 0回復(fù)
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 2266瀏覽 ? 0回復(fù)
大模型面經(jīng)—如何評(píng)估顯卡利用率及顯卡運(yùn)用優(yōu)化方法

shizhi02 ? 2465瀏覽 ? 0回復(fù)
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓(xùn)練數(shù)據(jù)的來源、版權(quán)與地域差異

sbf_2000 ? 2001瀏覽 ? 0回復(fù)
TAG：定義自然語言查詢的高效解決方案

51CTO內(nèi)容精選 ? 2567瀏覽 ? 0回復(fù)
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1889瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2206瀏覽 ? 0回復(fù)
近期Ollama未授權(quán)訪問漏洞Nginx反向代理解決方案

V0ne ? 1729瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 514瀏覽 ? 0回復(fù)
關(guān)于個(gè)人的創(chuàng)業(yè)想法——基于人工智能技術(shù)在垂直領(lǐng)域解決方案的探索

AI探索時(shí)代 ? 418瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時(shí)代 ? 200瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布
大模型調(diào)參技巧—如何實(shí)現(xiàn)超參的跨模型尺度遷移 2025-03-17 13:07:44發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ZeroHSI-一種零樣本的四維人類-場景交互合成方法

社區(qū)精華內(nèi)容

目錄

<blockquote id="qbas1"><p id="qbas1"></p></blockquote>

<thead id="qbas1"><rt id="qbas1"></rt></thead><style id="qbas1"></style><cite id="qbas1"><rp id="qbas1"><form id="qbas1"></form></rp></cite>