自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="bvmgv"><p id="bvmgv"><li id="bvmgv"></li></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

微軟：RAG并不是你唯一的解決方案！

發(fā)布于 2024-9-25 12:56

瀏覽

0收藏

將外部數(shù)據(jù)整合到LLMs中的技術(shù)，如檢索增強(qiáng)生成（RAG）和微調(diào)，得到廣泛應(yīng)用，但在不同專業(yè)領(lǐng)域有效部署數(shù)據(jù)增強(qiáng)LLMs面臨著重大挑戰(zhàn)：

從檢索相關(guān)數(shù)據(jù)和準(zhǔn)確解釋用戶意圖到充分利用LLMs的推理能力來處理復(fù)雜任務(wù)
對(duì)于數(shù)據(jù)增強(qiáng)LLM應(yīng)用來說，沒有一種放之四海而皆準(zhǔn)的解決方案。
應(yīng)用落地性能不佳往往是由于未能正確識(shí)別任務(wù)的核心焦點(diǎn)，或者任務(wù)本身就需要多種能力結(jié)合，必須被分離出來以獲得更好解決方案。

數(shù)據(jù)增強(qiáng)LLM應(yīng)用中不同查詢層次的主要技術(shù)總結(jié)?

微軟亞洲研究院（MSRA）提出了一種RAG任務(wù)分類方法，根據(jù)所需的外部數(shù)據(jù)類型和任務(wù)的主要焦點(diǎn)，將用戶查詢分為四個(gè)層次：

顯式事實(shí)查詢（Level-1）：直接從數(shù)據(jù)中檢索明確的事實(shí)。
隱式事實(shí)查詢（Level-2）：需要推理或整合數(shù)據(jù)中的隱含信息。
可解釋推理查詢（Level-3）：需要理解并應(yīng)用領(lǐng)域特定的理由和邏輯。
隱式推理查詢（Level-4）：需要從數(shù)據(jù)中推斷出隱含的推理邏輯。?

四個(gè)層次查詢的主要焦點(diǎn)?

微軟：RAG并不是你唯一的解決方案！-AI.x社區(qū)

同時(shí)，也將外部數(shù)據(jù)整合到LLMs中的形式歸為三種：上下文、小型模型和微調(diào)，強(qiáng)調(diào)了它們各自的優(yōu)勢(shì)、局限性以及它們適合解決的問題類型。

將特定領(lǐng)域數(shù)據(jù)注入到大型語言模型（LLM）的三種方式：a) 根據(jù)查詢提取部分領(lǐng)域數(shù)據(jù)作為LLM的上下文輸入，b) 用特定領(lǐng)域數(shù)據(jù)訓(xùn)練一個(gè)較小的模型，然后指導(dǎo)后續(xù)輸入到LLM的外部信息的整合，以及 c) 直接使用外部領(lǐng)域知識(shí)對(duì)通用的大型語言模型進(jìn)行微調(diào)，使其成為領(lǐng)域?qū)＜夷Ｐ汀?/p>

微軟：RAG并不是你唯一的解決方案！-AI.x社區(qū)

L1：顯式事實(shí)查詢

定義：

顯式事實(shí)查詢（L1）是最簡單的數(shù)據(jù)增強(qiáng)查詢類型，可以直接通過訪問特定領(lǐng)域的文檔或文檔片段來回答。
答案通常在文檔的純文本中，需要最小的推理或簡單的邏輯。

提供事實(shí)信息的常見數(shù)據(jù)集分層

微軟：RAG并不是你唯一的解決方案！-AI.x社區(qū)

挑戰(zhàn)：

數(shù)據(jù)處理困難：外部數(shù)據(jù)通常是高度非結(jié)構(gòu)化的，包含多種模式（如表格、圖像、視頻等），處理這些數(shù)據(jù)時(shí)保持原始上下文和意義是一個(gè)挑戰(zhàn)。
數(shù)據(jù)檢索困難：從大型非結(jié)構(gòu)化數(shù)據(jù)集中檢索相關(guān)數(shù)據(jù)段計(jì)算密集且容易出錯(cuò)。
評(píng)估困難：評(píng)估RAG系統(tǒng)的性能，尤其是在組件級(jí)別，需要開發(fā)能夠準(zhǔn)確評(píng)估數(shù)據(jù)檢索和響應(yīng)生成質(zhì)量的穩(wěn)健指標(biāo)。

解決方案：

數(shù)據(jù)預(yù)處理增強(qiáng)：包括文檔解析和多模態(tài)文檔解析，將非文本內(nèi)容轉(zhuǎn)換為文本形式或使用多模態(tài)嵌入技術(shù)。
數(shù)據(jù)檢索增強(qiáng)：使用信息檢索（IR）技術(shù)，包括建立數(shù)據(jù)索引、處理查詢、檢索和匹配、重新排序和評(píng)估。
檢索增強(qiáng)生成（RAG）：結(jié)合了LLMs的生成能力和從大量數(shù)據(jù)庫或文檔中檢索信息的能力。

三種查詢-文檔對(duì)齊類型

微軟：RAG并不是你唯一的解決方案！-AI.x社區(qū)

關(guān)鍵點(diǎn)：

顯式事實(shí)查詢依賴于直接從特定數(shù)據(jù)段中檢索答案，不需要復(fù)雜的推理。
RAG是處理這類查詢的常用技術(shù)解決方案，它通過動(dòng)態(tài)檢索外部信息來增強(qiáng)語言模型的自然語言生成能力。
盡管RAG非常有效，但在構(gòu)建一個(gè)健壯和高質(zhì)量的系統(tǒng)時(shí)仍面臨重大挑戰(zhàn)。?

L2：隱式事實(shí)查詢

定義：

隱式事實(shí)查詢涉及的數(shù)據(jù)依賴性并不直接明顯，可能需要一些常識(shí)推理或基本邏輯推理。
所需信息可能分散在多個(gè)文檔中，或者需要從數(shù)據(jù)集中收集和處理多個(gè)事實(shí)簡單的推理，然后通過常識(shí)推理將這些事實(shí)結(jié)合起來得出答案。?

挑戰(zhàn)：

自適應(yīng)檢索量：不同的問題可能需要不同數(shù)量的檢索上下文，固定數(shù)量的檢索可能造成信息噪聲過多或信息不足。
推理與檢索的協(xié)調(diào)：推理可以指導(dǎo)需要檢索的內(nèi)容，而檢索到的信息可以迭代地細(xì)化推理策略。

解決方案：

迭代RAG：類似于多跳RAG任務(wù)的方法，動(dòng)態(tài)控制多步驟RAG過程，直到獲得正確答案。
基于規(guī)劃的：在檢索前階段生成逐步檢索計(jì)劃，或者在檢索過程中動(dòng)態(tài)生成，以精細(xì)化每次檢索的焦點(diǎn)。
信息差填補(bǔ)：基于現(xiàn)有知識(shí)和檢索到的信息生成答案，然后繼續(xù)檢索和生成未知部分的答案。
圖/樹問題回答：使用圖或樹來自然地表達(dá)文本之間的關(guān)系結(jié)構(gòu)，適合這種類型的數(shù)據(jù)檢索問題。
自然語言到SQL查詢：將自然語言查詢轉(zhuǎn)換為SQL查詢，以便從結(jié)構(gòu)化數(shù)據(jù)庫中檢索信息。

關(guān)鍵點(diǎn)：

隱式事實(shí)查詢要求從多個(gè)文檔中收集信息，并且可能需要進(jìn)行多步驟的推理。
這類查詢的解決方案通常涉及將復(fù)雜問題分解成一系列簡單的問題，然后逐一解決。
迭代RAG、圖/樹問題回答和NL2SQL是處理這類查詢的有效方法。

L3：可解釋推理查詢

推理查詢的示例

定義：

Interpretable Rationale Queries：這類查詢需要外部數(shù)據(jù)來提供解決問題的推理過程。輔助數(shù)據(jù)通常包括對(duì)決策過程的明確解釋。
數(shù)據(jù)形式：可以是純文本，如指南或手冊(cè)，也可以是結(jié)構(gòu)化的指令，如工作流程或決策樹。

挑戰(zhàn)與解決方案

主要挑戰(zhàn)：

Prompt優(yōu)化成本：優(yōu)化提示（Prompt）的過程耗時(shí)且計(jì)算量大。

有限的可解釋性：LLMs對(duì)提示的反應(yīng)不透明，難以一致理解和驗(yàn)證LLMs對(duì)不同提示的反應(yīng)。

解決方案：
Prompt Tuning：通過調(diào)整提示來提高LLMs遵循外部指令的能力。
CoT Prompting：使用鏈?zhǔn)剿伎迹–hain-of-Thoughts）或思維圖（Graph-of-Thoughts）方法來處理復(fù)雜的推理問題。

L4：隱式推理查詢

定義：

Hidden Rationale Queries：這類查詢需要從外部數(shù)據(jù)中推斷出隱含的推理方法。這些推理方法可能沒有明確記錄，需要從數(shù)據(jù)模式和結(jié)果中挖掘出來。
數(shù)據(jù)類型：

領(lǐng)域內(nèi)數(shù)據(jù)：可能包括歷史問答記錄或人工生成的數(shù)據(jù)。

預(yù)備知識(shí)：可能包括全面的公理系統(tǒng)或中間結(jié)論，如法律代碼或數(shù)學(xué)證明。

挑戰(zhàn)與解決方案

主要挑戰(zhàn)：

邏輯檢索：需要更復(fù)雜的檢索算法來識(shí)別與查詢邏輯上相關(guān)的文本段。

數(shù)據(jù)不足：外部數(shù)據(jù)可能沒有明確包含與當(dāng)前查詢相關(guān)的指導(dǎo)或答案。

解決方案：
離線學(xué)習(xí)：通過離線分析數(shù)據(jù)集來識(shí)別和提取規(guī)則和指導(dǎo)。
上下文學(xué)習(xí)：利用示例進(jìn)行上下文學(xué)習(xí)，利用LLMs的少量樣本學(xué)習(xí)能力。

離線學(xué)習(xí)

方法：

STaR 和 LXS：使用LLM生成推理理由。

GL、LEAP、RICP：通過錯(cuò)誤識(shí)別和原則概括來改進(jìn)任務(wù)。

上下文學(xué)習(xí) (ICL)

方法：

OpenICL：探索不同的傳統(tǒng)方法對(duì)ICL效果的影響。

Auto-CoT：通過聚類示例來構(gòu)建更好的支持學(xué)習(xí)過程的示例。

微調(diào)

方法：

指令調(diào)整：使用監(jiān)督微調(diào)來增強(qiáng)LLMs在特定領(lǐng)域的能力。

適配器調(diào)整、前綴調(diào)整、提示調(diào)整：通過優(yōu)化輸入前的可訓(xùn)練向量來提高LLMs的性能。?

最后：數(shù)據(jù)增強(qiáng)LLM應(yīng)用中查詢層次的總結(jié)

微軟：RAG并不是你唯一的解決方案！-AI.x社區(qū)

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Attention不是唯一的選擇：基于反事實(shí)推理的可解釋性推薦

zhangyannni ? 3255瀏覽 ? 0回復(fù)
微軟重磅開源 GraphRAG：新一代 RAG 技術(shù)來了！

玄姐聊AGI ? 5449瀏覽 ? 0回復(fù)
打造智能私有知識(shí)庫：開源工具AnythingLLM全解析及實(shí)操指南，RAG企業(yè)級(jí)解決方案

AIGC觀察者 ? 2.1w瀏覽 ? 1回復(fù)
RAG 開發(fā)四大痛點(diǎn)及解決方案

玄姐聊AGI ? 2590瀏覽 ? 0回復(fù)
從目標(biāo)分配到路徑規(guī)劃，哈工大團(tuán)隊(duì)提出智能倉庫的多智能體深度學(xué)習(xí)解決方案

xuxiangda ? 3721瀏覽 ? 0回復(fù)
NL2SQL：基于LLM的解決方案是最好的嗎？

大語言模型論文跟蹤 ? 5173瀏覽 ? 0回復(fù)
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 2265瀏覽 ? 0回復(fù)
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實(shí)現(xiàn)，效果提升顯著

AI博物院 ? 4523瀏覽 ? 0回復(fù)
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 1997瀏覽 ? 0回復(fù)
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓(xùn)練數(shù)據(jù)的來源、版權(quán)與地域差異

sbf_2000 ? 2001瀏覽 ? 0回復(fù)
TAG：定義自然語言查詢的高效解決方案

51CTO內(nèi)容精選 ? 2567瀏覽 ? 0回復(fù)
統(tǒng)一模型路線，但并不是大家認(rèn)為的AGI

Syrupup ? 2156瀏覽 ? 0回復(fù)
直擊痛點(diǎn)，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 1600瀏覽 ? 0回復(fù)
近期Ollama未授權(quán)訪問漏洞Nginx反向代理解決方案

V0ne ? 1729瀏覽 ? 0回復(fù)
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

shizhi02 ? 1095瀏覽 ? 0回復(fù)
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案

大語言模型論文跟蹤 ? 1841瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 514瀏覽 ? 0回復(fù)
關(guān)于個(gè)人的創(chuàng)業(yè)想法——基于人工智能技術(shù)在垂直領(lǐng)域解決方案的探索

AI探索時(shí)代 ? 418瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時(shí)代 ? 200瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？ 9天前發(fā)布
CPU推理僅29ms，微軟開源第一個(gè)原生 1 bit 大模型，內(nèi)存只需Qwen 1.5B的1/15 9天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：一種模塊化大模型Agent框架全棧技術(shù)綜述

下一篇：一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG

社區(qū)精華內(nèi)容

目錄

<cite id="gjfil"><track id="gjfil"></track></cite>

<sub id="gjfil"></sub>

<cite id="gjfil"></cite>