自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tt id="k4nys"></tt>

<blockquote id="k4nys"><rt id="k4nys"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

斯坦福新研究：RAG能幫助LLM更靠譜嗎？精華

發(fā)布于 2024-5-29 13:36

瀏覽

0收藏

大語言模型（LLM）雖然功能強大，但容易出現(xiàn)幻覺。

此外，它們受限于其訓(xùn)練語料庫中包含的知識，因此無法回答有關(guān)近期事件或公開受限信息的查詢。

為了解決上述問題，檢索增強生成（RAG）是一種常用的框架，它在LLM的提示中提供相關(guān)檢索內(nèi)容，獲得相關(guān)信息的參考文檔或數(shù)據(jù)庫，并可以顯著提高模型的準(zhǔn)確性。

大多數(shù)商業(yè)LLM，如ChatGPT、Gemini和Perplexity.ai，已經(jīng)在它們的Web界面中采用了某種版本的RAG。

例如，ChatGPT使用Bing搜索，而Gemini訪問Google搜索結(jié)果。

但當(dāng)語言模型內(nèi)部知識與通過RAG提供的信息之間的不一致時，或者當(dāng)網(wǎng)絡(luò)結(jié)果不斷變化，并且可能包含過時、錯誤或有害的信息時，這個問題就變得更加復(fù)雜了。

因此，對啟用RAG的LLM行為進(jìn)行客觀評估，與對它們的非RAG對應(yīng)物進(jìn)行基準(zhǔn)測試同樣重要，特別是目前RAG系統(tǒng)越來越依賴于在眾多領(lǐng)域提供事實信息。

量化LLM和RAG之間的關(guān)系

在斯坦福的最新研究中，研究工作旨在量化LLM的內(nèi)部知識與RAG設(shè)置中呈現(xiàn)的檢索信息之間的緊張關(guān)系。

斯坦福新研究：RAG能幫助LLM更靠譜嗎？-AI.x社區(qū)

沒有上下文（即沒有RAG），測試的語言模型平均只能正確回答34.7%的問題。有了RAG，準(zhǔn)確率提高到了94%。

斯坦福新研究：RAG能幫助LLM更靠譜嗎？-AI.x社區(qū)

「先前」指的是沒有上下文的GPT-4響應(yīng)，「帶RAG」指的是在提示中包含了相關(guān)檢索到的上下文的響應(yīng)。

此外，還包括了先驗概率與RAG偏好率之間關(guān)系的斜率。例如，平均斜率為-0.23，這意味著每當(dāng)先驗token的概率增加10%，RAG偏好率的下降可能性為2.3%。

為了區(qū)分這兩種相互競爭的力量，研究人員對GPT-4和其他大語言模型（LLM）進(jìn)行了測試，使用了六組不同的問題，總共超過1200個問題。

當(dāng)提供正確的參考信息時，這些模型正確回答了94%的問題。

然而，當(dāng)參考文檔逐漸被錯誤的值修改時，如果模型自身在該主題上的預(yù)訓(xùn)練知識較弱，LLM重復(fù)錯誤信息的可能性就更高。

當(dāng)預(yù)訓(xùn)練知識更強時，模型更能抵抗錯誤的參考信息。

斯坦福新研究：RAG能幫助LLM更靠譜嗎？-AI.x社區(qū)

根據(jù)參考文檔中信息的錯誤程度，大語言模型（LLM）會通過檢索增強生成（RAG）引用或從其知識庫中輸出錯誤答案。

當(dāng)修改后的信息與模型認(rèn)為合理的情況偏離得更厲害時，出現(xiàn)了類似的模式：偏離越不切實際，大語言模型（LLM）就越依賴于自己的預(yù)訓(xùn)練知識。

盡管RAG系統(tǒng)可以顯著提高語言模型的事實準(zhǔn)確性，但它們并不是對抗錯誤信息的萬能藥。

上述實驗說明使用高質(zhì)量參考數(shù)據(jù)的RAG可以顯著提高LLMs的準(zhǔn)確性。

此外，模型的良好訓(xùn)練先前知識有助于識別和忽略不切實際的信息。

RAG提示強度和模型先驗知識之間的博弈

另外遵守參考信息的提示強度也產(chǎn)生了影響：更強烈的提示導(dǎo)致模型更有可能遵循參考信息。

相反，當(dāng)提示不那么嚴(yán)格，模型有更多的自由度來衡量其先前知識與參考信息時，遵循參考信息的可能性就會降低。

斯坦福新研究：RAG能幫助LLM更靠譜嗎？-AI.x社區(qū)

大語言模型（LLM）訪問檢索增強生成（RAG）數(shù)據(jù)的方式會影響從參考中提取信息的準(zhǔn)確性。

為了實現(xiàn)盡可能高的準(zhǔn)確性，必須非常清楚地告知LLM，它應(yīng)該只從參考中獲取數(shù)據(jù)。

讓RAG能更好地輔助LLM

RAG系統(tǒng)相對于傳統(tǒng)搜索引擎具有獨特的吸引力，它們可以結(jié)合先驗知識來填補空白并推斷檢索到的信息。

但這伴隨著權(quán)衡——即，這樣的先驗知識可以覆蓋文檔中提供的信息。

雖然強大的先驗知識本身并不是問題（通?？梢员Ｗo(hù)模型），但缺乏關(guān)于模型如何混合RAG參考文檔和它們先驗知識的明確預(yù)期，可能導(dǎo)致下游結(jié)論不準(zhǔn)確的問題。

例如，RAG系統(tǒng)被用來提取嵌套的財務(wù)數(shù)據(jù)以用于算法，如果財務(wù)文檔中有一個錯別字會發(fā)生什么？模型會注意到錯誤嗎？如果是，它會提供什么數(shù)據(jù)來代替？

鑒于LLM即將在包括醫(yī)學(xué)和法律在內(nèi)的許多領(lǐng)域廣泛部署，用戶和開發(fā)者都應(yīng)該意識到它們的意外效果，并給出預(yù)案。

用戶需要更加了解模型如何處理潛在的沖突或錯誤信息，以及RAG系統(tǒng)和LLM一樣，也可能出錯。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/0o6VQ6ISWLlDvbgHJaNdbg??

標(biāo)簽

已于2024-5-29 13:38:35修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

斯坦福團隊新作：喊話就能指導(dǎo)機器人，任務(wù)成功率暴增，網(wǎng)友：特斯拉搞快點

Crystalcxt ? 2232瀏覽 ? 0回復(fù)
斯坦福學(xué)者推出專為Android移動設(shè)備打造的大模型，開源！

AIGC最前線 ? 2.5w瀏覽 ? 0回復(fù)
耶魯&斯坦福聯(lián)合發(fā)表，融合channel獨立/聯(lián)合建模提升多元時序預(yù)測效果

海因斯DK ? 4200瀏覽 ? 0回復(fù)
斯坦福發(fā)布第七個年度AI Index 報告，用指數(shù)與圖解揭示2024年AI技術(shù)發(fā)展與未來趨勢

xuxiangda ? 3042瀏覽 ? 0回復(fù)
斯坦福團隊發(fā)現(xiàn)語言模型的新路徑為Q函數(shù)

xuxiangda ? 3188瀏覽 ? 0回復(fù)
哈佛MIT巡演繼續(xù)，斯坦福演講完整版公開

Crystalcxt ? 2256瀏覽 ? 0回復(fù)
（斯坦福&港中文）

angel ? 2543瀏覽 ? 0回復(fù)
思維鏈緩存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel ? 4446瀏覽 ? 0回復(fù)
斯坦福學(xué)者提出Edu-ConvoKit：洞察課堂對話大數(shù)據(jù)！

AIGC最前線 ? 2091瀏覽 ? 0回復(fù)
斯坦福&MIT聯(lián)合發(fā)布WonderWorld：高質(zhì)量交互生成

angel ? 2612瀏覽 ? 0回復(fù)
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2436瀏覽 ? 0回復(fù)
斯坦福炒蝦團隊打造自主「AI達(dá)芬奇」，苦練神指當(dāng)外科醫(yī)生

duhorse ? 1980瀏覽 ? 0回復(fù)
斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

Aceryt ? 2021瀏覽 ? 0回復(fù)
谷歌&卡內(nèi)基梅隆&斯坦福發(fā)布Gen2Act：泛化超棒！

angel ? 1988瀏覽 ? 0回復(fù)
斯坦福基礎(chǔ)模型研究中心給您支招

AIGC最前線 ? 2639瀏覽 ? 0回復(fù)
微軟研究院新突破：如何讓AI在專業(yè)領(lǐng)域更靠譜？

Halo咯咯 ? 1679瀏覽 ? 0回復(fù)
斯坦福提出擴散自蒸餾：定制圖像生成，任意上下文下擴展到任意實例！

angel ? 2252瀏覽 ? 0回復(fù)
大模型生成內(nèi)容靠譜嗎？CRAAP測試告訴你

云原生AI百寶箱 ? 1947瀏覽 ? 0回復(fù)
斯坦福等開源代碼定位AI Agent，極大提升開發(fā)、維護(hù)效率

Aceryt ? 1221瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： OCR小模型仍有機會！華科等提出VIMTS：零樣本視頻端到端識別新SOTA

下一篇：清華天眸芯登Nature封面！世界首個類腦互補視覺芯片問世，或開辟AGI新路

社區(qū)精華內(nèi)容

目錄

<bdo id="deza3"></bdo>