自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="7m09o"><optgroup id="7m09o"></optgroup></u>

<tr id="7m09o"><fieldset id="7m09o"><input id="7m09o"></input></fieldset></tr>

<del id="7m09o"></del>

<sub id="7m09o"><p id="7m09o"></p></sub>

<blockquote id="7m09o"><mark id="7m09o"></mark></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理原創(chuàng)

發(fā)布于 2024-7-3 07:45

瀏覽

0收藏

摘要：大型語(yǔ)言模型（LLM）通過(guò)利用鏈?zhǔn)剿季S（CoT）實(shí)現(xiàn)逐步思考，在自然語(yǔ)言處理任務(wù)中展示了令人印象深刻的表現(xiàn)。將 LLM 擴(kuò)展到多模態(tài)能力是近期的研究熱點(diǎn)，但這會(huì)帶來(lái)計(jì)算成本并需要大量硬件資源。為了解決這些挑戰(zhàn)，我們提出了 KAM-CoT，一個(gè)將 CoT 推理、知識(shí)圖譜（KG）和多種模態(tài)集成起來(lái)的框架，以全面理解多模態(tài)任務(wù)。KAM-CoT 采用了一個(gè)包含 KG 基礎(chǔ)的兩階段訓(xùn)練過(guò)程，以生成有效的推理和答案。通過(guò)在推理過(guò)程中引入來(lái)自 KG 的外部知識(shí)，模型獲得了更深的上下文理解，減少了幻覺(jué)現(xiàn)象并提升了答案質(zhì)量。這種知識(shí)增強(qiáng)的 CoT 推理使模型能夠處理需要外部上下文的問(wèn)題，提供更為知情的答案。實(shí)驗(yàn)結(jié)果表明，KAM-CoT 優(yōu)于現(xiàn)有的最先進(jìn)方法。在 ScienceQA 數(shù)據(jù)集上，我們達(dá)到了 93.87% 的平均準(zhǔn)確率，超過(guò)了 GPT-3.5（75.17%）18% 和 GPT-4（83.99%）10%。值得注意的是，KAM-CoT 實(shí)現(xiàn)了這些結(jié)果時(shí)，僅使用了 280M 的可訓(xùn)練參數(shù)，展示了其成本效益和有效性。

1.引言

大型語(yǔ)言模型（LLM），特別是 GPT-3（Kojima 等，2022a），ChatGPT（OpenAI 2022）和最近的 LLaMA、LLaMA2（Touvron 等，2023a, b），在自然語(yǔ)言處理任務(wù)中展示了卓越的性能。此外，在 LLM 中引入鏈?zhǔn)剿季S（CoT）方法徹底改變了機(jī)器處理推理密集型任務(wù)的方式（Zhou 等，2023）。CoT 指的是 LLM 以逐步方式進(jìn)行思考和推理的能力，類似于人類的認(rèn)知過(guò)程（Wei 等，2022b）。傳統(tǒng)的語(yǔ)言模型（LM）在生成響應(yīng)時(shí)沒(méi)有明確的中間步驟，這可能在復(fù)雜推理場(chǎng)景中導(dǎo)致次優(yōu)答案。CoT 通過(guò)引入中間步驟，使語(yǔ)言模型能夠進(jìn)行推理，從而增強(qiáng)模型解決問(wèn)題的能力，解決了這一局限性。

最近，擴(kuò)展 LLM 以具備多模態(tài)能力的趨勢(shì)日益增長(zhǎng)。視覺(jué)和文本信息的融合在視覺(jué)與語(yǔ)言任務(wù)（如視覺(jué)問(wèn)答（VQA）、圖像描述和圖像-文本檢索）方面取得了顯著進(jìn)展，并開(kāi)啟了變革性進(jìn)步的潛力。Liu 等（2023a）；Gao 等（2023）；Lu 等（2023a）作者們認(rèn)識(shí)并提倡將視覺(jué)和語(yǔ)言模態(tài)結(jié)合的價(jià)值。然而，這些模型的龐大規(guī)模需要大量的計(jì)算資源，特別是在硬件基礎(chǔ)設(shè)施方面。Zhang 等（2023c）提出微調(diào)較小的模型以適應(yīng)多模態(tài)并引出 CoT 能力。然而，這種方法往往會(huì)導(dǎo)致幻覺(jué)現(xiàn)象，即模型生成看似合理但不正確的推理和答案。一個(gè)可能的解決方案是集成知識(shí)圖譜（KG）以增強(qiáng)模型理解。

知識(shí)圖譜作為寶貴的結(jié)構(gòu)化知識(shí)來(lái)源，捕捉來(lái)自各個(gè)領(lǐng)域的信息。對(duì)于 CoT 推理，知識(shí)圖譜可以補(bǔ)充逐步推理。通過(guò)引入知識(shí)圖譜中的信息，語(yǔ)言模型可以更連貫地推理，并利用實(shí)體和屬性之間的上下文關(guān)系?？紤]圖 1 中的問(wèn)題，關(guān)于推動(dòng)方向的知識(shí)對(duì)于回答問(wèn)題至關(guān)重要。圖 1 右下角顯示的關(guān)于對(duì)象關(guān)系和方向的知識(shí)圖譜三元組，使模型能夠正確回答問(wèn)題。這種集成提高了生成響應(yīng)的質(zhì)量，尤其是在需要復(fù)雜推理和上下文感知理解的任務(wù)中。

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

圖1: 來(lái)自ScienceQA數(shù)據(jù)集（Lu等人，2022年）的一個(gè)示例，展示了圖表如何輔助多模態(tài)問(wèn)答。

（注釋：這是來(lái)自ScienceQA數(shù)據(jù)集的一個(gè)例子（Lu等人，2022年），展示了如何利用圖來(lái)輔助多模態(tài)問(wèn)答（multi-modal QA）。在這個(gè)例子中，有一個(gè)問(wèn)題和幾個(gè)選項(xiàng)，以及一個(gè)答案，還有一個(gè)圖解來(lái)幫助理解問(wèn)題和答案。

問(wèn)題：這個(gè)推力的方向是什么？

選項(xiàng)：

(A) 向棍子方向。

(B) 遠(yuǎn)離棍子方向。

答案：答案是 (B)

解釋：一個(gè)推力的方向是遠(yuǎn)離正在施加推力的物體。在這個(gè)例子中，女孩正在推一個(gè)彩罐（pinata），使其遠(yuǎn)離棍子。

圖解中還包含了一些詞匯和它們之間的關(guān)系：

- "push"（推）與 "away"（遠(yuǎn)離）相關(guān)聯(lián)。

- "push"（推）是 "pull"（拉）的反義詞。

- "pull"（拉）與 "toward"（向...方向）相關(guān)聯(lián)。

圖解中的箭頭和文字說(shuō)明了 "push" 和 "pull" 的方向性，以及它們與 "away" 和 "toward" 的關(guān)系。這種圖示可以幫助用戶更好地理解問(wèn)題和答案，尤其是在涉及物理概念或動(dòng)作方向時(shí)。通過(guò)視覺(jué)化這些關(guān)系，可以增強(qiáng)對(duì)問(wèn)題的理解，并幫助找到正確的答案。）

在這項(xiàng)工作中，我們提出通過(guò)知識(shí)圖譜增強(qiáng)多模態(tài)，以幫助模型解決復(fù)雜問(wèn)題并引出 CoT 能力。提出的方法 KAM-CoT 包括一個(gè)接收語(yǔ)言上下文的語(yǔ)言模型，一個(gè)編碼視覺(jué)特征的視覺(jué)編碼器，以及一個(gè)在知識(shí)圖譜上進(jìn)行推理的圖神經(jīng)網(wǎng)絡(luò)（GNN）。遵循 Zhang 等（2023c），我們將推理過(guò)程分為兩個(gè)連續(xù)階段。在第一階段，我們生成合理的推理。在第二階段，我們將生成的推理由作為額外輸入并提供答案。KAM-CoT 無(wú)縫地將文本、視覺(jué)和圖形特征結(jié)合在一起，使機(jī)器能夠像人類認(rèn)知一樣連貫地思考和推理。我們?cè)?ScienceQA（Lu 等，2022）基準(zhǔn)上評(píng)估了我們提出的模型，達(dá)到了 93.87% 的平均準(zhǔn)確率，超過(guò)了 GPT-3.5（75.17%）18% 和 GPT-4（83.99%）10%。此外，KAM-CoT 在實(shí)現(xiàn)這些結(jié)果時(shí)僅使用了 280M 的可訓(xùn)練參數(shù)，展示了其成本效益和有效性。

本文的貢獻(xiàn)如下：

1. 圖譜提?。何覀兏鶕?jù)給定的問(wèn)答上下文從 ConceptNet（Speer、Chin 和 Havasi 2017）中提取顯著的三元組。

2. 與知識(shí)圖譜的融合：我們提出了一些指示性機(jī)制，將文本和圖像模態(tài)與知識(shí)圖譜融合，并檢驗(yàn)其效率。

3. KAM-CoT：我們提出了知識(shí)增強(qiáng)的多模態(tài) CoT 方法 KAM-CoT。該 280M 模型在不同階段聯(lián)合處理視覺(jué)、文本和知識(shí)圖譜，逐步推理以生成合理的推理和答案。

我們?cè)?ScienceQA 數(shù)據(jù)集（Lu 等，2022）上進(jìn)行了廣泛的實(shí)驗(yàn)和評(píng)估，達(dá)到了新的最先進(jìn)性能。我們還考察了各組件的效果和貢獻(xiàn)，并討論了未來(lái)研究的潛在方向。

2.相關(guān)工作

我們從四個(gè)關(guān)鍵領(lǐng)域探索相關(guān)工作：上下文學(xué)習(xí)、通過(guò)微調(diào)方法的CoT（Chain of Thought，思維鏈）、視覺(jué)-語(yǔ)言模型和知識(shí)增強(qiáng)方法。

上下文學(xué)習(xí)的大型語(yǔ)言模型（LLMs，Zhao等人，2023年）通過(guò)兩種主要模式展示了CoT的能力：零樣本（Zero shot）和少樣本（Few shot）。零樣本不需要任何明確的例子或指導(dǎo)即可進(jìn)行推理。最近的研究表明，當(dāng)用“讓我們一步一步思考”（Kojima等人，2022a）這樣的提示語(yǔ)時(shí)，LLMs能夠取得令人滿意的結(jié)果。在少樣本情境中，LLMs提供了一組示范性的例子作為指導(dǎo)，使它們能夠從這些實(shí)例中把握和學(xué)習(xí)模式。這些例子由人類專家策劃。

Auto-CoT（Zhang等人，2023b）引入了使用LLMs自動(dòng)構(gòu)建示范性例子的方法。它生成帶有固有噪聲的例子。通過(guò)自動(dòng)采樣多樣化的問(wèn)題和后處理質(zhì)量控制機(jī)制，它得到了可用的鏈。Wang等人（2022a）提出了一種解碼自洽策略，從多樣化的推理路徑中采樣，然后通過(guò)邊緣化所有可能的路徑選擇最一致的答案。PROMPTPG（Lu等人，2023b）采用策略梯度技術(shù)，獲得從有限的訓(xùn)練樣本集中辨別上下文相關(guān)例子的能力，然后為給定的樣本構(gòu)建相應(yīng)的提示。Chen等人（2022）提出了思維程序，將計(jì)算委托給一個(gè)解釋器，將復(fù)雜計(jì)算與推理和理解解耦。另一項(xiàng)有趣的工作，最少到最多提示（Zhou等人，2023）提出將復(fù)雜問(wèn)題分解為更簡(jiǎn)單的問(wèn)題，并通過(guò)利用之前解決的子問(wèn)題的答案依次解決它們。

然而，所有這些方法都限于LLMs，合理地超過(guò)100B參數(shù)（Wei等人，2022a）。

通過(guò)微調(diào)方法的CoT，Lu等人（2022）提出了一個(gè)科學(xué)問(wèn)題-答案（ScienceQA）數(shù)據(jù)集，它包含有相應(yīng)講座、解釋和正確答案的多模態(tài)多項(xiàng)選擇題。作者觀察到，通過(guò)在少量樣本GPT-3和微調(diào)后的UnifiedQA（Khashabi等人，2020）中使用CoT，問(wèn)題回答的準(zhǔn)確率分別提高了1.20%和3.99%。MM-CoT（Zhang等人，2023c）提出在ScienceQA數(shù)據(jù)集上使用CoT方法對(duì)LM進(jìn)行微調(diào)。他們提出了兩個(gè)階段的模型：理由生成和答案推理。該模型在該數(shù)據(jù)集上的表現(xiàn)超過(guò)了GPT-3.5的16%，并超過(guò)了人類的表現(xiàn)。

視覺(jué)-語(yǔ)言模型隨著視覺(jué)問(wèn)答任務(wù)（Antol等人，2015）的提出，已經(jīng)有大量工作在對(duì)齊視覺(jué)和語(yǔ)言模態(tài)。ViLT（Kim、Son和Kim，2021）提出了一個(gè)單一的變換器架構(gòu)，用于文本和圖像模態(tài)，促進(jìn)了無(wú)縫的跨模態(tài)交互。Patch-TRM（帶有跨模態(tài)TRM的變換器）將圖像解析成有序的塊，在層次化的金字塔布局中（Lu等人，2021）。這些塊被預(yù)訓(xùn)練的ResNet編碼，并通過(guò)視覺(jué)變換器傳遞。VisualBERT提出了一個(gè)統(tǒng)一的架構(gòu)，利用基于變換器的BERT模型的表達(dá)能力，并對(duì)齊從圖像中提取的特征（Li等人，2019，2020）。特別是，視覺(jué)和文本輸入都被掩蔽，模型學(xué)習(xí)預(yù)測(cè)掩蔽的輸入，使其能夠捕獲上下文對(duì)齊。BLIP2（Li等人，2023）提出了QFormer，通過(guò)兩階段策略預(yù)訓(xùn)練，以對(duì)齊圖像編碼器和LLMs。Liu等人（2023b）提出了Prism模型，該模型使用領(lǐng)域?qū)＜业募?。KOSMOS（Huang等人，2023）在包括任意交錯(cuò)的文本和圖像、圖像-標(biāo)題對(duì)和文本數(shù)據(jù)的網(wǎng)絡(luò)規(guī)模多模態(tài)語(yǔ)料庫(kù)上從頭開(kāi)始訓(xùn)練模型。

最近，隨著LLaMA模型的出現(xiàn)，在指令遵循語(yǔ)言建模方面取得了顯著進(jìn)展。LLaVA（Liu等人，2023a）依賴于僅文本的GPT-4（OpenAI，2023）模型，生成多模態(tài)數(shù)據(jù)。作者提出了兩階段訓(xùn)練：特征對(duì)齊的預(yù)訓(xùn)練和指令遵循的微調(diào)。LLaMA-Adapter V2（Gao等人，2023）提出了一個(gè)基于參數(shù)高效的適配器的視覺(jué)指令模型，將指令遵循能力分布在整個(gè)模型中。LaVIN（Luo等人，2023）是另一種基于模態(tài)混合的參數(shù)高效技術(shù)。SCITUNE（Horawalavithana等人，2023）和T-SciQ（Wang等人，2023）是專注于科學(xué)的視覺(jué)和語(yǔ)言理解模型。Chameleon（Lu等人，2023a）通過(guò)為L(zhǎng)LMs增加即插即用模塊來(lái)減輕訪問(wèn)最新信息的限制，用于組合推理。然而，所有這些指令遵循方法都需要更大的模型，通常超過(guò)7B參數(shù)。

知識(shí)增強(qiáng)方法最近幾項(xiàng)研究探索了將結(jié)構(gòu)化知識(shí)注入LLMs。SKILL（Moiseev等人，2022）提出將知識(shí)圖譜（KG）三元組轉(zhuǎn)換為句子，然后用于預(yù)訓(xùn)練。KagNet（Lin等人，2019）提出將問(wèn)題-答案對(duì)從語(yǔ)義空間定位到基于知識(shí)的符號(hào)空間作為模式圖，然后用層次路徑注意力機(jī)制訓(xùn)練圖卷積網(wǎng)絡(luò)。QA-GNN（Yasunaga等人，2021）提出使用LLMs來(lái)估計(jì)知識(shí)圖譜中節(jié)點(diǎn)的重要性，并在統(tǒng)一的圖上進(jìn)行聯(lián)合推理。Zhang等人（2022）提出了GreaseLM模型，該模型在多層語(yǔ)言-KG交互中融合了預(yù)訓(xùn)練LLMs和圖神經(jīng)網(wǎng)絡(luò)的編碼表示。擴(kuò)展到多模態(tài)，VQA-GNN（Wang等人，2022b）提出將圖像級(jí)場(chǎng)景圖與概念知識(shí)統(tǒng)一，以在統(tǒng)一的圖上進(jìn)行聯(lián)合推理。

3.方法

在本節(jié)中，我們描述了提出的KAM-CoT方法。概述而言，KAM-CoT包括對(duì)語(yǔ)言、圖像和圖結(jié)構(gòu)輸入的編碼。需要注意的是，圖結(jié)構(gòu)是從語(yǔ)言輸入中派生出來(lái)的。然后，這三種模態(tài)通過(guò)交叉注意力機(jī)制進(jìn)行交互。最后，將融合的特征輸入到一個(gè)transformer解碼器中，生成自回歸文本。

3.1 任務(wù)表述

給定一個(gè)問(wèn)題 q 以及 k 個(gè)答案選項(xiàng) {a1, a2, . . . , ak},，任務(wù)是選擇正確的選項(xiàng)。問(wèn)題 q 可選地附帶一個(gè)圖像 X_img 和一個(gè)提供背景信息的文本 c 。

一種可能的方法是使用神經(jīng)網(wǎng)絡(luò)直接生成正確的選項(xiàng)。然而，已經(jīng)證明，鏈?zhǔn)剿季S推理有助于得出正確答案，特別是對(duì)于復(fù)雜推理任務(wù)（Wei et al. 2022b; Kojima et al. 2022b）。因此，我們訓(xùn)練模型在第一步生成答案的推理 r 。下一步是在生成過(guò)程中結(jié)合 r 及現(xiàn)有輸入來(lái)選擇正確答案。推理生成和答案識(shí)別模型是相同的，但它們從相同的初始化獨(dú)立訓(xùn)練。這與Zhang et al. (2023c)處理僅圖像和文本模態(tài)的方法類似。在我們的案例中，我們擴(kuò)展了他們的方法，以處理作為附加模態(tài)的圖結(jié)構(gòu)，從而將生成過(guò)程基于事實(shí)知識(shí)。

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

3.2 編碼不同模態(tài)的輸入

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理-AI.x社區(qū)

4.實(shí)驗(yàn)（略）

5.討論和分析（略）

6.結(jié)論

在本文中，我們提出了KAM-CoT，即知識(shí)增強(qiáng)的多模態(tài)鏈?zhǔn)酵评?，以提高語(yǔ)言模型的推理能力和答案質(zhì)量。我們提出了一個(gè)框架，該框架使用鏈?zhǔn)酵评?，利用知識(shí)圖譜和其他模態(tài)對(duì)多模態(tài)任務(wù)進(jìn)行全面理解。我們提供了一些可能的方法來(lái)融合這些模態(tài)。我們發(fā)現(xiàn)，在兩階段訓(xùn)練過(guò)程中引入知識(shí)圖譜有助于減少幻覺(jué)現(xiàn)象。我們的方法在參數(shù)量?jī)H為280M的情況下，達(dá)到了新的最先進(jìn)水平，準(zhǔn)確率為93.87%，分別比GPT-3.5和GPT-4高出18%和10%。未來(lái)，我們希望進(jìn)一步整合特定的知識(shí)密集領(lǐng)域，并探索高效的融合機(jī)制。我們還希望將我們的解決方案擴(kuò)展到更大規(guī)模的模型，如LLaMA系列。

Mondal D, Modi S, Panda S, et al. Kam-cot: Knowledge augmented multimodal chain-of-thoughts reasoning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(17): 18798-18806.

Samsung R&D Institute India - Bangalore

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/HbgOqHeeJAKT9je1uLHnbA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

場(chǎng)景圖知識(shí)增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 2707瀏覽 ? 0回復(fù)
ODA：通過(guò)全局觀察增強(qiáng)大模型集成知識(shí)圖譜推理能力的新型Agent框架

PaperAgent ? 3108瀏覽 ? 0回復(fù)
多模態(tài)CoT思維鏈架構(gòu)來(lái)了，現(xiàn)已開(kāi)源｜來(lái)自廈大&騰訊優(yōu)圖

Crystalcxt ? 3008瀏覽 ? 0回復(fù)
字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果

輕薄滴假象 ? 2593瀏覽 ? 0回復(fù)
檢索增強(qiáng)型多模態(tài)思維鏈推理用于大型語(yǔ)言模型

AIRoobt ? 3407瀏覽 ? 0回復(fù)
多模態(tài)思維鏈推理在語(yǔ)言模型中的應(yīng)用

AIRoobt ? 4124瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 3257瀏覽 ? 0回復(fù)
從openAI最新模型GPT-o1再談思維鏈(Cot)技術(shù)，大模型該怎么提升其邏輯推理能力？

AI探索時(shí)代 ? 6438瀏覽 ? 0回復(fù)
KAG開(kāi)源了，知識(shí)增強(qiáng)掀翻RAG，性能翻倍

PaperAgent ? 4806瀏覽 ? 0回復(fù)
什么是知識(shí)圖譜和AI多模態(tài)推理

數(shù)字化助推器 ? 2397瀏覽 ? 0回復(fù)
OPEN-RAG：利用開(kāi)源大模型增強(qiáng)檢索增強(qiáng)推理

大模型自然語(yǔ)言處理 ? 2057瀏覽 ? 0回復(fù)
mR^2AG：基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗

大模型自然語(yǔ)言處理 ? 1845瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對(duì)，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 2572瀏覽 ? 0回復(fù)
超越 RAG：構(gòu)建增強(qiáng)而非替代思維的知識(shí)管理系統(tǒng)

ermulong ? 1667瀏覽 ? 0回復(fù)
多模態(tài)模型思維鏈評(píng)估白皮書(shū)：反思機(jī)制成勝負(fù)手，感知任務(wù)竟被CoT拖后腿

angel ? 2637瀏覽 ? 0回復(fù)
Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR！可免費(fèi)試用！

51CTO技術(shù)棧 ? 1841瀏覽 ? 0回復(fù)
大模型時(shí)代的知識(shí)工程：企業(yè)級(jí)智能知識(shí)庫(kù)構(gòu)建與增強(qiáng)指南

九歌AI大模型 ? 2129瀏覽 ? 0回復(fù)
擊敗思維鏈（CoT），草稿鏈（CoD）稱王！推理成本降低近94%，低時(shí)延，準(zhǔn)確率更高！

51CTO技術(shù)棧 ? 1094瀏覽 ? 0回復(fù)
【一文了解】大模型的思維鏈技術(shù)（CoT）

碼農(nóng)隨心筆記 ? 243瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ChatDiT：一個(gè)用于任務(wù)無(wú)關(guān)自由形式聊天的無(wú)訓(xùn)練基線擴(kuò)散變換器 1天前發(fā)布
大型語(yǔ)言模型容易被無(wú)關(guān)上下文分散注意力(ICLM) 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： LLMs并非智能思考者：引入數(shù)學(xué)主題樹(shù)基準(zhǔn)來(lái)全面評(píng)估LLMs

下一篇： SEED-Bench：基于生成理解的多模態(tài)大語(yǔ)言模型基準(zhǔn)測(cè)試（CVPR2024）

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="3nudl"></blockquote>}