自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章

發(fā)布于 2025-1-22 13:22
瀏覽
0收藏

摘要

機(jī)器寫(xiě)作通常依賴(lài)檢索增強(qiáng)生成技術(shù),但這些方法受限于模型預(yù)定義的范圍,難以生成信息豐富的內(nèi)容。普通檢索的信息往往缺乏深度、實(shí)用性,且冗余問(wèn)題嚴(yán)重,導(dǎo)致生成的文章內(nèi)容淺顯、重復(fù)且缺乏原創(chuàng)性。為此,我們提出了 OmniThink 框架,它模擬了人類(lèi)迭代擴(kuò)展和反思的認(rèn)知過(guò)程。OmniThink 的核心在于模擬學(xué)習(xí)者逐步深化對(duì)主題理解的認(rèn)知行為。實(shí)驗(yàn)表明,OmniThink 在不犧牲連貫性和深度的前提下,顯著提升了生成文章的知識(shí)密度。人類(lèi)評(píng)估和專(zhuān)家反饋進(jìn)一步證實(shí)了 OmniThink 在生成長(zhǎng)篇文章中的實(shí)際應(yīng)用潛力。

??https://arxiv.org/abs/2501.09751??

1. 機(jī)器寫(xiě)作的現(xiàn)狀

由于手動(dòng)寫(xiě)作成本高昂,機(jī)器寫(xiě)作(Machine Writing)的關(guān)注度越來(lái)越高。隨著 LLM 和檢索增強(qiáng)生成(RAG)的興起,機(jī)器寫(xiě)作也迎來(lái)了新的機(jī)遇。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

為確保內(nèi)容的真實(shí)性和實(shí)時(shí)性,當(dāng)前基于 RAG 的自動(dòng)化寫(xiě)作系統(tǒng)主要依賴(lài)檢索內(nèi)容生成文章(如上圖)。例如:

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

? STORM 通過(guò)角色扮演的問(wèn)答方式撰寫(xiě)維基百科式文章,上圖展示了 STORM 使用 GPT4o 生成的關(guān)于 AlphaFold 主題的案例:文章中關(guān)于“AlphaFold 是由 DeepMind 開(kāi)發(fā)的” 出現(xiàn)重復(fù)表達(dá)。

? Co-STORM 引入了用戶(hù)參與的信息檢索模式

? AutoSurvey 將該框架應(yīng)用于學(xué)術(shù)論文寫(xiě)作

然而,這些方法仍局限于角色自身的范圍,難以生成深度內(nèi)容并突破知識(shí)邊界。檢索到的信息往往缺乏深度、實(shí)用性和冗余性,直接影響生成文章的質(zhì)量,導(dǎo)致輸出內(nèi)容淺顯、重復(fù)且缺乏原創(chuàng)性。

人類(lèi)在寫(xiě)作過(guò)程中可以自然地避免這些陷阱,通過(guò)反思實(shí)踐理論(the Theory of Reflective Practice)可以解釋該現(xiàn)象。

根據(jù)該理論,人類(lèi)作者會(huì)不斷反思之前收集的信息和個(gè)人經(jīng)驗(yàn),重新組織、篩選和優(yōu)化認(rèn)知框架。使作者迭代調(diào)整寫(xiě)作方向和思維路徑,最終生成更深刻、細(xì)致和原創(chuàng)的內(nèi)容。

受此啟發(fā),本文作者提出了 OmniThink,一種新的機(jī)器寫(xiě)作框架,模擬人類(lèi)迭代擴(kuò)展和反思的認(rèn)知過(guò)程。

2. 什么是 OmniThink 框架?

OmniThink 的核心思想是模擬學(xué)習(xí)者在逐漸加深對(duì)復(fù)雜主題理解時(shí)的認(rèn)知行為,以擴(kuò)展知識(shí)邊界。通過(guò)不斷反思之前檢索到的信息,OmniThink 可以確定進(jìn)一步擴(kuò)展的最佳步驟。

這種 擴(kuò)展-反思機(jī)制(Expansion Reflection Mechanism) 使得檢索策略能夠動(dòng)態(tài)調(diào)整,從而促進(jìn)對(duì)相關(guān)信息的更深入和全面的探索。一旦收集到多樣化的信息,OmniThink 將進(jìn)入大綱構(gòu)建和文章生成的階段。這種迭代的思維過(guò)程最終生成更高質(zhì)量的文章,其中包含更高密度的有用、深刻和原創(chuàng)的內(nèi)容。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

如上圖,OmniThink 分為三步:信息獲取、大綱構(gòu)建和文章撰寫(xiě)。但是在信息獲取階段,通過(guò)擴(kuò)展和反思形成信息樹(shù)和概念池,為后續(xù)提綱和文章撰寫(xiě)奠定基礎(chǔ)。

2.1 信息獲取(Information Acquisition)

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

如上圖,擴(kuò)展和反思的迭代過(guò)程最終構(gòu)建了一個(gè)信息樹(shù)和一個(gè)概念池。

2.1.1 擴(kuò)展(Expansion)

OmniThink 分析信息樹(shù)的所有葉節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都會(huì)被評(píng)估以確定是否需要進(jìn)一步擴(kuò)展。

對(duì)于需要擴(kuò)展的節(jié)點(diǎn),OmniThink 使用當(dāng)前的概念池來(lái)確定需要深入擴(kuò)展的領(lǐng)域或合適的擴(kuò)展方向。

2.1.2 反思(Reflection)

OmniThink 對(duì)所有葉子節(jié)點(diǎn)中的新信息進(jìn)行反思。從每個(gè)葉子節(jié)點(diǎn)提取的信息經(jīng)過(guò)分析、過(guò)濾和綜合,提煉出核心見(jiàn)解。這些見(jiàn)解隨后被整合到概念池中,并在整個(gè)過(guò)程中不斷更新和豐富。

擴(kuò)展與反思的迭代循環(huán)將持續(xù)進(jìn)行,直到 OmniThink 確定已獲取足夠的信息或達(dá)到預(yù)定義的最大檢索深度。確保獲取的信息是相關(guān)、詳細(xì)且多樣化的,為生成結(jié)構(gòu)化和信息豐富的文章提供了堅(jiān)實(shí)的基礎(chǔ)。

2.2 大綱構(gòu)建

大綱是文章的核心,決定了內(nèi)容方向、結(jié)構(gòu)層次和邏輯推進(jìn)。要構(gòu)建一個(gè)結(jié)構(gòu)清晰、邏輯連貫的大綱,必須對(duì)主題有深入理解。

OmniThink 維護(hù)了一個(gè)與主題緊密相關(guān)的概念池,這代表了 LLM 對(duì)主題理解的邊界和深度。

在生成大綱時(shí),首先創(chuàng)建草稿大綱,然后讓 LLM 從概念池中提煉并鏈接內(nèi)容,最終形成最終大綱。

通過(guò)這種方式,LLM 能夠在大綱中全面覆蓋主題要點(diǎn),并確保文章的邏輯一致性和內(nèi)容連貫性。

2.3 文章撰寫(xiě)

完成大綱后,開(kāi)始為每個(gè)部分撰寫(xiě)內(nèi)容。

撰寫(xiě)時(shí),利用部分標(biāo)題及其子標(biāo)題,通過(guò)計(jì)算語(yǔ)義相似度從信息樹(shù)中檢索最相關(guān)的 K 個(gè)文檔。LLM 會(huì)根據(jù)這些信息生成帶有引用的內(nèi)容。

所有部分生成后,將被拼接成完整的草稿文章。由于各部分并行生成,其他部分內(nèi)容尚不明確,會(huì)提示 LLM 處理拼接后的文章,刪除冗余信息,最終形成文章。

3. 效果評(píng)估方法

通過(guò)自動(dòng)和人工評(píng)估相結(jié)合的方式來(lái)評(píng)估生成的長(zhǎng)篇文章。

3.1 自動(dòng)評(píng)估

使用 Prometheus 2 對(duì)文章進(jìn)行 0 到 5 分的評(píng)分,評(píng)估其相關(guān)性、廣度、深度和新穎性。還通過(guò)信息多樣性和知識(shí)密度來(lái)衡量信息豐富度。

** 什么是知識(shí)密度? **

以往的研究大多關(guān)注文章的相關(guān)性和正確性,卻忽略了文章的深度。許多生成的文章充斥著冗余信息,與人類(lèi)的寫(xiě)作風(fēng)格相去甚遠(yuǎn)。為此,引入了知識(shí)密度(KD)的概念,定義為有意義內(nèi)容與文本總量的比率,公式如下:

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

其中,N 是文檔中原子知識(shí)單元的總數(shù),U(ki) 表示第 i 個(gè)單元信息 ki 是否唯一,L 為文本總長(zhǎng)度。分子表示從長(zhǎng)篇文章中提取的獨(dú)特知識(shí)單元總和,分母則是文章的長(zhǎng)度。

知識(shí)密度的價(jià)值在于它能從信息獲取的角度衡量生成文本的閱讀成本。低 KD 內(nèi)容往往因冗余或不相關(guān)細(xì)節(jié)讓讀者感到疲勞或失去興趣,而高密度內(nèi)容則能提供簡(jiǎn)潔高效的閱讀體驗(yàn)。

以往的方法在 KD 上表現(xiàn)有限,因?yàn)殚_(kāi)放域長(zhǎng)文本生成依賴(lài)于檢索信息。當(dāng)檢索信息不夠多樣化時(shí),生成的文章往往包含大量重復(fù)和冗余內(nèi)容。這為優(yōu)化知識(shí)密度提供了空間。

3.2 人工評(píng)估

隨機(jī)選取 20 個(gè)主題,將生成的文章與 Co-STORM(基于自動(dòng)評(píng)估的最佳基線(xiàn))生成的文章進(jìn)行對(duì)比,并在相同的四個(gè)方面進(jìn)行評(píng)分。

4. 效果怎么樣?

4.1 自動(dòng)評(píng)估

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

上圖展示了使用 GPT-4o 和 Qwen-Plus 作為骨干的評(píng)估結(jié)果。

在四個(gè)關(guān)鍵評(píng)分標(biāo)準(zhǔn)(相關(guān)性、廣度、深度和新穎性)的框架下,OmniThink 在所有方面都表現(xiàn)出色,特別是在新穎性指標(biāo)上,以 GPT-4o 為骨干時(shí)尤為突出。

在知識(shí)密度方面,OmniThink 采用了一種連續(xù)且動(dòng)態(tài)的檢索策略來(lái)收集廣泛的信息,這使其在內(nèi)容生成階段能夠利用更廣泛的資源。這一戰(zhàn)略?xún)?yōu)勢(shì)使 OmniThink 在知識(shí)密度指標(biāo)上優(yōu)于現(xiàn)有的基準(zhǔn)方法。

從結(jié)構(gòu)合理性、邏輯一致性和生成指導(dǎo)性三個(gè)方面評(píng)估大綱質(zhì)量。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

從上圖中可以看出,OmniThink 在結(jié)構(gòu)合理性和邏輯一致性方面表現(xiàn)優(yōu)異。歸功于 OmniThink 概念池的獨(dú)特設(shè)計(jì),使 LLMs 在大綱生成過(guò)程中對(duì)目標(biāo)主題有更全面和多樣化的理解。

有助于更好地指導(dǎo)內(nèi)容生產(chǎn),并增強(qiáng)生成內(nèi)容的整體結(jié)構(gòu)連貫性。然而,模型的邏輯一致性?xún)H比基線(xiàn)略有改善。

4.2 人工評(píng)估

邀請(qǐng)了 15 位高學(xué)歷志愿者進(jìn)行人工評(píng)估。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

上圖展示了評(píng)估結(jié)果,OmniThink 在多個(gè)維度上的平均表現(xiàn)均優(yōu)于當(dāng)前最強(qiáng)的基線(xiàn)模型,尤其在廣度指標(biāo)上比 Co-STORM 高出 11%。

然而,在創(chuàng)新性指標(biāo)上,自動(dòng)化評(píng)估顯示 11% 的提升,但人工評(píng)估僅發(fā)現(xiàn)微弱優(yōu)勢(shì)。表明當(dāng)前的自動(dòng)化評(píng)估與人類(lèi)判斷尚未完全一致,為未來(lái)長(zhǎng)文本評(píng)估的改進(jìn)提供了方向。

盡管 OmniThink 在多個(gè)維度上表現(xiàn)優(yōu)異,但仍有約 30% 的文章被評(píng)估者認(rèn)為與基線(xiàn)模型不相上下。這可能是因?yàn)殡S著大模型寫(xiě)作能力的提升,人類(lèi)越來(lái)越難以察覺(jué)細(xì)微差異。

5. 消融分析

OmniThink 的核心之一是動(dòng)態(tài)擴(kuò)展與反思機(jī)制。對(duì)比了 OmniThink 與其簡(jiǎn)化版本(無(wú)動(dòng)態(tài)擴(kuò)展與反思機(jī)制)。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

如上圖所示,簡(jiǎn)化版在文章質(zhì)量的多個(gè)指標(biāo)上表現(xiàn)遜色,尤其在信息多樣性和新穎性方面。證明了動(dòng)態(tài)擴(kuò)展與反思機(jī)制在提升信息多樣性和文章新穎性上的重要作用。

5.1 擴(kuò)展與反思分析

深入探討了擴(kuò)展和反思過(guò)程如何影響最終文章的各個(gè)方面及其整體質(zhì)量。

由于擴(kuò)展和反思在 OmniThink 中相互依賴(lài),單獨(dú)評(píng)估它們的影響是不現(xiàn)實(shí)的。為此,采用了一種間接但系統(tǒng)的方法來(lái)評(píng)估它們對(duì)文章質(zhì)量的綜合影響。

在信息獲取階段,用性能較低的模型替換擴(kuò)展模型,并測(cè)量生成文章指標(biāo)的性能下降,以此作為擴(kuò)展過(guò)程影響的指標(biāo)。同樣,采用相同的方法評(píng)估反思過(guò)程的影響。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

持續(xù)反思擴(kuò)展知識(shí)邊界:反思在新穎性和信息多樣性方面比擴(kuò)展更為重要。反思不僅讓模型能夠重新評(píng)估和內(nèi)省現(xiàn)有知識(shí),還能以激發(fā)更多樣化和廣泛思想的方式整合信息。這種深度內(nèi)省過(guò)程至關(guān)重要,因?yàn)樗ㄟ^(guò)多樣化的見(jiàn)解豐富了敘述,為創(chuàng)新和多樣化的寫(xiě)作奠定了基礎(chǔ)。本質(zhì)上,反思模塊是創(chuàng)造力的關(guān)鍵加速器,使模型能夠超越簡(jiǎn)單信息增強(qiáng)的限制,構(gòu)建出獨(dú)特且信息豐富的敘述。

擴(kuò)展增強(qiáng)知識(shí)深度并提高信息相關(guān)性:擴(kuò)展在廣度和深度方面比反思更為重要。因?yàn)閿U(kuò)展為模型的后續(xù)信息檢索設(shè)定了方向。通過(guò)為檢索過(guò)程建立更精確和有效的方向,模型能夠更好地利用檢索到的信息,并將其無(wú)縫整合到文本中,從而以更大的深度和廣度豐富內(nèi)容。這種整合不僅增強(qiáng)了內(nèi)容的相關(guān)性,還提高了知識(shí)密度,使文本更加全面和細(xì)致。因此,更好的擴(kuò)展策略能夠打造出更復(fù)雜的規(guī)劃者,使其能夠更巧妙地應(yīng)對(duì)信息檢索和利用的復(fù)雜性。

5.2 思考深度分析

OmniThink 在提升信息檢索方面進(jìn)行了多次嘗試,本質(zhì)上是擴(kuò)展了檢索信息的規(guī)模。

OmniThink:如何讓 LLM 寫(xiě)出有更有深度的文章-AI.x社區(qū)圖片

從上圖可以看到,隨著深度從 1 增至 3,生成文章的知識(shí)密度和信息多樣性迅速提升。

隨著深度增加,OmniThink 能夠在網(wǎng)絡(luò)上搜索到更多樣化的信息,并將其應(yīng)用于文章生成。

然而,當(dāng)深度增至 4 時(shí),知識(shí)密度和信息多樣性的增長(zhǎng)顯著放緩。這可能是因?yàn)樵撝黝}的可用信息接近搜索極限,難以檢索到更多有用信息。

6. 局限性

? 當(dāng)前研究?jī)H涉及搜索和文本生成,開(kāi)放領(lǐng)域中的大量多模態(tài)信息尚未被充分利用。

? 文本生成中未考慮個(gè)性化語(yǔ)言風(fēng)格,導(dǎo)致生成的文本偏向?qū)W術(shù)化,可能不符合普通用戶(hù)的閱讀習(xí)慣。

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI 

已于2025-1-22 18:31:44修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦