智能推理新路徑:組合優(yōu)化在生成式AI中的前沿探索
盡管LLMs在生成自然語(yǔ)言文本方面表現(xiàn)出色,但在推理任務(wù)中的表現(xiàn)卻不盡如人意。推理任務(wù)需要模型具備更高層次的認(rèn)知能力,包括邏輯推理、因果關(guān)系分析和戰(zhàn)略規(guī)劃等。然而現(xiàn)有的LLMs在這些方面的能力有限,主要表現(xiàn)在缺乏深度推理能力,LLMs在處理復(fù)雜推理任務(wù)時(shí),往往依賴于簡(jiǎn)單的模式匹配和統(tǒng)計(jì)規(guī)律,缺乏真正的邏輯推理能力。易受幻覺影響,LLMs在生成文本時(shí),有時(shí)會(huì)產(chǎn)生與事實(shí)不符或無(wú)意義的內(nèi)容,這被稱為“幻覺”現(xiàn)象。這在推理任務(wù)中尤為明顯,因?yàn)橥评砣蝿?wù)需要模型生成高度準(zhǔn)確和一致的答案。依賴人工提示,現(xiàn)有的許多推理方法,如鏈?zhǔn)剿季S(Chain of Thought, CoT)和自一致性(Self-Consistency),都依賴于人工設(shè)計(jì)的提示和示例,這限制了它們的泛化能力和自動(dòng)化程度。
為了解決這些問(wèn)題,紐約cosa Computing Inc.公司、NASA ARC量子人工智能實(shí)驗(yàn)室等多個(gè)組織的團(tuán)隊(duì)提出了一種新的框架——組合推理(Combinatorial Reasoning, CR)。該框架通過(guò)組合優(yōu)化技術(shù),自動(dòng)生成用于推理任務(wù)的提示,從而提高LLMs在推理任務(wù)中的表現(xiàn)。CR框架的核心思想是將從LLM管道中采樣的理由映射為二次無(wú)約束二進(jìn)制優(yōu)化(QUBO)問(wèn)題,通過(guò)優(yōu)化選擇有用的理由子集,構(gòu)建鏈?zhǔn)剿季S風(fēng)格的提示。
本研究由來(lái)自多個(gè)機(jī)構(gòu)的專家團(tuán)隊(duì)合作完成,涵蓋了生成式AI、量子計(jì)算、數(shù)據(jù)科學(xué)和優(yōu)化算法等多個(gè)領(lǐng)域。研究團(tuán)隊(duì)成員有紐約Icosa Computing Inc.公司成員Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于紐約的公司,專注于計(jì)算技術(shù)和人工智能的前沿研究與開發(fā)。團(tuán)隊(duì)成員在生成式AI和優(yōu)化算法方面具有豐富的經(jīng)驗(yàn)。NASA ARC的量子人工智能實(shí)驗(yàn)室的成員Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能實(shí)驗(yàn)室(QuAIL)致力于探索量子計(jì)算在人工智能中的應(yīng)用。該實(shí)驗(yàn)室位于加利福尼亞州的Moffett Field,研究重點(diǎn)包括量子優(yōu)化和量子機(jī)器學(xué)習(xí)。NASA ARC數(shù)據(jù)科學(xué)組的成員Ata Akbari Asanjan,NASA ARC數(shù)據(jù)科學(xué)組是NASA ARC的一部分,專注于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)的研究與應(yīng)用。團(tuán)隊(duì)成員在大數(shù)據(jù)處理和分析方面具有深厚的專業(yè)知識(shí)。USRA高級(jí)計(jì)算科學(xué)研究所的成員P. Aaron Lott, Davide Venturelli,USRA高級(jí)計(jì)算科學(xué)研究所(RIACS)與NASA合作,進(jìn)行高級(jí)計(jì)算和人工智能領(lǐng)域的研究。研究所位于加利福尼亞州的Moffett Field,致力于推動(dòng)計(jì)算科學(xué)的前沿發(fā)展?;萜諏?shí)驗(yàn)室的LSIP(Large-Scale Integrated Photonics)部門成員Masoud Mohseni,惠普實(shí)驗(yàn)室的LSIP(Large-Scale Integrated Photonics)部門位于加利福尼亞州Milpitas,專注于大規(guī)模集成光子學(xué)和量子計(jì)算的研究。團(tuán)隊(duì)成員在物理學(xué)和計(jì)算科學(xué)方面具有豐富的研究經(jīng)驗(yàn)。DataStax 公司的成員Alan Ho, DataStax是一家位于加利福尼亞州圣克拉拉的公司,專注于數(shù)據(jù)管理和數(shù)據(jù)庫(kù)技術(shù)。公司致力于提供高性能的數(shù)據(jù)庫(kù)解決方案,支持大規(guī)模數(shù)據(jù)處理和分析。
LLMs概述?
大型語(yǔ)言模型(Large Language Models, LLMs)是基于深度學(xué)習(xí)技術(shù)的機(jī)器學(xué)習(xí)模型,專門用于處理和生成自然語(yǔ)言文本。與傳統(tǒng)的語(yǔ)言模型相比,LLMs擁有極其龐大的參數(shù)量,通常達(dá)到數(shù)十億甚至上百億級(jí)別。這些模型通過(guò)在海量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠捕捉語(yǔ)言中的復(fù)雜模式和結(jié)構(gòu),從而生成高度連貫和自然的文本。
盡管LLMs在生成和理解自然語(yǔ)言方面表現(xiàn)出色,但在處理需要深度推理的任務(wù)時(shí)仍存在一定的局限性。為了提高LLMs的推理能力,研究人員提出了多種推理方法,其中最具代表性的是鏈?zhǔn)剿季S(Chain of Thought, CoT)和自一致性(Self-Consistency)。
1. 鏈?zhǔn)剿季S(CoT)
鏈?zhǔn)剿季S是一種通過(guò)在提示中加入中間推理步驟來(lái)增強(qiáng)LLMs推理能力的方法。具體來(lái)說(shuō),CoT方法通過(guò)手動(dòng)標(biāo)注的示例,展示了從問(wèn)題到答案的推理過(guò)程。這些示例被用作提示,指導(dǎo)LLMs生成包含推理路徑的回答。
CoT方法能夠顯著提高LLMs在推理任務(wù)中的表現(xiàn),特別是在需要多步推理的復(fù)雜任務(wù)中。
局限性是CoT方法依賴于人工標(biāo)注的示例,這不僅耗時(shí)耗力,而且這些示例可能無(wú)法泛化到不同類型的任務(wù)。此外,手動(dòng)標(biāo)注的示例數(shù)量有限,難以覆蓋所有可能的推理路徑。
2. 自一致性(Self-Consistency)
自一致性是一種改進(jìn)的解碼方法,旨在提高CoT提示的性能。與貪婪解碼不同,自一致性方法通過(guò)在非零溫度下收集多個(gè)樣本,并選擇出現(xiàn)次數(shù)最多的答案。這種方法基于這樣一個(gè)直觀的假設(shè):推理問(wèn)題可能有多條正確的推理路徑,但錯(cuò)誤的推理路徑會(huì)導(dǎo)致不同的錯(cuò)誤答案。
自一致性能夠通過(guò)對(duì)多個(gè)推理路徑進(jìn)行邊際化處理,生成更準(zhǔn)確的答案。這種方法在處理復(fù)雜推理任務(wù)時(shí)表現(xiàn)尤為出色。
自一致性方法同樣依賴于手動(dòng)標(biāo)注的示例,并且需要大量計(jì)算資源來(lái)生成和評(píng)估多個(gè)樣本。此外,這種方法在處理具有高度不確定性的任務(wù)時(shí),可能會(huì)面臨性能瓶頸。
盡管這些現(xiàn)有的推理方法在一定程度上提高了LLMs的推理能力,但它們的局限性也顯而易見。為了克服這些局限性,本文提出了一種新的框架——組合推理(Combinatorial Reasoning, CR),通過(guò)組合優(yōu)化技術(shù),自動(dòng)生成用于推理任務(wù)的提示,從而進(jìn)一步提升LLMs在推理任務(wù)中的表現(xiàn)。
圖1:組合推理的工作流程。LLM對(duì)初始提示進(jìn)行N次處理,并通過(guò)語(yǔ)義匹配過(guò)程對(duì)答案進(jìn)行過(guò)濾,以產(chǎn)生具有不同原因的答案。該系綜被映射到由Ising機(jī)器解決的QUBO問(wèn)題中。最終解決方案確定了一組要添加到最終LLM調(diào)用提示中的原因,該調(diào)用將確定最終答案。
組合推理(CR)框架
CR框架的提出
隨著生成式人工智能(Generative AI)和大型語(yǔ)言模型(LLMs)的快速發(fā)展,這些模型在自然語(yǔ)言處理任務(wù)中展現(xiàn)了強(qiáng)大的能力。然而盡管LLMs在生成自然語(yǔ)言文本方面表現(xiàn)出色,但在處理需要深度推理的任務(wù)時(shí)仍存在顯著的局限性?,F(xiàn)有的推理方法,如鏈?zhǔn)剿季S(Chain of Thought, CoT)和自一致性(Self-Consistency),雖然在一定程度上提高了LLMs的推理能力,但它們依賴于人工標(biāo)注的示例,難以實(shí)現(xiàn)自動(dòng)化和泛化。
為了克服這些局限性,研究團(tuán)隊(duì)提出了一種新的框架——組合推理(Combinatorial Reasoning, CR)。CR框架的核心思想是通過(guò)組合優(yōu)化技術(shù),自動(dòng)生成用于推理任務(wù)的提示,從而提高LLMs在推理任務(wù)中的表現(xiàn)。具體來(lái)說(shuō),CR框架通過(guò)將從LLM管道中采樣的理由映射為二次無(wú)約束二進(jìn)制優(yōu)化(QUBO)問(wèn)題,并利用優(yōu)化技術(shù)選擇有用的理由子集,構(gòu)建鏈?zhǔn)剿季S風(fēng)格的提示。
CR框架的四個(gè)階段
CR框架包括四個(gè)主要階段:理由采樣、QUBO映射、組合優(yōu)化求解和最終提示創(chuàng)建。以下是每個(gè)階段的詳細(xì)介紹。
理由采樣
在CR框架的第一個(gè)階段,研究團(tuán)隊(duì)需要從LLM中采樣理由。具體步驟如下:
- 準(zhǔn)備輸入提示:給定一個(gè)問(wèn)題,從數(shù)據(jù)集中準(zhǔn)備N個(gè)相同的輸入提示,并在固定溫度下查詢LLM。每個(gè)輸出將包含一組理由。
- 語(yǔ)義嵌入:使用HuggingFace的Sentence Transformer(如all-mpnet-base-v2)將每個(gè)理由嵌入到一個(gè)標(biāo)準(zhǔn)化的768維向量中。
- 相似度計(jì)算:定義兩個(gè)理由之間的相似度度量為對(duì)應(yīng)嵌入向量的點(diǎn)積。如果相似度大于某個(gè)閾值(如ζ),則認(rèn)為這兩個(gè)理由是相同的。
- 理由去重:使用上述相似度計(jì)算方法,將所有采樣的理由減少為一個(gè)較小的獨(dú)立理由集,并生成嵌入向量集合。
通過(guò)上述步驟,研究團(tuán)隊(duì)可以得到以下集合:
- {s}:每個(gè)樣本包含一個(gè)答案和一組理由。
- {rtotal}:從LLM中采樣的所有理由集合。
- {rdistinct}:通過(guò)Sentence Transformer選擇的獨(dú)立理由集合。
- ni:每個(gè)獨(dú)立理由在N個(gè)樣本中出現(xiàn)的次數(shù)。
- nij:每對(duì)獨(dú)立理由在任意一個(gè)樣本中共同出現(xiàn)的次數(shù)。
這些計(jì)數(shù)是組合推理的基礎(chǔ),研究團(tuán)隊(duì)將使用它們來(lái)計(jì)算QUBO映射中所需的量。
QUBO映射
在CR框架的第二個(gè)階段,研究團(tuán)隊(duì)將采樣的理由映射為二次無(wú)約束二進(jìn)制優(yōu)化(QUBO)問(wèn)題。具體步驟如下:
- 定義變量:將每個(gè)獨(dú)立理由與一個(gè)整數(shù)變量zi關(guān)聯(lián)。變量的整數(shù)范圍選擇為二進(jìn)制編碼的最大冪。
- 構(gòu)建目標(biāo)函數(shù):目標(biāo)函數(shù)由兩個(gè)部分組成:L和Q。
- L:基于理由出現(xiàn)頻率選擇理由。定義pi為理由的“流行度”,ri為頻率的標(biāo)準(zhǔn)差模塊。
- Q:捕捉理由之間的相關(guān)性。定義cij為兩個(gè)理由之間的連接相關(guān)性。
- 目標(biāo)函數(shù)公式:
- L = ∑li(μ, α)zi = ∑[μ pi - αri] zi
- Q = ∑qij (β)zizj = ∑[cij - cˉ- β δc] zizj
- QUBO形式:通過(guò)二進(jìn)制編碼公式,將目標(biāo)函數(shù)轉(zhuǎn)換為QUBO形式。
通過(guò)上述步驟,研究團(tuán)隊(duì)可以將采樣的理由映射為一個(gè)QUBO問(wèn)題,準(zhǔn)備進(jìn)行組合優(yōu)化求解。
組合優(yōu)化求解
在CR框架的第三個(gè)階段,研究團(tuán)隊(duì)使用伊辛機(jī)和其他優(yōu)化技術(shù)求解QUBO問(wèn)題。具體步驟如下:
- 配置伊辛機(jī):使用預(yù)定義的參數(shù)設(shè)置策略配置伊辛機(jī),旨在找到最合適的解決方案。
- 求解QUBO問(wèn)題:伊辛機(jī)通過(guò)模擬退火、自適應(yīng)并行回火等技術(shù),優(yōu)化QUBO問(wèn)題,找到全局最優(yōu)解或近似解。
- 選擇理由:根據(jù)優(yōu)化結(jié)果,選擇zi > 0的理由,并為每個(gè)理由分配一個(gè)相對(duì)重要性的權(quán)重w。
通過(guò)上述步驟,研究團(tuán)隊(duì)可以得到優(yōu)化后的理由集合,為最終提示創(chuàng)建做好準(zhǔn)備。
最終提示創(chuàng)建
在CR框架的最后一個(gè)階段,研究團(tuán)隊(duì)根據(jù)優(yōu)化結(jié)果創(chuàng)建最終的提示,并用于LLM的查詢。具體步驟如下:
- 映射回理由集合:將QUBO問(wèn)題的最佳候選解決方案映射回理由集合,每個(gè)理由前面加上其權(quán)重w。
- 排序和組合:根據(jù)權(quán)重對(duì)理由進(jìn)行排序,并組合成一個(gè)提示字符串。
- 生成最終提示:將組合好的提示字符串用于LLM的查詢,以零樣本模式進(jìn)行推理任務(wù)。
通過(guò)上述步驟,研究團(tuán)隊(duì)可以生成一個(gè)包含優(yōu)化理由的提示,提高LLM在推理任務(wù)中的表現(xiàn)。
組合推理(CR)框架通過(guò)組合優(yōu)化技術(shù),自動(dòng)生成用于推理任務(wù)的提示,克服了現(xiàn)有推理方法的局限性。CR框架包括理由采樣、QUBO映射、組合優(yōu)化求解和最終提示創(chuàng)建四個(gè)階段,通過(guò)優(yōu)化選擇有用的理由子集,構(gòu)建鏈?zhǔn)剿季S風(fēng)格的提示,從而提高LLMs在推理任務(wù)中的表現(xiàn)。
實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)設(shè)置
研究團(tuán)隊(duì)使用了GPT-3.5-turbo-0125作為實(shí)驗(yàn)所用的大型語(yǔ)言模型(LLM)。GPT-3.5-turbo是OpenAI開發(fā)的一系列模型之一,專門用于生成類人自然語(yǔ)言文本。該模型具有16,385個(gè)上下文窗口,并能返回最多4,096個(gè)令牌的輸出。為了確保實(shí)驗(yàn)的公平性和一致性,研究團(tuán)隊(duì)選擇了BIG-bench Hard(BBH)任務(wù)集進(jìn)行評(píng)估。BBH任務(wù)集包含了一系列推理導(dǎo)向的問(wèn)題,這些問(wèn)題在過(guò)去對(duì)LLMs來(lái)說(shuō)一直是具有挑戰(zhàn)性的。
為了節(jié)省推理時(shí)間和成本,研究團(tuán)隊(duì)從每個(gè)子任務(wù)中隨機(jī)抽取了50個(gè)問(wèn)題,共計(jì)1350個(gè)問(wèn)題,組成了一個(gè)評(píng)估集。在這個(gè)評(píng)估集上,研究團(tuán)隊(duì)將CR框架與以下幾種方法進(jìn)行比較:
- 修改版零樣本提示
- 通用自適應(yīng)提示(USP)
- 標(biāo)準(zhǔn)三樣本鏈?zhǔn)剿季S(CoT)提示
在理由采樣階段,研究團(tuán)隊(duì)對(duì)LLM進(jìn)行了N=210次采樣,溫度設(shè)為1,以收集足夠的獨(dú)立理由,并計(jì)算它們的分布和相關(guān)矩陣。相似度閾值ζ設(shè)為0.90,這一數(shù)值是通過(guò)對(duì)測(cè)試問(wèn)題的經(jīng)驗(yàn)確定的。在運(yùn)行QUBO映射之前,研究團(tuán)隊(duì)使用Optuna框架對(duì)映射參數(shù)進(jìn)行了調(diào)優(yōu),選擇了最優(yōu)的參數(shù)值。
圖2:組合推理(CR)相對(duì)于其他方法的性能。人類和USP結(jié)果分別來(lái)自BBH和USP的出版物。USP在不同但可比較的LLM PaLM 2-M上進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,CR框架在BBH任務(wù)集上的表現(xiàn)優(yōu)于其他零樣本方法。具體結(jié)果如下:
- 平均表現(xiàn):CR框架的平均準(zhǔn)確率為59.88%,顯著高于零樣本提示(47.68%)和通用自適應(yīng)提示(55.89%),但低于三樣本CoT提示(74.20%)。
- 平均排名:CR框架在所有方法中的平均排名為2.57,優(yōu)于零樣本提示(3.22)和通用自適應(yīng)提示(2.78),但不及三樣本CoT提示(1.35)。
圖3:具有線性CR和隨機(jī)原因的二次CR(與正文相同)的基線分析。十個(gè)數(shù)據(jù)集的總體性能為二次CR:65.2%,線性CR:68.2%,隨機(jī):57.4%. 包括0次和0次CoT結(jié)果以供參考。根據(jù)0-發(fā)射CoT的性能對(duì)各個(gè)任務(wù)進(jìn)行排序。
此外研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估,驗(yàn)證了CR框架在每個(gè)階段的效果。結(jié)果表明,CR框架通過(guò)優(yōu)化顯著減少了獨(dú)立理由的數(shù)量,提高了提示的質(zhì)量。
結(jié)果分析
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)CR框架在不同任務(wù)上的表現(xiàn)具有以下優(yōu)勢(shì)和不足:
優(yōu)勢(shì)是
- 自動(dòng)化程度高:CR框架通過(guò)組合優(yōu)化技術(shù),自動(dòng)生成用于推理任務(wù)的提示,減少了對(duì)人工標(biāo)注示例的依賴,提高了提示生成的自動(dòng)化程度。
- 推理能力增強(qiáng):CR框架通過(guò)選擇有用的理由子集,構(gòu)建鏈?zhǔn)剿季S風(fēng)格的提示,顯著提高了LLM在推理任務(wù)中的表現(xiàn)。
- 適應(yīng)性強(qiáng):CR框架能夠適應(yīng)不同類型的推理任務(wù),通過(guò)優(yōu)化選擇最相關(guān)的理由,提高了提示的準(zhǔn)確性和相關(guān)性。
不足的問(wèn)題是
- 計(jì)算資源需求高:CR框架在理由采樣和QUBO映射階段需要大量的計(jì)算資源,特別是在處理大規(guī)模數(shù)據(jù)集時(shí),計(jì)算成本較高。
- 復(fù)雜任務(wù)表現(xiàn)有限:盡管CR框架在大多數(shù)任務(wù)中表現(xiàn)優(yōu)異,但在一些復(fù)雜任務(wù)(如形式謬誤類別)中,仍存在一定的性能瓶頸。這可能是由于QUBO映射和組合優(yōu)化求解器的局限性所致。
- 語(yǔ)義匹配改進(jìn)空間大:在理由采樣階段,盡管使用了Sentence Transformer進(jìn)行語(yǔ)義嵌入和相似度計(jì)算,但仍有許多語(yǔ)義相同的理由被識(shí)別為不同。改進(jìn)語(yǔ)義匹配程序可以進(jìn)一步提高QUBO映射和整個(gè)CR框架的有效性。
CR框架通過(guò)組合優(yōu)化技術(shù),顯著提高了LLM在推理任務(wù)中的表現(xiàn),展示了其在生成式AI推理任務(wù)中的巨大潛力。然而,未來(lái)的研究仍需在計(jì)算資源優(yōu)化、復(fù)雜任務(wù)處理和語(yǔ)義匹配改進(jìn)等方面進(jìn)行進(jìn)一步探索,以充分發(fā)揮CR框架的優(yōu)勢(shì)。
研究總結(jié)
論文提出的組合推理(Combinatorial Reasoning, CR)框架,通過(guò)組合優(yōu)化技術(shù),顯著提升了大型語(yǔ)言模型(LLMs)在推理任務(wù)中的表現(xiàn)。
CR框架通過(guò)將從LLM管道中采樣的理由映射為二次無(wú)約束二進(jìn)制優(yōu)化(QUBO)問(wèn)題,并利用優(yōu)化技術(shù)選擇有用的理由子集,自動(dòng)生成用于推理任務(wù)的提示。這一方法減少了對(duì)人工標(biāo)注示例的依賴,提高了提示生成的自動(dòng)化程度。
通過(guò)選擇有用的理由子集,CR框架能夠構(gòu)建鏈?zhǔn)剿季S(Chain of Thought, CoT)風(fēng)格的提示,顯著提高了LLM在推理任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,CR框架在BIG-bench Hard(BBH)任務(wù)集上的平均準(zhǔn)確率為59.88%,優(yōu)于其他零樣本方法。
CR框架能夠適應(yīng)不同類型的推理任務(wù),通過(guò)優(yōu)化選擇最相關(guān)的理由,提高了提示的準(zhǔn)確性和相關(guān)性。實(shí)驗(yàn)結(jié)果表明,CR框架在多個(gè)推理任務(wù)上表現(xiàn)優(yōu)異,展示了其廣泛的適用性。
通過(guò)在GPT-3.5-turbo-0125模型上進(jìn)行實(shí)驗(yàn),驗(yàn)證了CR框架的有效性。實(shí)驗(yàn)結(jié)果顯示,CR框架在平均表現(xiàn)和排名上均優(yōu)于其他零樣本方法,證明了其在推理任務(wù)中的優(yōu)勢(shì)。
盡管CR框架在推理任務(wù)中表現(xiàn)出色,但仍有一些不足之處需要改進(jìn)。例如,計(jì)算資源需求高、復(fù)雜任務(wù)表現(xiàn)有限以及語(yǔ)義匹配程序有待優(yōu)化等。這些問(wèn)題為未來(lái)的研究提供了方向和挑戰(zhàn)。
CR框架在生成式AI推理任務(wù)中的應(yīng)用前景廣闊,未來(lái)的研究可以在以下幾個(gè)方面進(jìn)行探索和改進(jìn)。
優(yōu)化時(shí)間和準(zhǔn)確性:進(jìn)一步優(yōu)化語(yǔ)義匹配程序,通過(guò)調(diào)整相似度閾值或采用更高級(jí)的語(yǔ)義匹配算法,提高QUBO映射的有效性。QUBO映射:優(yōu)化目標(biāo)函數(shù)的構(gòu)建,增加對(duì)高階相關(guān)性的考慮,研究圖的屬性和自旋玻璃的物理特性,以提高最終答案的準(zhǔn)確性。組合優(yōu)化求解器:探索使用更高效的求解器,如硬件高效的數(shù)字實(shí)現(xiàn)和量子求解器,通過(guò)混合策略進(jìn)一步提高求解效率和準(zhǔn)確性。
框架的泛化:將定理證明器(如Z3)集成到CR框架中,作為后處理步驟來(lái)消除沖突理由,結(jié)合概率求解器和確定性求解器的方法,在開放域問(wèn)題上實(shí)現(xiàn)更高效的推理。與檢索增強(qiáng)生成(RAG)的集成:將檢索增強(qiáng)生成技術(shù)集成到CR框架中,通過(guò)語(yǔ)義搜索從知識(shí)庫(kù)中檢索相關(guān)信息,并將其作為上下文加入到理由采樣過(guò)程中,提高推理的準(zhǔn)確性和相關(guān)性。
在不同應(yīng)用場(chǎng)景中的潛力:在金融領(lǐng)域CR框架可以用于風(fēng)險(xiǎn)評(píng)估、投資組合優(yōu)化和市場(chǎng)預(yù)測(cè)等任務(wù),通過(guò)自動(dòng)生成推理提示,提高決策的準(zhǔn)確性和效率。醫(yī)療領(lǐng)域:在醫(yī)療領(lǐng)域,CR框架可以用于疾病診斷、治療方案推薦和醫(yī)學(xué)研究,通過(guò)結(jié)合醫(yī)學(xué)知識(shí)庫(kù)和推理能力,提供更精準(zhǔn)的醫(yī)療建議。法律領(lǐng)域:在法律領(lǐng)域,CR框架可以用于法律推理、案件分析和法律文書生成,通過(guò)自動(dòng)生成法律推理路徑,提高法律工作的效率和準(zhǔn)確性。
組合推理(CR)框架通過(guò)組合優(yōu)化技術(shù),顯著提高了LLM在推理任務(wù)中的表現(xiàn),展示了其在生成式AI推理任務(wù)中的巨大潛力。未來(lái)的研究可以在優(yōu)化時(shí)間和準(zhǔn)確性、框架的泛化和不同應(yīng)用場(chǎng)景的擴(kuò)展等方面進(jìn)行進(jìn)一步探索,以充分發(fā)揮CR框架的優(yōu)勢(shì)。通過(guò)不斷改進(jìn)和擴(kuò)展,CR框架有望在更多領(lǐng)域中實(shí)現(xiàn)廣泛應(yīng)用,為復(fù)雜推理任務(wù)提供更高效和智能的解決方案。(END)
參考資料:https://arxiv.org/pdf/2407.00071
本文轉(zhuǎn)載自 大噬元獸,作者: FlerkenS
