自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略

發(fā)布于 2024-4-11 13:06
瀏覽
0收藏

你是否也好奇,在大模型時(shí)代,可解釋性人工智能技術(shù)(XAI)有怎樣的使用價(jià)值?近日,來(lái)自佐治亞大學(xué)、新澤西理工學(xué)院、弗吉尼亞大學(xué)、維克森林大學(xué)、和騰訊 AI Lab 的研究者聯(lián)合發(fā)布了解釋性技術(shù)在大語(yǔ)言模型(LLM)上的可用性綜述,提出了 「Usable XAI」 的概念,并探討了 10 種在大模型時(shí)代提高 XAI 實(shí)際應(yīng)用價(jià)值的策略。


XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

論文題目:Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era

論文鏈接:https://arxiv.org/pdf/2403.08946.pdf

代碼鏈接:??https://github.com/JacksonWuxs/UsableXAI_LLM??


這些策略涵蓋兩方面:(1)如何利用 XAI 來(lái)更好地理解和優(yōu)化 LLM 與 AI 系統(tǒng);(2)如何利用 LLM 的獨(dú)特能力進(jìn)一步增強(qiáng) XAI。此外,研究團(tuán)隊(duì)還通過(guò)具體的案例分析說(shuō)明如何獲取和使用大模型的解釋。


XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

可用的大模型解釋技術(shù)

Usable XAI in LLMs


從深度學(xué)習(xí)興起至今,XAI 一直受到關(guān)注。人們希望通過(guò) XAI 了解模型是否按預(yù)期工作,并利用這些解釋來(lái)設(shè)計(jì)更好的模型。盡管 XAI 在技術(shù)上已有顯著的進(jìn)步,但如何有效使用 XAI 技術(shù)以滿(mǎn)足人們的期待還有待探索。發(fā)展「可用的解釋性技術(shù)」(Usable XAI)有兩大阻礙,其一是 AI 自動(dòng)化和人類(lèi)介入之間存在沖突,其二是不同技術(shù)背景的用戶(hù)對(duì)于解釋的需求并不一致。


針對(duì) LLM 的 Usable XAI 又面臨更多新挑戰(zhàn):(1)LLM 龐大的參數(shù)量對(duì)于解釋性算法的復(fù)雜度提出了限制;(2)LLM 擅長(zhǎng)于生成式任務(wù)而非傳統(tǒng)的分類(lèi)任務(wù),這對(duì)傳統(tǒng)的解釋性算法設(shè)計(jì)提出新的要求;(3)LLM 廣泛的應(yīng)用場(chǎng)景也讓研究者在設(shè)計(jì)和使用大模型解釋性算法的時(shí)候需要考慮道德因素和社會(huì)影響。另一方面,LLM 也可能在 XAI 的一些環(huán)節(jié)中替代人類(lèi)的作用,從而提高解釋性算法的可用性,降低人工成本。


研究者考慮大模型時(shí)代下的 「Usable XAI」包括兩個(gè)方面:(1)使用 XAI 來(lái)增強(qiáng) LLM 和 AI 系統(tǒng),(2)使用 LLM 來(lái)提升 XAI 框架。進(jìn)一步,研究者具體討論了 10 種策略來(lái)實(shí)現(xiàn) Usable XAI 技術(shù)(見(jiàn)圖 1),其中包括 7 種使用解釋來(lái)提升 LLM 的策略,以及 3 種使用 LLM 來(lái)提升解釋性技術(shù)的策略。對(duì)于某些策略,研究者提供了案例分析來(lái)強(qiáng)調(diào)策略的有效性或局限性。


策略 1:歸因解釋用于診斷 LLM


歸因解釋?zhuān)╝ttribution methods)旨在量化每個(gè)輸入單詞對(duì)模型輸出的影響。傳統(tǒng)上,歸因解釋分為四種主要方法:基于擾動(dòng)、基于梯度、基于代理模型和基于模型解耦。在這些方法中,基于梯度的方法仍然適用于 LLM。圖 2 是一個(gè)輸入 - 輸出詞對(duì)間的的歸因解釋熱力圖,亮度越高代表當(dāng)前輸入詞對(duì)于當(dāng)前輸出詞的影響越大。


XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

通過(guò)歸因解釋?zhuān)軌蚋由钊氲乩斫?LLM 的運(yùn)行機(jī)制。因此,論文作者們?cè)O(shè)計(jì)了一套流程,通過(guò)歸因得分來(lái)分析模型行為(見(jiàn)圖 3)。流程開(kāi)始于指定一個(gè)目標(biāo) LLM 及其一個(gè)輸入輸出樣本對(duì),然后計(jì)算輸入和輸出單詞之間的歸因影響。因此,可以利用這些量化的歸因影響以及人類(lèi)對(duì)于某個(gè)任務(wù)的先驗(yàn)知識(shí)構(gòu)造特征向量。最后,基于這些特征向量訓(xùn)練一個(gè)輕量級(jí)的模型用于模型行為的診斷。兩個(gè)具體的案例研究進(jìn)一步展示了如何應(yīng)用這一策略。

XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)


Case Study-1: 使用歸因解釋評(píng)估模型回答質(zhì)量?


考慮一個(gè)機(jī)器閱讀理解場(chǎng)景,即輸入一段文章以及一個(gè)問(wèn)題,研究團(tuán)隊(duì)希望判斷分析模型生成的回答質(zhì)量。理想情況下,一個(gè)高質(zhì)量的回答應(yīng)該是依賴(lài)于文章中相關(guān)的內(nèi)容得到的。于是,先通過(guò)歸因解釋抽取模型所依賴(lài)的原始文章段落,而后訓(xùn)練一個(gè)分類(lèi)器基于抽取的段落判斷回答是否正確。


XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

表 2 的使用結(jié)果說(shuō)明,通過(guò)歸因解釋抽取的段落可以有效地判斷答案的質(zhì)量,并且取得了接近于人工標(biāo)注的效果,證明了歸因解釋在驗(yàn)證模型答案質(zhì)量方面的應(yīng)用價(jià)值。


Case Study-2: 使用歸因解釋檢測(cè)幻覺(jué)回答?


LLM 可能會(huì)產(chǎn)生事實(shí)錯(cuò)誤的回答,這種現(xiàn)象稱(chēng)為 「幻覺(jué)」(hallucination)。一個(gè)可能的原因是模型過(guò)于關(guān)注用戶(hù)指令而忽視相關(guān)實(shí)體。例如,「請(qǐng)給我一個(gè)關(guān)于 Renoit 國(guó)王的故事」這個(gè)用戶(hù)請(qǐng)求,Vicuna 模型會(huì)將《三個(gè)火槍手》里國(guó)王的故事安插給 Renoit 國(guó)王。

然而 Renoit 國(guó)王是一個(gè)虛構(gòu)的角色,并不存在相應(yīng)的故事。在這個(gè)例子中,模型太執(zhí)著于執(zhí)行指令 「請(qǐng)給我一個(gè) xxx 的故事」,卻忽略了指令實(shí)體 「Renoit 國(guó)王」。于是,作者提出通過(guò)統(tǒng)計(jì)輸入指令中不同詞性的單詞的平均歸因解釋得分作為特征向量構(gòu)建出一個(gè)幻覺(jué)回答檢測(cè)器。

XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

表 3 的實(shí)驗(yàn)結(jié)果表明,即使是較小模型(Vicuna/Mistral-7B)產(chǎn)生的歸因解釋也能有效識(shí)別大模型(ChatGPT 3.5)的幻覺(jué)回答,證明了這種方法的有效性。


策略 2:內(nèi)部模塊解釋用于診斷和提升 LLM


LLM 主要構(gòu)建于 Transformer 架構(gòu)之上,其包括自注意機(jī)制(Self-Attention)和前饋網(wǎng)絡(luò)(Feed-Forward Networks)。對(duì)于自注意機(jī)制,一個(gè)基本的解釋方法是通過(guò)分析注意力矩陣來(lái)理解輸入和輸出之間單個(gè)樣本詞對(duì)的關(guān)系。除此以外,近期也有更深入的新技術(shù)出現(xiàn),例如 Transformer Circuits 理論或者將模型權(quán)重投影到靜態(tài)詞向量,進(jìn)而揭示具體權(quán)重的行為。這些技術(shù)幫助研究者設(shè)計(jì)出更好、更高效的自注意力結(jié)構(gòu)。


在前饋網(wǎng)絡(luò)方面,主流工作主要依賴(lài)于 key-value memories 理論。最新的研究致力于減輕由于神經(jīng)元的多義性(polysemantic)導(dǎo)致的解釋性難題,比如引入 PCA 分解或者字典學(xué)習(xí)的技術(shù)。這些解釋性算法已經(jīng)被嘗試應(yīng)用于模型知識(shí)編輯、生成內(nèi)容控制、和模型剪枝等領(lǐng)域。


策略 3:基于(訓(xùn)練)樣本的解釋用于調(diào)試 LLM


基于樣本的解釋方法旨在通過(guò)分析訓(xùn)練樣本來(lái)解釋模型對(duì)于特定測(cè)試樣本的響應(yīng)。影響函數(shù)(Influence Function,IF)是這方面的核心技術(shù)之一,它通過(guò)評(píng)估移除特定訓(xùn)練樣本并重新訓(xùn)練模型后,模型對(duì)測(cè)試樣本響應(yīng)的變化來(lái)量化該訓(xùn)練樣本的影響力。這種方法不僅可以揭示 LLM 的回答依據(jù)何種訓(xùn)練文檔,還有助于了解 LLM 如何在廣泛知識(shí)領(lǐng)域內(nèi)進(jìn)行推廣。


盡管影響函數(shù)的理論在 LLM 調(diào)試中極具潛力,但由于在大型模型上計(jì)算 Hessian 矩陣的復(fù)雜度,目前還缺乏實(shí)證這一技術(shù)在 LLM 上有效性的開(kāi)源實(shí)現(xiàn)。因此,研究團(tuán)隊(duì)提供了一個(gè)案例分析來(lái)強(qiáng)調(diào) IF 在 LLM 上的適用性,具體的代碼可以在開(kāi)源 Github 倉(cāng)庫(kù)中找到。


Case Study-3: 基于 EK-FAC 近似實(shí)現(xiàn) LLM 影響函數(shù)解釋


在本案例中,研究團(tuán)隊(duì)采用 Grosse 等人(2023)提出的 EK-FAC 近似理論來(lái)實(shí)現(xiàn) influence function,驗(yàn)證其對(duì)于 LLM 的適用性,又選取 SciFact 數(shù)據(jù)集中的 5183 篇論文摘要作為訓(xùn)練語(yǔ)料,對(duì)包括 GPT2-1.5B、LlaMA2-7B、Mistral-7B 和 LlaMA2-13B 在內(nèi)的一系列大模型進(jìn)行了進(jìn)一步預(yù)訓(xùn)練。


為了確保模型能記住每個(gè)訓(xùn)練文檔,每個(gè) LLM 均在該語(yǔ)料庫(kù)上訓(xùn)練了 2 萬(wàn)步。通過(guò)隨機(jī)選取某個(gè)訓(xùn)練文檔的前三個(gè)句子作為輸入,并收集模型的輸出,研究團(tuán)隊(duì)使用 IF 估計(jì)了每個(gè)訓(xùn)練文檔對(duì)于該輸入輸出對(duì)的重要性,并據(jù)此對(duì)訓(xùn)練文檔進(jìn)行排序。表 4 報(bào)告了對(duì)應(yīng)的原始文檔在前 5 或 10 個(gè)文檔中的召回率,理想情況下,原始訓(xùn)練文檔應(yīng)該排在盡可能前面。


XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果顯示,作者的方法在召回率上顯著優(yōu)于隨機(jī)選擇策略,這表明 EK-FAC 近似的影響函數(shù)對(duì)于 LLM 是有效的。有趣的是,盡管模型對(duì)這些訓(xùn)練語(yǔ)料過(guò)度擬合,召回率仍未達(dá)到 100%,暗示了大型語(yǔ)言模型在預(yù)測(cè)時(shí)不僅僅依賴(lài)單一樣本(可能還包括他們預(yù)訓(xùn)練階段學(xué)習(xí)到的知識(shí)),而是展現(xiàn)出了強(qiáng)大的泛化能力。


策略 4:利用解釋性技術(shù)提高 LLM 可信賴(lài)性和對(duì)齊度


相較于之前著重于提升模型性能的策略,本策略專(zhuān)注于如何運(yùn)用可解釋性技術(shù)提升模型的可信度(Trustworthiness)和使其與人類(lèi)價(jià)值觀(guān)對(duì)齊(Human Alignment)。隨著 LLM 在醫(yī)療、金融、法律和教育等關(guān)鍵領(lǐng)域的廣泛應(yīng)用,確保這些模型能夠遵守人類(lèi)的道德準(zhǔn)則和安全標(biāo)準(zhǔn)變得尤為重要。


本策略綜合了近幾年利用可解釋性技術(shù)來(lái)增進(jìn)語(yǔ)言模型在安全性、隱私保護(hù)、公平性、無(wú)害性及真實(shí)性五個(gè)維度的研究成果。雖然使用解釋性技術(shù)提升模型可信度的方向已受到部分學(xué)界關(guān)注,但當(dāng)前依舊缺乏有效的監(jiān)測(cè)與緩解措施。這為發(fā)展更先進(jìn)的 LLM 可解釋性技術(shù)提出了新的挑戰(zhàn)和期待。


策略 5:可解釋的提示技術(shù)(prompts)用于提升 LLM


不同于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,LLM 的一大優(yōu)勢(shì)是其對(duì)于輸入輸出形式的高度靈活性。以情感分類(lèi)任務(wù)為例,傳統(tǒng)模型僅能輸出一個(gè)表示情緒傾向的數(shù)值,而 LLM 能夠提供包含理由的文本輸出,這種輸出方式本質(zhì)上增加了模型解釋行。其中,「思維鏈提示」(Chain-of-Thoughts,CoT)技術(shù)不僅提高了決策過(guò)程的透明度,還提高了模型下游任務(wù)的性能。這一方法成功催生了更多類(lèi)似技術(shù),如思維樹(shù)(Tree-of-Thoughts)和思維圖(Graph of Thoughts)。


盡管如此,這個(gè)框架的一個(gè)關(guān)鍵前提 —— 模型輸出的文本真的可以作為其預(yù)測(cè)的解釋 —— 還未經(jīng)驗(yàn)證。因此,這篇綜述通過(guò)案例分析探討了 CoT 解釋的忠實(shí)性。


Case Study-4: CoT 是否真的提高了 LLM 的可解釋性??


作者針對(duì)復(fù)雜的多跳問(wèn)答任務(wù)進(jìn)行了案例分析,這類(lèi)任務(wù)需要整合多個(gè)信息源才能解決問(wèn)題。例如,詢(xún)問(wèn) 「中國(guó)百米跑第一名來(lái)自哪里?」需要結(jié)合關(guān)于 「中國(guó)百米跑第一名是誰(shuí)」和 「該人物出生地」的信息。在這種多跳問(wèn)答場(chǎng)景中,任何一環(huán)的錯(cuò)誤都可能導(dǎo)致最終答案的錯(cuò)誤。


為考查忠實(shí)性,研究團(tuán)隊(duì)選擇了包括 2 跳、3 跳和 4 跳問(wèn)題各 1000 個(gè) 的MQUAKE-CF 數(shù)據(jù)集,以考察 CoT 的忠實(shí)性。具體而言,研究團(tuán)隊(duì)首先收集模型生成的初始思維鏈和最終答案,然后故意修改思維鏈中的信息為錯(cuò)誤知識(shí),基于這個(gè)錯(cuò)誤思維鏈讓模型給出新的最終答案,并希望模型產(chǎn)生錯(cuò)誤的答案。

XAI有什么用?探索LLM時(shí)代利用可解釋性的10種策略-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明,對(duì)于新一代的 LLM(如 Vicuna-v1.5, LLaMA2-7B, Falcon-7B, Mistral-v0.1/0.2-7B),它們會(huì)拒絕基于錯(cuò)誤的思維鏈做出預(yù)測(cè),這意味著還不能確定 CoT 對(duì)于這些新模型是否構(gòu)成有效解釋。然而,對(duì)于早期的 LLM(如 GPT-2, GPT-J, LLaMA-7B),較大的模型生成的 CoT 在忠實(shí)性方面表現(xiàn)較好,可以被視作有效的預(yù)測(cè)解釋。 


策略 6:利用知識(shí)增強(qiáng)的提示技術(shù)用于提升 LLM


區(qū)別于思維鏈等提示技巧,知識(shí)增強(qiáng)的提示依靠引入外部知識(shí)以提高模型回答的準(zhǔn)確性和豐富度,這種方法通常被稱(chēng)為檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)。


RAG 技術(shù)主要分為兩個(gè)步驟:首先,使用搜索引擎從外部知識(shí)庫(kù)中檢索相關(guān)信息;接著,將這些檢索到的知識(shí)整合到提示中,與 LLM 共同工作。這種方式引入的外部知識(shí)對(duì)人類(lèi)來(lái)說(shuō)是可理解的,因此也被視為一種推理階段的解釋性技術(shù)。


在本綜述中,研究者細(xì)致梳理了幾種運(yùn)用 RAG 技術(shù)來(lái)增強(qiáng)模型性能的應(yīng)用場(chǎng)景,如減少幻覺(jué)現(xiàn)象、引入最新知識(shí)、以及融合特定領(lǐng)域的專(zhuān)業(yè)知識(shí)。


策略 7:將解釋結(jié)果用于數(shù)據(jù)增強(qiáng)


數(shù)據(jù)增強(qiáng)是提升機(jī)器學(xué)習(xí)模型性能的一種經(jīng)典方法,關(guān)鍵在于增加生成數(shù)據(jù)的多樣性和確保這些數(shù)據(jù)與特定任務(wù)緊密相關(guān)。大型語(yǔ)言模型(LLM)的解釋性技術(shù)為這一挑戰(zhàn)提供了新的解決方案。通過(guò)解釋性技術(shù)揭示模型的內(nèi)部工作機(jī)制,不僅能夠指導(dǎo)數(shù)據(jù)增強(qiáng)的過(guò)程,以便生成與任務(wù)更為契合的特征,還能避免模型學(xué)習(xí)到不當(dāng)?shù)慕輳健?/p>


此外,借助 LLM 的高度可控生成能力和先前討論的解釋性技術(shù),可以直接生成具有更高多樣性的數(shù)據(jù)集,從而進(jìn)一步提高模型的魯棒性和性能。這種方法不僅擴(kuò)展了數(shù)據(jù)增強(qiáng)的應(yīng)用范圍,也為提升模型理解能力和處理能力開(kāi)辟了新途徑。


策略 8:利用 LLM 生成用戶(hù)友好的解釋


傳統(tǒng)的解釋性技術(shù)常常依賴(lài)于數(shù)字結(jié)果作為解釋的基礎(chǔ),這對(duì)普通用戶(hù)來(lái)說(shuō)并不友好。因?yàn)槠胀ㄓ脩?hù)難以高效地審視并匯總大量數(shù)字信息。對(duì)于大部分人而言,理解和匯總大量數(shù)字信息是一項(xiàng)挑戰(zhàn)。相對(duì)而言,文本描述形式的解釋更能幫助人們理解和接受解釋性結(jié)果,這對(duì)于提升解釋性技術(shù)的實(shí)用性和接受度至關(guān)重要。綜述總結(jié)了近年來(lái)如何利用 LLM 重構(gòu)解釋性算法的輸出,以提高其對(duì)用戶(hù)的友好度的相關(guān)工作。


策略 9:利用 LLM 設(shè)計(jì)可解釋的 AI 系統(tǒng)


在 XAI 領(lǐng)域,設(shè)計(jì)原理上具有可解釋性(intrinsically interpretable)的人工智能模型一直是一個(gè)核心目標(biāo),目的是根本上增加系統(tǒng)的透明度。傳統(tǒng)機(jī)器學(xué)習(xí)中的決策樹(shù),以及深度學(xué)習(xí)中的概念模型(concept bottleneck models)和解耦模型都是可解釋性較高的系統(tǒng)示例。


在綜述中,研究團(tuán)隊(duì)總結(jié)了兩種利用 LLM 來(lái)輔助設(shè)計(jì)可解釋 AI 系統(tǒng)的方法:一是利用 LLM 模擬人類(lèi)專(zhuān)家的角色,為任務(wù)定義所需的概念;二是構(gòu)建由多個(gè) LLM 組成的系統(tǒng),其中每個(gè) LLM 承擔(dān)特定的功能,從而提升整個(gè)系統(tǒng)的可解釋性。


策略 10:利用 LLM 扮演人類(lèi)在 XAI 中的角色


類(lèi)在開(kāi)發(fā)可解釋性 AI 模型的過(guò)程中扮演著關(guān)鍵角色,包括采集有人類(lèi)標(biāo)注的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,以及評(píng)估模型生成的解釋。然而,人類(lèi)參與的過(guò)程往往耗費(fèi)大量的時(shí)間和金錢(qián),限制了 XAI 的發(fā)展規(guī)模。


綜述中探討了如何利用 LLM 模擬人類(lèi)能力以緩解這一問(wèn)題的可能性。相關(guān)研究指出,通過(guò)整合基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)標(biāo)注策略,LLM 可以在保持?jǐn)?shù)據(jù)質(zhì)量的同時(shí),模擬人類(lèi)標(biāo)注者的角色,為采集高質(zhì)量的人類(lèi)標(biāo)注數(shù)據(jù)集提供輔助。


未來(lái)展望


  • 規(guī)避模型可解釋性與準(zhǔn)確性之間的矛盾:在傳統(tǒng)的 XAI 研究中,通常需要在透明度和模型性能之間做出權(quán)衡。然而,隨著 LLM 的發(fā)展,直接識(shí)別可解釋性模塊變得更加復(fù)雜。因此,論文作者建議 XAI 研究者放棄這種基于權(quán)衡的思維模式,轉(zhuǎn)而尋求同時(shí)增強(qiáng)模型的解釋性和準(zhǔn)確性。這正是論文中 Usable XAI 旨在實(shí)現(xiàn)的核心目標(biāo)。


  • 數(shù)據(jù)驅(qū)動(dòng) v.s. 解釋性驅(qū)動(dòng):當(dāng)前,數(shù)據(jù)驅(qū)動(dòng)的 AI 技術(shù)占主導(dǎo)地位,其通過(guò)利用大規(guī)模數(shù)據(jù)集構(gòu)建強(qiáng)大的「黑箱」模型,強(qiáng)調(diào)結(jié)果而非決策過(guò)程。然而,隨著高質(zhì)量數(shù)據(jù)資源的逐漸枯竭,解釋性驅(qū)動(dòng)的 AI 技術(shù)有望迅速發(fā)展,推動(dòng)通過(guò)解釋性增強(qiáng)模型和更高效地利用數(shù)據(jù)的新范式。


  • 設(shè)計(jì)可解釋性的目標(biāo):LLM 時(shí)代,XAI 技術(shù)的重要性相對(duì)發(fā)生了根本變化,LLM 強(qiáng)大的能力使得研究者們無(wú)需關(guān)注為什么模型沒(méi)有生成一個(gè)連貫的句子,而是開(kāi)始追求解釋 LLM 是否依賴(lài)于事實(shí)信息構(gòu)建輸出之類(lèi)的問(wèn)題。鑒于 LLM 強(qiáng)大的能力和復(fù)雜性,或許解釋性目標(biāo)需要轉(zhuǎn)變?yōu)橐粋€(gè)更具體、并切實(shí)可行的方面,例如為某個(gè)特定的任務(wù)或者場(chǎng)景定制的可解釋性目標(biāo)。
  • 評(píng)估 LLM 的可解釋性面臨新挑戰(zhàn):傳統(tǒng)的 XAI 已經(jīng)建立了完善的問(wèn)題分類(lèi)體系,但無(wú)法直接移植到 LLM 時(shí)代的 XAI 研究。因?yàn)樵?LLM 的背景下,某些可解釋性問(wèn)題變得不那么突出,同時(shí)某些方法變得過(guò)于復(fù)雜。此外,LLM 內(nèi)部機(jī)制的研究已經(jīng)呈現(xiàn)出多樣化的趨勢(shì),如研究模型的「撒謊」、「禮貌」 和 「催眠」等行為。這些因素都導(dǎo)致解釋 LLM 的方法尚未形成統(tǒng)一的方法論,從而使評(píng)估變得具有挑戰(zhàn)性。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/V35k4UJZPtJkAHqYlZiO1A??

標(biāo)簽
已于2024-4-11 13:08:40修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦