ACL 2024 Oral | 大模型也會被忽悠?揭秘AI的信念之旅
本篇論文的第一作者是清華大學(xué)交叉信息院的二年級碩士生許融武。主要指導(dǎo)老師為美國東北大學(xué) Weiyan Shi 助理教授、清華大學(xué)邱寒助理教授和徐葳教授。
地球是平的嗎?
當(dāng)然不是。自古希臘數(shù)學(xué)家畢達哥拉斯首次提出地圓說以來,現(xiàn)代科學(xué)技術(shù)已經(jīng)證明了地球是圓形這一事實。
但是,你有沒有想過,如果 AI 被誤導(dǎo)性信息 “忽悠” 了,會發(fā)生什么?
來自清華、上海交大、斯坦福和南洋理工的研究人員在最新的論文中深入探索 LLMs 在虛假信息干擾情況下的表現(xiàn),他們發(fā)現(xiàn)大語言模型在誤導(dǎo)信息反復(fù)勸說下,非常自信地做出「地球是平的」這一判斷。
- 論文鏈接:https://arxiv.org/pdf/2312.09085
- 項目主頁:https://llms-believe-the-earth-is-flat.github.io/
- GitHub 源代碼:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat
生成式人工智能技術(shù)的快速發(fā)展,為生成虛假信息提供了便利。這些技術(shù)不僅能夠創(chuàng)建逼真的文本、圖像、音頻和視頻內(nèi)容,還能夠在社交網(wǎng)絡(luò)上自動發(fā)布和傳播這些內(nèi)容。虛假信息的泛濫給社會帶來了諸多挑戰(zhàn),但目前對這類信息的確切影響仍不十分清楚。然而,可以預(yù)見的是,隨著技術(shù)的發(fā)展,虛假信息的生成和傳播將會變得更加容易和普遍。
另一方面,大語言模型的上下文學(xué)習(xí)能力使其受到誤導(dǎo)性信息的影響。這種誤導(dǎo)性信息可能會在模型的部署過程中在上下文中被接受,并在模型生成的輸出中反映出來,導(dǎo)致其產(chǎn)生不準(zhǔn)確或具有偏見的內(nèi)容。因此,研究者們正在努力探索如何提高大模型對虛假信息的識別能力和抵抗能力,這是提升大模型安全和魯棒性的重要內(nèi)容之一。
本篇研究就探索了這種有誤信息對于大語言模型知識信念的影響,研究論文已經(jīng)被 ACL 2024 接收,并選做大會報告(Oral)。
實驗:大模型的 “信念” 測試
研究者們首先構(gòu)建了一個名為 Farm(Fact to Misinform Dataset)的數(shù)據(jù)集,包含 1500 個事實性問題及其相關(guān)的誤導(dǎo)性信息。他們在大語言模型的幫助下系統(tǒng)性地構(gòu)造了更具有說服力的有誤信息:首先,他們對原始正確的事實性 QA 進行語義取反或者構(gòu)造錯誤答案,隨后利用 “越獄” 后的大模型協(xié)助生成更具有說服力的長文本有誤信息。
利用這些數(shù)據(jù),便可以測試大語言模型在多輪對話中面對虛假信息時的反應(yīng)。測試過程分為三個階段:初始信念檢驗、多輪對話中勸說誤導(dǎo)、結(jié)果信念檢驗。模型的信念檢驗通過模型在閉卷 QA 中答案的信心分?jǐn)?shù)反應(yīng)。通過這種方式,研究者們能夠觀察到 LLMs 在多輪對話中信念的變化。
多輪測試框架
主要結(jié)果
在勸說性交流階段,研究者們使用了多種策略來誤導(dǎo) LLMs 改變其信念。這些策略包括曉之以理的勸說(LO)、樹立權(quán)威的勸說(CR)和動之以情的勸說(EM)。結(jié)果顯示,即使是最先進的模型,如 GPT-4,也有高達 20.7% 的可能性被虛假信息所影響?;趯?ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五種大模型平均準(zhǔn)確度(Average Accuracy Rate, ACC)和被誤導(dǎo)率(Misinformed Rate, MR)的實驗,研究者們有五點發(fā)現(xiàn):
- 絕大多數(shù)大模型都易被虛假信息欺騙:從最先進的 GPT-4 (注:本研究的完成時間是 2023 年 9 月,當(dāng)時最先進的模型是 GPT-4)到最差的模型,所有模型在經(jīng)過多輪測試之后,誤導(dǎo)率從 20%-80% 不等。
- 越先進的大模型抵抗虛假信息能力越強:實驗表明,抵抗能力最強的是 GPT-4 模型,其能以 80% 堅持自己的事實信念。這給了我們一些寬慰:上下文理解能力越強的模型,并非更容易受到有誤信息的干擾!
- 多次重復(fù)虛假信息比單次輸出虛假信息更能騙倒大模型:通過多輪引入的虛假信息,其作用要勝過單此的引入,這很符合我們對安全性對齊的常識 —— 有害內(nèi)容越多,模型越容易被其影響。
- 運用修辭的勸說性虛假信息更容易騙倒大模型:使用更復(fù)雜,更具有說服力的修辭可以增加模型改變看法的概率。這點就和人一樣,越 “真實” 的假信息,你越容易相信
- 邏輯性說服比其它說服方式更有效:模型對邏輯性強的信息特別敏感,無論是真實信息還是虛假信息,只要邏輯連貫一致,就更容易影響模型的判斷。這表明,模型在處理信息時,可能過分依賴于表面的邏輯結(jié)構(gòu),而忽略了對信息來源和內(nèi)容真實性的深入驗證。
ChatGPT 和 GPT4 在不同勸說策略下的正確率(虛線)和誤導(dǎo)成功率(實線)
大模型面對虛假信息的五種反應(yīng)
在面對虛假信息時,AI 表現(xiàn)出了五種不同的行為:拒絕(Rejection)、奉承(sycophancy)、不確定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。這些行為揭示了 AI 在處理錯誤信息時的復(fù)雜性。例如,拒絕行為表明 AI 堅持正確的答案,不受錯誤信息影響;而奉承行為則表明 AI 在對話中表面上接受錯誤信息,但內(nèi)心仍堅持正確答案。
模型的信念和對應(yīng)面對誤信息的行為:拒絕,奉承和接納
研究還發(fā)現(xiàn),在經(jīng)過一輪虛假信息交互后,大語言模型的信心程度往往會降低。然而,對于一些問題,重復(fù)虛假信息卻讓大模型更加確信自己的答案,這種現(xiàn)象被稱為 “逆火效應(yīng)(Backfire Effect)”。
如何提升抗虛假信息干擾能力?
研究組發(fā)現(xiàn),由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在訓(xùn)練中會傾向于接受用戶的輸入,即認為外界的 context 總是友善且正確的。而且當(dāng)大語言模型有足夠信息支撐觀點時,會對正確的回答更有信心。
為了幫助大模型提升抗虛假信息干擾能力,研究者們提出了一種輕量級解決方案:在檢測到虛假信息后,使用 safety system prompt 對大模型進行提醒,并在回答之前從自己的參數(shù)化知識中檢索相關(guān)信息。這種方法在一定程度上減少了虛假信息對大模型的影響。
加入 safety system prompt 后,模型抗干擾能力顯著提升
OpenAI 的看法
有趣的是,OpenAI 在 2024 年 5 月發(fā)布了最新的 AI 模型行為準(zhǔn)則,其中特別提到了 “認知沖突” 的處理。在此部分的示例中,他們使用了 “地球是平的” 這一例子來說明模型在面對與已知事實相沖突的信息時應(yīng)如何反應(yīng),與本次研究團隊的標(biāo)題不謀而合,也更加突顯了大語言模型在處理認知沖突時的行為表現(xiàn)的重要性。
https://cdn.openai.com/spec/model-spec-2024-05-08.html
研究啟發(fā)
隨著模型的智能化,大模型逐漸展現(xiàn)出了一些人類的特性,但它們的本質(zhì)仍然是概率模型。這些模式很有可能仍然是從訓(xùn)練語料中的人類行為學(xué)習(xí)而來,即是一種 “模仿游戲”。
以上的研究探索了針對簡單事實問題,當(dāng) LLM 的內(nèi)部認知和外部信息沖突的時候,LLM 當(dāng)作何選擇,是盲從還是堅持自己的意見?而人類在這種認知沖突的過程中所展現(xiàn)的 “理愈辯愈明”、“思想碰撞出火花” 等能力還是目前的 LLM 所不具備的。
未來的研究可以進一步從模型的內(nèi)在機理和訓(xùn)練數(shù)據(jù)中對大模型的行為進行溯源式的分析,提高 AI 的可解釋性,并進一步提升跨學(xué)科研究,探索大模型的更多潛力。