GPT-4比你更會(huì)問(wèn)問(wèn)題:讓大模型自主復(fù)述,打破與人類(lèi)對(duì)話(huà)的壁壘
在最新的人工智能領(lǐng)域動(dòng)態(tài)中,人工生成的提示(prompt)質(zhì)量對(duì)大語(yǔ)言模型(LLM)的響應(yīng)精度有著決定性影響。OpenAI 提出的建議指出,精確、詳細(xì)且具體的問(wèn)題對(duì)于這些大語(yǔ)言模型的表現(xiàn)至關(guān)重要。然而,普通用戶(hù)是否能夠確保他們的問(wèn)題對(duì)于 LLM 來(lái)說(shuō)足夠清晰明了?
值得注意的是,人類(lèi)在某些情境下的自然理解能力與機(jī)器的解讀存在明顯差異。例如,“偶數(shù)月” 這一概念,在人類(lèi)看來(lái)很明顯指的是二月,四月等月份,而 GPT-4 卻可能將其誤解為天數(shù)為偶數(shù)的月份。這不僅揭示了人工智能在理解日常語(yǔ)境上的局限性,也促使我們反思如何更有效地與這些大語(yǔ)言模型進(jìn)行交流。隨著人工智能技術(shù)的不斷進(jìn)步,如何橋接人類(lèi)與機(jī)器在語(yǔ)言理解上的鴻溝,是一個(gè)未來(lái)研究的重要課題。
對(duì)此,加利福尼亞大學(xué)洛杉磯分校(UCLA)顧全全教授領(lǐng)導(dǎo)的通用人工智能實(shí)驗(yàn)室發(fā)布了一份研究報(bào)告,針對(duì)大語(yǔ)言模型(如 GPT-4)在問(wèn)題理解上的歧義問(wèn)題提出了一種創(chuàng)新的解決方案。這項(xiàng)研究由博士生鄧依荷,張蔚桐,陳子翔完成。
- 論文地址:https://arxiv.org/pdf/2311.04205.pdf
- 項(xiàng)目地址: https://uclaml.github.io/Rephrase-and-Respond
該方案的核心在于讓大語(yǔ)言模型對(duì)提出的問(wèn)題進(jìn)行復(fù)述與擴(kuò)寫(xiě),以提高其回答的準(zhǔn)確性。研究發(fā)現(xiàn),經(jīng) GPT-4 重新表述的問(wèn)題變得更加詳細(xì),問(wèn)題格式也更為清晰了。這種復(fù)述與擴(kuò)寫(xiě)的方法顯著提高了模型的回答準(zhǔn)確率。實(shí)驗(yàn)表明,一個(gè)良好的復(fù)述之后的問(wèn)題,使回答的準(zhǔn)確率從原本的 50% 提高到了接近 100%。這一性能提升不僅展示了大語(yǔ)言模型自我改進(jìn)的潛力,也為人工智能如何更有效地處理和理解人類(lèi)語(yǔ)言提供了新的視角。
方法
基于以上的發(fā)現(xiàn),研究者提出了一個(gè)簡(jiǎn)單但效果顯著的提示詞 (prompt):“Rephrase and expand the question, and respond”(簡(jiǎn)稱(chēng)為 RaR)。這一提示詞直接提高了 LLM 回答問(wèn)題的質(zhì)量,展示了在問(wèn)題處理上的一個(gè)重要提升。
研究團(tuán)隊(duì)還提出了 RaR 的一種變體,稱(chēng)為 “Two-step RaR”,以充分利用像 GPT-4 這樣的大模型復(fù)述問(wèn)題的能力。這種方法遵循兩個(gè)步驟:首先,針對(duì)給定的問(wèn)題,使用一個(gè)專(zhuān)門(mén)的 Rephrasing LLM 生成一個(gè)復(fù)述問(wèn)題;其次,將原始問(wèn)題和復(fù)述后的問(wèn)題結(jié)合起來(lái),用于提示一個(gè) Responding LLM 進(jìn)行回答。
結(jié)果
研究人員在不同任務(wù)上的實(shí)驗(yàn)顯示,無(wú)論是 (One-step) RaR 還是 Two-step RaR,都在提高 GPT4 的回答準(zhǔn)確率方面顯示出了一致的有效性。值得注意的是,在原本對(duì)于 GPT-4 極具挑戰(zhàn)性的任務(wù)上,RaR 展現(xiàn)出了顯著的改進(jìn)效果,甚至在某些情況下準(zhǔn)確率接近 100%。基于此,研究團(tuán)隊(duì)總結(jié)了以下兩點(diǎn)關(guān)鍵的結(jié)論:
1. 復(fù)述并擴(kuò)寫(xiě)(RaR)提供了一種即插即用的黑箱式提示方法,能夠有效地提高 LLM 在各種任務(wù)上的性能。
2. 在評(píng)估 LLM 在問(wèn)答(QA)任務(wù)上的表現(xiàn)時(shí),檢查問(wèn)題的質(zhì)量至關(guān)重要。
進(jìn)一步的,研究人員采用了 Two-step RaR 來(lái)探究 GPT-4、GPT-3.5 和 Vicuna-13b-v.15 等不同模型的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,對(duì)于那些具備更復(fù)雜架構(gòu)和更強(qiáng)大處理能力的模型,如 GPT-4,RaR 方法能夠顯著提升其處理問(wèn)題的準(zhǔn)確性和效率。而對(duì)于較為簡(jiǎn)單的模型,例如 Vicuna,盡管改進(jìn)幅度較小,但依然證明了 RaR 策略的有效性。基于此,研究人員進(jìn)一步檢查了不同模型復(fù)述后的問(wèn)題質(zhì)量。對(duì)于較小模型的復(fù)述問(wèn)題,有時(shí)可能對(duì)問(wèn)題的意圖產(chǎn)生擾動(dòng)。而如 GPT-4 這樣的高級(jí)模型提供的復(fù)述問(wèn)題與人類(lèi)的意圖往往更加吻合,并能增強(qiáng)其他模型的回答效果。
這一發(fā)現(xiàn)揭示了一個(gè)重要的現(xiàn)象:不同等級(jí)的語(yǔ)言模型復(fù)述的問(wèn)題在質(zhì)量和效果上存在差異。特別是像 GPT-4 這樣的高級(jí)模型,它復(fù)述的問(wèn)題不僅能夠?yàn)樽陨硖峁└逦膯?wèn)題理解,還能夠作為一種有效的輸入,提高其他較小模型的性能。
與思維鏈(CoT)的區(qū)別
為了理解 RaR 與思維鏈(CoT)之間的區(qū)別,研究人員提出了它們的數(shù)學(xué)表述,并闡明了 RaR 在數(shù)學(xué)上與 CoT 的不同之處,以及它們?nèi)绾慰梢暂p松結(jié)合。
這項(xiàng)研究同時(shí)表明,在深入探討如何增強(qiáng)模型推理能力之前,應(yīng)該提高問(wèn)題的質(zhì)量以確保模型的推理能力可以被正確評(píng)估。比如 “硬幣翻轉(zhuǎn)” 問(wèn)題,人們發(fā)現(xiàn)與人類(lèi)的意圖不同的是,GPT-4 將 “翻轉(zhuǎn)(flip)” 這一詞語(yǔ)理解為隨機(jī)拋擲的動(dòng)作。當(dāng)引導(dǎo)模型使用 “Let’s think step by step” 來(lái)進(jìn)行推理時(shí),這種誤解仍然存在于推理過(guò)程中。只有在澄清了問(wèn)題之后,大語(yǔ)言模型才會(huì)回應(yīng)預(yù)期的問(wèn)題。
進(jìn)一步的,研究人員注意到,除了問(wèn)題文本之外,用于 few-shot CoT 的問(wèn)答示例也是由人類(lèi)編寫(xiě)的。這就引發(fā)了一個(gè)問(wèn)題:當(dāng)這些人工構(gòu)造的示例存在缺陷時(shí),大語(yǔ)言模型(LLM)會(huì)作出怎樣的反應(yīng)?該研究提供了一個(gè)很有意思的例子,并發(fā)現(xiàn)不良的 few-shot CoT 示例可能會(huì)對(duì) LLM 產(chǎn)生負(fù)面影響。以 “末尾字母連接” 任務(wù)為例,先前使用的問(wèn)題示例在提高模型性能方面顯示出了積極效果。然而,當(dāng)提示邏輯發(fā)生變化,比如從找到末尾字母變成找到首位字母,GPT-4 卻給出了錯(cuò)誤的答案。這一現(xiàn)象突顯了模型對(duì)人工示例的敏感性。
研究人員發(fā)現(xiàn),通過(guò)使用 RaR,GPT-4 能夠糾正給定示例中的邏輯缺陷,從而提高 few-shot CoT 的質(zhì)量和穩(wěn)健性。
結(jié)論
人類(lèi)和大語(yǔ)言模型(LLM)之間交流可能存在誤解:看似對(duì)人類(lèi)清晰的問(wèn)題可能仍會(huì)被大語(yǔ)言模型理解成其他的問(wèn)題。UCLA 的研究團(tuán)隊(duì)基于這個(gè)問(wèn)題提出 RaR 這一新穎方法,促使 LLM 先復(fù)述并澄清問(wèn)題,然后再回答。
RaR 在一系列基準(zhǔn)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)評(píng)估證實(shí)了其方法的有效性。進(jìn)一步分析顯示,通過(guò)復(fù)述得到的問(wèn)題質(zhì)量提升是可以跨模型轉(zhuǎn)移的。
展望未來(lái),RaR 這類(lèi)的方法預(yù)計(jì)將持續(xù)完善,以及它們與 CoT 等其他方法的整合,將為人類(lèi)與大語(yǔ)言模型之間更準(zhǔn)確、更有效的互動(dòng)鋪平道路,最終拓展 AI 解釋和推理能力的邊界。