自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用“反事實任務”評估大型語言模型

發(fā)布于 2024-7-9 10:34
瀏覽
0收藏

?LLMs的智能本質是什么?

在之前的文章中,我談到了評估大型語言模型能力的困難。這些模型在許多基準測試中表現(xiàn)出色,但我們通常不知道基準測試中的測試項目,或足夠相似的項目,是否出現(xiàn)在訓練數據中。這些模型是在進行一般性的理解和推理,還是在進行AI研究員Subbarao Kambhampati所說的“近似檢索”——依賴于模型訓練數據中包含的文本模式?

反事實任務范式

反事實任務范式可以幫助回答這個問題。在這個范式中,模型在成對的任務上進行評估,這些任務需要相同類型的抽象和推理,但對于每一對任務,第一個任務的內容可能與訓練數據相似,而第二個任務(“反事實任務”)的內容被設計成不太可能與訓練數據相似。

例如,論文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理還是背誦:通過反事實任務探索語言模型的能力和局限性》)研究了GPT-4在判斷一組四步開局棋是否合規(guī)時的表現(xiàn)。GPT-4似乎對國際象棋有很好的理解;當給出以下提示時,它能夠以接近90%的準確率回答“是”或“否”:

你是一名國際象棋棋手。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。新的開局“1.e4 e6 2.Be2 Bc5”是否合法?讓我們一步一步來思考。

作者的這個任務的反事實版本是要求GPT-4想象一個新的國際象棋變體,其中一切都相同,除了騎士和主教交換了初始位置。以下是該任務的示例提示:

你是一名國際象棋棋手。你正在玩一個國際象棋變體,其中每種顏色的騎士和主教的起始位置互換。騎士放在主教以前的位置,主教放在騎士以前的位置。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。在這種自定義變體下,新的開局“1.e4 e6 2.Nfe2 Nc5”是否合法?讓我們一步一步來思考。

這種國際象棋版本的例子在GPT-4的訓練數據中出現(xiàn)的可能性要小得多。作者(以及我自己的)直覺是,理解國際象棋的人類可以很容易地將他們的知識適應這種新版本。然而,GPT-4在這個反事實任務上的準確率下降到大約54%(隨機猜測將產生50%的準確率)。

作者展示了幾種其他類型的任務,也有類似的效果。他們得出結論,大型語言模型表面上的推理能力可能在很大程度上依賴于訓練數據中的模式,即“近似檢索”而非一般的抽象推理能力。

Meta的Yann LeCun在X(推特)上表示贊同:

使用“反事實任務”評估大型語言模型-AI.x社區(qū)

ASU的Subbarao Kambhampati表示贊同:

使用“反事實任務”評估大型語言模型-AI.x社區(qū)

另一篇使用這種評估范式的論文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回歸余燼:通過訓練任務理解大型語言模型》)?!白曰貧w余燼”這個短語是對另一篇知名LLM論文《Sparks of AGI》(《AGI火花》)標題的幽默戲仿。其觀點是,由于像GPT-4這樣的LLM是通過自回歸訓練的(即預測輸入中的下一個標記),它們的行為將反映自回歸所帶來的偏見。

例如,考慮將句子中的單詞順序顛倒的簡單任務:

輸入:paintings. the with pleased totally not was he True,

正確輸出:True, he was not totally pleased with the paintings.

你可能會認為執(zhí)行此任務的能力不依賴于句子中的特定單詞。然而,當輸出句子是可能的(即,根據前一個標記計算出的每個標記的概率高)時,GPT-3.5和GPT-4在這個任務上的表現(xiàn)都很好;但在輸出句子不太可能時,這些系統(tǒng)在該任務上的表現(xiàn)要差得多,例如,對于這個例子:

輸入:paintings. the with pleased he totally was not True,

正確輸出:True, not was totally he pleased with the paintings.

以下是總體表現(xiàn)情況,與LLM計算的輸出句子的概率對比繪制的圖表:

使用“反事實任務”評估大型語言模型-AI.x社區(qū)

盡管輸出句子的概率無關緊要,但LLM的訓練目標是預測可能的下一個標記,這泄露到了模型在任務上的表現(xiàn)中——這是一種自回歸的痕跡。論文中給出了更多的例子。

許多其他“壓力測試”LLM推理能力的論文也顯示了類似的結果。在本文結尾,我提供了各種關于這一主題的論文鏈接,供讀者跟進。

總之,LLM似乎具有一定的推理能力,但如果不對它們進行壓力測試(例如,通過反事實任務),就無法得出它們在一般情況下進行推理,而不是依賴于其訓練數據,以無法泛化到分布外示例的方式進行推理的結論。

在下一篇文章中(即將發(fā)布),我將描述我的團隊正在進行的工作,即應用反事實任務范式來壓力測試LLM是穩(wěn)健和普遍類比推理者的說法。

附錄:使用反事實任務(或相關壓力測試)評估LLM的論文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y., Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文轉載自 ??MoPaaS魔泊云??,作者: Melanie mitchell

收藏
回復
舉報
回復
相關推薦