GPT-4調(diào)用插件40次都沒成功,果斷放棄,無效調(diào)用、拒絕回答時有發(fā)生
今年早些時候,OpenAI 開啟 ChatGPT 集成第三方插件功能,打破 ChatGPT 不能聯(lián)網(wǎng)這一封印。
很多人贊嘆道:ChatGPT 的橫空出世可以看作是「iPhone 時刻」,而第三方插件的集成,就是「iOS App Store」時刻。
據(jù)不完全統(tǒng)計,消息公布之后的沒幾天,ChatGPT 就上線了 70 多款插件。幾個月過去了,這些插件對 ChatGPT 的作用到底如何?本文來自紐約大學(xué)的 Ernest Davis 、德克薩斯大學(xué)奧斯汀分校的 Scott Aaronson ,他們給 ChatGPT 背后的大模型 GPT-4 調(diào)用的插件來了次摸底考試。
論文地址:https://arxiv.org/pdf/2308.05713.pdf
具體而言,該報告描述了對大型語言模型 GPT-4 在 2023 年 6 月至 8 月期間,使用 Wolfram Alpha(以下稱為 GPT4+WA)和 Code Interpreter(以下稱為 GPT4+CI)插件,在 105 道高中和大學(xué)水平的科學(xué)和數(shù)學(xué)問題上進行了測試。
他們得出以下結(jié)論:
在測試的各種問題中,帶有任一插件的 GPT-4 明顯強于 GPT-4 本身。另外,該研究還得出結(jié)論,幾乎可以肯定的是 GPT-4 強于一年前存在的 AI。然而,其可靠性還遠遠不夠;它經(jīng)常輸出錯誤的答案或無法輸出任何答案。
從總分來看,本文認為這些系統(tǒng)的表現(xiàn)相當于中等本科生的水平。這些系統(tǒng)解決了一些即使是有能力的學(xué)生也會覺得具有挑戰(zhàn)性的問題,而它們卻無法解決一些即使是中學(xué)生也會覺得容易的問題。
除此以外,該研究還發(fā)現(xiàn),GPT-4 和插件之間還有很大的改進空間,特別是 Wolfram Alpha。GPT-4 經(jīng)常以 Wolfram Alpha 難以接受或產(chǎn)生有用輸出的方式來表述問題。
例如,在問題 B.35 中(參見論文附錄),GPT-4 調(diào)用 Wolfram Alpha 40 次,試圖獲取某個事件的日期,但都沒有成功,然后放棄了,然而,沒有插件的 GPT-4 都知道該日期。在問題 A.14 中,要求 GPT-4 以天文學(xué)上的長度單位給出答案,Wolfram Alpha 返回了以米表示的正確答案,但隨后系統(tǒng)無法將其轉(zhuǎn)換為天文單位,盡管對 Wolfram Alpha 進行了八次調(diào)用。
GPT-4 有時還會創(chuàng)建對插件的無用調(diào)用,例如在問題 C.11 中,GPT 與 WA 進行了以下交互:
這些結(jié)果表明,GPT-4 未能充分利用插件的功能,尤其是 Wolfram Alpha。
總體而言,這些系統(tǒng)在可以通過調(diào)用單個公式解決的問題上最為強大。他們通常在人類傾向于使用空間可視化來解決的問題上表現(xiàn)較弱。此外,這些系統(tǒng)通常不擅長解決涉及組合多種不同類型計算的問題,難以處理非常大或非常小的數(shù)字。GPT-4 有一定能力檢測插件返回的答案是否有意義或物理意義,但并不十分可靠,并且?guī)缀鯖]有能力診斷錯誤原因或從中恢復(fù)。
實驗結(jié)果
該研究創(chuàng)建了三個測試集:「Arbitrary Numerical」測試集、「Calculation-Free」測試集和「Motivated Numerical」測試集。
表 1 為三個測試集問題的成功和失敗示例:其中 3 個成功案例,3 個失敗案例。在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正確答案,失敗案例則相反。
作者表示他們的測試集太小,結(jié)構(gòu)也太隨意,無法支持統(tǒng)計上有效的結(jié)論,但這項研究也暗示了一些結(jié)論,兩個插件在功能上都很強大,雙方都能解決對方無法解決的問題。下面我們看一些實驗結(jié)果。
下表為在科學(xué)和數(shù)學(xué)上的結(jié)果(前 16 個問題)。
下表為在科學(xué)和數(shù)學(xué)問題上的結(jié)果,包括庫侖定律、三維幾何、概率等。GPT4+WA 得分為 8.25 分(總分 32 分);GPT4+CI 得分為 10 分(總分 32 分)。
下表為在「Calculation-Free」測試集上第 1-32 問題上的結(jié)果。問題類別可概括為日食、距離組合問題、河流中各點之間的距離問題等。
下表為在「Calculation-Free」測試集上的結(jié)果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,隨機猜測的得分為 :22.6/53 。
下表實驗為在 Motivated Numerical 測試集上結(jié)果,涉及黑洞、幾何、重力等類別,GPT4+WA:14.3/20;GPT4+CI:13.8/20 。
了解更多內(nèi)容,請參考原論文。