自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4調(diào)用插件40次都沒成功,果斷放棄,無效調(diào)用、拒絕回答時有發(fā)生

人工智能 新聞
GPT-4 調(diào)用的第三方插件到底效果如何?有研究者對 Wolfram Alpha 、Code Interpreter 做了份測試。

今年早些時候,OpenAI 開啟 ChatGPT 集成第三方插件功能,打破 ChatGPT 不能聯(lián)網(wǎng)這一封印。

很多人贊嘆道:ChatGPT 的橫空出世可以看作是「iPhone 時刻」,而第三方插件的集成,就是「iOS App Store」時刻。

據(jù)不完全統(tǒng)計,消息公布之后的沒幾天,ChatGPT 就上線了 70 多款插件。幾個月過去了,這些插件對 ChatGPT 的作用到底如何?本文來自紐約大學(xué)的 Ernest Davis 、德克薩斯大學(xué)奧斯汀分校的 Scott Aaronson ,他們給 ChatGPT 背后的大模型 GPT-4 調(diào)用的插件來了次摸底考試。

論文地址:https://arxiv.org/pdf/2308.05713.pdf

具體而言,該報告描述了對大型語言模型 GPT-4 在 2023 年 6 月至 8 月期間,使用 Wolfram Alpha(以下稱為 GPT4+WA)和 Code Interpreter(以下稱為 GPT4+CI)插件,在 105 道高中和大學(xué)水平的科學(xué)和數(shù)學(xué)問題上進行了測試。

他們得出以下結(jié)論:

在測試的各種問題中,帶有任一插件的 GPT-4 明顯強于 GPT-4 本身。另外,該研究還得出結(jié)論,幾乎可以肯定的是 GPT-4 強于一年前存在的 AI。然而,其可靠性還遠遠不夠;它經(jīng)常輸出錯誤的答案或無法輸出任何答案。

從總分來看,本文認為這些系統(tǒng)的表現(xiàn)相當于中等本科生的水平。這些系統(tǒng)解決了一些即使是有能力的學(xué)生也會覺得具有挑戰(zhàn)性的問題,而它們卻無法解決一些即使是中學(xué)生也會覺得容易的問題。

除此以外,該研究還發(fā)現(xiàn),GPT-4 和插件之間還有很大的改進空間,特別是 Wolfram Alpha。GPT-4 經(jīng)常以 Wolfram Alpha 難以接受或產(chǎn)生有用輸出的方式來表述問題。

例如,在問題 B.35 中(參見論文附錄),GPT-4 調(diào)用 Wolfram Alpha 40 次,試圖獲取某個事件的日期,但都沒有成功,然后放棄了,然而,沒有插件的 GPT-4 都知道該日期。在問題 A.14 中,要求 GPT-4 以天文學(xué)上的長度單位給出答案,Wolfram Alpha 返回了以米表示的正確答案,但隨后系統(tǒng)無法將其轉(zhuǎn)換為天文單位,盡管對 Wolfram Alpha 進行了八次調(diào)用。

GPT-4 有時還會創(chuàng)建對插件的無用調(diào)用,例如在問題 C.11 中,GPT 與 WA 進行了以下交互:

這些結(jié)果表明,GPT-4 未能充分利用插件的功能,尤其是 Wolfram Alpha。

總體而言,這些系統(tǒng)在可以通過調(diào)用單個公式解決的問題上最為強大。他們通常在人類傾向于使用空間可視化來解決的問題上表現(xiàn)較弱。此外,這些系統(tǒng)通常不擅長解決涉及組合多種不同類型計算的問題,難以處理非常大或非常小的數(shù)字。GPT-4 有一定能力檢測插件返回的答案是否有意義或物理意義,但并不十分可靠,并且?guī)缀鯖]有能力診斷錯誤原因或從中恢復(fù)。

實驗結(jié)果

該研究創(chuàng)建了三個測試集:「Arbitrary Numerical」測試集、「Calculation-Free」測試集和「Motivated Numerical」測試集。 

表 1 為三個測試集問題的成功和失敗示例:其中 3 個成功案例,3 個失敗案例。在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正確答案,失敗案例則相反。

作者表示他們的測試集太小,結(jié)構(gòu)也太隨意,無法支持統(tǒng)計上有效的結(jié)論,但這項研究也暗示了一些結(jié)論,兩個插件在功能上都很強大,雙方都能解決對方無法解決的問題。下面我們看一些實驗結(jié)果。

下表為在科學(xué)和數(shù)學(xué)上的結(jié)果(前 16 個問題)。

圖片

下表為在科學(xué)和數(shù)學(xué)問題上的結(jié)果,包括庫侖定律、三維幾何、概率等。GPT4+WA 得分為 8.25 分(總分 32 分);GPT4+CI 得分為 10 分(總分 32 分)。

下表為在「Calculation-Free」測試集上第 1-32 問題上的結(jié)果。問題類別可概括為日食、距離組合問題、河流中各點之間的距離問題等。

下表為在「Calculation-Free」測試集上的結(jié)果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,隨機猜測的得分為 :22.6/53 。

下表實驗為在 Motivated Numerical 測試集上結(jié)果,涉及黑洞、幾何、重力等類別,GPT4+WA:14.3/20;GPT4+CI:13.8/20 。

了解更多內(nèi)容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-08 11:27:10

模型AI

2023-06-19 08:19:50

2025-04-16 09:35:03

2024-01-23 14:39:30

2023-06-14 14:57:38

模型AI

2024-10-18 11:12:44

2023-05-08 07:53:12

GPT-4代碼

2023-03-20 07:12:54

GPT學(xué)習React

2024-03-08 12:35:27

AI模型

2023-04-25 09:02:13

2024-04-10 14:07:00

數(shù)據(jù)AI

2024-05-21 12:23:17

2023-09-26 17:36:52

GPT-4AI

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-03-28 13:01:20

GPT-4開發(fā)OpenAI

2023-05-03 20:53:48

2023-03-16 19:17:57

2025-01-21 08:00:00

2023-08-15 15:03:00

AI工具

2024-04-25 16:56:14

GPT-4大模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號