自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zmylw"></sub>

<sub id="zmylw"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4調(diào)用插件40次都沒成功，果斷放棄，無效調(diào)用、拒絕回答時有發(fā)生

作者：機器之心 2023-08-14 07:36:51

人工智能新聞

GPT-4 調(diào)用的第三方插件到底效果如何？有研究者對 Wolfram Alpha 、Code Interpreter 做了份測試。

今年早些時候，OpenAI 開啟 ChatGPT 集成第三方插件功能，打破 ChatGPT 不能聯(lián)網(wǎng)這一封印。

很多人贊嘆道：ChatGPT 的橫空出世可以看作是「iPhone 時刻」，而第三方插件的集成，就是「iOS App Store」時刻。

據(jù)不完全統(tǒng)計，消息公布之后的沒幾天，ChatGPT 就上線了 70 多款插件。幾個月過去了，這些插件對 ChatGPT 的作用到底如何？本文來自紐約大學(xué)的 Ernest Davis 、德克薩斯大學(xué)奧斯汀分校的 Scott Aaronson ，他們給 ChatGPT 背后的大模型 GPT-4 調(diào)用的插件來了次摸底考試。

論文地址：https://arxiv.org/pdf/2308.05713.pdf

具體而言，該報告描述了對大型語言模型 GPT-4 在 2023 年 6 月至 8 月期間，使用 Wolfram Alpha（以下稱為 GPT4+WA）和 Code Interpreter（以下稱為 GPT4+CI）插件，在 105 道高中和大學(xué)水平的科學(xué)和數(shù)學(xué)問題上進行了測試。

他們得出以下結(jié)論：

在測試的各種問題中，帶有任一插件的 GPT-4 明顯強于 GPT-4 本身。另外，該研究還得出結(jié)論，幾乎可以肯定的是 GPT-4 強于一年前存在的 AI。然而，其可靠性還遠遠不夠；它經(jīng)常輸出錯誤的答案或無法輸出任何答案。

從總分來看，本文認為這些系統(tǒng)的表現(xiàn)相當于中等本科生的水平。這些系統(tǒng)解決了一些即使是有能力的學(xué)生也會覺得具有挑戰(zhàn)性的問題，而它們卻無法解決一些即使是中學(xué)生也會覺得容易的問題。

除此以外，該研究還發(fā)現(xiàn)，GPT-4 和插件之間還有很大的改進空間，特別是 Wolfram Alpha。GPT-4 經(jīng)常以 Wolfram Alpha 難以接受或產(chǎn)生有用輸出的方式來表述問題。

例如，在問題 B.35 中（參見論文附錄），GPT-4 調(diào)用 Wolfram Alpha 40 次，試圖獲取某個事件的日期，但都沒有成功，然后放棄了，然而，沒有插件的 GPT-4 都知道該日期。在問題 A.14 中，要求 GPT-4 以天文學(xué)上的長度單位給出答案，Wolfram Alpha 返回了以米表示的正確答案，但隨后系統(tǒng)無法將其轉(zhuǎn)換為天文單位，盡管對 Wolfram Alpha 進行了八次調(diào)用。

GPT-4 有時還會創(chuàng)建對插件的無用調(diào)用，例如在問題 C.11 中，GPT 與 WA 進行了以下交互：

這些結(jié)果表明，GPT-4 未能充分利用插件的功能，尤其是 Wolfram Alpha。

總體而言，這些系統(tǒng)在可以通過調(diào)用單個公式解決的問題上最為強大。他們通常在人類傾向于使用空間可視化來解決的問題上表現(xiàn)較弱。此外，這些系統(tǒng)通常不擅長解決涉及組合多種不同類型計算的問題，難以處理非常大或非常小的數(shù)字。GPT-4 有一定能力檢測插件返回的答案是否有意義或物理意義，但并不十分可靠，并且?guī)缀鯖]有能力診斷錯誤原因或從中恢復(fù)。

實驗結(jié)果

該研究創(chuàng)建了三個測試集：「Arbitrary Numerical」測試集、「Calculation-Free」測試集和「Motivated Numerical」測試集。

表 1 為三個測試集問題的成功和失敗示例：其中 3 個成功案例，3 個失敗案例。在成功案例中，GPT4+WA 和 GPT4+CI 都得到了正確答案，失敗案例則相反。

作者表示他們的測試集太小，結(jié)構(gòu)也太隨意，無法支持統(tǒng)計上有效的結(jié)論，但這項研究也暗示了一些結(jié)論，兩個插件在功能上都很強大，雙方都能解決對方無法解決的問題。下面我們看一些實驗結(jié)果。

下表為在科學(xué)和數(shù)學(xué)上的結(jié)果（前 16 個問題）。

下表為在科學(xué)和數(shù)學(xué)問題上的結(jié)果，包括庫侖定律、三維幾何、概率等。GPT4+WA 得分為 8.25 分（總分 32 分）；GPT4+CI 得分為 10 分（總分 32 分）。

下表為在「Calculation-Free」測試集上第 1-32 問題上的結(jié)果。問題類別可概括為日食、距離組合問題、河流中各點之間的距離問題等。

下表為在「Calculation-Free」測試集上的結(jié)果，GPT4+WA: 30.7/53，GPT4+CI：34.2/53 ，隨機猜測的得分為：22.6/53 。

下表實驗為在 Motivated Numerical 測試集上結(jié)果，涉及黑洞、幾何、重力等類別，GPT4+WA：14.3/20；GPT4+CI：13.8/20 。

了解更多內(nèi)容，請參考原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="rrycj"><track id="rrycj"></track></legend>

<abbr id="rrycj"></abbr>

<del id="rrycj"></del>