自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4取代數(shù)據(jù)分析師,成本僅3000!阿里達摩院&NTU論文引熱議

人工智能
無論是哪個領(lǐng)域的數(shù)據(jù)分析,無論我們用什么工具,結(jié)果都是如此——沒有專業(yè)知識,我們就不知道面對一大堆數(shù)據(jù)該提出什么樣的問題,就算有了一些發(fā)現(xiàn),也不知道如何解釋。

近來,想必很多人被一份「GPT-4取代數(shù)據(jù)分析師」核算成本的研究報告驚到了。

論文內(nèi)容直戳痛點:

使用GPT-4的成本大約是雇傭初級數(shù)據(jù)分析師的0.71%。

圖片

論文地址:https://arxiv.org/pdf/2305.15038.pdf

這份來自阿里達摩院和南洋理工大學的最新研究,明晃晃地告訴數(shù)據(jù)分析師,我要取代你們,這就是證據(jù)。

你以為高級數(shù)據(jù)分析師,會逃過一劫嗎?

研究人員稱,使用GPT-4的成本是雇傭高級數(shù)據(jù)分析師的0.45%。

這是什么概念?

根據(jù)就業(yè)在線社區(qū)Glassdoor統(tǒng)計,一位高級數(shù)據(jù)分析師年薪大約10萬美元(70萬人民幣)。

要是換成GPT-4,僅需要450美元,也就3000元左右。

圖片

從70萬到3000,簡直就是成本爆破!

網(wǎng)友表示,想到成本會這么低,但沒料到這么低。

圖片

圖片

框架

總之,這篇研究做出了以下幾點貢獻:

· 首次提出「GPT-4是否是一個優(yōu)秀數(shù)據(jù)分析師」的研究問題,并對其利弊進行了定量評估。

· 對于這樣一個典型的數(shù)據(jù)分析師的工作范圍,提出了一個端到端的自動框架來進行數(shù)據(jù)收集、可視化和分析。

· 對GPT-4的產(chǎn)出進行了系統(tǒng)的、專業(yè)的人工評估。有良好質(zhì)量的數(shù)據(jù)分析和洞察力可以被認為是NLP社區(qū)數(shù)據(jù)分析的第一個標桿。

圖片

為了搞清楚GPT-4能否成為一個好數(shù)據(jù)分析師,研究人員設(shè)計了一個端到端的框架。

GPT-4在上下文理解、代碼生成、數(shù)據(jù)故事方面的能力逐漸嶄露頭角,而這項研究的目的就是使用GPT-4來實現(xiàn)整個數(shù)據(jù)分析過程的自動化。

論文中,研究人員展示了GPT-4作為數(shù)據(jù)分析師流程。

基本上有三個步驟:(1)代碼生成(藍色箭頭所示),(2)代碼執(zhí)行(橙色箭頭所示),以及(3)分析生成(綠色箭頭所示)。

圖片

整個框架的算法過程如下:

圖片

第1步:代碼生成

第一步的輸入包含一個問題和數(shù)據(jù)庫模式。這里的目標是生成代碼,以便在后面的步驟中提取數(shù)據(jù)和繪制圖表。

研究者利用GPT-4來理解問題和模式中多個數(shù)據(jù)庫表之間的關(guān)系。

由于數(shù)據(jù)安全的原因,僅提供了數(shù)據(jù)庫表的模式。大量的原始數(shù)據(jù)仍然被安全地離線保存,并將在后面的步驟中使用。

這一步的設(shè)計提示如表1所示。按照提示,可以得到一段包含SQL查詢的python代碼。

圖片

第2步:代碼執(zhí)行

正如前面提到的,為了維護數(shù)據(jù)安全,研究人員在離線狀態(tài)下執(zhí)行GPT-4生成的代碼。

這一步的輸入是步驟1中生成的代碼,以及數(shù)據(jù)庫中的原始數(shù)據(jù),

如框架圖所示。通過使用「conn = sqlite3.connect([database file name])」定位數(shù)據(jù)目錄。

如代碼中的表1所示,這個步驟涉及大量的原始數(shù)據(jù)。通過執(zhí)行python代碼,我們能夠得到「figure.pdf」中的圖表,以及「data.txt」中保存的提取數(shù)據(jù)。

第3步:分析生成

在獲得提取的數(shù)據(jù)后,研究者的目標是產(chǎn)生數(shù)據(jù)分析和洞察力。

為了確保數(shù)據(jù)分析與原始查詢相一致,同時使用問題和提取的數(shù)據(jù)作為輸入。研究人員為這個步驟的GPT-4設(shè)計的提示語如表2所示。

圖片

在這個過程中,研究人員沒有對提取數(shù)據(jù)生成一段描述,而是指示GPT-4用5個要點來生成分析和見解,并強調(diào)關(guān)鍵要點。

有一點需要注意的是,在此,研究人員也考慮使用生成的圖表作為輸入的替代方案。

因為「GPT-4的技術(shù)報告」提到,它可以將圖標作為輸入。不過,這個功能還沒全面開放。

由于提取的數(shù)據(jù)基本上包含的信息量與生成的圖表至少相同,因此研究人員只使用「提取數(shù)據(jù)」作為輸入。

從初步的實驗來看,GPT-4能夠從數(shù)據(jù)本身理解趨勢和相關(guān)性,而不需要看到數(shù)據(jù)。

為了讓框架更加實用,從而有可能幫助人類數(shù)據(jù)分析師提高其日常表現(xiàn)。研究人員增加了一個利用外部知識源的選項,如算法1所示。

由于實際的數(shù)據(jù)分析師角色通常需要相關(guān)的業(yè)務(wù)背景知識,研究人員設(shè)計了一個外部知識檢索模型g(·),從外部知識源(如谷歌)查詢實時在線信息(I)。在這樣的方案中,GPT-4將數(shù)據(jù)(D)和在線信息(I)都作為輸入來生成分析(A)。

實驗

數(shù)據(jù)集

由于沒有完全匹配的數(shù)據(jù)集,研究人員選擇了一個最相關(guān)的數(shù)據(jù)集——NvBench。

他們從不同領(lǐng)域隨機選擇了100個不同圖表類型,和不同難度的問題來進行主要實驗。

圖表類型包括:條形圖、疊加條形圖、線形圖、散點圖和餅圖等。

難度等級包括:簡單、中等、困難和極難。

領(lǐng)域包括:體育、藝術(shù)、交通、公寓出租等。

在NvBench數(shù)據(jù)集的基礎(chǔ)上,研究人員利用框架為每個實例編寫了5個要點,并使用全新的指標來評估質(zhì)量。

評估

在這里,研究人員設(shè)計了幾個人工評估指標來評估生成的數(shù)據(jù),并分別對每個測試實例進行分析。

圖表評估:

· 信息正確性:圖中顯示的數(shù)據(jù)和信息是否正確?(0-1)

· 圖標類型正確性:圖表類型是否符合問題中的要求?(0-1)

· 美觀性:圖表是否美觀、清晰,沒有任何格式錯誤?(0-3)

分析評估:

· 正確性:分析中是否包含錯誤的數(shù)據(jù)或信息?(0-1)

· 對齊性:分析是否與問題一致?(0-1)

· 復雜性:分析的復雜程度和深度如何?(0-3)

· 流暢性:生成的分析是否流暢,在語法上是否合理,沒有不必要的重復?(0-3)

為了進行人工評估,阿里&NTU研究人員從一家數(shù)據(jù)標注公司雇傭了6名專業(yè)的數(shù)據(jù)標注員,按照上述詳細的評估指標對每個圖形和分析要點進行標注。

結(jié)果

GPT-4的表現(xiàn)

表3顯示了,GPT-4作為數(shù)據(jù)分析師在200個樣本上的表現(xiàn),以及每個單獨的評估組的結(jié)果,和兩個組之間的平均分數(shù)。

對于圖表類型正確性評估,兩個評估小組幾乎都給出了滿分。

這表明,對于 「畫條形圖」、「顯示餅形圖」等這樣簡單明了的指令,GPT-4可以很容易地理解其含義,并對圖表類型的含義有背景知識,從而可以相應(yīng)地以正確的類型繪制圖表。

在美學評分方面,它平均得到2.73分(滿分3分),這表明大多數(shù)生成的數(shù)字對評估者來說是清晰的,沒有任何格式錯誤。

然而,對于繪制圖表的信息正確性,得分并不那么令人滿意。

研究人員手動檢查了這些圖表,發(fā)現(xiàn)盡管有一些小錯誤,但大多數(shù)都能大致得到正確的數(shù)字。

在此,評估標準非常嚴格,只要有任何數(shù)據(jù),或任何標簽的X軸或Y軸是錯誤的,就要扣分。盡管如此,它仍有進一步改進的空間。

圖片

在分析評估方面,對齊性和流暢性平均得到了滿分。這再次驗證了生成流暢和語法正確的句子對GPT-4來說絕對不是一個問題。

另外,研究人員還注意到,分析的平均正確性得分要比數(shù)據(jù)的信息正確性高得多。

這很有趣,因為盡管生成的數(shù)據(jù)是錯誤的,但分析結(jié)果可能是正確的。這再次驗證了研究人員之前對數(shù)字的信息正確性得分的解釋。

如前所述,由于生成的數(shù)字大多與黃金數(shù)字一致,因此一些要點可以正確生成。只有少數(shù)與數(shù)字中的錯誤部分有關(guān)的要點被認為是錯誤的。就復雜性得分而言,平均2.16分(滿分3分)是合理且令人滿意的。

人類數(shù)據(jù)分析師與GPT-4的比較

為了進一步回答我們的研究問題,研究人員聘請專業(yè)的數(shù)據(jù)分析師來做這些任務(wù),并與GPT-4進行全面的比較。

表4顯示了幾個來自不同背景的專家級別數(shù)據(jù)分析師與GPT-4的表現(xiàn)比較。

總的來說,GPT-4的性能與人類數(shù)據(jù)分析師相當,而在不同的標準指標和人類數(shù)據(jù)分析師之間,其優(yōu)勢也有所不同。

圖片

第一行顯示了,一位在金融行業(yè)有超過6年數(shù)據(jù)分析工作經(jīng)驗的高級數(shù)據(jù)分析師(即高級數(shù)據(jù)分析師1)的10個樣本表現(xiàn)。從表中可以看出,GPT-4在大多數(shù)指標上的表現(xiàn)與專家數(shù)據(jù)分析師相當。雖然GPT-4的正確性得分低于人類數(shù)據(jù)分析師,但復雜性得分和排列組合得分卻更高。

第二行顯示了,GPT-4和另一個有5年工作經(jīng)驗的高級數(shù)據(jù)分析師(即高級數(shù)據(jù)分析師2)在8個樣本上的性能比較。由于樣本量相對較小,結(jié)果顯示人類和AI數(shù)據(jù)分析師之間的差異較大。人類數(shù)據(jù)分析師在信息的正確性和數(shù)據(jù)美觀性、見解的正確性和復雜性方面超過了GPT-4,表明GPT-4仍有改進的潛力。

第三行是比較GPT-4和一個在咨詢公司有2年內(nèi)數(shù)據(jù)分析工作經(jīng)驗的初級數(shù)據(jù)分析師之間的另一個隨機9樣本的表現(xiàn)。GPT-4不僅在數(shù)字和分析的正確性上表現(xiàn)得更好,而且還傾向于產(chǎn)生比人類數(shù)據(jù)分析師更復雜的分析。

除了所有數(shù)據(jù)分析師和GPT-4之間的性能相當外,我們可以注意到GPT-4花費的時間比人類數(shù)據(jù)分析師短得多。

表5顯示了,來自不同職業(yè)平臺的數(shù)據(jù)分析師成本比較。

研究人員從level.fyi獲得新加坡數(shù)據(jù)分析師的年薪中值,從Glassdoor獲得新加坡數(shù)據(jù)分析師的平均年薪。

這里,研究人員假設(shè)每月有大約21個工作日,每天的工作時間約為8小時,再結(jié)合目前不同級別數(shù)據(jù)分析師在具體項目實例中所花費的平均時長(美元)。

對于這次研究的標注,研究人員根據(jù)市場價格相應(yīng)地支付給數(shù)據(jù)分析員。GPT4的成本約為初級數(shù)據(jù)分析師成本的0.71%,高級數(shù)據(jù)分析師成本的0.45%。

圖片

案例

在第一個案例中,GPT-4能夠生成包含正確的SQL查詢的python代碼,以提取所需的數(shù)據(jù),并根據(jù)給定的問題畫出適當?shù)摹⒄_的餅圖。

在分析方面,GPT-4能夠通過進行適當?shù)谋容^(例如,「最成功」、「不太成功」、「不同范圍」)來理解數(shù)據(jù)。

此外,GPT-4還能從數(shù)據(jù)中提供一些見解,如:「表明他們在競爭中的主導地位」。

GPT-4的上述這些能力,包括上下文理解、代碼生成和數(shù)據(jù)故事,也在其他許多案例中得到了證明。

此外,在這個案例中,GPT-4還可以從數(shù)據(jù)和其背景知識中做出一些合理的猜測,例如:「可能是由于其設(shè)計、性能或其他因素」。

圖片

圖片

圖片

圖片

第二個案例顯示了GPT-4處理的另一個問題「在散點圖中顯示身高和體重之間的相關(guān)性」。

同樣,GPT-4能夠提取正確的數(shù)據(jù),畫出正確的散點圖并生成合理的分析。

雖然大部分的要點都原模原樣地生成了,但如果仔細閱讀和檢查,就會發(fā)現(xiàn)平均身高和體重的數(shù)字是錯誤的。

除了眾所周知的「幻覺」問題外,研究人員懷疑GPT-4的計算能力不強,特別是對于那些復雜的計算。

甚至,他們還在在其他幾個案例中也注意到這個問題。盡管GPT-4以非常自信的語氣生成了分析要點,但計算結(jié)果有時并不準確。

圖片

圖片

圖片

第三是高級分析師2所做的一個例子。

可以注意到,這位專家級的人類數(shù)據(jù)分析師也能理解需求,編寫代碼來繪制正確的柱狀圖,并對提取的數(shù)據(jù)進行分析要點。

除此以外,研究人員總結(jié)出人類數(shù)據(jù)分析師與GPT-4的3個主要區(qū)別:

首先,與GPT-4不同的是,人類數(shù)據(jù)分析師可以用一些個人想法和情感來表達分析。例如,數(shù)據(jù)分析師會提到「這有點令人驚訝......」。在現(xiàn)實生活中,個人情感有時是很重要的。通過這些情緒化的短語,人們可以很容易地理解數(shù)據(jù)是否符合預期或不正常。

第二,人類的數(shù)據(jù)分析師傾向于應(yīng)用一些背景知識。雖然GPT-4通常只關(guān)注提取的數(shù)據(jù)本身,但人類很容易與自己的背景知識聯(lián)系起來。例如,如表8所示,數(shù)據(jù)分析師提到「......是常見的......」,這在數(shù)據(jù)分析師的實際工作中是比較自然的。因此,為了更好地模仿人類數(shù)據(jù)分析師,在演示中,研究人員增加了一個選項,即在生成數(shù)據(jù)分析時使用谷歌搜索API來提取實時在線信息。

第三,當提供洞察力或建議時,人類數(shù)據(jù)分析師往往是保守的。例如,在第5點中,人類數(shù)據(jù)分析師在給出建議前提到「如果沒有數(shù)據(jù)問題」。與人類不同,GPT-4會以自信的語氣直接提供建議,而不提及其假設(shè)。

圖片

圖片

圖片

討論

從初步的結(jié)果來看,GPT-4的表現(xiàn)可以與數(shù)據(jù)分析師相媲美。

不過,在得出結(jié)論之前,仍有幾個問題需要解決。

首先,正如案例研究部分所提到的,GPT-4仍然有幻覺問題。數(shù)據(jù)分析工作不僅需要那些技術(shù)能力和分析能力,而且還需要保證高精確度。

其次,GPT-4不應(yīng)該直接給出任何建議或從數(shù)據(jù)中做出任何猜測,而是應(yīng)該謹慎對待所有的假設(shè),并給出更加嚴謹?shù)恼f法。

此外,盡管實驗中的問題已經(jīng)涵蓋了很多的領(lǐng)域、數(shù)據(jù)庫、難度級別和圖表類型,但根據(jù)人類數(shù)據(jù)分析師的反饋,它們?nèi)匀挥行┻^于具體。比如,通常會包含這樣的信息:兩個變量之間的特定相關(guān)性,特定的圖表類型。

由于預算的限制,人工評估和數(shù)據(jù)分析師標注的數(shù)據(jù)相對較少。畢竟數(shù)據(jù)分析師(尤其是資深的)非常昂貴,團隊只聘請他們做了少量的樣本。

網(wǎng)友評論

對此,有網(wǎng)友表示,GPT替代初級分析師確實是低成本高效率的,但替代高級分析師還難說,未來的高級分析師要更多注重行業(yè)洞察力和預見能力,這是維持其高工資的基礎(chǔ),也是GPT難全面替代的。

圖片

資深數(shù)據(jù)分析師Galen Okazaki表示,數(shù)據(jù)分析是一個價值龐大的產(chǎn)業(yè),并且仍然在持續(xù)增長。

圖片

從2012年開始,他在GE資本做了7年的資本市場數(shù)據(jù)分析,職務(wù)是高級副總裁。2020年到現(xiàn)在,Okazaki一直在VDS公司做數(shù)據(jù)戰(zhàn)略,職務(wù)是高級顧問。

他認為,數(shù)據(jù)分析師并不是誰都能做,需要專業(yè)的領(lǐng)域知識。而缺乏專業(yè)知識的人,就算有GPT-4也沒用。

圖片

無論是哪個領(lǐng)域的數(shù)據(jù)分析,無論我們用什么工具,結(jié)果都是如此——沒有專業(yè)知識,我們就不知道面對一大堆數(shù)據(jù)該提出什么樣的問題,就算有了一些發(fā)現(xiàn),也不知道如何解釋。

這也就是數(shù)據(jù)分析工作的最大價值所在,能夠調(diào)用專業(yè)知識回答可能遇到的任何問題,無論有多復雜,有多少層次,是不是線性的,等等。而這些問題恰恰是生成式AI不能回答的。

所以,Okazaki的結(jié)論是,GPT-4的能力越來越強,給數(shù)據(jù)分析師的輔助作用也會越來越大??墒侨〈坎惶赡?。

參考資料:

https://arxiv.org/abs/2305.15038

https://towardsdatascience.com/will-generative-ai-replace-the-need-for-data-analysts-6b6807599d00

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-07-05 09:57:11

2020-09-18 15:10:25

阿里達摩院數(shù)據(jù)

2024-04-10 12:35:50

2016-10-21 14:41:22

數(shù)據(jù)分析師大數(shù)據(jù)

2024-07-22 09:01:20

2013-01-18 14:00:59

VMware

2023-03-20 21:44:10

微軟GPT-4AI

2023-06-19 08:19:50

2024-05-27 13:42:00

2022-07-19 14:01:44

阿里達摩院AI

2022-04-22 11:22:47

達摩院阿里巴巴

2024-02-27 16:30:37

OpenAIGPT-4Mistral AI

2020-05-12 10:44:19

數(shù)據(jù)分析師薪資數(shù)據(jù)

2021-03-26 07:37:34

數(shù)據(jù)分析工具技能

2023-07-08 23:05:01

數(shù)據(jù)分析運營

2015-08-18 13:26:05

數(shù)據(jù)分析

2023-04-11 14:13:23

阿里AI

2025-04-16 09:35:03

2013-03-25 14:10:02

Windows Blu

2012-08-08 09:00:29

數(shù)據(jù)分析師
點贊
收藏

51CTO技術(shù)棧公眾號