自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="k6tcx"><track id="k6tcx"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4正接管人類數(shù)據(jù)專家！先驗知識讓LLM大膽預(yù)測，準(zhǔn)確率堪比傳統(tǒng)方式

作者：新智元 2024-02-26 00:50:00

人工智能新聞

終有一天，LLM可以成為人類數(shù)據(jù)專家，針對不同領(lǐng)域進(jìn)行數(shù)據(jù)分析，大大解放AI研究員。

在數(shù)據(jù)科學(xué)中，AI研究員經(jīng)常面臨處理不完整數(shù)據(jù)集的挑戰(zhàn)。

然而，許多已有的算法根本無法處理「不完整」的數(shù)據(jù)序列。

傳統(tǒng)上，數(shù)據(jù)科學(xué)家會求助于專家，利用他們的專業(yè)知識來填補空白，然而這一過程既耗時，卻又不實用。

如果AI可以接管專家的角色，又會如何呢？

近日，來自德國人工智能中心、大阪公立大學(xué)等團(tuán)隊的研究人員，調(diào)查了LLM能否足以充當(dāng)數(shù)字專家。

畢竟，當(dāng)前大模型都在大量文本的基礎(chǔ)上進(jìn)行了訓(xùn)練，可能對醫(yī)學(xué)數(shù)據(jù)、社會科學(xué)等不同主題的問題有著深刻的理解。

論文地址：https://arxiv.org/pdf/2402.07770.pdf

研究人員通過將LLM的答案與實際數(shù)據(jù)進(jìn)行比較，并建立了處理數(shù)據(jù)差距的統(tǒng)計方法。

結(jié)果表明，在許多情況下，LLM可以在不依賴人類專家的情況下，提供與傳統(tǒng)方法類似的準(zhǔn)確估計。

用LLM進(jìn)行「數(shù)據(jù)插補」

在分析數(shù)據(jù)時，無論是醫(yī)學(xué)、經(jīng)濟(jì)學(xué)還是環(huán)境研究，經(jīng)常會遇到信息不完整的問題。

這就需要用到兩種關(guān)鍵技術(shù)：先驗啟發(fā)（確定先驗知識）和數(shù)據(jù)插補（補充缺失數(shù)據(jù)）。

先驗啟發(fā)是指，系統(tǒng)地收集現(xiàn)有的專家知識，以對模型中的某些參數(shù)做出假設(shè)。

另一方面，當(dāng)我們的數(shù)據(jù)集中缺少信息時，數(shù)據(jù)插補就開始發(fā)揮作用。

科學(xué)家們不會因為一些缺失而放棄有價值的數(shù)據(jù)集，而是使用統(tǒng)計方法用看似合理的值來填補。

研究中，主要采用的數(shù)據(jù)集為OpenML-CC18 Curated Classification Benchmark，其中包括72個分類數(shù)據(jù)集，涵蓋從信用評級到醫(yī)藥和營銷等各個領(lǐng)域。

這種多樣性確保了實驗涵蓋了廣泛的現(xiàn)實世界場景，并為LLM在不同環(huán)境下的性能提供了相關(guān)見解。

值得一提的是，最新方法中最關(guān)鍵的一個步驟便是——人為在數(shù)據(jù)集中生成缺失值，以模擬數(shù)據(jù)點不完整的情況。

研究人員用隨機缺失（MAR）模式從完整條目中生成這種缺失數(shù)據(jù)，以便與基本事實進(jìn)行比較。

他們首先從OpenML描述中，為每個數(shù)據(jù)集生成一個適當(dāng)?shù)膶＜医巧?，然后使用它來初始化LLM，以便可以查詢它是否缺少值。

使用LLM進(jìn)行插值，包括LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct，以及Mixtral 8x7B Instruct，每一種都進(jìn)行了單獨的評估。

將這些模型與這類分析中常用的3種經(jīng)驗方法進(jìn)行了比較：分別用于連續(xù)特征和分類特征的平均值和模式估算、k-近鄰（k-NN）估算和隨機森林估算。

歸因質(zhì)量的評估基于，連續(xù)特征和分類特征的歸一化均方根誤差（NRMSE）和F1分?jǐn)?shù)。

通過這一方法，能夠讓研究人員可以調(diào)查LLM作為數(shù)據(jù)推算專家的能力，而且還可以將其表現(xiàn)與傳統(tǒng)方法進(jìn)行比較。

這種創(chuàng)新的方法在處理不完整的數(shù)據(jù)集方面開辟了新的視角，并突出了LLM在數(shù)據(jù)科學(xué)中的潛力。

與傳統(tǒng)方法比較

與預(yù)期相反，分析結(jié)果表明，LLM的估算質(zhì)量一般不會超過三種經(jīng)驗方法。

然而，基于LLM的插補對于某些數(shù)據(jù)集是有用的，特別是在工程和計算機視覺領(lǐng)域。

一些數(shù)據(jù)集，如這些領(lǐng)域的「PC1」、「PC3」和「Satimage」，表現(xiàn)出NRMSE約為0.1的歸因質(zhì)量，在生物學(xué)和NLP領(lǐng)域也觀察到了類似的結(jié)果。

有趣的是，基于LLM歸因的下游表現(xiàn)因領(lǐng)域而異。

雖然社會科學(xué)和心理學(xué)等領(lǐng)域表現(xiàn)較差，但醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、商業(yè)和生物學(xué)表現(xiàn)較好。值得注意的是，基于LLM的插補在商業(yè)領(lǐng)域表現(xiàn)最好。

此外，研究還表明，至少在某些領(lǐng)域，LLM可以基于其豐富的訓(xùn)練數(shù)據(jù)提供準(zhǔn)確和相關(guān)的估計，這些數(shù)據(jù)可以與真實世界的數(shù)據(jù)相匹配。

使用LLM進(jìn)行數(shù)據(jù)插補是有前景的，但它需要仔細(xì)考慮領(lǐng)域和特定用例。

因此，這項研究結(jié)果有助于更好地理解LLM在數(shù)據(jù)科學(xué)中的潛力和局限性。

用LLM先驗啟發(fā)

此外，研究人員還利用LLM研究了先驗啟發(fā)，旨在評估LLM能否提供有關(guān)特征分布的信息，以及這對數(shù)據(jù)收集和后續(xù)數(shù)據(jù)分析有何影響。

特別是，進(jìn)一步了解LLM所獲得的先驗分布的影響和有效性，并比較它們與傳統(tǒng)方法和模型的性能如何。

作者將LLM的估計值與Stefan等人的實驗結(jié)果進(jìn)行了比較。

在該實驗中，6位心理學(xué)研究人員被問及各自領(lǐng)域中典型的中小效應(yīng)量和皮爾遜相關(guān)性。

使用類似的問題，要求LLM模擬一個專家、一組專家或一個非專家，然后查詢優(yōu)先級分布。

在進(jìn)行這項工作時，可以參考或不參考對比實驗中使用的訪談方案。

這里研究人員提出一種全新的提示策略，要求模型為貝葉斯數(shù)據(jù)分析提供專家知情的先驗分布。

在此過程中，ChatGPT 3.5展示了其對學(xué)術(shù)啟發(fā)框架的熟悉程度，比如謝菲爾德啟發(fā)框架與直方圖方法相結(jié)合。

研究人員使用該框架生成了全球25個大小城市12月份典型日氣溫和降水量的先驗分布。

ChatGPT使用從訓(xùn)練數(shù)據(jù)中獲得的知識進(jìn)行模擬專家討論，并構(gòu)建參數(shù)概率分布。

實驗結(jié)果

令人驚訝的是，不同子領(lǐng)域的專家角色對LLM產(chǎn)生的先驗沒有顯著影響。

在實驗中，無論他們扮演什么角色，他們的判斷都非常相似：

大多數(shù)人工專家都傾向于謹(jǐn)慎預(yù)測，認(rèn)為影響較小。只有GPT-4專家比較大膽，認(rèn)為影響中等偏大。

當(dāng)涉及到兩個事物之間的關(guān)系時，比如天氣對我們購物行為的影響，數(shù)字助理們與真人的觀點有所不同。

有些數(shù)字助理呈現(xiàn)出一條中間低、邊緣高的「浴缸」曲線，而GPT-4則向我們展示了一條更平滑的鐘形曲線。

然后，作者還觀察了這些數(shù)字專家對他們的預(yù)測的信心。一些人相當(dāng)謹(jǐn)慎，提供了保守的估計，除了Mistral 7B Instruct——對其估計的質(zhì)量非常有信心。

綜上所述，這些結(jié)果還表明，LLM在某些方面能夠產(chǎn)生與人類專家判斷競爭的先驗，但在其他方面卻顯著不同。

結(jié)論

這項研究表明，在醫(yī)學(xué)、經(jīng)濟(jì)和生物等領(lǐng)域，LLM已經(jīng)可以基于傳統(tǒng)的數(shù)據(jù)插補的方法，提供有價值的見解。

LLM能夠綜合來自各種來源的知識，并將其應(yīng)用于特定的應(yīng)用環(huán)境，為數(shù)據(jù)分析開辟了新的視野。

特別是在專家難覓，或時間寶貴的情況下，LLM可以成為寶貴的資源。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營