自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福公開十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轟:盈利完全理解

人工智能 新聞
模型如何訓(xùn)練?如何部署?訓(xùn)練數(shù)據(jù)從哪來(lái)?構(gòu)建這些AI系統(tǒng)背后,數(shù)據(jù)標(biāo)注反饋的人是誰(shuí)?他們薪水是多少?

GPT-4、Llama等基礎(chǔ)模型(FM)相繼誕生,已成為當(dāng)前生成式AI的引擎。

盡管這些FM的社會(huì)影響力不斷增大,但透明度反而下降。

GPT-4官宣后,OpenAI公布的技術(shù)報(bào)告中,并未提及關(guān)鍵信息。包括谷歌PaLM,以及其他閉源模型也是如此。

每個(gè)人心中不禁有許多疑問:

模型如何訓(xùn)練?如何部署?訓(xùn)練數(shù)據(jù)從哪來(lái)?

構(gòu)建這些AI系統(tǒng)背后,數(shù)據(jù)標(biāo)注反饋的人是誰(shuí)?他們薪水是多少?

除了以上問題等等,其透明度無(wú)論是對(duì)公司,還是對(duì)社會(huì),都十分重要。

這不,斯坦福、MIT、普林斯頓團(tuán)隊(duì)提出了一個(gè)「基礎(chǔ)模型透明度指數(shù)」,并對(duì)當(dāng)前十個(gè)主流模型的透明度進(jìn)行了評(píng)級(jí)。

地址:https://crfm.stanford.edu/fmti/

結(jié)果顯示,10個(gè)模型中最透明的是Llama 2,得分為54%。GPT-4、PaLM 2都排在后面。

研究者承認(rèn),透明度確實(shí)是一個(gè)寬泛的概念。

斯坦福對(duì)于模型評(píng)分基于100個(gè)指標(biāo),這些指標(biāo)涉及模型是如何構(gòu)建、如何工作以及人們?nèi)绾问褂盟鼈兊鹊取?/span>

沒想到的是,這個(gè)評(píng)分系統(tǒng)卻引眾多研究者炮轟,HuggingFace的聯(lián)合創(chuàng)始人、LeCun都在其列。

斯坦福AI模型的公開排名,可能與模型的能力相反。而要求私人公司公開商業(yè)機(jī)密的想法太幼稚。

HuggingFace聯(lián)創(chuàng)表示,這并非曼哈頓計(jì)劃,初創(chuàng)公司選擇不公開是為了盈利,完全可以理解。

并且,只要它們不以虛假的「安全理由」推動(dòng)監(jiān)管,限制那些想要開源的公司就行。

具體看看,這份報(bào)告是如何對(duì)模型透明度進(jìn)行評(píng)估的。

生成式AI模型,急需透明度!

現(xiàn)在,基礎(chǔ)模型的社會(huì)影響不斷上升,但透明度卻在下降。

如果這種趨勢(shì)持續(xù)下去,基礎(chǔ)模型可能會(huì)變得像社交媒體平臺(tái)和其他以前的技術(shù)一樣不透明,從而重蹈他們的覆轍。

從具體角度來(lái)講,生成式AI是一把雙刃劍,其既可以提高生產(chǎn)力,也可以用來(lái)傷害他人,有些人通過創(chuàng)建未經(jīng)同意的深度偽造圖片和視頻,用于私有目的。

開發(fā)商確實(shí)有禁止此類用途的政策。例如,OpenAI的政策禁止一長(zhǎng)串用途,包括使用其模型為他人生成未經(jīng)授權(quán)的法律、財(cái)務(wù)或醫(yī)療建議。

但這些政策如果執(zhí)行不到位,就無(wú)法產(chǎn)生實(shí)際的影響,而且由于平臺(tái)在執(zhí)行方面缺乏透明度,我們不知道它們是否有效。

老練的壞人可能會(huì)使用開源工具生成傷害他人的內(nèi)容,因此政策永遠(yuǎn)不可能是一個(gè)全面的解決方案。

基礎(chǔ)模型透明度指數(shù)

「2023年基礎(chǔ)模型的透明度指數(shù)」由斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)和以人為中心的人工智能研究所(HAI)、麻省理工學(xué)院媒體實(shí)驗(yàn)室、普林斯頓大學(xué)信息技術(shù)中心的8名人工智能研究人員創(chuàng)建。

論文地址:https://arxiv.org/pdf/2310.12941.pdf

該團(tuán)隊(duì)的共同目的是提高基礎(chǔ)模型的透明度。

評(píng)估的指標(biāo)除了技術(shù)方面(數(shù)據(jù)、計(jì)算和模型訓(xùn)練過程的詳細(xì)信息)之外,還包括訓(xùn)練基礎(chǔ)模型的社會(huì)方面(對(duì)勞動(dòng)力、環(huán)境和實(shí)際使用的使用政策的影響)。

此外,還需要評(píng)估其他指標(biāo),例如,開發(fā)人員是否披露執(zhí)行數(shù)據(jù)勞動(dòng)的工人的工資、用于開發(fā)模型的計(jì)算資源以及他們?nèi)绾螆?zhí)行其使用政策。

這些指標(biāo)基于并綜合了過去旨在提高人工智能系統(tǒng)透明度的干預(yù)措施,例如模型卡、數(shù)據(jù)表、評(píng)估實(shí)踐以及基礎(chǔ)模型如何協(xié)調(diào)更廣泛的供應(yīng)鏈。

透明度報(bào)告的統(tǒng)計(jì)與發(fā)現(xiàn)

定義指標(biāo)

在透明度報(bào)告中,定義了100個(gè)指標(biāo),全面表征基礎(chǔ)模型開發(fā)人員的透明度??蓪⒅笜?biāo)分為三大領(lǐng)域:

1. 上游:上游指標(biāo)指定了構(gòu)建基礎(chǔ)模型所涉及的成分和流程,例如用于構(gòu)建基礎(chǔ)模型的計(jì)算資源、數(shù)據(jù)和勞動(dòng)力。

2. 模型:模型指標(biāo)指定基礎(chǔ)模型的屬性和功能,例如模型的架構(gòu)、功能和風(fēng)險(xiǎn)。

3. 下游:下游指標(biāo)指定基礎(chǔ)模型的分發(fā)和使用方式,例如模型對(duì)用戶的影響、模型的任何更新以及管理其使用的策略。

10個(gè)基礎(chǔ)模型提供商的分?jǐn)?shù)(按領(lǐng)域細(xì)分)

根據(jù)該指數(shù)的100項(xiàng)指標(biāo)評(píng)估10個(gè)主要基礎(chǔ)模型開發(fā)商及其旗艦?zāi)P停⑷嬲业叫枰倪M(jìn)的領(lǐng)域。

主要發(fā)現(xiàn)

通過計(jì)算,10個(gè)模型的平均分僅37分(滿分100分),即使是最高得分的模型也勉強(qiáng)超過50分。

沒有一家主要的基礎(chǔ)模型開發(fā)商能夠提供足夠的透明度,這揭示了人工智能行業(yè)根本上缺乏透明度。

然而,有一個(gè)模型滿足了其中82項(xiàng)指標(biāo),這表明如果其他開發(fā)人員能夠?qū)嵤┧麄円呀?jīng)采用的實(shí)踐,那么有改進(jìn)的空間。

開源基礎(chǔ)模型需要引領(lǐng)潮流,在三個(gè)開源基礎(chǔ)模型(Llama 2、BLOOMZ、Stable Diffusion 2)中的兩個(gè)獲得了兩個(gè)最高分,兩者都允許下載模型權(quán)重。

Stability AI是第三個(gè)開源基礎(chǔ)模型開發(fā)公司,排名第4,僅次于OpenAI。

其他發(fā)現(xiàn)

在對(duì)模型進(jìn)行評(píng)分后,研究團(tuán)隊(duì)主動(dòng)聯(lián)系了相關(guān)公司,尋求他們的回應(yīng)和反駁。

下圖顯示了在解決開發(fā)者的反駁后,每個(gè)模型的最終得分情況還,并將指標(biāo)分組為子域。其中子域提供了更精細(xì)、更直觀的分析。

1. 數(shù)據(jù)、勞動(dòng)力和計(jì)算是開發(fā)人員的盲點(diǎn)。

開發(fā)人員對(duì)于構(gòu)建基礎(chǔ)模型所需的資源最不透明。這是由于數(shù)據(jù)、勞動(dòng)力和計(jì)算子領(lǐng)域的低性能造成的。所有開發(fā)人員的分?jǐn)?shù)總計(jì)僅占數(shù)據(jù)、勞動(dòng)力和計(jì)算可用總分的 20%、17% 和 17%。

2. 開發(fā)人員對(duì)于用戶數(shù)據(jù)保護(hù)及其模型的基本功能更加透明。

圖片

開發(fā)者在與用戶數(shù)據(jù)保護(hù)(67%)、基礎(chǔ)模型開發(fā)方式的基本細(xì)節(jié)(63%)、模型的功能(62%)和局限性(60%)相關(guān)的指標(biāo)上得分很高。

這反映了開發(fā)人員在如何處理用戶數(shù)據(jù)及其產(chǎn)品基本功能方面的一定程度的基線透明度。

3. 即使在開發(fā)人員最透明的子域中也存在改進(jìn)的空間。

只有少數(shù)開發(fā)人員透明地展示其模型的局限性或讓第三方評(píng)估模型的功能。

雖然每個(gè)開發(fā)人員都描述了其模型的輸入和輸出模式,但只有三個(gè)開發(fā)人員公開了模型組件,并且只有兩個(gè)開發(fā)人員公開了模型大小。

開源或閉源模型

當(dāng)今人工智能領(lǐng)域最具爭(zhēng)議的政策爭(zhēng)論之一是人工智能模型應(yīng)該開源還是閉源。

雖然人工智能的發(fā)布策略不是二元的,但為了分析,將權(quán)重可廣泛下載的模型標(biāo)記為開放。

下面列表中的3個(gè)開發(fā)人員(Meta、Hugging Face和Stability AI)開發(fā)了開源基礎(chǔ)模型(分別為L(zhǎng)lama 2、BLOOMZ和Stable Diffusion2),其模型權(quán)重可以下載。

其他7名開發(fā)人員構(gòu)建了閉源的基礎(chǔ)模型,模型權(quán)重不可公開下載,并且必須通過API訪問模型。

開源模型(Meta的Llama-2、Hugging Face的BLOOMZ和Stability AI的 Stable Diffusion 2)處于領(lǐng)先地位

開源模型處于領(lǐng)先地位。

三個(gè)開源模型中的兩個(gè)(Meta 的 Llama 2 和 Hugging Face 的 BLOOMZ)得分大于或等于最佳閉源模型, Stability AI的Stable Diffusion 2緊隨OpenAI的GPT-4之后。

這種差異很大程度上是由于閉源的開發(fā)人員在上游問題上缺乏透明度造成的,例如用于構(gòu)建模型的數(shù)據(jù)、勞動(dòng)力和計(jì)算,如下圖。

開源模型和閉源模型之間的差異是由上游指標(biāo)驅(qū)動(dòng)的,例如用于開發(fā)模型的數(shù)據(jù)、勞動(dòng)力和計(jì)算的詳細(xì)信息

就總體得分而言,開源基礎(chǔ)模型開發(fā)者處于領(lǐng)先地位。開源模型和閉源模型開發(fā)人員之間的差異在構(gòu)建模型所需資源(例如數(shù)據(jù)和計(jì)算)的指標(biāo)上尤其明顯。近年來(lái),許多閉源模型的開發(fā)人員對(duì)訓(xùn)練模型的方法變得越來(lái)越保密。

如果想進(jìn)一步了解方法與分析的結(jié)論,可以參考以下鏈接。

對(duì)于這些工作,有些網(wǎng)友還是對(duì)此表示認(rèn)同。

有的人認(rèn)為,推進(jìn)模型透明度這項(xiàng)工作很有意義:這真的很酷,向前邁出了一大步!

還有網(wǎng)友表示這項(xiàng)工作太了不起了,并向作者提問如何看待最高比例只有54%的這個(gè)事實(shí)。

作者回應(yīng)道,總體得分低得令人有些沮喪,但是有一個(gè)模型滿足了82/100項(xiàng),這意味著當(dāng)前的限制還是可行的。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-22 07:01:29

AI

2024-04-23 13:30:37

GPT-4Llama 3版本

2024-04-07 13:40:20

2010-09-13 15:32:38

DIV背景

2023-08-02 11:56:58

2024-01-03 13:37:00

模型數(shù)據(jù)

2020-09-18 12:27:44

AIGPT-3算法

2023-03-15 10:35:16

GPTAI

2023-10-12 14:18:06

2023-03-14 13:45:14

模型AI

2023-09-11 15:57:16

人工智能模型GPT-4

2020-12-01 10:54:41

GIMP圖片透明度

2019-10-10 10:30:07

云計(jì)算云安全公共云

2024-01-17 08:22:23

16進(jìn)制值透明度顏色值

2009-11-03 17:35:05

VB.NET窗體透明度

2024-08-02 12:05:00

2022-05-16 10:29:17

開源社區(qū)透明度開發(fā)者

2023-07-25 09:23:23

Llama 2GPT-4

2023-09-21 12:31:54

AI數(shù)據(jù)

2022-02-15 09:31:43

透明度CSS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)