自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta復(fù)刻GPT-3“背刺”O(jiān)penAI,完整模型權(quán)重及訓(xùn)練代碼全公開

人工智能 新聞
Meta AI開放了一個(gè)“重達(dá)”1750億參數(shù)的大語言模型OPT-175B。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

千億級參數(shù)AI大模型,竟然真的能獲取代碼了?!

一覺醒來,AI圈發(fā)生了一件轟動(dòng)的事情——

Meta AI開放了一個(gè)“重達(dá)”1750億參數(shù)的大語言模型OPT-175B,不僅參數(shù)比GPT-3的3750億更少,效果還完全不輸GPT-3——

這意味著AI科學(xué)家們,終于可以“撬開”像GPT-3這樣的大模型,看看里面到底有些什么秘密了。

之前GPT-3雖然效果驚艷但不夠開放,源代碼獨(dú)家授權(quán)給了微軟,連馬斯克都批評過OpenAI不夠open。

雖然論文就在那里,想要在此之上做進(jìn)一步研究的話就得先復(fù)現(xiàn)一個(gè)出來再說。

而這一次,Meta從完整模型到訓(xùn)練代碼、部署代碼全部開放。

有人甚至在官宣之前就摸到還沒上傳好的GitHub倉庫去蹲點(diǎn)了。

還有人艾特OpenAI試圖“引戰(zhàn)”:

那么,Meta大模型有何特點(diǎn)、如何做到綠色低能耗,又為何要對外開放?一起來看看。

用16塊V100就能跑起來

OPT全稱Open Pre-trained Transformer Language Models,即“開放的預(yù)訓(xùn)練Transformer語言模型”。

相比GPT,名字直接把Generative換成了Open,可以說是非常內(nèi)涵了。(手動(dòng)狗頭)

在論文中,Meta AI也不避諱宣稱OPT-175B就是對標(biāo)GPT-3,還暗示一波自己更環(huán)保:

Meta AI對此解釋稱,OPT就是奔著開放代碼去的,為了讓更多人研究大模型,環(huán)境配置肯定是越經(jīng)濟(jì)越好。

這不,運(yùn)行時(shí)產(chǎn)生的碳足跡連GPT-3的1/7都不到,屬實(shí)省能又高效。

為了方便研究人員“量力而行”,Meta AI搞出了各種大小的OPT模型,從125M參數(shù)到1750億參數(shù)的不同大小模型都有。

其中,660億參數(shù)的模型還在制作中,馬上也會(huì)和大伙兒見面:

所以,最大的OPT-175B模型究竟有多高效,又是怎么做到的?

性能方面,Meta AI針對OPT-175B和GPT-3,用14個(gè)NLP任務(wù)進(jìn)行了測試。

結(jié)果表明,無論是零樣本學(xué)習(xí)(zero-shot)還是多樣本學(xué)習(xí)(Multi-shot),OPT在這些任務(wù)上的平均精度都與GPT-3相差不大。其中虛線為GPT,實(shí)線為OPT:

△左為零樣本學(xué)習(xí),右為多樣本學(xué)習(xí)

再看具體任務(wù)。在對話任務(wù)中,采用無監(jiān)督學(xué)習(xí)的方法訓(xùn)練OPT-175B,效果和監(jiān)督學(xué)習(xí)訓(xùn)練的幾類模型相近:

仇恨言論檢測任務(wù)上的效果,更是完全超過Davinci版本的GPT-3模型(在GPT-3的四個(gè)版本中是效果最好的):

訓(xùn)練硬件方面,Meta AI用了992塊英偉達(dá)A100 GPU(80GB)訓(xùn)練OPT,平均每塊GPU的計(jì)算效率最高能達(dá)到147 TFLOP/s

這個(gè)效率,甚至比英偉達(dá)自家研究人員用起來還高,大約超過17%左右。

Meta AI透露稱,一方面是采用了自家推出的一款名叫FSDP(Fully Sharded Data Parallel)的GPU內(nèi)存節(jié)省工具,使得大規(guī)模訓(xùn)練的速度比傳統(tǒng)方法快上5倍左右;

另一方面他們也借鑒了英偉達(dá)Megatron-LM模型的張量并行方法,將一個(gè)運(yùn)算分布到多個(gè)處理器上同時(shí)進(jìn)行。

甚至Meta AI表示,最低只需要16塊英偉達(dá)V100 GPU,就能訓(xùn)練并部署OPT-175B模型。

已經(jīng)有網(wǎng)友迫不及待地想要一試了:

當(dāng)然,Meta AI也不避諱談及OPT-175B大模型面臨的一些問題,例如更容易生成“毒性語言”(例如使用有攻擊性的詞匯、語言歧視等):

研究人員表示,希望能在開放后,有更多人參與進(jìn)來研究,并真正解決這些問題。

手把手教你復(fù)刻GPT-3

上面提到,這一次的OPT模型系列,300億參數(shù)及以下的版本都是可以直接下載,660億版還在路上。

只有完整的1750億版需要額外填寫一張申請表,包括工作單位、用途、相關(guān)發(fā)表工作等問題。

訓(xùn)練和部署的代碼工具包metaseq發(fā)布在GitHub,并配有使用教程和文檔。

作為著名的fairseq工具包的一個(gè)分支,metaseq專注于1750億規(guī)模大模型,刪除了訓(xùn)練和使用大模型不需要的部分。

還有不少開發(fā)者特別看重一個(gè)與模型和代碼同時(shí)發(fā)布的“隱藏寶藏”——開發(fā)日志。

里面詳細(xì)記錄了Meta團(tuán)隊(duì)在開發(fā)大模型過程中遇到的問題、解決的辦法和決策的依據(jù)。

為自Pytorch誕生之前就存在的一系列機(jī)器學(xué)習(xí)研究中的痛點(diǎn)和困惑提供了大廠解法的一手資料。

如此的開放力度可以說是史無前例了,自然收到了不少贊美。

比如同樣在做開源大模型項(xiàng)目的HuggingFace首席科學(xué)家Thomas Wolf。

不過針對1750億參數(shù)版需要申請一事,還是有人表示懷疑。

我不是學(xué)者或從業(yè)者,他們會(huì)接受我的申請嗎?

也有開發(fā)者建議Meta像OpenAI一樣提供一些Demo,如果大家看到效果會(huì)更愿意參與研究改進(jìn),不然的話光是搭建開發(fā)環(huán)境就挺勸退的。

斯坦福大學(xué)基礎(chǔ)模型研究中心主任、副教授Percy Liang對此發(fā)表了觀點(diǎn),將大模型的開放程度總結(jié)成4個(gè)層次,更高層次的開放能讓研究者專注于更深的問題。

第一層論文開放,證明一些設(shè)想的可行性,并提供構(gòu)建思路。

第二層API開放,允許研究人員探索和評估現(xiàn)有模型的能力(如推理能力)和限制(如偏見)

第三層模型權(quán)重開放和訓(xùn)練數(shù)據(jù)開放。允許研究人員逐步改進(jìn)現(xiàn)有模型,開發(fā)更深入的可解釋性技術(shù)和更有效的微調(diào)方法,讓研究人員更好地理解訓(xùn)練數(shù)據(jù)在模型行為中的作用。

第四層計(jì)算能力開放,允許研究人員嘗試新的體系結(jié)構(gòu)、訓(xùn)練目標(biāo)和過程、進(jìn)行數(shù)據(jù)融合,并在不同的領(lǐng)域開發(fā)全新的模型。

Percy Liang認(rèn)為更高層次的開放同時(shí)也會(huì)帶來更多風(fēng)險(xiǎn)。

也許是時(shí)候制定相關(guān)的社區(qū)規(guī)范了?

One More Thing

Meta這次論文的的共同一作有三人,其中Susan Zhang加入Meta之前正是來自O(shè)penAI。

不過在OpenAI期間她并沒有負(fù)責(zé)GPT-3的開發(fā),而是參與了玩Dota的OpenAI Five強(qiáng)化學(xué)習(xí)項(xiàng)目,以及多模態(tài)大模型的研究。

項(xiàng)目地址:

https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

論文地址:

https://arxiv.org/abs/2205.01068

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-05-05 08:25:22

模型OpenAI代碼

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-02-25 15:43:43

AI 數(shù)據(jù)人工智能

2021-11-03 15:12:09

微軟機(jī)器學(xué)習(xí)開發(fā)者

2023-11-10 15:37:32

2024-10-18 11:12:44

2022-03-14 09:33:56

神經(jīng)網(wǎng)絡(luò)模型人工智能

2022-12-27 13:36:09

2021-10-28 09:19:29

模型人工智能Facebook

2024-03-18 10:02:00

AI開源

2023-06-08 11:41:40

芯片AI

2021-11-02 09:36:04

AI 數(shù)據(jù)人工智能

2024-04-25 09:25:33

2022-03-24 10:35:38

人工智能模型代碼

2023-04-07 09:53:02

量子AI

2023-11-06 09:26:00

模型測評

2021-07-19 10:56:36

GPE-3OpenAI微軟

2021-01-19 16:34:30

開源技術(shù) GPT-3

2023-03-01 16:15:16

2023-06-16 13:02:22

GPT-5GPT-4AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號