自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

新聞 機(jī)器學(xué)習(xí)
GPT-4將會有高達(dá)10兆個參數(shù)?近日,有網(wǎng)友在分析了GPT-3和其他語言模型之后大膽預(yù)測,GPT-4將會達(dá)到GPT-3的57倍!而「開源版本」則會達(dá)到和GPT-3同等的規(guī)模。

 對于機(jī)器學(xué)習(xí)來說,參數(shù)可以算得上算法的關(guān)鍵:它們是歷史的輸入數(shù)據(jù),經(jīng)過模型訓(xùn)練得來的結(jié)果,是模型的一部分。

一般來說,在NLP領(lǐng)域,參數(shù)數(shù)量和復(fù)雜程度之間具有正相關(guān)性。而OpenAI的GPT-3則是迄今為止最大的語言模型之一,有1750億個參數(shù)。

那么,GPT-4會是什么樣子的?

近日有網(wǎng)友就對GTP-4及其「開源版」GPT-NeoX進(jìn)行了大膽的預(yù)測。

作者認(rèn)為,GPT-4的參數(shù)或許可以達(dá)到10T,是現(xiàn)在GPT-3模型的57倍還多,而GPT-NeoX的規(guī)模則可以和GPT-3持平。

等下,如果是這樣,程序員們還能不能在GPT-NeoX上愉快地調(diào)參了?

模型

發(fā)布時間

Tokens

參數(shù)

占1.75T的百分比

訓(xùn)練文本

GPT-2

(OpenAI)

Feb 2019

10B

1.5B

0.09%

40GB

GPT-J

(EleutherAI)

Jun 2021

400B

6B

0.34%

800GB

GPT-3

(OpenAI)

May 2020

499B

175B

10.00%

570GB

PanGu (Chinese)

Apr 2021

40B

200B

11.43%

1.1TB

HyperCLOVA (Korean)

May 2021

560B

204B

11.66%

1TB?

Wudao 2.0 (Chinese)

Jun 2021

500B?

1.75T

100.00%

2.4TB

LaMDA

(Google)

Jun 2021

1T?

200B?

11.43%

1TB?

GPT-4

(OpenAI)

TBA

20T?

10T?

571.43%

5TB?

GPT-NeoX

(EleutherAI)

TBA

500B?

175B?

10.00%

825GB?

數(shù)據(jù)集分析

目前應(yīng)用最廣的GPT-3的訓(xùn)練語料庫來自于規(guī)模巨大的結(jié)構(gòu)文本。其中所有數(shù)據(jù)集都被索引,分類,過濾和加權(quán),而且還針對重復(fù)的部分也做了大量的刪減。

專門為Openai開發(fā)并由Microsoft Azure托管的世界最強(qiáng)超算之一完成了對GPT-3的訓(xùn)練 。超算系統(tǒng)有超過285,000個CPU核心,超過10,000個 GPU,并且以400Gbps的速度運(yùn)行。

GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

GPT-3

Wikipedia DataSet是來自于Wikipedia的英文內(nèi)容。由于其質(zhì)量,寫作風(fēng)格和廣度,它是語言建模的高質(zhì)量文本的標(biāo)準(zhǔn)來源。

WebText數(shù)據(jù)集(以及擴(kuò)展版本W(wǎng)ebText2)是來自從Reddit出站的大于4500萬個網(wǎng)頁的文本,其中相關(guān)的帖子會有兩個以上的支持率(upvotess)。

由于具有大于4.3億的月活用戶,因此數(shù)據(jù)集中的內(nèi)容可以被認(rèn)為是最 「流行 」網(wǎng)站的觀點(diǎn)。

Books1Books2是兩個基于互聯(lián)網(wǎng)的書籍?dāng)?shù)據(jù)集。類似的數(shù)據(jù)集包括:

  • BookCorpus,是由未發(fā)表的作者撰寫的免費(fèi)小說書籍的集合,包含了至少10,000本書。
  • Library Genesis (Libgen),一個非常大的科學(xué)論文、小說和非小說類書籍的集合。

Common Crawl是一個包含了超過50億份網(wǎng)頁元數(shù)據(jù)和提取文本的開源存檔開放的數(shù)據(jù)平臺:

  • 八年來PB級的數(shù)據(jù)(數(shù)以千計的TB,數(shù)以百萬計的GB)。
  • 25B個網(wǎng)站。
  • 數(shù)以萬億計的鏈接。
  • 75%英語,3%中文,2.5%西班牙語,2.5%德語等。
  • 排名前10域名的內(nèi)容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。
GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

GPT-3使用的數(shù)據(jù)集

GPT-Neo和GPT-J

今年3月,Eleuther AI在GitHub上推出了GPT-Neo開源項目,可以在Colab上進(jìn)行微調(diào)。

雖然GPT-Neo與GPT-3比,參數(shù)量仍然很?。?.3B和2.7B),但開源又免費(fèi),仍然得到了「同性好友們」的認(rèn)可。

今年6月Eleuther AI再次推出GPT-J-6B,它可以說是GPT-Neo的增強(qiáng)版本,顧名思義,模型的參數(shù)量增加到了6B。

GPT-J的訓(xùn)練也是基于The Pile數(shù)據(jù)庫——一個825GB的多樣化開源語言建模數(shù)據(jù)集,由22個較小的、高質(zhì)量的數(shù)據(jù)集合組成。

The Pile除了專業(yè)論壇和知識庫,如HackerNews、Github和Stack Exchange,論文預(yù)印本網(wǎng)站ArXiv以外,還包括如Youtube字幕,甚至安然郵件(Enron Emails)語料庫。

GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

GPT-Neo和GPT-J使用的數(shù)據(jù)集

在zero-shot任務(wù)上,GPT-J性能和67億參數(shù)的GPT-3相當(dāng),也是目前公開可用的Transformer語言模型中,在各種下游zero-shot任務(wù)上表現(xiàn)最好的。

這么看來,確實(shí)可以期待一下和GPT-3相同規(guī)模的GPT-NeoX的表現(xiàn)了。

網(wǎng)友評論

GPT-4怎么這么大?

「GPT-3已經(jīng)接近理論上每個token的最大效率了。如果OpenAI模型的工作方式是正確的,更大的模型只是對算力的浪費(fèi)?!?/p>

GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

有網(wǎng)友解答說:「規(guī)模確實(shí)可以帶來改善。因為本質(zhì)上是一種關(guān)系隱喻模型,『了解更多的關(guān)系 』意味著能夠?qū)Ω嗟氖虑榛蛞愿?xì)微的方式做出反應(yīng)。當(dāng)然,這也同時是一個營銷的方式。」

GPT-4參數(shù)將達(dá)10兆!此表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

 

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-12-27 13:36:09

2022-03-24 10:35:38

人工智能模型代碼

2024-10-18 11:12:44

2021-08-12 16:27:04

模型人工智能深度學(xué)習(xí)

2022-04-20 10:47:46

AIGPT-4

2021-12-10 15:46:18

谷歌模型人工智能

2023-07-13 12:54:42

GPT-4OpenAI

2023-08-17 08:00:00

2024-01-12 19:07:26

GPT-4AI產(chǎn)品

2023-06-19 08:19:50

2024-04-19 09:17:33

AI模型

2022-01-05 10:33:56

開發(fā)者技能DeepMind

2023-11-09 12:41:40

AI數(shù)據(jù)

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-04-16 09:35:03

2024-01-30 21:18:57

模型智能CMMLU

2023-11-06 09:26:00

模型測評

2024-07-16 13:13:26

2023-09-03 12:56:43

2023-04-09 16:17:05

ChatGPT人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號