自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4 模型架構(gòu)泄露:包含 1.8 萬億參數(shù)、采用混合專家模型

人工智能
外媒表示,GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù),而 GPT-3 只有約 1750 億個參數(shù)。而為了保持合理的成本,OpenAI 采用混合專家模型來進行構(gòu)建。

7 月 13 日消息,外媒 Semianalysis 近日對 OpenAI 今年 3 月發(fā)布的 GPT-4 大模型進行了揭秘,其中包括 GPT-4 模型架構(gòu)、訓(xùn)練和推理的基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集、token 數(shù)、成本、混合專家模型(Mixture of Experts)等具體的參數(shù)和信息

▲ 圖源 Semianalysis

外媒表示,GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù),而 GPT-3 只有約 1750 億個參數(shù)。而為了保持合理的成本,OpenAI 采用混合專家模型來進行構(gòu)建。

IT之家注:混合專家模型(Mixture of Experts)是一種神經(jīng)網(wǎng)絡(luò),該系統(tǒng)根據(jù)數(shù)據(jù)進行分離訓(xùn)練多個模型,在各模型輸出后,系統(tǒng)將這些模型整合輸出為一個單獨的任務(wù)。

▲ 圖源 Semianalysis

據(jù)悉,GPT-4 使用了 16 個混合專家模型 (mixture of experts),每個有 1110 億個參數(shù),每次前向傳遞路由經(jīng)過兩個專家模型。

此外,它有 550 億個共享注意力參數(shù),使用了包含 13 萬億 tokens 的數(shù)據(jù)集訓(xùn)練,tokens 不是唯一的,根據(jù)迭代次數(shù)計算為更多的 tokens。

GPT-4 預(yù)訓(xùn)練階段的上下文長度為 8k,32k 版本是對 8k 微調(diào)的結(jié)果,訓(xùn)練成本相當高,外媒表示,8x H100 也無法以每秒 33.33 個 Token 的速度提供所需的密集參數(shù)模型,因此訓(xùn)練該模型需要導(dǎo)致極高的推理成本,以 H100 物理機每小時 1 美元計算,那么一次的訓(xùn)練成本就高達 6300 萬美元(約 4.51 億元人民幣)。

對此,OpenAI 選擇使用云端的 A100 GPU 訓(xùn)練模型,將最終訓(xùn)練成本降至 2150 萬美元(約 1.54 億元人民幣)左右,用稍微更長的時間,降低了訓(xùn)練成本

責(zé)任編輯:姜華 來源: IT之家
相關(guān)推薦

2024-07-16 13:13:26

2023-06-21 13:22:16

GPT-4模型

2023-11-09 12:41:40

AI數(shù)據(jù)

2023-12-26 08:17:23

微軟GPT-4

2023-04-09 16:17:05

ChatGPT人工智能

2023-05-29 09:29:52

GPT-4語言模型

2024-01-30 21:18:57

模型智能CMMLU

2023-07-09 14:50:48

模型調(diào)優(yōu)

2024-02-01 14:56:13

GPT-4開源模型

2024-04-25 16:56:14

GPT-4大模型人工智能

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-08-17 08:00:00

2023-12-09 13:32:21

GPT-4MoE架構(gòu)開源大模型

2024-04-19 09:17:33

AI模型

2023-08-24 13:59:57

模型數(shù)據(jù)

2021-07-13 17:38:49

算法語言模型GPT-4

2024-01-10 16:01:28

2023-06-19 08:19:50

2023-07-05 09:57:11

點贊
收藏

51CTO技術(shù)棧公眾號