自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fhblo"></sub><legend id="fhblo"><track id="fhblo"><dfn id="fhblo"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4 模型架構(gòu)泄露：包含 1.8 萬億參數(shù)、采用混合專家模型

作者：漾仔 2023-07-13 12:54:42

外媒表示，GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù)，而 GPT-3 只有約 1750 億個參數(shù)。而為了保持合理的成本，OpenAI 采用混合專家模型來進行構(gòu)建。

7 月 13 日消息，外媒 Semianalysis 近日對 OpenAI 今年 3 月發(fā)布的 GPT-4 大模型進行了揭秘，其中包括 GPT-4 模型架構(gòu)、訓(xùn)練和推理的基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集、token 數(shù)、成本、混合專家模型（Mixture of Experts）等具體的參數(shù)和信息。

▲ 圖源 Semianalysis

外媒表示，GPT-4 在 120 層中總共包含了 1.8 萬億參數(shù)，而 GPT-3 只有約 1750 億個參數(shù)。而為了保持合理的成本，OpenAI 采用混合專家模型來進行構(gòu)建。

IT之家注：混合專家模型（Mixture of Experts）是一種神經(jīng)網(wǎng)絡(luò)，該系統(tǒng)根據(jù)數(shù)據(jù)進行分離訓(xùn)練多個模型，在各模型輸出后，系統(tǒng)將這些模型整合輸出為一個單獨的任務(wù)。

▲ 圖源 Semianalysis

據(jù)悉，GPT-4 使用了 16 個混合專家模型 (mixture of experts)，每個有 1110 億個參數(shù)，每次前向傳遞路由經(jīng)過兩個專家模型。

此外，它有 550 億個共享注意力參數(shù)，使用了包含 13 萬億 tokens 的數(shù)據(jù)集訓(xùn)練，tokens 不是唯一的，根據(jù)迭代次數(shù)計算為更多的 tokens。

GPT-4 預(yù)訓(xùn)練階段的上下文長度為 8k，32k 版本是對 8k 微調(diào)的結(jié)果，訓(xùn)練成本相當高，外媒表示，8x H100 也無法以每秒 33.33 個 Token 的速度提供所需的密集參數(shù)模型，因此訓(xùn)練該模型需要導(dǎo)致極高的推理成本，以 H100 物理機每小時 1 美元計算，那么一次的訓(xùn)練成本就高達 6300 萬美元（約 4.51 億元人民幣）。

對此，OpenAI 選擇使用云端的 A100 GPU 訓(xùn)練模型，將最終訓(xùn)練成本降至 2150 萬美元（約 1.54 億元人民幣）左右，用稍微更長的時間，降低了訓(xùn)練成本。

責(zé)任編輯：姜華來源： IT之家

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="3bv0u"></cite>

<blockquote id="3bv0u"></blockquote>