自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="yiddo"><source id="yiddo"></source></tfoot>

<sub id="yiddo"></sub>

<sup id="yiddo"><dl id="yiddo"></dl></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

發(fā)布于 2024-4-18 12:57

瀏覽

1收藏

不知道大家有沒(méi)有注意到現(xiàn)在大模型百花齊放，但是模型參數(shù)大小卻非常一致，基本都是7B，13B，65B等。那么，為什么被設(shè)計(jì)成這么大呢？

網(wǎng)絡(luò)上有很多解釋，筆者結(jié)合自己的理解，分享其中可能的原因。

最直接的就是歷史傳承，因?yàn)樽畛鮋penAI在gpt-3就是這么干的，然后，Meta借鑒了OpenAI的做法，推出了llama的7B，13B，33B，65B四個(gè)尺寸。由于llama在開源領(lǐng)域的地位，其他模型廠商都基本遵守了這樣的約定，形成了當(dāng)下的局面。

適配推理設(shè)備。特別是對(duì)于一些參數(shù)量小的模型是為了適配不同級(jí)別的GPU顯存，常見(jiàn)的顯寸大小從4G到80G不等，我們知道顯存占用的公式：

模型空間大小 = 參數(shù)量 *參數(shù)精度

這使得能夠很方便地在單卡上部署推理，降低使用的門檻。以chatGLM2-6B為例，它有62億參數(shù)，權(quán)重參數(shù)文件采用BF16精度存儲(chǔ)，實(shí)際顯存占用大概為12.5GB，一個(gè)英偉達(dá)T4顯卡（16GB）就能跑起來(lái)。

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？-AI.x社區(qū)

模型結(jié)構(gòu)上的設(shè)計(jì)。從模型結(jié)構(gòu)上看，當(dāng)前大模型都是采用的transfomer模型的decoder-only結(jié)構(gòu)（未遮蓋部分）。其參數(shù)量受到隱藏層維度，層數(shù)，注意力頭數(shù)等影響，而這些參數(shù)取值既參考GPT-3，也是結(jié)合。下面是llama和gpt系列模型的參數(shù)量統(tǒng)計(jì)：

實(shí)際參數(shù)量P	隱藏層維度d_model	層數(shù)N	注意力頭數(shù)h	估算參數(shù)量
6.7B	4096	32	32	6590300160
13.0B	5120	40	40	12730761216
32.5B	6656	60	52	32045531136
65.2B	8192	80	64	64572358656

llama

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？-AI.x社區(qū)

性能、成本與訓(xùn)練時(shí)間的綜合平衡。根據(jù)一文探秘LLM應(yīng)用開發(fā)(12)-模型部署與推理(大模型相關(guān)參數(shù)計(jì)算及性能分析)，模型訓(xùn)練時(shí)間可以估算：6TP/(n*X*u)，其中X是計(jì)算顯卡的峰值FLOPS，n為卡的數(shù)量，u為利用率。以LLaMA-65B為例，在2048張80GB顯存的A100上，在1.4TB tokens的數(shù)據(jù)上訓(xùn)練了65B參數(shù)量的模型。80GB顯存A100的峰值性能為624TFLOPS，設(shè)GPU利用率為0.3，則所需要的訓(xùn)練時(shí)間為：

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？-AI.x社區(qū)

大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI工程化??，作者： ully

標(biāo)簽

贊

收藏 1

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B！美團(tuán)、浙大等提出MobileVLM V2：更快、更強(qiáng)的端側(cè)視覺(jué)語(yǔ)言模型

kcoufee ? 5220瀏覽 ? 0回復(fù)
華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 2674瀏覽 ? 0回復(fù)
7B超越百億級(jí)，北大開源aiXcoder-7B最強(qiáng)代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4139瀏覽 ? 0回復(fù)
Meta無(wú)限長(zhǎng)文本大模型來(lái)了：參數(shù)僅7B，已開源

輕薄滴假象 ? 2578瀏覽 ? 0回復(fù)
首批開源 8B 和 70B兩個(gè)版本，未來(lái)有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復(fù)
AlphaGo核心算法增強(qiáng)，7B模型數(shù)學(xué)能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 2742瀏覽 ? 0回復(fù)
大語(yǔ)言模型llama-2-7b推理服務(wù)實(shí)戰(zhàn)

zhcs333 ? 4306瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4052瀏覽 ? 0回復(fù)
Qwen開源強(qiáng)大、多樣、實(shí)用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 ? 3643瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺(jué)模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3950瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 2700瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 2911瀏覽 ? 0回復(fù)
艾倫人工智能研究所 (AI2) 發(fā)布 OLMo 2：在多達(dá) 5T 代幣上訓(xùn)練的新系列開源 7B 和 13B 語(yǔ)言模型

Halo咯咯 ? 2660瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 2087瀏覽 ? 0回復(fù)
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1828瀏覽 ? 0回復(fù)
Kimi開源Moonlight-16B-A3B的MoE模型！！

NLP工作站 ? 1862瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1709瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2437瀏覽 ? 0回復(fù)
千億模型做不到的事，7B小模型實(shí)現(xiàn)了？阿里這次開源有點(diǎn)狠！

蜂耘網(wǎng)iphoneyun ? 1181瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

下一篇：大模型能否成為預(yù)言家？使用Transformer來(lái)進(jìn)行時(shí)序預(yù)測(cè)可還行？

社區(qū)精華內(nèi)容

目錄

<blockquote id="zxhxd"><i id="zxhxd"></i></blockquote>