自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬斯克突然開(kāi)源Grok:3140億參數(shù)巨無(wú)霸,免費(fèi)可商用

開(kāi)源 人工智能
代碼和模型權(quán)重已上線(xiàn)GitHub。官方信息顯示,此次開(kāi)源的Grok-1是一個(gè)3140億參數(shù)的混合專(zhuān)家模型——就是說(shuō),這是當(dāng)前開(kāi)源模型中參數(shù)量最大的一個(gè)。

馬斯克說(shuō)到做到:

旗下大模型Grok現(xiàn)已開(kāi)源!

圖片

代碼和模型權(quán)重已上線(xiàn)GitHub。官方信息顯示,此次開(kāi)源的Grok-1是一個(gè)3140億參數(shù)的混合專(zhuān)家模型——

就是說(shuō),這是當(dāng)前開(kāi)源模型中參數(shù)量最大的一個(gè)。

消息一出,Grok-1的GitHub倉(cāng)庫(kù)已攬獲4.5k標(biāo)星,并且還在庫(kù)庫(kù)猛漲。

圖片

表情包們,第一時(shí)間被吃瓜群眾們熱傳了起來(lái)。

圖片

而ChatGPT本Chat,也現(xiàn)身Grok評(píng)論區(qū),開(kāi)始了和馬斯克新一天的斗嘴……

圖片

那么,話(huà)不多說(shuō),來(lái)看看馬斯克這波為懟OpenAI,究竟拿出了什么真東西。

Grok-1說(shuō)開(kāi)源就開(kāi)源

此次開(kāi)源,xAI發(fā)布了Grok-1的基本模型權(quán)重和網(wǎng)絡(luò)架構(gòu)。

具體來(lái)說(shuō)是2023年10月預(yù)訓(xùn)練階段的原始基礎(chǔ)模型,沒(méi)有針對(duì)任何特定應(yīng)用(例如對(duì)話(huà))進(jìn)行微調(diào)。

結(jié)構(gòu)上,Grok-1采用了混合專(zhuān)家(MoE)架構(gòu),包含8個(gè)專(zhuān)家,總參數(shù)量為314B(3140億),處理Token時(shí),其中的兩個(gè)專(zhuān)家會(huì)被激活,激活參數(shù)量為86B。

單看這激活的參數(shù)量,就已經(jīng)超過(guò)了密集模型Llama 2的70B,對(duì)于MoE架構(gòu)來(lái)說(shuō),這樣的參數(shù)量稱(chēng)之為龐然大物也毫不為過(guò)。

圖片

不過(guò),在GitHub頁(yè)面中,官方也提示,由于模型規(guī)模較大(314B參數(shù)),需要有足夠GPU和內(nèi)存的機(jī)器才能運(yùn)行Grok。

這里MoE層的實(shí)現(xiàn)效率并不高,選擇這種實(shí)現(xiàn)方式是為了避免驗(yàn)證模型的正確性時(shí)需要自定義內(nèi)核。

模型的權(quán)重文件則是以磁力鏈接的形式提供,文件大小接近300GB。

圖片

而且這個(gè)“足夠的GPU”,要求不是一般的高——YC上有網(wǎng)友推測(cè),如果是8bit量化的話(huà),可能需要8塊H100。

圖片

除了參數(shù)量前所未有,在工程架構(gòu)上,Grok也是另辟蹊徑——

沒(méi)有采用常見(jiàn)的Python、PyTorch或Tensorflow,而是選用了Rust編程語(yǔ)言以及深度學(xué)習(xí)框架新秀JAX。

而在官方通告之外,還有許多大佬通過(guò)扒代碼等方式揭露了Grok的更多技術(shù)細(xì)節(jié)。

比如來(lái)自斯坦福大學(xué)的Andrew Kean Gao,就針對(duì)Grok的技術(shù)細(xì)節(jié)進(jìn)行了詳細(xì)解釋。

首先,Grok采用了使用旋轉(zhuǎn)的embedding方式,而不是固定位置embedding,旋轉(zhuǎn)位置的embedding大小為 6144,與輸入embedding相同。

圖片

當(dāng)然,還有更多的參數(shù)信息:

  • 窗口長(zhǎng)度為8192tokens,精度為bf16。
  • Tokenizer vocab大小為131072(2^17),與GPT-4接近。
  • embedding大小為6144(48×128)。
  • Transformer層數(shù)為64,每層都有一個(gè)解碼器層,包含多頭注意力塊和密集塊。
  • key value大小為128。
  • 多頭注意力塊中,有48 個(gè)頭用于查詢(xún),8 個(gè)用于KV,KV 大小為 128。
  • 密集塊(密集前饋塊)擴(kuò)展因子為8,隱藏層大小為32768。

圖片

除了Gao,還有英偉達(dá)AI科學(xué)家Ethan He(何宜暉)指出,在專(zhuān)家系統(tǒng)的處理方面,Grok也與另一知名開(kāi)源MoE模型Mixtral不同——

Grok對(duì)全部的8個(gè)專(zhuān)家都應(yīng)用了softmax函數(shù),然后從中選擇top2專(zhuān)家,而Mixtral則是先選定專(zhuān)家再應(yīng)用softmax函數(shù)。

圖片

而至于有沒(méi)有更多細(xì)節(jié),可能要看官方會(huì)不會(huì)發(fā)布進(jìn)一步的消息了。

另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是說(shuō),商用友好。

為懟OpenAI怒而Open

大家伙知道,馬斯克因?yàn)镺penAI不Open,已經(jīng)向舊金山高等法院提起訴訟,正式把OpenAI給告了。

不過(guò)當(dāng)時(shí)馬斯克自己搞的Grok也并沒(méi)有開(kāi)源,還只面向??的付費(fèi)用戶(hù)開(kāi)放,難免被質(zhì)疑雙標(biāo)。

大概是為了堵上這個(gè)bug,馬斯克在上周宣布:

本周,xAI將開(kāi)源Grok。

圖片

雖然時(shí)間點(diǎn)上似乎又是馬斯克一貫的遲到風(fēng)格,但xAI的這波Open如今看來(lái)確實(shí)不是口嗨,還是給了網(wǎng)友們一些小小的震撼。

圖片

有xAI新晉員工感慨說(shuō):

這將是激動(dòng)人心的一年,快系好安全帶吧。

圖片

有人已經(jīng)期待起Grok作為一個(gè)開(kāi)源模型,進(jìn)一步攪動(dòng)大模型競(jìng)爭(zhēng)的這一池水。

不過(guò),也并不是每個(gè)人都買(mǎi)馬斯克的賬:

圖片

不過(guò)說(shuō)歸說(shuō),多線(xiàn)并進(jìn)的馬斯克,最近大事不止開(kāi)源Grok這一件。

作為多公司、多業(yè)務(wù)的時(shí)間管理大師,馬斯克旗下,特斯拉剛剛?cè)€(xiàn)推出了端到端純視覺(jué)的自動(dòng)駕駛系統(tǒng)FSD V12,所有北美車(chē)主用戶(hù),都OTA更新升級(jí),可以實(shí)現(xiàn)所有道路場(chǎng)景的任意點(diǎn)到點(diǎn)AI駕駛。

SpaceX則完成了第三次星艦發(fā)射,雖然最后功敗垂成,但又史無(wú)前例地邁進(jìn)了一大步。

推特則開(kāi)源了推薦算法,然后迎來(lái)了一波自然流量新高峰。

別人都是 you can you up, no can no bb…馬斯克不一樣,bb up不選擇,邊喊邊干,還都干成了。

參考鏈接:
[1]https://github.com/xai-org/grok-1。
[2]https://x.ai/blog/grok-os。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2024-03-19 14:00:59

2024-03-18 08:47:34

馬斯克GrokOpenAI

2024-03-18 10:17:00

開(kāi)源AI

2024-03-18 14:17:06

大模型開(kāi)源人工智能

2023-12-13 08:46:33

人工智能ChatGPT機(jī)器人

2023-11-06 12:34:14

模型訓(xùn)練

2022-04-27 07:16:52

收購(gòu)馬斯克推特

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2024-03-18 13:21:13

2023-08-03 19:11:45

2025-02-21 10:51:47

2023-12-12 17:53:27

馬斯克AIChatGPT

2024-03-29 12:48:00

數(shù)據(jù)訓(xùn)練

2022-07-11 09:44:28

推特馬斯克收購(gòu)

2025-02-11 11:19:52

2025-03-21 09:50:56

2022-12-28 15:35:58

馬斯克推特

2024-03-12 13:14:40

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2023-12-08 12:58:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)