自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="nbtii"></style><sup id="nbtii"><rt id="nbtii"></rt></sup>

<cite id="nbtii"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

太慘，一個(gè)月僅23個(gè)下載！盤(pán)點(diǎn)2024“理想豐滿(mǎn)現(xiàn)實(shí)骨感”的大模型們！

原創(chuàng) 精選

作者：言征 2025-01-26 11:38:54

2024 年底，AMD 憑借其基于 Transformer 的解碼器專(zhuān)用語(yǔ)言模型 OLMo 系列進(jìn)入開(kāi)源 AI 領(lǐng)域。OLMo 系列包括基礎(chǔ) OLMo 1B、OLMo 1B SFT（監(jiān)督微調(diào)）和 OLMo 1B SFT DPO（通過(guò)直接偏好優(yōu)化與人類(lèi)偏好保持一致）。

整理 | 言征

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

大型語(yǔ)言模型的競(jìng)爭(zhēng)似乎正在結(jié)束，只有少數(shù)幾個(gè)明顯的贏家。其中，DeepSeek V3 已成為 2024 年的焦點(diǎn)，引領(lǐng)中國(guó)開(kāi)源模型的發(fā)展。據(jù) Hugging Face 稱(chēng)，DeepSeek V3 與 GPT-4 和 Claude 3.5 等閉源巨頭正面交鋒，上個(gè)月的下載量為 45,499 次，與Meta 的 Llama 3.1（491,629 次下載）和谷歌的 Gemma 2（377,651 次下載）并駕齊驅(qū)。但并非今年推出的所有 LLM 都能乘風(fēng)破浪——有些失敗了，盡管前景光明，但未能引起人們的興趣。以下是 2024 年未能取得成功的模型。

1.Databricks：DBRX

2024 年 3 月， Databricks推出了 DBRX，這是一款擁有 1320 億個(gè)參數(shù)的開(kāi)源 LLM。它采用細(xì)粒度的 MoE 架構(gòu)，每個(gè)輸入激活 16 位專(zhuān)家中的 4 位，擁有 360 億個(gè)活動(dòng)參數(shù)。該公司聲稱(chēng)，該模型的表現(xiàn)優(yōu)于 GPT-3.5 和 Gemini 1.5 Pro 等閉源模型。

然而，自推出以來(lái)，很少有人討論它的采用情況，或者企業(yè)是否認(rèn)為它適合構(gòu)建應(yīng)用程序。Mosaic 團(tuán)隊(duì)于 2023 年被 Databricks 以 13 億美元收購(gòu)，該團(tuán)隊(duì)領(lǐng)導(dǎo)了其開(kāi)發(fā)，該公司花費(fèi) 1000 萬(wàn)美元打造了 DBRX。但遺憾的是，該模型上個(gè)月在 Hugging Face 上的下載量慘不忍睹，只有 23 次。

2.TII：Falcon 2

5 月，阿布扎比技術(shù)創(chuàng)新研究所 (TII) 發(fā)布了其下一代 Falcon 語(yǔ)言模型，包括兩個(gè)版本：Falcon-2-11B 和 Falcon-2-11B-VLM。Falcon 2 模型的基準(zhǔn)性能令人印象深刻，F(xiàn)alcon-2-11B 的表現(xiàn)優(yōu)于Meta 的 Llama 3 8B，并與Google 的 Gemma 7B 相當(dāng)，這已由 Hugging Face 排行榜獨(dú)立驗(yàn)證。

然而，Meta 在今年晚些時(shí)候發(fā)布了 Llama 3.2 和 Llama 3.3，將 Falcon 2 拋在身后。據(jù) Hugging Face 稱(chēng)，F(xiàn)alcon-2-11B-VLM上個(gè)月的下載量?jī)H為 1,000 次左右。

3.Snowflake：Arctic

今年 4 月，Snowflake 推出了Arctic LLM，這是一個(gè)擁有 480B 參數(shù)的模型，使用 128 位專(zhuān)家構(gòu)建了一個(gè)密集的 MoE 混合 Transformer 架構(gòu)。該公司自豪地表示，它只花了 200 萬(wàn)美元來(lái)訓(xùn)練該模型，在 SQL 生成等任務(wù)上的表現(xiàn)優(yōu)于 DBRX。

該公司對(duì) DBRX 的關(guān)注表明其試圖挑戰(zhàn) Databricks。同時(shí)，Snowflake 承認(rèn) Llama 3 等模型在某些基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于它。

4.Stable：LM 2

Stability AI 于去年 1 月推出了Stable LM 2 系列，包含兩個(gè)版本：Stable LM 2 1.6B 和 Stable LM 2 12B。1.6B 模型經(jīng)過(guò) 2 萬(wàn)億個(gè) token 的訓(xùn)練，支持西班牙語(yǔ)、德語(yǔ)、意大利語(yǔ)、法語(yǔ)和葡萄牙語(yǔ)等七種語(yǔ)言，在大多數(shù)任務(wù)中的表現(xiàn)都優(yōu)于微軟的 Phi-1.5 和 TinyLlama 1.1B 等模型。

5 月份推出的穩(wěn)定版 LM 2 12B 提供 120 億個(gè)參數(shù)，并使用 7 種語(yǔ)言的 2 萬(wàn)億個(gè)詞條進(jìn)行訓(xùn)練。該公司聲稱(chēng)，該模型可與 Mixtral、Llama 2 和 Qwen 1.5 等大型模型相媲美，在 RAG 系統(tǒng)的工具使用方面表現(xiàn)出色。然而，最新的用戶(hù)統(tǒng)計(jì)數(shù)據(jù)卻講述了一個(gè)不同的故事，12月的下載量?jī)H為 444 次。

5.Nemotron-4 340B

Nemotron-4-340B-Instruct是 NVIDIA 為合成數(shù)據(jù)生成和聊天應(yīng)用程序開(kāi)發(fā)的 LLM。它于 2024 年 6 月發(fā)布，是 Nemotron-4 340B 系列的一部分，該系列還包括 Base 和 Reward 版本。盡管該模型功能強(qiáng)大，但其普及率卻很低，2024 年 12 月在 Hugging Face 上的下載量?jī)H為 101 次左右。

6.Jamba

AI21 Labs于 2024 年 3 月推出了 Jamba，這是一款將基于 Mamba 的結(jié)構(gòu)化狀態(tài)空間模型 (SSM) 與傳統(tǒng) Transformer 層相結(jié)合的 LLM。Jamba 系列包括多個(gè)版本，例如 Jamba-v0.1、Jamba 1.5 Mini 和 Jamba 1.5 Large。

Jamba 擁有 256K 的 token 上下文窗口，能夠處理比許多競(jìng)爭(zhēng)模型大得多的文本塊，這最初引起了人們的興奮。然而，該模型未能引起太多關(guān)注，上個(gè)月在 Hugging Face 上的下載量?jī)H為 7K左右。

7.AMD OLMo

2024 年底，AMD 憑借其基于 Transformer 的解碼器專(zhuān)用語(yǔ)言模型 OLMo 系列進(jìn)入開(kāi)源 AI 領(lǐng)域。OLMo 系列包括基礎(chǔ) OLMo 1B、OLMo 1B SFT（監(jiān)督微調(diào)）和 OLMo 1B SFT DPO（通過(guò)直接偏好優(yōu)化與人類(lèi)偏好保持一致）。

該模型在 16 個(gè) AMD Instinct MI250 GPU 驅(qū)動(dòng)的節(jié)點(diǎn)上進(jìn)行訓(xùn)練，實(shí)現(xiàn)了 12,200 個(gè)令牌/秒/gpu 的吞吐量。

旗艦?zāi)Ｐ?OLMo 1B 擁有 12 億個(gè)參數(shù)、16 個(gè)層、16 個(gè) head、隱藏層大小為 2048、上下文長(zhǎng)度為 2048 個(gè) token、詞匯量為 50,280，面向開(kāi)發(fā)者、數(shù)據(jù)科學(xué)家和企業(yè)。盡管如此，該模型在社區(qū)中僅收獲了1k左右的下載。

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

大模型 AMD OLMo

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="h2tkm"></sub>}<style id="h2tkm"></style>

<sub id="h2tkm"></sub>

<cite id="h2tkm"></cite>