自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="1evtp"></thead>}

<center id="1evtp"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

權(quán)重、代碼、數(shù)據(jù)集全開源，性能超越Mistral-7B，蘋果小模型來了

2024-07-22 07:10:00

最近，蘋果公司作為 DataComp-LM（DCLM）項目的研究機構(gòu)之一，在 Hugging Face 上發(fā)布了 DCLM-7B 開源模型。該模型性能已經(jīng)超越了 Mistral-7B，并且正在逼近其他領(lǐng)先的開源模型，包括 Llama 3 和 Gemma。

小模型成趨勢？

本周，OpenAI 上線小模型 GPT-4o-mini，小模型賽道正式開卷。近期加入這一賽道的還有蘋果。

最近，蘋果公司作為 DataComp-LM（DCLM）項目的研究機構(gòu)之一，在 Hugging Face 上發(fā)布了 DCLM-7B 開源模型。該模型性能已經(jīng)超越了 Mistral-7B，并且正在逼近其他領(lǐng)先的開源模型，包括 Llama 3 和 Gemma。

論文鏈接：https://arxiv.org/pdf/2406.11794
項目鏈接：https://huggingface.co/apple/DCLM-7B

論文作者之一、蘋果機器學(xué)習(xí)團隊 Vaishaal Shankar 將 DCLM 模型描述為「真正開源的最佳模型」，因為 DCLM 不僅開源了模型權(quán)重，還開源了訓(xùn)練代碼和預(yù)訓(xùn)練數(shù)據(jù)集。

研究介紹

大型語言模型（LLM）目前面臨的一個評估挑戰(zhàn)是缺乏受控比較。LLM 研究通常會比較采用不同架構(gòu)、計算或超參數(shù)的模型，因此難以理清影響語言模型質(zhì)量的因素。

基于此，研究團隊提出了語言模型數(shù)據(jù)比較新基準 ——DCLM，這是語言模型訓(xùn)練數(shù)據(jù)整編（curation）的第一個基準，旨在讓 LLM 通過設(shè)計高質(zhì)量數(shù)據(jù)集來提高模型性能，特別是在多模態(tài)領(lǐng)域。

研究團隊發(fā)現(xiàn)基于模型的過濾，即由機器學(xué)習(xí) (ML) 模型從較大的數(shù)據(jù)集中自動過濾和選擇高質(zhì)量數(shù)據(jù)，可能是構(gòu)建高質(zhì)量訓(xùn)練集的關(guān)鍵。

DCLM 整體思路很簡單：使用一個標準化的框架來進行實驗，包括固定的模型架構(gòu)、訓(xùn)練代碼、超參數(shù)和評估，最終找出哪種數(shù)據(jù)整理策略最適合訓(xùn)練出高性能的模型。

使用 DCLM，研究團隊構(gòu)建了一個高質(zhì)量數(shù)據(jù)集 DCLM-BASELINE，并用該數(shù)據(jù)集從頭開始訓(xùn)練了一個 7B 參數(shù)模型 —— DCLM-7B。

DCLM-7B 模型的細節(jié)。

DCLM-7B 使用基于 OpenLM 框架的預(yù)訓(xùn)練方案，在 MMLU 基準上 5-shot 準確率達到 64%，可與 Mistral-7B-v0.3（63%）和 Llama 3 8B（66%）相媲美，并且在 53 個自然語言理解任務(wù)上的平均表現(xiàn)也可與 Mistral-7B-v0.3、Llama 3 8B 相媲美，而所需計算量僅為 Llama 3 8B 的 1/6。

以下是 DCLM-7B 在各種任務(wù)（部分）上的評估結(jié)果：

DCLM-7B 與其他同等大小模型比較結(jié)果如下表所示：

值得注意的是，大部分其他模型雖然開放權(quán)重但封閉數(shù)據(jù)。這就是 Vaishaal Shankar 將 DCLM 模型描述為「真正開源」的原因。

參考鏈接：https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/。

責(zé)任編輯：姜華來源：機器之心

小模型機器學(xué)習(xí)蘋果

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營