自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="lk545"></style>

<rt id="lk545"></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

陳丹琦團隊新作：5%成本拿下SOTA，“羊駝剪毛”大法火了

作者：夢晨 2023-10-12 12:13:16

人工智能新聞

LLM-Shearing，具體來說是一種定向結構化剪枝，將一個大模型剪枝到指定的目標結構。

只用3%的計算量、5%的成本取得SOTA，統(tǒng)治了1B-3B規(guī)模的開源大模型。

這一成果來自普林斯頓陳丹琦團隊，名為LLM-Shearing大模型剪枝法。

以羊駝LLaMA 2 7B為基礎，通過定向結構化剪枝得到1.3B和3B剪枝后的Sheared-LLama模型。

分別在下游任務評估上超越之前的同等規(guī)模模型。

一作夏夢舟表示，“比從頭開始預訓練劃算很多”。

論文中也給出了剪枝后的Sheared-LLaMA輸出示例，表示盡管規(guī)模只有1.3B和2.7B，也已經(jīng)能生成連貫且內容豐富的回復。

相同的“扮演一個半導體行業(yè)分析師”任務，2.7B版本的回答結構上還要更清晰一些。

團隊表示雖然目前只用Llama 2 7B版做了剪枝實驗，但該方法可以擴展到其他模型架構，也能擴展到任意規(guī)模。

另外還有一個好處，剪枝后可自行選用優(yōu)質的數(shù)據(jù)集繼續(xù)預訓練。

有開發(fā)者表示，6個月前還幾乎所有人都認為65B以下的模型沒有任何實際用處。

照這樣下去，我敢打賭1B-3B模型也能產(chǎn)生巨大價值，如果不是現(xiàn)在，也是不久以后。

把剪枝當做約束優(yōu)化

LLM-Shearing，具體來說是一種定向結構化剪枝，將一個大模型剪枝到指定的目標結構。

之前的剪枝方法可能會導致模型性能下降，因為會刪除一些結構，影響表達能力。

新方法將剪枝看成一種約束優(yōu)化問題，學習剪枝掩碼矩陣來搜索與指定結構匹配的子網(wǎng)絡，同時以最大化性能為目標。

接下來對剪枝過的模型進行繼續(xù)預訓練，在一定程度上恢復剪枝造成的性能損失。

在這個階段，團隊發(fā)現(xiàn)剪枝過的模型與從頭訓練的模型對不同數(shù)據(jù)集的損失下降速率不一樣，產(chǎn)生數(shù)據(jù)使用效率低下的問題。

為此團隊提出了動態(tài)批量加載（Dynamic Batch Loading），根據(jù)模型在不同域數(shù)據(jù)上的損失下降速率動態(tài)調整每個域的數(shù)據(jù)所占比例，提高數(shù)據(jù)使用效率。

實驗發(fā)現(xiàn)，雖然剪枝模型與從頭訓練的同等規(guī)模模型相比，雖然一開始表現(xiàn)差得多，但繼續(xù)預訓練可以迅速提高，最終超越。

這表明從強大的基礎模型中剪枝，可以為繼續(xù)預訓練提供更好的初始化條件。

將持續(xù)更新，來一個剪一個

論文作者分別為普林斯頓博士生夏夢舟、高天宇，清華Zhiyuan Zeng，普林斯頓助理教授陳丹琦。

夏夢舟，本科畢業(yè)于復旦，碩士畢業(yè)于CMU。

高天宇，本科畢業(yè)于清華，是2019年清華特獎得主。

兩人都是陳丹琦的學生，陳丹琦現(xiàn)在為普林斯頓助理教授，普林斯頓 NLP小組的共同領導者。

最近在個人主頁中，陳丹琦更新了她的研究方向。

“這些日子主要被開發(fā)大模型吸引”，正在研究的主題包括：

檢索如何在下一代模型中發(fā)揮重要作用，提高真實性、適應性、可解釋性和可信度。
大模型的低成本訓練和部署，改進訓練方法、數(shù)據(jù)管理、模型壓縮和下游任務適應優(yōu)化。
還對真正增進對當前大模型功能和局限性理解的工作感興趣，無論在經(jīng)驗上還是理論上。

目前Sheared-Llama已在Hugging Face上提供。

團隊表示，開源庫還會保持更新。

更多大模型發(fā)布時，來一個剪一個，持續(xù)發(fā)布高性能的小模型。

One More Thing

不得不說，現(xiàn)在大模型實在是太卷了。

一作Mengzhou Xia剛剛發(fā)布一條更正，表示寫論文時還是SOTA，論文寫好就已經(jīng)被最新的Stable-LM-3B超越了。

論文地址：https://arxiv.org/abs/2310.06694

Hugging Face：https://huggingface.co/princeton-nlp

項目主頁：https://xiamengzhou.github.io/sheared-llama/

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="tawcz"></blockquote>}

<cite id="tawcz"></cite>

<cite id="tawcz"></cite>

<blockquote id="tawcz"><i id="tawcz"><video id="tawcz"></video></i></blockquote>

<legend id="tawcz"><track id="tawcz"></track></legend>

<center id="tawcz"></center>^{<sub id="tawcz"></sub>}