自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

干掉「標(biāo)題黨」,清華團(tuán)隊(duì)又一開源力作!

人工智能 新聞
寫公眾號(hào)文章什么最頭疼?起標(biāo)題!清華大學(xué)與OpenBMB開源社區(qū)推出的大模型趣味應(yīng)用:「智取標(biāo)題」,輸入正文內(nèi)容,一鍵生成勁爆標(biāo)題!

作為一個(gè)起名困難戶,高中寫作文最困擾我的就是寫好文章卻不知道起什么題目,開始做公眾號(hào)以后,每次想標(biāo)題也都要掉一大把頭發(fā)......

最近,終于讓我在 GitHub 發(fā)現(xiàn)了「取名廢」之光,由清華大學(xué)與 OpenBMB 開源社區(qū)推出的大模型趣味應(yīng)用:「智取標(biāo)題」,輸入正文內(nèi)容就能一鍵生成勁爆標(biāo)題!

開箱即用,試過后我只能說:真香!

圖片

在線體驗(yàn):https://live.openbmb.org/ant

GitHub:https://github.com/OpenBMB/CPM-Live

提到這個(gè)標(biāo)題黨神器,就不得不先好好聊一聊它的「本體」——大模型 CPM-Ant。

CPM-Ant 作為國內(nèi)首個(gè)直播訓(xùn)練百億大模型, 訓(xùn)練耗時(shí) 68 天,于 2022 年 8 月 5 日完成,并由 OpenBMB 正式發(fā)布!

  • 五大卓越特性
  • 四大創(chuàng)新突破
  • 訓(xùn)練過程 低成本且環(huán)境友好!
  • 最重要的是——完全開源!

作為首個(gè)直播訓(xùn)練中文大模型,CPM-Ant 在大模型訓(xùn)練、微調(diào)、壓縮、推理、應(yīng)用等環(huán)節(jié)均提供了一份可行的實(shí)踐方案,希望能為不同的關(guān)注者提供不同的幫助與參考。

下面,讓我們一起來看看 CPM-Ant 發(fā)布成果內(nèi)容報(bào)告吧!

模型概覽

CPM-Ant 是一個(gè)開源的中文預(yù)訓(xùn)練語言模型,擁有 10B 參數(shù),也是 CPM-Live 直播訓(xùn)練過程中的第一個(gè)里程碑。

整個(gè)訓(xùn)練過程低成本且環(huán)境友好,不需要高昂的硬件要求和運(yùn)行成本,基于 增量微調(diào)(delta tuning)方法,在 CUGE 基準(zhǔn)測試中取得了優(yōu)異的結(jié)果。

CPM-Ant 相關(guān)代碼、日志文件和模型參數(shù)在一個(gè)開放的許可協(xié)議下完全開源。除了完整的模型,OpenBMB 還提供了各種壓縮版本以適應(yīng)不同的硬件配置。

CPM-Ant 的五大卓越特性:

(1)計(jì)算高效

通過 BMTrain[1] 工具包,能夠充分利用分布式計(jì)算資源的能力來高效訓(xùn)練大模型。

CPM-Ant 的訓(xùn)練持續(xù)了 68 天,花費(fèi)了 43 萬人民幣,是谷歌訓(xùn)練 T5-11B 模型約 130 萬美元費(fèi)用的 1/20。訓(xùn)練 CPM-Ant 的溫室氣體排放量約為 4872kg CO?e,而訓(xùn)練 T5-11B 的排放量為 46.7t CO?e[9] ,CPM-Ant 的方案約為其排放量的 1/10。

(2)性能優(yōu)異

借助 OpenDelta[3] 工具,能夠非常方便地通過增量微調(diào)將 CPM-Ant 適配到下游任務(wù)。

實(shí)驗(yàn)表明,CPM-Ant 僅僅微調(diào)了 6.3M 參數(shù)就在 3/6 個(gè) CUGE 任務(wù)上取得了最好的結(jié)果。這一結(jié)果超越了其他全參數(shù)微調(diào)的模型,舉例來說:CPM-Ant 的微調(diào)參數(shù)量僅為 CPM2(微調(diào)了 11B 參數(shù)) 的 0.06%。

(3)部署經(jīng)濟(jì)

借助BMCook[7] 和 BMInf[4] 工具包,能夠在有限的計(jì)算資源下驅(qū)動(dòng) CPM-Ant。

基于 BMInf ,能夠替代計(jì)算集群 在單塊 GPU 上進(jìn)行大模型推理(即便是一塊 GTX 1060 這樣的消費(fèi)級(jí)顯卡)。為了使 CPM-Ant 的部署更加經(jīng)濟(jì), OpenBMB 使用 BMCook 進(jìn)一步將原始的 10B 模型壓縮為不同的版本。壓縮后的模型(7B,3B,1B,300M)能夠適應(yīng)不同低資源場景下的需求。

(4)使用便捷

不管是原始 10B 模型還是相關(guān)的壓縮版本,通過幾行代碼就能夠輕松地加載與運(yùn)行。

OpenBMB 也會(huì)將 CPM-Ant 加入到 ModelCenter[8] 中,對(duì)模型的進(jìn)一步開發(fā)會(huì)變得更加容易。 

(5)開放民主

CPM-Ant 的訓(xùn)練過程完全開放。

OpenBMB 發(fā)布了所有的代碼、日志文件和模型存檔并提供開放獲取。CPM-Ant 也采用了允許商業(yè)化的開放許可協(xié)議。

一份完整的大模型訓(xùn)練實(shí)踐

對(duì)于有能力進(jìn)行大模型訓(xùn)練的廠商與研究機(jī)構(gòu),CPM-Ant 訓(xùn)練過程提供了一份完整的中文大模型訓(xùn)練實(shí)戰(zhàn)記錄。

OpenBMB 發(fā)布了 CPM-Live 系列模型的 模型設(shè)計(jì)、訓(xùn)練方案、數(shù)據(jù)需求和實(shí)現(xiàn)代碼?;?CPM-Live 的模型架構(gòu),能夠方便快速地設(shè)計(jì)實(shí)現(xiàn)大模型訓(xùn)練方案并整理相關(guān)的業(yè)務(wù)數(shù)據(jù),完成模型預(yù)研和數(shù)據(jù)準(zhǔn)備工作。

官方網(wǎng)站中記錄了訓(xùn)練過程中的 全部訓(xùn)練動(dòng)態(tài),包括損失函數(shù)、學(xué)習(xí)率、已學(xué)習(xí)數(shù)據(jù)、吞吐量、梯度大小、花費(fèi)成本曲線,以及模型內(nèi)部參數(shù)均值和標(biāo)準(zhǔn)差實(shí)時(shí)展示,通過這些訓(xùn)練動(dòng)態(tài),使用者能夠快速診斷模型訓(xùn)練過程是否出現(xiàn)問題。

圖片

模型訓(xùn)練內(nèi)部參數(shù)實(shí)時(shí)展示

此外,OpenBMB 的研發(fā)同學(xué)每天實(shí)時(shí)更新 訓(xùn)練記錄總結(jié),總結(jié)內(nèi)容包括損失值、梯度值、總體進(jìn)展,還記錄了遇到的一些問題和訓(xùn)練過程中的 bug,方便使用者提前了解模型訓(xùn)練過程中的可能會(huì)遇到的各種「坑」。

在模型訓(xùn)練「風(fēng)平浪靜」的日子,研發(fā)小哥也會(huì)拋出一些名言名句、介紹一些最新論文、甚至發(fā)起猜謎活動(dòng)。

圖片

日志中的一次猜謎活動(dòng)

除此之外,OpenBMB 還提供了 成本經(jīng)濟(jì) 的 訓(xùn)練方案,對(duì)于實(shí)際有大模型訓(xùn)練需求的企業(yè),通過相關(guān)訓(xùn)練加速技術(shù),訓(xùn)練成本已經(jīng)降低到可以接受的水平。

使用 BMTrain[1] 工具包,百億大模型 CPM-Ant 訓(xùn)練的算力花費(fèi)僅 43 萬人民幣(當(dāng)前花費(fèi)依照公有云價(jià)格計(jì)算,實(shí)際成本會(huì)更低),是 11B 大模型 T5 外界估算成本 130 萬美元的約 1/20!

一份屢創(chuàng) SOTA 的高效微調(diào)方案

CPM-Ant 如何幫助我們進(jìn)行下游任務(wù)適配?

對(duì)于大模型研究者,OpenBMB 提供了一份基于參數(shù)高效微調(diào)的大模型性能評(píng)測方案,方便快速進(jìn)行下游任務(wù)適配并評(píng)測模型性能。 

使用參數(shù)高效微調(diào),即增量微調(diào)(delta tuning)來評(píng)估 CPM-Ant 在六個(gè)下游任務(wù)上的性能。實(shí)驗(yàn)中采用了 LoRA[2] ,它在每個(gè)注意層中插入了兩個(gè)可調(diào)整的低秩矩陣,并凍結(jié)了原始模型的所有參數(shù)。使用這種方法,每個(gè)任務(wù)只微調(diào)了 6.3M 的參數(shù),僅占總參數(shù)的 0.067%。

在 OpenDelta[3] 的幫助下,OpenBMB 進(jìn)行了所有的實(shí)驗(yàn),而沒有修改原始模型的代碼。需要指出的是,在下游任務(wù)上評(píng)測 CPM-Ant 模型時(shí),沒有使用任何數(shù)據(jù)增強(qiáng)的方法。實(shí)驗(yàn)結(jié)果如下表所示:

圖片

可以看到,在僅微調(diào)極少參數(shù)的情況下,OpenBMB 的模型在三個(gè)數(shù)據(jù)集上的性能已經(jīng)超過了 CPM-2 和源 1.0。

有些任務(wù)(例如 LCSTS)在微調(diào)參數(shù)極少時(shí)可能會(huì)比較難以學(xué)習(xí), CPM-Live 的訓(xùn)練過程將會(huì)持續(xù)進(jìn)行,在各個(gè)任務(wù)上的性能也會(huì)被進(jìn)一步打磨。

感興趣的同學(xué),可訪問下方 GitHub 鏈接,搶先體驗(yàn)下 CPM-Ant 和 OpenDelta,進(jìn)一步探索 CPM-Ant 在其他任務(wù)上的能力!

https://github.com/OpenBMB/CPM-Live

一系列硬件友好的推理方式

大模型性能固然驚艷,但高昂的硬件要求和運(yùn)行成本一直困擾著許多使用者。對(duì)于大模型使用者,OpenBMB提供了一系列硬件友好的使用方式,能夠較為方便地在不同硬件環(huán)境下運(yùn)行不同的模型版本。

使用 BMInf[4] 工具包, CPM-Ant 可以在單卡 1060 這樣的 低資源環(huán)境 中運(yùn)行!

除此之外,OpenBMB 還將 CPM-Ant 進(jìn)行了壓縮。這些壓縮的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有這些模型壓縮尺寸都可以對(duì)應(yīng)于現(xiàn)有的開源預(yù)訓(xùn)練語言模型的經(jīng)典尺寸。

考慮到用戶可能會(huì)在發(fā)布的檢查點(diǎn)上進(jìn)行進(jìn)一步的開發(fā),OpenBMB 主要使用 任務(wù)無關(guān)的結(jié)構(gòu)化剪枝 來壓縮 CPM-Ant。剪枝過程也是漸進(jìn)的,即從 10B 到 7B,從 7B 到 3B,從 3B 到 1B,最后從 1B 到 0.3B。

在具體的剪枝過程中,OpenBMB 會(huì)訓(xùn)練一個(gè) 動(dòng)態(tài)的可學(xué)習(xí)的掩碼矩陣,然后用這個(gè)掩碼矩陣來 裁剪相應(yīng)的參數(shù)。最后,根據(jù)掩碼矩陣的閾值修剪參數(shù),該閾值是根據(jù)目標(biāo)稀疏度確定的。更多壓縮的細(xì)節(jié)可以參考技術(shù)博客[5] 。

下表展示了模型壓縮的結(jié)果:

圖片

硬核的內(nèi)容講完了,那么大模型到底怎么幫我們「取標(biāo)題」呢?

一款出乎意料的大模型趣味應(yīng)用

基于 CPM-Ant,所有大模型開發(fā)者與愛好者都可以開發(fā)感興趣的文本趣味應(yīng)用。

為了進(jìn)一步驗(yàn)證模型的有效性并提供范例,OpenBMB 在 CPM-Ant 基礎(chǔ)上微調(diào)了一個(gè) 勁爆標(biāo)題生成器 以展示模型能力。

只需要把正文內(nèi)容粘貼到下方文本框,一鍵點(diǎn)擊生成,就可以得到大模型提供的勁爆標(biāo)題!

圖片

CPM-Ant 成果報(bào)告首發(fā)文章標(biāo)題即由生成器生成

這款 demo將不斷被打磨,并在未來添加更多的特殊效果,增強(qiáng)用戶體驗(yàn)

感興趣的用戶也可以使用 CPM-Ant 構(gòu)建自己的展示應(yīng)用。如果有任何應(yīng)用想法、需要技術(shù)支持或者在使用 demo 過程中遇到任何問題,可以隨時(shí)在 CPM-Live 論壇[6] 發(fā)起討論!

CPM-Ant 的發(fā)布是 CPM-Live 的第一個(gè)里程碑,但也僅僅是訓(xùn)練的第一期,未來OpenBMB還會(huì)繼續(xù)進(jìn)行一系列訓(xùn)練。

簡單劇透一下,下一期的訓(xùn)練中將新增多語言支持、結(jié)構(gòu)化輸入輸出等新特性,歡迎大家繼續(xù)關(guān)注!

傳送門|項(xiàng)目鏈接

項(xiàng)目 GitHub 地址:

https://github.com/OpenBMB/CPM-Live

Demo 體驗(yàn)地址(僅限 PC 訪問):

https://live.openbmb.org/ant

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-09-11 15:37:18

GitHub代碼開發(fā)者

2021-01-26 10:59:52

開源技術(shù) 數(shù)據(jù)

2020-11-25 12:50:53

微軟老舊照片開源

2025-04-16 09:03:27

2020-09-26 22:30:18

開源技術(shù) 數(shù)據(jù)

2013-08-01 16:52:31

Tizen移動(dòng)操作系統(tǒng)移動(dòng)平臺(tái)

2021-03-24 10:48:32

谷歌開源代碼

2016-08-31 06:55:45

機(jī)器學(xué)習(xí)標(biāo)題誘餌

2009-04-07 15:31:52

LinuxGoogleMarket

2012-07-19 17:10:03

神奇的阿力Amazing AleRovio

2024-07-30 11:50:00

視頻生成

2024-06-28 13:40:03

2025-01-23 13:05:42

2011-06-03 17:50:58

2020-03-09 09:20:32

開源技術(shù) 軟件

2024-12-19 15:08:58

2022-06-20 09:45:48

Python開源可視化庫

2021-04-30 15:33:27

AMD
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)