自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一大堆Chinese Llama3正在襲來

發(fā)布于 2024-7-4 09:02
瀏覽
0收藏

寫在前面

大家好,我是劉聰NLP。

Llama3模型已經(jīng)開源,可以就在這短短的兩天之內(nèi),就出現(xiàn)了很多Chinese-Llama3 repo,開源社區(qū)也是相當(dāng)?shù)木怼?/p>

再看到Llama3相關(guān)報(bào)告的時(shí)候,就預(yù)料到會(huì)有很多Chinese-Llama3,因?yàn)長lama3對中文十分不友好,15T Tokens的訓(xùn)練數(shù)據(jù),僅有5%(750B Tokens)是其他語言,那么中文就更少了。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

當(dāng)時(shí)還抖激靈,說先開個(gè)repo占個(gè)坑(其實(shí)是想做但沒卡)

很多網(wǎng)友們測試,也發(fā)現(xiàn)Llama3能力很強(qiáng),可以理解中文問題的意思,但輸出內(nèi)容就會(huì)是英文,在提示詞中強(qiáng)調(diào)用中文的情況下,會(huì)使用中文回答,但不穩(wěn)定,有時(shí)會(huì)出現(xiàn)中英文結(jié)合的情況。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

中文問題

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答-但輸出英文

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答-但輸出英文

可想而知,開源社區(qū)會(huì)對Llama3進(jìn)行中文增強(qiáng)(畢竟llama3基座很強(qiáng)),當(dāng)然還是那幾步:擴(kuò)充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。

當(dāng)然就像Llama2出來的時(shí)候一樣,會(huì)帶來很多機(jī)遇,借助Llama3的名頭,還是可以肝出不少內(nèi)容的。

下面先簡單對Llama3進(jìn)行介紹,再給大家分享一些已經(jīng)開源的Chinese-Llama3項(xiàng)目。

Llama3

Llama3模型目前共開源了8B和70B兩個(gè)參數(shù)規(guī)模的模型,400B參數(shù)規(guī)模的模型還在訓(xùn)練中。MetaAI也表示接下來的幾個(gè)月里,將發(fā)布多個(gè)具有新功能的模型,包括多模態(tài)、多語言對話能力、更長的上下文窗口以及更強(qiáng)的綜合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B
  • 結(jié)構(gòu)與Llama2基本一致,詞表大小擴(kuò)充到128K,8B和70B大小的模型中都采用了分組查詢注意力(GQA),最大長度8K。
  • 15T Tokens進(jìn)行模型預(yù)訓(xùn)練,整體是Llama2的7倍,代碼數(shù)據(jù)是Llama2的4倍,其中5%的數(shù)據(jù)由其他30種語言組成。
  • 訓(xùn)練優(yōu)化(數(shù)據(jù)并行、模型并行和流水線并行)實(shí)現(xiàn)同時(shí)在16K個(gè)GPU上訓(xùn)練,每個(gè)GPU的計(jì)算利用率超過400 TFLOPS。最終在24K個(gè)GPU上訓(xùn)練,相比于Llama2訓(xùn)練效率提高了約三倍。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

llmsys對戰(zhàn)

暫時(shí)投票還有點(diǎn)少,但匿名PK榜單效果已經(jīng)很逆天了,暫時(shí)成為開源之最。

Chinese-Llama3

下面放幾個(gè)已經(jīng)開源權(quán)重的Chinese-Llama3,這才兩天,后面會(huì)越來越多,現(xiàn)在還有一些repo在占坑。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬們真實(shí)太肝了,目前涉及的版本是base和instruct模型利用中文數(shù)據(jù)直接SFT。

  • 2024-04-19 下午1點(diǎn):世界上首個(gè)llama3 中文版訓(xùn)練完成,晚上沒睡覺哈哈,使用170k+高質(zhì)量多輪中文對話數(shù)據(jù)連夜訓(xùn)練得到。
  • 2024-04-20 早上7點(diǎn):v2版訓(xùn)練完成。
  • 2023-04-20 晚上23點(diǎn):instruct 中文版訓(xùn)練完成。

數(shù)據(jù)集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的數(shù)據(jù)。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中國聯(lián)通AI創(chuàng)新中心開源,目前版本應(yīng)該也是直接SFT版本,暫不清楚是基于base模型還是instruct模型。說后續(xù)會(huì)更新64K版本、增量預(yù)訓(xùn)練版本。

數(shù)據(jù)量未知,但表明是高質(zhì)量指令數(shù)據(jù)(覆蓋多個(gè)領(lǐng)域和行業(yè)),微調(diào)指令數(shù)據(jù)經(jīng)過嚴(yán)格的人工篩查(如果真人工,是個(gè)大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

僅通過silk-road/Wizard-LM-Chinese-instruct-evol數(shù)據(jù)訓(xùn)練2個(gè)epoch進(jìn)行中文測試。其中,maxlenght=2k、bs=8、steps=500。

寫在最后

開源社區(qū)真的太卷了,上面兩個(gè)項(xiàng)目都號(hào)稱首個(gè)Chinese-Llama3,但暫時(shí)開源的還是Chinese-Llama3-8B為主,也可以理解,畢竟8B訓(xùn)練的更快。

期待后面更多的Chinese-Llama3出來,相信不久ymcui、lily、firefly、 IDEA等都會(huì)開中文Llama3吧。

本文轉(zhuǎn)載自 ??NLP工作站??,作者: 劉聰NLP

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦