自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="j9r75"><li id="j9r75"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一大堆Chinese Llama3正在襲來

發(fā)布于 2024-7-4 09:02

瀏覽

0收藏

寫在前面

大家好，我是劉聰NLP。

Llama3模型已經(jīng)開源，可以就在這短短的兩天之內(nèi)，就出現(xiàn)了很多Chinese-Llama3 repo，開源社區(qū)也是相當(dāng)?shù)木怼?/p>

再看到Llama3相關(guān)報(bào)告的時(shí)候，就預(yù)料到會(huì)有很多Chinese-Llama3，因?yàn)長lama3對中文十分不友好，15T Tokens的訓(xùn)練數(shù)據(jù)，僅有5%（750B Tokens）是其他語言，那么中文就更少了。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

當(dāng)時(shí)還抖激靈，說先開個(gè)repo占個(gè)坑（其實(shí)是想做但沒卡）

很多網(wǎng)友們測試，也發(fā)現(xiàn)Llama3能力很強(qiáng)，可以理解中文問題的意思，但輸出內(nèi)容就會(huì)是英文，在提示詞中強(qiáng)調(diào)用中文的情況下，會(huì)使用中文回答，但不穩(wěn)定，有時(shí)會(huì)出現(xiàn)中英文結(jié)合的情況。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

中文問題

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答-但輸出英文

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強(qiáng)調(diào)中文回答-但輸出英文

可想而知，開源社區(qū)會(huì)對Llama3進(jìn)行中文增強(qiáng)（畢竟llama3基座很強(qiáng)），當(dāng)然還是那幾步：擴(kuò)充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。

當(dāng)然就像Llama2出來的時(shí)候一樣，會(huì)帶來很多機(jī)遇，借助Llama3的名頭，還是可以肝出不少內(nèi)容的。

下面先簡單對Llama3進(jìn)行介紹，再給大家分享一些已經(jīng)開源的Chinese-Llama3項(xiàng)目。

Llama3

Llama3模型目前共開源了8B和70B兩個(gè)參數(shù)規(guī)模的模型，400B參數(shù)規(guī)模的模型還在訓(xùn)練中。MetaAI也表示接下來的幾個(gè)月里，將發(fā)布多個(gè)具有新功能的模型，包括多模態(tài)、多語言對話能力、更長的上下文窗口以及更強(qiáng)的綜合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

結(jié)構(gòu)與Llama2基本一致，詞表大小擴(kuò)充到128K，8B和70B大小的模型中都采用了分組查詢注意力（GQA），最大長度8K。
15T Tokens進(jìn)行模型預(yù)訓(xùn)練，整體是Llama2的7倍，代碼數(shù)據(jù)是Llama2的4倍，其中5%的數(shù)據(jù)由其他30種語言組成。
訓(xùn)練優(yōu)化（數(shù)據(jù)并行、模型并行和流水線并行）實(shí)現(xiàn)同時(shí)在16K個(gè)GPU上訓(xùn)練，每個(gè)GPU的計(jì)算利用率超過400 TFLOPS。最終在24K個(gè)GPU上訓(xùn)練，相比于Llama2訓(xùn)練效率提高了約三倍。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

llmsys對戰(zhàn)

暫時(shí)投票還有點(diǎn)少，但匿名PK榜單效果已經(jīng)很逆天了，暫時(shí)成為開源之最。

Chinese-Llama3

下面放幾個(gè)已經(jīng)開源權(quán)重的Chinese-Llama3，這才兩天，后面會(huì)越來越多，現(xiàn)在還有一些repo在占坑。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬們真實(shí)太肝了，目前涉及的版本是base和instruct模型利用中文數(shù)據(jù)直接SFT。

2024-04-19 下午1點(diǎn)：世界上首個(gè)llama3 中文版訓(xùn)練完成，晚上沒睡覺哈哈，使用170k+高質(zhì)量多輪中文對話數(shù)據(jù)連夜訓(xùn)練得到。
2024-04-20 早上7點(diǎn)：v2版訓(xùn)練完成。
2023-04-20 晚上23點(diǎn)：instruct 中文版訓(xùn)練完成。

數(shù)據(jù)集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的數(shù)據(jù)。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中國聯(lián)通AI創(chuàng)新中心開源，目前版本應(yīng)該也是直接SFT版本，暫不清楚是基于base模型還是instruct模型。說后續(xù)會(huì)更新64K版本、增量預(yù)訓(xùn)練版本。

數(shù)據(jù)量未知，但表明是高質(zhì)量指令數(shù)據(jù)（覆蓋多個(gè)領(lǐng)域和行業(yè)），微調(diào)指令數(shù)據(jù)經(jīng)過嚴(yán)格的人工篩查（如果真人工，是個(gè)大工程）。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

僅通過silk-road/Wizard-LM-Chinese-instruct-evol數(shù)據(jù)訓(xùn)練2個(gè)epoch進(jìn)行中文測試。其中，maxlenght=2k、bs=8、steps=500。

寫在最后

開源社區(qū)真的太卷了，上面兩個(gè)項(xiàng)目都號(hào)稱首個(gè)Chinese-Llama3，但暫時(shí)開源的還是Chinese-Llama3-8B為主，也可以理解，畢竟8B訓(xùn)練的更快。

期待后面更多的Chinese-Llama3出來，相信不久ymcui、lily、firefly、 IDEA等都會(huì)開中文Llama3吧。

本文轉(zhuǎn)載自 ??NLP工作站??，作者：劉聰NLP

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 3904瀏覽 ? 0回復(fù)
低比特量化的LLAMA3模型有多好？ | 香港大學(xué)&北航最新研究發(fā)布

angel ? 6211瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強(qiáng)王者！

AIGC最前線 ? 5714瀏覽 ? 0回復(fù)
Llama3背后的秘密：HuggingFace發(fā)布萬億級數(shù)據(jù)集Fineweb

AIGC最前線 ? 7745瀏覽 ? 0回復(fù)
僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型

輕薄滴假象 ? 2610瀏覽 ? 0回復(fù)
LangChain v0.2：向穩(wěn)定性邁進(jìn)的一大步

ermulong ? 3468瀏覽 ? 0回復(fù)
僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果，在線迭代RLHF全流程解決方案來了

輕薄滴假象 ? 2573瀏覽 ? 0回復(fù)
從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

Crystalcxt ? 2239瀏覽 ? 0回復(fù)
Llama3實(shí)操增強(qiáng)的三種方式：RAG/Agent/Function Calling?。?！

玄姐聊AGI ? 5122瀏覽 ? 0回復(fù)
Meta LlaMA 3模型深度解析

51CTO內(nèi)容精選 ? 3894瀏覽 ? 0回復(fù)
32專家MoE大模型免費(fèi)商用！性能全面對標(biāo)Llama3，單token推理消耗僅5.28%

Crystalcxt ? 2542瀏覽 ? 0回復(fù)
Llama-2 vs. Llama-3：利用微型基準(zhǔn)測試（井字游戲）評估大模型

Baihai_IDP ? 2596瀏覽 ? 0回復(fù)
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 2992瀏覽 ? 0回復(fù)
【創(chuàng)新一夏學(xué)習(xí)季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號(hào) ? 52.8w瀏覽 ? 39回復(fù)
一大堆Llama3.1-Chinese正在襲來

NLP工作站 ? 2744瀏覽 ? 0回復(fù)
基于Llama3，為本地文件創(chuàng)建生成式AI搜索引擎

小虎哦哦 ? 2319瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開發(fā)大模型-譯llama3-from-scratch

周末程序猿 ? 1704瀏覽 ? 0回復(fù)
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1152瀏覽 ? 0回復(fù)
谷歌的“雙子星”，正在圍剿一眾大模型

51CTO技術(shù)棧 ? 891瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

下一篇： RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題

社區(qū)精華內(nèi)容

目錄

<legend id="8r0xh"><track id="8r0xh"></track></legend>