一大堆Llama3.1-Chinese正在襲來 精華
寫在前面
Llama3.1模型已經(jīng)開源,在這短短幾天之內(nèi),也是出現(xiàn)了一些Llama3.1漢化的repo,開源社區(qū)也是相當?shù)木怼?/p>
主要是Llama3.1沒有關注中文,雖然是多語言,但主要針對英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。
雖然讓Llama3.1系列模型用中文回答時,也可以正?;卮?,但仍然有中英文混合現(xiàn)象,并且詞表是真沒中文呀,中文場景下解碼效率會比較低。
咋說呢?反正也給中文大模型更多機會吧,開源社區(qū)也有更多事情可以做。
對Llama3.1進行中文增強,當然還是那幾步:擴充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。
下面先簡單過一下Llama3.1的一些介紹和效果,再給大家分享一些已經(jīng)開源的Chinese-Llama3.1項目。
Llama3.1介紹和效果
前幾天關于Llama3.1的介紹其實一大堆了,我就不過的介紹了,可以看我之前分享的兩篇文章Llama3.1系列模型正式開源,最大405B,閉源模型的統(tǒng)治時代將迎來結(jié)束?和淺談Llama3.1,從結(jié)構(gòu)、訓練過程、影響到數(shù)據(jù)合成。
對于Llama3.1的系列模型,現(xiàn)在很多平臺都已經(jīng)支持,如果本地沒有資源部署,可以從這些平臺上測試。下面的測試截圖均來自Hugging Chat測試結(jié)果。
HF:https://huggingface.co/chat/
雖然Llama3.1-405B模型榜單效果有很秀,但是9.9和9.11誰的大也是一本正經(jīng)的的胡說八道。
不過確實是Tokenizer的問題。
其實對于個人來說比較奇怪,之前一些模型其實都強調(diào)過,數(shù)字內(nèi)容按照每個單獨數(shù)字切割,不知道為啥Llama3.1沒有采用該策略。
反正GPT4也是一樣。
下面兩個弱智吧的問題,考考Llama3.1(405B),
- 石油也是油,為啥沒人用它來炒菜?
- 如果把臟話都說出來了,那么嘴是不是就干凈了
- 為什么孫悟空是中國猴子卻叫美猴王,不應該叫中猴王嗎?
- 下雨天關節(jié)疼 那我騙它是晴天不就不會疼了。
整體來說,還是比較不錯的,可以理解其中的含義,不過如果不強調(diào)中文回答,總是出現(xiàn)中英混雜的情況。
個人覺得,如果是公開、簡單的中文任務,Llama3.1還是可以直接使用的,但如果是比較領域、具化的場景,可能效果不會很好。
本人在自己的一個中文分類場景上,比較過Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的效果,無論是否SFT,Llama3.1-8B在中文上的效果都要比另外兩個差。
PS:個人數(shù)據(jù)結(jié)果,不是絕對,可以自行嘗試,同時也歡迎留言討論。
Chinese-Llama3.1模型
下面放幾個已經(jīng)開源權重的Chinese-Llama3.1,這才兩天,后面會越來越多,現(xiàn)在還有一些repo在占坑。
- shenzhi-wang/Llama3.1-8B-Chinese-Chat
- shenzhi-wang/Llama3.1-70B-Chinese-Chat
- haijian06/Llama3.1-Chinese-Chat
- shareAI/llama3.1-8b-instruct-dpo-zh
但現(xiàn)在還是已SFT為主,在等等會有更多Chinese-Llama3.1系列模型出現(xiàn),畢竟之前Chinese-Llama3已經(jīng)有很多模型啦。
騙Star的機會又來啦?。?!
寫在最后
Llama3.1系列模型的開源意義真是蠻大的,405B證明開源也能追該上閉源,雖然Mistral新開源的123B模型狙擊了Llama3.1-405B,但只能說開源真實原來越好了。
但是從真實使用角度來說,還是8B、70B的模型作用更直接,畢竟很多大模型真正落地上線的規(guī)模也就8B,要不然并發(fā)起來真耗不起。
那么有一個不成熟的想法,是否更大的開源模型利于哪些搞大模型AI平臺的廠商,因為自己有一套infra優(yōu)化機制,專注推理,又有卡,為更多企業(yè)提供服務。而小模型才是企業(yè)可以自己玩耍的,服務器不用推太多,開源推理框架就夠用了。
最后,小扎的格局要打開呀,Mistral-123B都支持中文呦!
本文轉(zhuǎn)載自 ??NLP工作站??,作者: 劉聰NLP
