自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一大堆Llama3.1-Chinese正在襲來 精華

發(fā)布于 2024-8-1 14:19
瀏覽
0收藏

寫在前面

Llama3.1模型已經(jīng)開源,在這短短幾天之內(nèi),也是出現(xiàn)了一些Llama3.1漢化的repo,開源社區(qū)也是相當?shù)木怼?/p>

主要是Llama3.1沒有關注中文,雖然是多語言,但主要針對英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。

雖然讓Llama3.1系列模型用中文回答時,也可以正?;卮?,但仍然有中英文混合現(xiàn)象,并且詞表是真沒中文呀,中文場景下解碼效率會比較低。

咋說呢?反正也給中文大模型更多機會吧,開源社區(qū)也有更多事情可以做。

對Llama3.1進行中文增強,當然還是那幾步:擴充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。

下面先簡單過一下Llama3.1的一些介紹和效果,再給大家分享一些已經(jīng)開源的Chinese-Llama3.1項目。

Llama3.1介紹和效果

前幾天關于Llama3.1的介紹其實一大堆了,我就不過的介紹了,可以看我之前分享的兩篇文章Llama3.1系列模型正式開源,最大405B,閉源模型的統(tǒng)治時代將迎來結(jié)束?和淺談Llama3.1,從結(jié)構(gòu)、訓練過程、影響到數(shù)據(jù)合成。

對于Llama3.1的系列模型,現(xiàn)在很多平臺都已經(jīng)支持,如果本地沒有資源部署,可以從這些平臺上測試。下面的測試截圖均來自Hugging Chat測試結(jié)果。

HF:https://huggingface.co/chat/

雖然Llama3.1-405B模型榜單效果有很秀,但是9.9和9.11誰的大也是一本正經(jīng)的的胡說八道。

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

不過確實是Tokenizer的問題。

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

其實對于個人來說比較奇怪,之前一些模型其實都強調(diào)過,數(shù)字內(nèi)容按照每個單獨數(shù)字切割,不知道為啥Llama3.1沒有采用該策略。

反正GPT4也是一樣。

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

下面兩個弱智吧的問題,考考Llama3.1(405B),

  • 石油也是油,為啥沒人用它來炒菜?

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

  • 如果把臟話都說出來了,那么嘴是不是就干凈了

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

  • 為什么孫悟空是中國猴子卻叫美猴王,不應該叫中猴王嗎?

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

  • 下雨天關節(jié)疼 那我騙它是晴天不就不會疼了。

一大堆Llama3.1-Chinese正在襲來-AI.x社區(qū)

整體來說,還是比較不錯的,可以理解其中的含義,不過如果不強調(diào)中文回答,總是出現(xiàn)中英混雜的情況。

個人覺得,如果是公開、簡單的中文任務,Llama3.1還是可以直接使用的,但如果是比較領域、具化的場景,可能效果不會很好。

本人在自己的一個中文分類場景上,比較過Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的效果,無論是否SFT,Llama3.1-8B在中文上的效果都要比另外兩個差。

PS:個人數(shù)據(jù)結(jié)果,不是絕對,可以自行嘗試,同時也歡迎留言討論。

Chinese-Llama3.1模型

下面放幾個已經(jīng)開源權重的Chinese-Llama3.1,這才兩天,后面會越來越多,現(xiàn)在還有一些repo在占坑。

  • shenzhi-wang/Llama3.1-8B-Chinese-Chat
  • shenzhi-wang/Llama3.1-70B-Chinese-Chat
  • haijian06/Llama3.1-Chinese-Chat
  • shareAI/llama3.1-8b-instruct-dpo-zh

但現(xiàn)在還是已SFT為主,在等等會有更多Chinese-Llama3.1系列模型出現(xiàn),畢竟之前Chinese-Llama3已經(jīng)有很多模型啦。

騙Star的機會又來啦?。?!

寫在最后

Llama3.1系列模型的開源意義真是蠻大的,405B證明開源也能追該上閉源,雖然Mistral新開源的123B模型狙擊了Llama3.1-405B,但只能說開源真實原來越好了。

但是從真實使用角度來說,還是8B、70B的模型作用更直接,畢竟很多大模型真正落地上線的規(guī)模也就8B,要不然并發(fā)起來真耗不起。

那么有一個不成熟的想法,是否更大的開源模型利于哪些搞大模型AI平臺的廠商,因為自己有一套infra優(yōu)化機制,專注推理,又有卡,為更多企業(yè)提供服務。而小模型才是企業(yè)可以自己玩耍的,服務器不用推太多,開源推理框架就夠用了。

最后,小扎的格局要打開呀,Mistral-123B都支持中文呦!

本文轉(zhuǎn)載自 ??NLP工作站??,作者: 劉聰NLP


收藏
回復
舉報
回復
相關推薦