0門檻免費(fèi)商用!孟子3-13B大模型正式開源,萬億token數(shù)據(jù)訓(xùn)練
瀾舟科技官宣:孟子3-13B大模型正式開源!
這一主打高性價(jià)比的輕量化大模型,面向?qū)W術(shù)研究完全開放,并支持免費(fèi)商用。
在MMLU、GSM8K、HUMAN-EVAL等各項(xiàng)基準(zhǔn)測評估中,孟子3-13B都表現(xiàn)出了不錯(cuò)的性能。
尤其在參數(shù)量20B以內(nèi)的輕量化大模型領(lǐng)域,在中英文語言能力方面尤為突出,數(shù)學(xué)和編程能力也位于前列。
△以上結(jié)果基于5-shot。
據(jù)介紹,孟子3-13B大模型是基于Llama架構(gòu),數(shù)據(jù)集規(guī)模高達(dá)3T Tokens。
語料精選自網(wǎng)頁、百科、社交、媒體、新聞,以及高質(zhì)量的開源數(shù)據(jù)集。通過在萬億tokens上進(jìn)行多語言語料的繼續(xù)訓(xùn)練,模型的中文能力突出并且兼顧多語言能力。
孟子3-13B大模型開源
只需兩步,就能使用孟子3-13B大模型了。
首先進(jìn)行環(huán)境配置。
pip install -r requirements.txt
然后快速開始。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('指令:回答以下問題。輸入:介紹一下孟子。輸出:', return_tensors='pt')
if torch.cuda.is_available():
inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))
此外,他們還提供了一個(gè)樣例代碼,可用于基礎(chǔ)模型進(jìn)行單輪交互推理。
cd examples
python examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path
如果想要進(jìn)行模型微調(diào),他們也提供了相關(guān)文件和代碼。
事實(shí)上,早在3月18日的瀾舟大模型技術(shù)和產(chǎn)品發(fā)布會(huì)現(xiàn)場,就透露了孟子3-13B大模型的諸多細(xì)節(jié)。
當(dāng)時(shí)他們表示,孟子3-13B大模型訓(xùn)練已經(jīng)完成。
對于選擇13B版本的原因,周明解釋道:
首先,瀾舟明確以服務(wù)ToB場景為主,ToC為輔。
實(shí)踐發(fā)現(xiàn),ToB場景使用頻率最高的大模型參數(shù)量多為7B、13B、40B、100B,整體集中在10B-100B之間。
其次,在這個(gè)區(qū)間范圍內(nèi),從ROI(投資回報(bào)率)角度來講,既滿足場景需求,又最具性價(jià)比。
因此,在很長一段時(shí)間內(nèi),瀾舟的目標(biāo)都是在10B-100B參數(shù)規(guī)模范圍內(nèi),打造優(yōu)質(zhì)的行業(yè)大模型。
作為國內(nèi)最早一批大模型創(chuàng)業(yè)團(tuán)隊(duì),去年3月,瀾舟就發(fā)布了孟子GPT V1(MChat)。
今年1月,孟子大模型GPT V2(含孟子大模型-標(biāo)準(zhǔn)、孟子大模型-輕量、孟子大模型-金融、孟子大模型-編碼)對公眾開放。
好了,感興趣的朋友可戳下方鏈接體驗(yàn)一下。
GitHub鏈接:https://github.com/Langboat/Mengzi3
HuggingFace:https://huggingface.co/Langboat/Mengzi3-13B-Base
ModelScope:https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base