自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

0門檻免費(fèi)商用!孟子3-13B大模型正式開源,萬億token數(shù)據(jù)訓(xùn)練

人工智能 新聞
據(jù)介紹,孟子3-13B大模型是基于Llama架構(gòu),數(shù)據(jù)集規(guī)模高達(dá)3T Tokens。

瀾舟科技官宣:孟子3-13B大模型正式開源!

這一主打高性價(jià)比的輕量化大模型,面向?qū)W術(shù)研究完全開放,并支持免費(fèi)商用。

在MMLU、GSM8K、HUMAN-EVAL等各項(xiàng)基準(zhǔn)測評估中,孟子3-13B都表現(xiàn)出了不錯(cuò)的性能。

尤其在參數(shù)量20B以內(nèi)的輕量化大模型領(lǐng)域,在中英文語言能力方面尤為突出,數(shù)學(xué)和編程能力也位于前列。

圖片
△以上結(jié)果基于5-shot。

據(jù)介紹,孟子3-13B大模型是基于Llama架構(gòu),數(shù)據(jù)集規(guī)模高達(dá)3T Tokens

語料精選自網(wǎng)頁、百科、社交、媒體、新聞,以及高質(zhì)量的開源數(shù)據(jù)集。通過在萬億tokens上進(jìn)行多語言語料的繼續(xù)訓(xùn)練,模型的中文能力突出并且兼顧多語言能力。

孟子3-13B大模型開源

只需兩步,就能使用孟子3-13B大模型了。

首先進(jìn)行環(huán)境配置。

pip install -r requirements.txt

然后快速開始。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('指令:回答以下問題。輸入:介紹一下孟子。輸出:', return_tensors='pt')
if torch.cuda.is_available():
    inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))

此外,他們還提供了一個(gè)樣例代碼,可用于基礎(chǔ)模型進(jìn)行單輪交互推理。

cd examples
python examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

如果想要進(jìn)行模型微調(diào),他們也提供了相關(guān)文件和代碼。

圖片

事實(shí)上,早在3月18日的瀾舟大模型技術(shù)和產(chǎn)品發(fā)布會(huì)現(xiàn)場,就透露了孟子3-13B大模型的諸多細(xì)節(jié)。

當(dāng)時(shí)他們表示,孟子3-13B大模型訓(xùn)練已經(jīng)完成。

對于選擇13B版本的原因,周明解釋道:

首先,瀾舟明確以服務(wù)ToB場景為主,ToC為輔。

實(shí)踐發(fā)現(xiàn),ToB場景使用頻率最高的大模型參數(shù)量多為7B、13B、40B、100B,整體集中在10B-100B之間。

其次,在這個(gè)區(qū)間范圍內(nèi),從ROI(投資回報(bào)率)角度來講,既滿足場景需求,又最具性價(jià)比。

因此,在很長一段時(shí)間內(nèi),瀾舟的目標(biāo)都是在10B-100B參數(shù)規(guī)模范圍內(nèi),打造優(yōu)質(zhì)的行業(yè)大模型。

作為國內(nèi)最早一批大模型創(chuàng)業(yè)團(tuán)隊(duì),去年3月,瀾舟就發(fā)布了孟子GPT V1(MChat)。

今年1月,孟子大模型GPT V2(含孟子大模型-標(biāo)準(zhǔn)、孟子大模型-輕量、孟子大模型-金融、孟子大模型-編碼)對公眾開放。

好了,感興趣的朋友可戳下方鏈接體驗(yàn)一下。

GitHub鏈接:https://github.com/Langboat/Mengzi3
HuggingFace:https://huggingface.co/Langboat/Mengzi3-13B-Base
ModelScope:https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-10-31 10:11:50

昆侖萬維大模型

2023-10-30 14:59:28

2025-03-11 10:51:35

DifyDeepSeek大模型

2023-05-29 13:53:46

開源模型

2023-11-06 11:26:55

模型開源

2015-01-28 10:55:09

平安免費(fèi)WiFi

2023-03-29 15:11:24

AI方案

2012-04-26 11:45:45

2018-07-23 16:18:01

2023-08-07 13:40:39

AI模型

2020-01-13 21:18:30

大咖來了大數(shù)據(jù)云分析平臺

2023-07-25 13:52:54

開源模型

2023-03-28 09:38:10

2023-07-28 15:39:20

TransGPT人工智能開源

2023-06-25 13:31:44

2023-07-18 15:05:00

開源大模型

2024-04-09 13:21:00

AI開源

2024-05-30 13:10:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號