大概是最全的開源大模型LLM盤點(diǎn)了吧!
LLM(Large Language Model, 大型語言模型)是指那些規(guī)模龐大、參數(shù)數(shù)量眾多的深度神經(jīng)網(wǎng)絡(luò)模型,用于理解和生成自然語言文本。在自然語言處理(NLP)領(lǐng)域有著廣泛的應(yīng)用,因其強(qiáng)大的語言理解和生成能力,能夠處理各種復(fù)雜的文本任務(wù),包括但不限于翻譯、問答、文本摘要、對話、文本分類、情感分析、代碼生成、創(chuàng)作輔助等。其主要功能和特點(diǎn)如下:
架構(gòu)特點(diǎn):
LLM主要基于Transformer架構(gòu),該架構(gòu)由Vaswani等人在2017年的論文《Attention is All You Need》中提出。Transformer通過自注意力機(jī)制(Self-Attention)來捕捉文本中的長距離依賴關(guān)系,無需像循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)那樣逐詞遞歸處理,從而實(shí)現(xiàn)了并行計(jì)算,大大提高了訓(xùn)練和推理速度。典型的LLM結(jié)構(gòu)包括:
- Encoder-Decoder結(jié)構(gòu):如用于機(jī)器翻譯的模型。Encoder將輸入文本編碼成一個固定長度的上下文向量,Decoder 則依據(jù)該上下文向量生成目標(biāo)語言的文本輸出。
- Encoder-only結(jié)構(gòu):如BERT等。主要用于文本理解任務(wù),如文本分類、命名實(shí)體識別、問答系統(tǒng)中的問題理解等。Encoder-only模型通過雙向編碼整個輸入文本,生成具有上下文信息的隱藏狀態(tài),這些隱藏狀態(tài)可以被后續(xù)任務(wù)特定的層(如分類層、標(biāo)記層等)利用來進(jìn)行預(yù)測。
- Decoder-only結(jié)構(gòu):如GPT系列模型,用于生成文本、補(bǔ)全句子、撰寫文章等任務(wù)。這類模型直接根據(jù)給定的提示(prompt)或前文上下文生成連續(xù)的文本輸出。
參數(shù)規(guī)模
LLM的“大型”體現(xiàn)在其巨大的參數(shù)量,通常在數(shù)十億到數(shù)千億之間。例如,GPT-3(Generative Pretrained Transformer 3)擁有約1750億個參數(shù),而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通義千問等,參數(shù)量可能更大。大規(guī)模參數(shù)使得模型能夠?qū)W習(xí)到更豐富的語言規(guī)律和模式,提高其泛化能力和表達(dá)復(fù)雜語言結(jié)構(gòu)的能力。
預(yù)訓(xùn)練與微調(diào)
LLM通常遵循“預(yù)訓(xùn)練-微調(diào)”的范式:
- 預(yù)訓(xùn)練:模型首先在大規(guī)模無標(biāo)注文本數(shù)據(jù)(如互聯(lián)網(wǎng)抓取的文本、書籍、百科等)上進(jìn)行自我監(jiān)督學(xué)習(xí),通過自回歸語言建模任務(wù)(預(yù)測下一個詞的概率)或掩碼語言建模任務(wù)(預(yù)測被遮蔽詞語的概率)來學(xué)習(xí)語言的通用表示。
- 微調(diào):預(yù)訓(xùn)練后的模型可以針對特定任務(wù)進(jìn)行微調(diào),即在特定領(lǐng)域的有標(biāo)注數(shù)據(jù)上進(jìn)一步訓(xùn)練,調(diào)整模型參數(shù)以適應(yīng)特定任務(wù)的需求,如問答系統(tǒng)的回答生成、文本分類任務(wù)的標(biāo)簽預(yù)測等。
應(yīng)用場景
LLM在實(shí)際中主要應(yīng)用在以下場景:
- 生成文本:創(chuàng)作詩歌、故事、新聞文章、代碼片段等。
- 理解與問答:解答各類問題,提供精準(zhǔn)的信息檢索和知識解析能力。
- 對話交互:進(jìn)行自然、流暢的人機(jī)對話,模擬人類對話風(fēng)格,用于客戶服務(wù)、虛擬助手、教育輔導(dǎo)等領(lǐng)域。
- 文本翻譯:實(shí)現(xiàn)高質(zhì)量的跨語言翻譯,無需顯式對齊的平行語料。
- 文本摘要:自動生成文本摘要,提煉關(guān)鍵信息。
- 代碼生成:根據(jù)自然語言描述編寫或補(bǔ)全代碼,助力編程和軟件開發(fā)。
筆者在這里對目前的開源大模型LLM進(jìn)行了一個全面、系統(tǒng)的整理,與大家分享~
國外開源模型
模型鏈接 | 模型描述 |
OpenSora | 高效復(fù)現(xiàn)類Sora視頻生成的完全開源方案 |
GROK | 3140億參數(shù)的混合專家模型,迄今參數(shù)量最大的開源LLM |
Gemma | 谷歌商場開源模型2B,7B免費(fèi)商用,開源第一易主了 |
Mixtral | Mistral AI的突破性大模型,超越GPT3.5,重新定義人工智能性能和多樣性 |
Mistral7B | “歐洲OpenAI”的“最強(qiáng)7B開源模型”,全面超越13B的Llama2 |
LLama2 | Open Meta帶著可商用開源的羊駝2模型來了~ |
LLama | Meta開源指令微調(diào)LLM,規(guī)模70億到650億不等 |
WizardLM | 微軟新發(fā)布13B,登頂AlpacaEval開源模型Top3,使用ChatGPT對指令進(jìn)行復(fù)雜度進(jìn)化微調(diào)LLama2 |
Falcon | 阿聯(lián)酋技術(shù)研究所推出,3.5萬億token訓(xùn)練,性能直接碾壓LLaMA2 |
Vicuna | Alpaca前成員等開源以LLama13B為基礎(chǔ)使用ShareGPT指令微調(diào)的模型,提出了用GPT4來評測模型效果 |
OpenChat | 80k ShareGPT對話微調(diào)LLama-2 13B開源模型中的戰(zhàn)斗機(jī) |
Guanaco | LLama 7B基座,在alpaca52K數(shù)據(jù)上加入534K多語言指令數(shù)據(jù)微調(diào) |
MPT | MosaicML開源的預(yù)訓(xùn)練+指令微調(diào)的新模型,可商用,支持84k tokens超長輸入 |
RedPajama | RedPajama項(xiàng)目既開源預(yù)訓(xùn)練數(shù)據(jù)后開源3B,7B的預(yù)訓(xùn)練+指令微調(diào)模型 |
koala | 使用alpaca、HC3等開源指令集+ShareGPT等ChatGPT數(shù)據(jù)微調(diào)llama,在榜單上排名較高 |
ChatLLaMA | 基于RLHF微調(diào)了LLaMA |
Alpaca | 斯坦福開源的使用52k數(shù)據(jù)在7B的LLaMA上微調(diào)得到 |
Alpaca-lora | LORA微調(diào)的LLaMA |
Dromedary | IBM self-aligned model with the LLaMA base |
ColossalChat | HPC-AI Tech開源的Llama+RLHF微調(diào) |
MiniGPT4 | Vicuna+BLIP2 文本視覺融合 |
StackLLama | LLama使用Stackexchange數(shù)據(jù)+SFT+RL |
Cerebras | Cerebras開源了1億到130億的7個模型,從預(yù)訓(xùn)練數(shù)據(jù)到參數(shù)全開源 |
Dolly-v2 | 可商用7b指令微調(diào)開源模型在GPT-J-6B上微調(diào) |
OpenChatKit | openai研究員打造GPT-NoX-20B微調(diào)+6B審核模型過濾 |
MetaLM | 微軟開源的大規(guī)模自監(jiān)督預(yù)訓(xùn)練模型 |
Amazon Titan | 亞馬遜在aws上增加自家大模型 |
OPT-IML | Meta復(fù)刻GPT3,up to 175B, 不過效果并不及GPT3 |
Bloom | BigScience出品,規(guī)模最大176B |
BloomZ | BigScience出品, 基于Bloom微調(diào) |
Galacia | 和Bloom相似,更針對科研領(lǐng)域訓(xùn)練的模型 |
T0 | BigScience出品,3B~11B的在T5進(jìn)行指令微調(diào)的模型 |
EXLLama | Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight |
LongChat | llama-13b使用condensing rotary embedding technique微調(diào)的長文本模型 |
MPT-30B | MosaicML開源的在8Ktoken上訓(xùn)練的大模型 |
國內(nèi)開源模型
模型鏈接 | 模型描述 |
BayLing | 中科院開源,性能媲美GPT-3.5,基于LLama7B/13B,增強(qiáng)的語言對齊的英語/中文大語言模型 |
GLM | 清華發(fā)布的中英雙語雙向密集模型,具有1300億個參數(shù),使用通用語言模型(GLM)算法進(jìn)行預(yù)訓(xùn)練。它旨在支持在單臺 A100(40G * 8)或V100(32G * 8)服務(wù)器上支持 130B 參數(shù)的推理任務(wù)。 |
XWin-LM | 一款基于Llama2微調(diào)的語言模型,成功在斯坦福AlpacaEval上擊敗了GPT-4,成為新的榜首模型 |
XVERSE | 元象科技自主研發(fā)的支持多語言的大語言模型(Large Language Model),參數(shù)規(guī)模為650億,底座模型 XVERSE-65B |
XVERSE-256K | 最大支持 256K 的上下文窗口長度,約 25w 字的輸入內(nèi)容,可以協(xié)助進(jìn)行文獻(xiàn)總結(jié)、報告分析等任務(wù) |
ChatGLM3 | 智譜AI訓(xùn)練的第三代大型語言模型,它不僅能理解和生成人類語言,還能執(zhí)行代碼、調(diào)用工具,并以markdown格式進(jìn)行響應(yīng) |
ChatGLM2 | 具備強(qiáng)大的問答和對話功能,擁有最大32K上下文,并且在授權(quán)后可免費(fèi)商用! |
ChatGLM | 清華開源的、支持中英雙語的對話語言模型,使用了代碼訓(xùn)練,指令微調(diào)和RLHF |
Orion-14B-Base | 具有140億參數(shù)的多語種大模型,該模型在一個包含2.5萬億token的多樣化數(shù)據(jù)集上進(jìn)行了訓(xùn)練,涵蓋了中文、英語、日語、韓語等多種語言。 |
Baichuan2 | 百川第二代也出第二個版本了,提供了7B/13B Base和chat的版本 |
Baichuan | 百川智能開源7B大模型可商用免費(fèi) |
ziya2 | 基于Llama2訓(xùn)練的ziya2它終于訓(xùn)練完了 |
ziya | IDEA研究院在7B/13B llama上繼續(xù)預(yù)訓(xùn)練+SFT+RM+PPO+HFTT+COHFT+RBRS |
Qwen1.5-MoE-A2.7B | Qwen推出MOE版本,推理更快 |
Qwen1.5 | 通義千問升級1.5,支持32K上文 |
Qwen1-7B+14B+70B | 阿里開源,可商用,通義千問7B,14B,70B Base和chat模型 |
InternLM2 7B+20B | 商湯的書生模型2支持200K |
Yuan-2.0 | 浪潮發(fā)布Yuan2.0 2B,51B,102B |
YI-200K | 元一智能開源超長200K的6B,34B模型 |
YI | 元一智能開源34B,6B模型 |
DeepSeek-MOE | 深度求索發(fā)布的DeepSeekMoE 16B Base和caht模型 |
DeepSeek | 深度求索發(fā)布的7B,67B大模型 |
LLama2-chinese | 沒等太久中文預(yù)訓(xùn)練微調(diào)后的llama2它來了~ |
YuLan-chat2 | 高瓴人工智能基于Llama-2中英雙語繼續(xù)預(yù)訓(xùn)練+指令微調(diào)/對話微調(diào) |
BlueLM | Vivo人工智能實(shí)驗(yàn)室開源大模型 |
zephyr-7B | HuggingFace 團(tuán)隊(duì)基于 UltraChat 和 UltraFeedback 訓(xùn)練了 Zephyr-7B 模型 |
Skywork | 昆侖萬維集團(tuán)·天工團(tuán)隊(duì)開源13B大模型可商用 |
Chinese-LLaMA-Alpaca | 哈工大中文指令微調(diào)的LLaMA |
Moss | 為復(fù)旦正名!開源了預(yù)訓(xùn)練,指令微調(diào)的全部數(shù)據(jù)和模型??缮逃?br> |
InternLM | 書生浦語在過萬億 token 數(shù)據(jù)上訓(xùn)練的多語千億參數(shù)基座模型 |
Aquila2 | 智源更新Aquila2模型系列包括全新34B |
Aquila | 智源開源7B大模型可商用免費(fèi) |
UltraLM系列 | 面壁智能開源UltraLM13B,獎勵模型UltraRM,和批評模型UltraCM |
PandaLLM | LLAMA2上中文wiki繼續(xù)預(yù)訓(xùn)練+COIG指令微調(diào) |
XVERSE | 據(jù)說中文超越llama2的元象開源模型13B模型 |
BiLLa | LLama詞表·擴(kuò)充預(yù)訓(xùn)練+預(yù)訓(xùn)練和任務(wù)1比1混合SFT+指令樣本SFT三階段訓(xùn)練 |
Phoenix | 港中文開源鳳凰和奇美拉LLM,Bloom基座,40+語言支持 |
Wombat-7B | 達(dá)摩院開源無需強(qiáng)化學(xué)習(xí)使用RRHF對齊的語言模型, alpaca基座 |
TigerBot | 虎博開源了7B 180B的模型以及預(yù)訓(xùn)練和微調(diào)語料 |
Luotuo-Chinese-LLM | 冷子昂@商湯科技, 陳啟源@華中師范大學(xué)以及李魯魯@商湯科技發(fā)起的中文大語言模型開源項(xiàng)目,包含了一系列大語言模型、數(shù)據(jù)、管線和應(yīng)用 |
OpenBuddy | Llama 多語言對話微調(diào)模型 |
Chinese Vincuna | LLama 7B基座,使用Belle+Guanaco數(shù)據(jù)訓(xùn)練 |
Linly | Llama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7個指令微調(diào)數(shù)據(jù)集訓(xùn)練 |
Firefly | 中文2.6B模型,提升模型中文寫作,古文能力,待開源全部訓(xùn)練代碼,當(dāng)前只有模型 |
Baize | 使用100k self-chat對話數(shù)據(jù)微調(diào)的LLama |
BELLE | 使用ChatGPT生成數(shù)據(jù)對開源模型進(jìn)行中文優(yōu)化 |
Chatyuan | chatgpt出來后最早的國內(nèi)開源對話模型,T5架構(gòu)是下面PromptCLUE的衍生模型 |
PromptCLUE | 多任務(wù)Prompt語言模型 |
PLUG | 阿里達(dá)摩院發(fā)布超大規(guī)模語言模型PLUG,上能寫詩詞歌賦、下能對答如流 |
CPM2.0 | 智源發(fā)布CPM2.0 |