看聽讀全都會(huì)的六邊形戰(zhàn)士MiniCPM,來啦
MiniCPM-o 2.6開源啦,該模型視覺、語音和多模態(tài)流式能力達(dá)到了 GPT-4o-202405 級(jí)別。
圖片
簡介
MiniCPM-o 2.6是一個(gè)端側(cè)多模態(tài)大模型,具有8B參數(shù)量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構(gòu)建,通過端到端的方式訓(xùn)練和推理。模型的主要特點(diǎn)包括:
- 領(lǐng)先的視覺能力在OpenCompass榜單上,MiniCPM-o 2.6以8B量級(jí)的大小在單圖理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用閉源多模態(tài)大模型。
- 出色的語音能力支持可配置聲音的中英雙語實(shí)時(shí)對(duì)話,語音理解任務(wù)表現(xiàn)優(yōu)于GPT-4o-realtime,并在語音對(duì)話的語義和聲學(xué)評(píng)估中展現(xiàn)了開源模型中最高的語音生成性能。
- 強(qiáng)大的多模態(tài)流式交互能力能夠接受連續(xù)的視頻和音頻流,并與用戶進(jìn)行實(shí)時(shí)語音交互,在StreamingBench綜合評(píng)測基準(zhǔn)中取得開源社區(qū)最佳水平。
- 強(qiáng)大的OCR能力及其他功能進(jìn)一步優(yōu)化了MiniCPM-V 2.6的視覺理解能力,支持多種語言,并具備可信的多模態(tài)行為。
模型架構(gòu)
圖片
- 端到端全模態(tài)架構(gòu)。 通過端到端的方式連接和訓(xùn)練不同模態(tài)的編/解碼模塊以充分利用豐富的多模態(tài)知識(shí)。模型完全使用 CE 損失端到端訓(xùn)練。
- 全模態(tài)流式機(jī)制。 (1) 我們將不同模態(tài)的離線編/解碼器改造為適用于流式輸入/輸出的在線模塊。 (2) 我們針對(duì)大語言模型基座設(shè)計(jì)了時(shí)分復(fù)用的全模態(tài)流式信息處理機(jī)制,將平行的不同模態(tài)的信息流拆分重組為周期性時(shí)間片序列。
- 可配置的聲音方案。 我們?cè)O(shè)計(jì)了新的多模態(tài)系統(tǒng)提示,包含傳統(tǒng)文本系統(tǒng)提示詞,和用于指定模型聲音的語音系統(tǒng)提示詞。模型可在推理時(shí)靈活地通過文字或語音樣例控制聲音風(fēng)格,并支持端到端聲音克隆和音色創(chuàng)建等高級(jí)能力。
實(shí)力表現(xiàn)
圖片
指標(biāo)表現(xiàn)實(shí)力不俗,不輸一眾大size的模型:
圖片
使用簡介
MiniCPM-o 2.6可以通過多種方式輕松使用,包括:
- llama.cpp:支持在本地設(shè)備上進(jìn)行高效的CPU推理。
- int4和GGUF格式的量化模型:有16種尺寸,適用于不同設(shè)備。
- vLLM:支持高吞吐量和內(nèi)存高效的推理。
- LLaMA-Factory框架:針對(duì)新領(lǐng)域和任務(wù)進(jìn)行微調(diào)。
- Gradio:快速設(shè)置本地WebUI演示。
資源傳送:
項(xiàng)目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6
如果對(duì)內(nèi)容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。