自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

看聽讀全都會(huì)的六邊形戰(zhàn)士MiniCPM,來啦

人工智能
MiniCPM-o 2.6是一個(gè)端側(cè)多模態(tài)大模型,具有8B參數(shù)量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構(gòu)建,通過端到端的方式訓(xùn)練和推理。

MiniCPM-o 2.6開源啦,該模型視覺、語音和多模態(tài)流式能力達(dá)到了 GPT-4o-202405 級(jí)別。

圖片圖片

簡介

MiniCPM-o 2.6是一個(gè)端側(cè)多模態(tài)大模型,具有8B參數(shù)量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構(gòu)建,通過端到端的方式訓(xùn)練和推理。模型的主要特點(diǎn)包括:

  • 領(lǐng)先的視覺能力在OpenCompass榜單上,MiniCPM-o 2.6以8B量級(jí)的大小在單圖理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用閉源多模態(tài)大模型。
  • 出色的語音能力支持可配置聲音的中英雙語實(shí)時(shí)對(duì)話,語音理解任務(wù)表現(xiàn)優(yōu)于GPT-4o-realtime,并在語音對(duì)話的語義和聲學(xué)評(píng)估中展現(xiàn)了開源模型中最高的語音生成性能。
  • 強(qiáng)大的多模態(tài)流式交互能力能夠接受連續(xù)的視頻和音頻流,并與用戶進(jìn)行實(shí)時(shí)語音交互,在StreamingBench綜合評(píng)測基準(zhǔn)中取得開源社區(qū)最佳水平。
  • 強(qiáng)大的OCR能力及其他功能進(jìn)一步優(yōu)化了MiniCPM-V 2.6的視覺理解能力,支持多種語言,并具備可信的多模態(tài)行為。

模型架構(gòu)

圖片圖片

  • 端到端全模態(tài)架構(gòu)。 通過端到端的方式連接和訓(xùn)練不同模態(tài)的編/解碼模塊以充分利用豐富的多模態(tài)知識(shí)。模型完全使用 CE 損失端到端訓(xùn)練。
  • 全模態(tài)流式機(jī)制。 (1) 我們將不同模態(tài)的離線編/解碼器改造為適用于流式輸入/輸出的在線模塊。 (2) 我們針對(duì)大語言模型基座設(shè)計(jì)了時(shí)分復(fù)用的全模態(tài)流式信息處理機(jī)制,將平行的不同模態(tài)的信息流拆分重組為周期性時(shí)間片序列。
  • 可配置的聲音方案。 我們?cè)O(shè)計(jì)了新的多模態(tài)系統(tǒng)提示,包含傳統(tǒng)文本系統(tǒng)提示詞,和用于指定模型聲音的語音系統(tǒng)提示詞。模型可在推理時(shí)靈活地通過文字或語音樣例控制聲音風(fēng)格,并支持端到端聲音克隆和音色創(chuàng)建等高級(jí)能力。

實(shí)力表現(xiàn)

圖片圖片

指標(biāo)表現(xiàn)實(shí)力不俗,不輸一眾大size的模型:

圖片圖片

使用簡介

MiniCPM-o 2.6可以通過多種方式輕松使用,包括:

  • llama.cpp:支持在本地設(shè)備上進(jìn)行高效的CPU推理。
  • int4和GGUF格式的量化模型:有16種尺寸,適用于不同設(shè)備。
  • vLLM:支持高吞吐量和內(nèi)存高效的推理。
  • LLaMA-Factory框架:針對(duì)新領(lǐng)域和任務(wù)進(jìn)行微調(diào)。
  • Gradio:快速設(shè)置本地WebUI演示。

資源傳送:

項(xiàng)目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6

如果對(duì)內(nèi)容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。

責(zé)任編輯:武曉燕 來源: 哎呀AIYA
相關(guān)推薦

2017-02-21 17:25:51

架構(gòu)六邊形架構(gòu)數(shù)據(jù)庫

2023-10-30 10:12:20

2020-04-02 13:44:57

架構(gòu)Netflix數(shù)據(jù)

2025-02-24 07:39:53

2023-08-06 23:31:36

架構(gòu)系統(tǒng)RPC

2019-12-16 08:08:39

六邊形架構(gòu)分層架構(gòu)架構(gòu)

2023-09-08 18:37:34

HarmonyOS

2022-12-28 07:48:40

六邊形動(dòng)畫CSS

2023-12-13 10:06:28

六邊形架構(gòu)系統(tǒng)測試

2021-08-29 18:32:18

CSS

2023-04-14 08:00:00

架構(gòu)測試開發(fā)

2017-06-08 10:33:42

軟件開發(fā)前后端架構(gòu)

2023-11-01 07:41:39

六邊形架構(gòu)適配器架構(gòu)

2024-04-17 08:06:41

六邊形洋蔥架構(gòu)領(lǐng)域

2024-07-08 08:33:00

2022-11-08 08:00:00

開發(fā)Uber數(shù)據(jù)庫

2021-12-16 23:02:57

前端功能JavaScript

2023-07-14 11:36:09

GPT-4社交
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)