DeepSeek-VL2開源,VLM邁入MoE時代!
?DeepSeek-VL2:一個先進的大型混合專家(MoE)視覺-語言模型系列,它顯著改進了其前身DeepSeek-VL。DeepSeek-VL2在多種任務(wù)上展現(xiàn)出卓越的能力,包括視覺問題回答、光學(xué)字符識別、文檔/表格/圖表理解以及視覺定位。
圖片
包括三個變體:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別擁有10億、28億和45億激活參數(shù)。與現(xiàn)有的開源密集型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活參數(shù)下實現(xiàn)了競爭性或最先進的性能。
圖片
DeepSeek-VL2使用案例
圖表理解:DeepSeek-VL2 可以輕易理解各種科研圖表
Prompt: Draw a plot similar to the image in Python.
如果你拿著下圖問模型 “如果感覺熱,你會怎么做?”,它會回答:“為了降溫,你可以使用 [[166, 460, 338, 712]] 位置處的風(fēng)扇,它放在桌子上”
https://huggingface.co/deepseek-ai
https://github.com/deepseek-ai/DeepSeek-VL2
本文轉(zhuǎn)載自??PaperAgent??
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦