自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek-VL2開源,VLM邁入MoE時代!

發(fā)布于 2024-12-16 10:44
瀏覽
0收藏

?DeepSeek-VL2:一個先進的大型混合專家(MoE)視覺-語言模型系列,它顯著改進了其前身DeepSeek-VL。DeepSeek-VL2在多種任務(wù)上展現(xiàn)出卓越的能力,包括視覺問題回答、光學(xué)字符識別、文檔/表格/圖表理解以及視覺定位。

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)圖片

包括三個變體:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別擁有10億、28億和45億激活參數(shù)。與現(xiàn)有的開源密集型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活參數(shù)下實現(xiàn)了競爭性或最先進的性能。

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)圖片

DeepSeek-VL2使用案例

視覺敘事:可以輸入多張圖像,讓DeepSeek-VL2把它們串聯(lián)起來,形成一個連續(xù)的童話故事。

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)

圖表理解:DeepSeek-VL2 可以輕易理解各種科研圖表

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)

Plot2Code:DeepSeek-VL2 同時具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)

Prompt: Draw a plot similar to the image in Python.

基于情境的對話:視覺感知+語言推理讓DeepSeek-VL2具有視覺語義對話能力。

如果你拿著下圖問模型 “如果感覺熱,你會怎么做?”,它會回答:“為了降溫,你可以使用 [[166, 460, 338, 712]] 位置處的風(fēng)扇,它放在桌子上”

DeepSeek-VL2開源,VLM邁入MoE時代!-AI.x社區(qū)

https://huggingface.co/deepseek-ai
https://github.com/deepseek-ai/DeepSeek-VL2

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦