自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fktmr"><rt id="fktmr"></rt></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

視覺(jué)模型進(jìn)入MoE時(shí)代！DeepSeek開源全新視覺(jué)模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！

原創(chuàng) 精選

作者：言征 2024-12-17 13:55:21

多模態(tài)可以說(shuō)是今年以來(lái)大模型向前演進(jìn)的一個(gè)趨勢(shì)，從語(yǔ)言到視覺(jué)、聽覺(jué)等深入研究，既可以進(jìn)一步解鎖大模型的通用能力，同時(shí)也會(huì)讓未來(lái)的AI應(yīng)用更加繁榮和落地。

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

12月13日晚，國(guó)內(nèi)開源模型玩家深度求索發(fā)布了視覺(jué)模型 DeepSeek-VL2。這次DeepSeek視覺(jué)模型給這一領(lǐng)域帶來(lái)了不少看新看點(diǎn)：

1、模型層面，視覺(jué)模型也可以使用 MoE 架構(gòu)，而且可以配合動(dòng)態(tài)切圖

2、新增了不少生成玩法，如：視覺(jué)定位，模型可以根據(jù)提示識(shí)別出物體的邊界范圍，再比如梗圖理解和解析。

3、圖表理解：可以根據(jù)plot圖逆向生成代碼。

4、從OCR到故事生成：可以N張圖一期喂給模型，模型直接生成強(qiáng)相關(guān)的故事。

先上一張圖，讓大家品一品，一句提示，讓大模型明白圖中的人物：誰(shuí)是淡定姐。

圖片

當(dāng)然，DeepSeek-VL2 肯定是開源的了，具體型號(hào)有3B、16B 、 27B。模型和論文均已發(fā)布：

模型下載：https://huggingface.co/deepseek-ai

GitHub主頁(yè)：https://github.com/deepseek-ai/DeepSeek-VL2

1.模型新升級(jí)

首先看數(shù)據(jù)方面，VL2 比上一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，引入梗圖理解、視覺(jué)定位、視覺(jué)故事生成等新能力。

在模型架構(gòu)上，視覺(jué)部分使用切圖策略支持動(dòng)態(tài)分辨率圖像，語(yǔ)言部分采用 MoE 架構(gòu)低成本高性能。

圖片

在訓(xùn)練方法上，繼承 DeepSeek-VL 的三階段訓(xùn)練流程，同時(shí)通過(guò)負(fù)載均衡適配圖像切片數(shù)量不定的困難，對(duì)圖像和文本數(shù)據(jù)使用不同流水并行策略，對(duì) MoE 語(yǔ)言模型引入專家并行，實(shí)現(xiàn)高效訓(xùn)練。

在不少視覺(jué)理解測(cè)試中，評(píng)分結(jié)果跟GPT4o、Qwen打平，甚至更好，關(guān)鍵是VL2可以用更少的參數(shù)量就能達(dá)到極好的效果。DeepSeek-VL2 模型展現(xiàn)出了強(qiáng)大能力，在各項(xiàng)評(píng)測(cè)指標(biāo)上均取得了極具優(yōu)勢(shì)的成績(jī)：

圖片

具體的測(cè)評(píng)結(jié)果如下：

圖片

2.動(dòng)態(tài)分辨率支持

據(jù)介紹，DeepSeek-VL2 僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器，通過(guò)將圖像切分為多張子圖和一張全局縮略圖來(lái)實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比，這樣就可以適配更多應(yīng)用場(chǎng)景。

圖片

3.圖表理解

更多科研文檔數(shù)據(jù)的學(xué)習(xí)使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

圖片

甚至連內(nèi)涵的梗圖大模型也可以理解到位，由于DeeSeek-VL2用了更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)，使得模型可以解析各種迷之能力，內(nèi)涵什么的，大模型簡(jiǎn)直小菜一碟。

一道調(diào)侃考試難度的梗圖，讓他解釋下為什么好笑——

圖片

4.Plot2Code（逆向：圖生代碼）

DeepSeek-VL2 同時(shí)具備圖像理解和代碼生成的功能，可以作為你逆向畫圖的好幫手。

圖片

Prompt: Draw a plot similar to the image in Python.

5.視覺(jué)定位：視覺(jué)感知+語(yǔ)言推理

DS-VL2這次的一大看點(diǎn)就是視覺(jué)定位。用戶可以用一句話描述下物體，然后讓 DeepSeek-VL2 幫在圖像里找到符合描述的部分（注：模型本身只是輸出相應(yīng)物體的邊界框）。

視覺(jué)模型進(jìn)入MoE時(shí)代！DeepSeek開源全新視覺(jué)模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū)

有了這項(xiàng)功能，就可以讓大模型做很多事情，比如higlight一下孫猴子、葫蘆娃什么的，甚至有幾個(gè)葫蘆娃也都可以標(biāo)出來(lái)！

圖片

此外，視覺(jué)感知+語(yǔ)言推理，強(qiáng)強(qiáng)聯(lián)手還可以讓模型具備視覺(jué)語(yǔ)義的對(duì)話能力。

這就是我們之前在GPT-4o發(fā)布視覺(jué)對(duì)話中的功能，你跟模型視頻，問(wèn)他哪款甜品適合自己，他能很懂你的需求做出推薦。

圖片

6.故事生成

你也可以輸入多張圖像，讓模型把它們串聯(lián)起來(lái)，小老鼠、話多、魔法師、發(fā)光樹，四張圖片一上傳，讓VL2用這些圖片講一個(gè)故事，它也不會(huì)怵，秒懂圖里的角色，快速講出一篇《雪夜的奇遇》的童話來(lái)。

圖片

童話出版物機(jī)構(gòu)可以用上一用！

7.寫在最后：如何理解和用好多模態(tài)？

多模態(tài)可以說(shuō)是今年以來(lái)大模型向前演進(jìn)的一個(gè)趨勢(shì)，從語(yǔ)言到視覺(jué)、聽覺(jué)等深入研究，既可以進(jìn)一步解鎖大模型的通用能力，同時(shí)也會(huì)讓未來(lái)的AI應(yīng)用更加繁榮和落地。

DeepSeek團(tuán)隊(duì)提到，視覺(jué)是人類獲取外界信息的主要來(lái)源，占據(jù)所有信息量的約 80%。然而在大模型時(shí)代，視覺(jué)方面的進(jìn)展卻遠(yuǎn)遠(yuǎn)落后于語(yǔ)言模型。

“我們堅(jiān)信，提升模型視覺(jué)能力的意義不僅在于支持更多的輸入模態(tài)，更在于全方位提升模型的感知和認(rèn)知能力?！?/span>

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問(wèn)：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

視覺(jué)模型 VL2 語(yǔ)言

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="tqa6l"><p id="tqa6l"><li id="tqa6l"></li></p></sub>

<optgroup id="tqa6l"><li id="tqa6l"></li></optgroup>