自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通義千問開源視覺語言模型Qwen2-VL,創(chuàng)造開源多模態(tài)模型最佳成績

人工智能
8月30日,阿里通義千問開源第二代視覺語言模型Qwen2-VL,推出2B、7B兩個尺寸及其量化版本模型。Qwen2-VL在多個權威測評中創(chuàng)造了同等規(guī)模開源模型的最佳成績,能夠識別不同分辨率和長寬比的圖片,能夠理解20分鐘以上長視頻,還具備自主操作手機和機器人的視覺智能體能力。

8月30日,阿里通義千問開源第二代視覺語言模型Qwen2-VL,推出2B、7B兩個尺寸及其量化版本模型。Qwen2-VL在多個權威測評中創(chuàng)造了同等規(guī)模開源模型的最佳成績,能夠識別不同分辨率和長寬比的圖片,能夠理解20分鐘以上長視頻,還具備自主操作手機和機器人的視覺智能體能力。

2023年8月,通義千問開源第一代視覺語言理解模型Qwen-VL,成為開源社區(qū)最受歡迎的多模態(tài)模型之一。短短一年內,模型下載量突破1000萬次。目前,多模態(tài)模型在手機、車端等各類視覺識別場景的落地正在加速,開發(fā)者和應用企業(yè)也格外關注Qwen-VL的升級迭代。

千呼萬喚,Qwen2-VL交出了成績單。相比上代模型,Qwen2-VL的基礎性能全面提升。可以讀懂不同分辨率和不同長寬比的圖片,在DocVQA、RealWorldQA、MTVQA 等基準測試創(chuàng)下全球領先的表現(xiàn);可以理解20分鐘以上長視頻,支持基于視頻的問答、對話和內容創(chuàng)作等應用;具備強大的視覺智能體能力,可自主操作手機和機器人,借助復雜推理和決策的能力,Qwen2-VL 可以集成到手機、機器人等設備,根據視覺環(huán)境和文字指令進行自動操作;能理解圖像視頻中的多語言文本,包括中文、英文,大多數(shù)歐洲語言,日語、韓語、阿拉伯語、越南語等。

義千問團隊從六個方面評估了模型能力,包括綜合的大學題目、數(shù)學能力、文檔表格多語言文字圖像的理解、通用場景問答、視頻理解、Agent 能力。Qwen2-VL-7B以其“經濟型”參數(shù)規(guī)模實現(xiàn)了極具競爭力的性能表現(xiàn);Qwen2-VL-2B則可支持移動端的豐富應用,同樣具備完整圖像視頻多語言的理解能力,在視頻文檔和通用場景問答方面,相比同規(guī)模模型優(yōu)勢顯著。

Qwen2-VL延續(xù)了 ViT 加 Qwen2 的串聯(lián)結構,三個尺寸的模型都采用了 600M 規(guī)模大小的 ViT,支持圖像和視頻統(tǒng)一輸入。研發(fā)團隊還在架構上作了兩大改進,一是實現(xiàn)了對原生動態(tài)分辨率的全面支持,不同于上代模型,Qwen2-VL 能夠處理任意分辨率的圖像輸入,這一設計模擬了人類視覺感知的自然方式,賦予模型處理任意尺寸圖像的強大能力;二是使用了多模態(tài)旋轉位置嵌入(M-ROPE)方法,傳統(tǒng)的旋轉位置嵌入只能捕捉一維序列的位置信息,M-ROPE 使得大規(guī)模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,賦予了語言模型強大的多模態(tài)處理和推理能力,能讓模型更好地理解和建模復雜的多模態(tài)數(shù)據。

Qwen2-VL模型結構

目前,通義千問團隊以Apache 2.0 協(xié)議開源了 Qwen2-VL-2B 和 Qwen2-VL-7B,開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發(fā)者可以通過Hugging Face 和魔搭ModelScope下載使用模型,也可通過通義官網、通義APP的主對話頁面使用模型。

GitHub https://github.com/QwenLM/Qwen2-VL

HuggingFace https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope https://modelscope.cn/organization/qwen?tab=model

模型體驗 https://huggingface.co/spaces/Qwen/Qwen2-VL

責任編輯:鳶瑋 來源: 阿里云
相關推薦

2024-09-26 07:54:45

阿里視覺語言模型

2023-12-01 13:36:01

阿里云通義千問

2024-08-30 14:35:00

2025-01-09 09:56:34

視覺模型圖像生成

2025-03-27 10:04:36

阿里云通義千問多模態(tài)

2025-03-19 09:30:00

2024-12-25 20:13:35

2024-02-06 12:50:08

AI訓練

2023-08-03 19:11:45

2024-12-25 09:30:00

2023-12-01 12:31:22

AI模型

2024-12-02 08:00:00

2025-01-13 10:55:53

2025-04-14 00:30:00

2024-10-21 08:24:29

Florence-2視覺語言模型VLM

2025-03-12 13:09:16

2024-10-30 11:06:59

SpringAI模型

2025-02-08 09:30:00

2024-06-11 07:03:00

大模型開源Qwen2

2024-12-18 14:50:00

AI訓練數(shù)據
點贊
收藏

51CTO技術棧公眾號