Qwen2-VL (2B、7B、72B):迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o)
阿里Qwen團隊推出了一些?很棒的New Vision語言模型,第一個模型是Qwen 2 VL 2B,然后是8B,然后是72b。
在這三個模型中,只有2B和8B模型目前是開源的,而72b模型尚未開源,這有點令人失望,但我認為這沒關(guān)系,因為我們這些凡人無論如何都無法運行它,
72b模型可以通過API獲得:???https://dashscope.console.aliyun.com/???
我給了一個這樣的圖片:
這是他的結(jié)果
Qwen2-VL-72B:這是一張展示圖像轉(zhuǎn)換前后的對比圖。圖片的左上角有“Ideogram”和“IMAGE TO IMAGE”的字樣,表示這是一個圖像轉(zhuǎn)換的示例。左邊的圖像是“BEFORE”(轉(zhuǎn)換前),右邊的圖像是“AFTER”(轉(zhuǎn)換后)。左邊的圖像是一棵裝飾有彩色球和星星的圣誕樹,右邊的圖像則是一棵更加鮮艷和詳細的圣誕樹,周圍有多個禮物盒和糖果手杖。整體上,這張圖片展示了圖像轉(zhuǎn)換技術(shù)的效果。
它識別了原來圖片的元素,比如準確的文字識別、圣誕樹上的飾品,而且他知道左邊樹是一個裝飾很多東西的圣誕樹,而右邊他特地說了這是一個轉(zhuǎn)化的過程,把它變成更加花枝招展的圣誕樹。
而實際上這張圖片就是表達這種意思,就是我前面寫 ldeogram AI 用到的封面圖:
??升級?。∪耰deogram 2.0!營銷海報、網(wǎng)頁設計生成神器(擊敗Midjourney、Flux)??
認識納西妲 ?
他們說 Qwen 2vl
他們說它在視覺理解基準測試中取得了最先進的性能,可以理解超過 20 分鐘的視頻,可用于高質(zhì)量的基于視頻的問答對話內(nèi)容創(chuàng)建等,它還具有多語言支持,這非常好。
他們還分享了基準測試:
72B 規(guī)模的模型在大部分的指標上都達到了最優(yōu),甚至超過了 GPT-4o 和 Claude3.5-Sonnet 等閉源模型,僅在對綜合的大學題目上和 GPT-4o 還有差距,但 ... 開源視覺領(lǐng)域Top1。
然后 7B 模型也在許多基準測試中擊敗了 Gpt-4o-mini 和其他 LLMs,這也真的很不錯,
除此之外,2B 模型也相當不錯,并且擊敗了 Min-CPM 和 Intern-VL2,
這也相當不錯,所有這些模型都可以對視頻進行總結(jié),
他們還分享了一些測試問題
2B 和 7B 模型屬于 Apache 2 許可證,這意味著它們是完全開源的,可以免費用于個人和商業(yè)用途。
該模型的架構(gòu)不同,并且尚不支持 Llama.cpp 架構(gòu),因此它還不能在 llama 上使用,我希望它能盡快添加。
72b 模型可以在 hugging face 空間上使用:???https://huggingface.co/spaces/Qwen/Qwen2-VL???
所以我會在這測試一下,
多模式問題集還沒有,但我從 grock 的測試中收集了一些好問題,還有一些是我自己收集的,
目前我有七個問題,無論如何,讓我們開始吧,
第一個問題是關(guān)于這張圖片,這是一個程序的流程圖,
系統(tǒng)會創(chuàng)建一個隨機數(shù)并要求用戶猜一個數(shù)字,如果用戶的輸入和隨機數(shù)匹配,則用戶獲勝,否則失敗,所以讓我們給它這個并要求它將其轉(zhuǎn)換為 Python 程序,
根據(jù)它給出的代碼,運行它,工作正常,我檢查了它是否產(chǎn)生了tru狀態(tài),它確實產(chǎn)生了true狀態(tài),所以它工作正常。
現(xiàn)在下一個問題是關(guān)于這張圖片的,我會問這五片有多少卡路里,答案應該是 100,
所以讓我們發(fā)送它,看看,好的,這是答案,正如你所看到的,這是正確答案,所以讓我們也讓它通過。
現(xiàn)在下一個問題是關(guān)于這張表格的圖片,
我想把它轉(zhuǎn)換成 CSV 表格,所以讓我們發(fā)送它并檢查,好的,這是答案,
這個 CSV 表格看起來非常準確,所以這個也是通過的,
現(xiàn)在下一個是聊天 GPT 界面的屏幕截圖,我想把它轉(zhuǎn)換成類似的 HTML CSS 和基于 js 的界面,所以讓我們發(fā)送它,看看它是否可以實現(xiàn),
代碼先省略,這是預覽,看起來很不錯,
我的意思是它不是很相似,但是如果再加一些提示和一個好的系統(tǒng)提示,它可以產(chǎn)生更好的結(jié)果,所以這個通過了,
現(xiàn)在下一個問題是關(guān)于這張狗奔跑的圖片,這張圖片非常模糊,所以我想看看它是否能理解,讓我們發(fā)送它,看看好的,這是答案,
它識別出這是一只狗,并解釋了為什么它是模糊的,并且有運動模糊,這也非常酷。
現(xiàn)在最后一個問題是關(guān)于這張圖片:這是一個簡單的開源閉源模型梗圖,我希望它能解釋這一點,所以讓我們發(fā)送它,看看是否它能理解幽默嗎?
好吧,這就是答案,
這也是一個很好的解釋,所以我認為這真是太棒了。
而且總體上非常好,因為它基于相同的 qwen 2 模型,我已經(jīng)非常喜歡它了,我認為 7B 和 2B 模型也應該相當不錯。
因為一般來說,qwen 模型在各方面都更好,只是架構(gòu)上的差異使得它對我們大多數(shù)人來說非常不可用,我希望看到它得到支持ollama,這樣人們就可以開始使用它了,
這些架構(gòu)上的變化是好的,但是它們使許多模型無法供他們所服務的人使用,這有點糟糕。
但我希望它能很快得到 ollama 和 llama cpp 的支持,但這些模型真的很好,而視覺模型已經(jīng)缺乏很長一段時間了,所以很高興看到這些強大的視覺模型的出現(xiàn),總的來說,這很酷。
??希望這篇文章對你有幫助,感謝閱讀!如果你喜歡這系列文章請以 點贊 / 分享 / 在看 的方式告訴我,以便我用來評估創(chuàng)作方向。
視頻鏈接
??https://www.youtube.com/watch?v=EG3IFDnYQkA??
參考鏈接:
[1] 博客:https://huggingface.co/spaces/Qwen/Qwen2-VL
[2] huggingface:https://huggingface.co/spaces/Qwen/Qwen2-VL
本文轉(zhuǎn)載自 ??AI進修生??,作者: Aitrainee
