自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="9q3ar"></blockquote>}

<p id="9q3ar"><li id="9q3ar"><pre id="9q3ar"></pre></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

60億AI獨角獸Mistral祭出磁力鏈，首個多模態(tài)Pixtral 12B登場！但被大佬曝出評測造假

作者：新智元 2024-09-12 14:19:59

一條磁力鏈，又在AI圈掀起狂瀾。成立一年法國AI獨角獸Mistral，官宣首個多模態(tài)模型Pixtral 12B，不僅能看懂手繪稿，還可以理解復(fù)雜公式、圖表。

法國AI初創(chuàng)Mistral AI，又扔出一條磁力鏈炸場了。

圖片

這次，與以往不同的是，他們發(fā)布了首個多模態(tài)模型Pixtral 12B，集語言、視覺能力于一身。

圖片

這意味著，Mistral AI正式跨界MMML，開啟多模態(tài)AI新時代，同時向OpenAI、Anthropic等勁敵發(fā)起挑戰(zhàn)。

多模態(tài)Pixtral 12B，是基于文本模型Nemo 12B完成訓(xùn)練。

與GPT-4o、Claude類似，只需上傳一張圖、提供一個鏈接，模型就能根據(jù)提示回答問題。

它不僅能夠識別復(fù)雜手寫筆記，還能看懂?dāng)?shù)學(xué)公式、圖表等等。

在多項基準(zhǔn)測試（文本、指令跟隨、多模態(tài)）中，新模型性能大幅超越Qwen2 7B、Phi-3 Vision開源模型。

圖片

Hugging Face技術(shù)負(fù)責(zé)人發(fā)現(xiàn)此處列舉的Qwen的數(shù)據(jù)問題很大

相較于閉源模型，Pixtral 12B在圖表問答、文檔問答、視覺數(shù)學(xué)推理、大學(xué)水平多學(xué)科等基準(zhǔn)中，性能碾壓Claude3 Haiku、Gemini 1.5 8B。

圖片

除了大約24GB的磁力鏈，模型代碼還可在HuggingFace、GitHub下載。（由社區(qū)開發(fā)者上傳）

圖片

地址：https://huggingface.co/mistral-community/pixtral-12b-240910

值得一提的是，Mistral AI現(xiàn)場還請來了老黃坐鎮(zhèn)。

圖片

手繪稿直出代碼，現(xiàn)場Demo驚艷

Mistral AI在舊金山舉辦的首屆AI峰會上，初次展示了Pixtral 12B的多模態(tài)能力。

圖片

現(xiàn)場，足以用震撼形容。

讓它將一份科學(xué)報告轉(zhuǎn)錄為Markdown格式，可以看到圖片中，包含了許多復(fù)雜的數(shù)學(xué)符號，還有公式。

Pixtral 12B通過OCR能力，精準(zhǔn)地識別出所有的內(nèi)容。

圖片

再來一個更復(fù)雜的手寫稿，別說AI了，小編也有些看不清寫的什么字。

沒想到，這也難不倒它。

圖片

給它扔一張關(guān)于美國「風(fēng)險投資交易密度分布」的圖表，并將其總結(jié)成一份表。

模型以不同州/城市，以及交易數(shù)量、區(qū)位商（LQ），列出了非常清晰的表格。

圖片

再來看看，它如何去描述一張圖像的。

上傳一張風(fēng)景圖，然后詢問「我們可以從中看到什么」？

Pixtral 12B先從各種動物近景描述，再延伸到背后建筑、基礎(chǔ)設(shè)施，以及大樹、天空云彩等。

整個講述的過程，非常有邏輯。

圖片

在復(fù)雜圖表方面，Pixtral 12B理解力也是一絕。

上傳一張全球不同國家GDP圖片，讓它給出歐洲中GDP最高的5個國家。

模型根據(jù)綠色歐洲區(qū)域，總結(jié)給出了相應(yīng)的答案。

圖片

不僅如此，它還可以解釋科學(xué)報告中，圖表中DNA結(jié)構(gòu)的具體含義。

圖片

想要搭建一個網(wǎng)頁，手繪一張草稿，傳給模型。

它能看著圖直出代碼，一個網(wǎng)頁HTML的設(shè)計分分鐘就搞定了。

圖片

又或是，當(dāng)你遇到一道數(shù)學(xué)推理難題，拍好照片上傳給Pixtral 12B，便會得到解題步驟和答案。

圖片

外出餐飲小票，它也可以將其中信息提取成JSON格式。

圖片

這樣一通看下來，一個120億參數(shù)的小模型，竟具備了如此強大的圖像識別、文本理解能力。

那么，它是如何訓(xùn)練而來？背后架構(gòu)是什么？

模型架構(gòu)

現(xiàn)場的介紹中，Pixtral 12B的架構(gòu)如下圖所示。

它包含了一個多模態(tài)Transformer解碼器，還有視覺Transformer編碼器，能夠理解原生的圖像和文檔。

圖片

正如開頭所述，新模型是基于Nemo 12B完成搭建，關(guān)于訓(xùn)練數(shù)據(jù)目前仍在保密中。

開發(fā)者關(guān)系主管Sophia Yang表示，「Pixtral 12B獨特之處在于，能夠原生支持任意數(shù)量、大小的圖像」。

圖片

它能夠快速處理小圖像，還可以精準(zhǔn)處理真實世界和高分辨率的圖像。而且，扔出一個圖文混雜的大型文檔，也能信手拈來。

圖片

Pixtral 12B的上下文長度為128k。

圖片

根據(jù)初始測試者的分享，這個24GB模型架構(gòu)共有40層，14336個隱藏維度，32個注意力頭，用于廣泛的計算處理。

圖片

在視覺方面，它還有一個專用的視覺編碼器，可支持1024×1024圖像分辨率，以及24個隱藏層用于高級圖像處理。

圖片

然而，當(dāng)Mistral最終通過API提供該模型時，可能會有所改變。

就性能來說，Pixtral 12B在多模態(tài)知識和推理基準(zhǔn)（MMMU、MathVista）、多模態(tài)問答基準(zhǔn)（ChatQA、DocVQA、VQAv2）上，完全碾壓當(dāng)前領(lǐng)先的同等參數(shù)的模型。

比如，Qwen2-VL、LLaVA-OV、Phi-3 Vision等。

圖片

而在指令跟隨（多模態(tài)、文本）、文本理解（科學(xué)、數(shù)學(xué)、代碼）基準(zhǔn)上，Pixtral 12B表現(xiàn)也非常出色。

圖片

或許多模態(tài)模型對于我們來說，屢見不鮮，但Pixtral 12B對于Mistral來說是開創(chuàng)歷史。

自去年成立以來，Mistral憑借開源媲美OpenAI等領(lǐng)先實驗室大模型，一路走紅得到AI社區(qū)的認(rèn)可。

圖片

幾個月前，它以60億美金估值，完成6.4億美元新一輪融資，并隨之推出了一款GPT-4級別的模型——Mistral Large 2。

此外，他們在今年，還推出了一個專家混合模型Mixtral 8x22B，包含了一個編碼模型Codestral，以及一個數(shù)學(xué)推理和科學(xué)發(fā)現(xiàn)的模型。

圖片

Mistral或許有實力，成為下一個OpenAI。

穿上皮夾克，和老黃爐邊談話

更讓人驚喜的是，大會現(xiàn)場，還上演了經(jīng)典「皮夾克幫」集結(jié)的一幕。

創(chuàng)始人Arthur Mensch穿上皮夾克和老黃坐在臺前，開啟了爐邊談話，一起探討了未來AI和算力問題。

圖片

老黃表示，在英偉達(dá)，GPU的設(shè)計、性能、耗能等方面問題，仍將持續(xù)優(yōu)化。

他們希望利用AI先去探索巨大設(shè)計空間的可能性，然后再進(jìn)行收縮，最終專注于有前景的解決方案。

老黃還認(rèn)為：推理在今天是一次性的，但在未來不會是這樣。為了實現(xiàn)這一點，還需把推理速度提高到一個數(shù)量級。

因為，利用GPU做推理面臨著顯著的困難，英偉達(dá)90%的工程師都投在了推理，而非訓(xùn)練中。

當(dāng)然，英偉達(dá)對推理技術(shù)架構(gòu)的探索，仍在繼續(xù)。老黃希望NVLink能夠?qū)崿F(xiàn)低延遲高吞吐量的推理設(shè)計。

對于AI未來的探索，老黃表示自己最喜歡的AI應(yīng)用，便是創(chuàng)建數(shù)字人。

他希望，未來公司會有數(shù)百萬個智能體數(shù)字員工，可以自主相互交流，運營業(yè)務(wù)。

此外，他還討論了英偉達(dá)在「類人機器人」領(lǐng)域的大量工作。

而它的發(fā)展，受到了老黃所言的「3臺計算機問題」的瓶頸制約——

第一臺用于訓(xùn)練多模態(tài)模型，第二臺用于精確物理模擬和生成合成數(shù)據(jù)（NVIDIA Omniverse），第三臺是機器人體內(nèi)的計算機（即將推出的NVIDIA Thor）。

最后，老黃還回顧了英偉達(dá)歷史，「在1993年成立之時，我們在GPU領(lǐng)域還沒有競爭對手，到1994年有10個，1995年有50個，然后有100個，競爭對手迅速增加」。

在競爭這么激烈領(lǐng)域中，英偉達(dá)能夠有所成，一定程度上，可以歸咎于你所做的事情與做這些事情的原因不同。

英偉達(dá)是PC游戲行業(yè)的最大推動者，他們通過創(chuàng)建計算平臺、生態(tài)系統(tǒng)來創(chuàng)造一個新市場，使之成為「家庭的一部分」。

他們最先在游戲領(lǐng)域做到了這一點，然后是科學(xué)計算，現(xiàn)在是AI。

大佬發(fā)現(xiàn)「華點」：又來一個評測造假的？

前兩天，所謂的「開源新王」Reflection 70B才剛剛深陷Benchmark造假爭議。

如今，相似的劇情再次上演。

圖片

隨著峰會現(xiàn)場的照片大范圍流出，Hugging Face技術(shù)負(fù)責(zé)人Philipp Schmid也在第一時間發(fā)現(xiàn)，Mistral AI放出的跑分和Qwen 2 VL 7B的官方數(shù)據(jù)大相徑庭。

圖片

把數(shù)據(jù)補全到柱狀圖中后可以看道，Pixtral 12B在多項評測中的成績都明顯不如Qwen 2 VL 7B。

圖片

也就是說，Mistral AI的首個多模態(tài)模型，被一個參數(shù)量小了近42%的模型，吊打了！

圖片

此外，還有網(wǎng)友指出，別說數(shù)據(jù)有問題，他們連模型的名字好像都沒寫對……

圖片

參考資料：

https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

https://x.com/_philschmid/status/1833954941624615151

https://x.com/swyx/status/1833926630861070359

責(zé)任編輯：武曉燕來源：新智元

AI 多模態(tài)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="dfc9v"><rp id="dfc9v"></rp></style>

<style id="dfc9v"></style>