發(fā)力了,Mistral對(duì)標(biāo)ChatGPT全面升級(jí)le Chat,還祭出超大杯多模態(tài)模型
一覺醒來,Mistral AI 又發(fā)力了。
就在今天,Mistral AI 多模態(tài)家族迎來了第二位成員:一個(gè)名為 Pixtral Large 的超大杯基礎(chǔ)模型。
這是一個(gè)基于 Mistral Large 2 構(gòu)建、124B 開放權(quán)重的多模態(tài)模型,具備頂尖的圖像理解能力 —— 能夠看懂文檔、圖表和自然圖像,同時(shí)保持 Mistral Large 2 領(lǐng)先的純文本理解能力。
除了發(fā)布新模型,Mistral AI 還進(jìn)一步升級(jí)了免費(fèi)聊天機(jī)器人 le Chat,增加圖像生成、網(wǎng)絡(luò)搜索和交互式畫布功能,全面對(duì)標(biāo) ChatGPT。
所有這些功能,統(tǒng)統(tǒng)以免費(fèi)測試版的形式開放。
Mistral AI 的每一次更新,都會(huì)讓整個(gè) AI 社區(qū)興奮起來。
有人感嘆:「六個(gè)月前,開源模型和閉源模型之間的差距非常大?,F(xiàn)在,最先進(jìn)的人工智能正在迅速向任何想要使用它的人開放?!?/span>
到底有多強(qiáng)?
接下來,讓我們看看發(fā)布細(xì)節(jié)吧。
開源多模態(tài)大模型 Pixtral Large
Pixtral Large 可根據(jù) Mistral 研究許可證 (MRL) 用于研究和教育用途,同時(shí)根據(jù) Mistral 商業(yè)許可證用于商業(yè)目的的實(shí)驗(yàn)、測試和生產(chǎn)。
Pixtral Large 前身是 2024 年夏季發(fā)布的 Mistral Large 2,以及 9 月份發(fā)布的首個(gè)多模態(tài)模型 Pixtral 12-B。關(guān)于將多模態(tài)模型擴(kuò)展到 1240 億參數(shù)的出發(fā)點(diǎn),Mistral AI CEO 是這么說的:「我們?cè)絹碓揭庾R(shí)到,要?jiǎng)?chuàng)造最佳的 AI 體驗(yàn),需要共同設(shè)計(jì)模型和產(chǎn)品界面。Pixtral 在訓(xùn)練時(shí)就考慮到了高影響力的前端應(yīng)用,是一個(gè)很好的例子。」
Pixtral Large 包括一個(gè) 1230 億參數(shù)解碼器和一個(gè) 10 億參數(shù)視覺編碼器,使其在文本和視覺數(shù)據(jù)處理方面均表現(xiàn)出色。
Pixtral Large 上下文窗口為 128K,至少可以處理 30 張高分辨率圖像或大約一本 300 頁的書,這相當(dāng)于領(lǐng)先的 OpenAI GPT 系列模型的能力。
在性能方面,該模型在包括 MathVista、DocVQA 和 VQAv2 在內(nèi)的多種基準(zhǔn)上展現(xiàn)出了最先進(jìn)的性能,非常適合圖表解釋、文檔分析和圖像理解等任務(wù)。
具體而言,在 MathVista 基準(zhǔn)上,Pixtral Large 實(shí)現(xiàn)了 69.4% 的準(zhǔn)確率,優(yōu)于所有其他模型。在 ChartQA 和 DocVQA 基準(zhǔn)上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。
Pixtral Large 在 MM-MT-Bench 上也展示了強(qiáng)有力的競爭力,優(yōu)于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
在圖像理解方面,Pixtral Large 也表現(xiàn)優(yōu)異。比如上傳一份賬單,詢問該模型:「我買了咖啡和香腸,外加 18% 的小費(fèi)。我該付多少錢?」
Pixtral Large 會(huì)非常有條理地給出總消費(fèi)金額,先是計(jì)算了咖啡和香腸的費(fèi)用,2 杯拿鐵瑪奇朵、 1 份香腸 ,然后計(jì)算 18% 的小費(fèi) ,最后給出總金額。
Pixtral Large 也能準(zhǔn)確理解并分析圖表。比如對(duì)于下面的訓(xùn)練損失曲線圖,問 dark dragon 模型什么時(shí)候開始出現(xiàn)問題。
Pixtral Large 分析的也很準(zhǔn)確:「在達(dá)到 10,000 step 時(shí),訓(xùn)練損失開始出現(xiàn)不穩(wěn)定…… 隨后,這種不穩(wěn)定性持續(xù)存在,并在 20,000step 附近出現(xiàn)了另一個(gè)大的峰值……」
在接下來的示例中,上傳一張圖片,問 Pixtral Large 哪些公司使用 Mistral AI 模型?
Pixtral Large 也能根據(jù)圖片提供的信息給出準(zhǔn)確的結(jié)果,回答過程如下。
除了 Pixtral Large,Mistral AI 最先進(jìn)的文本模型 Mistral Large 也迎來了一次更新。該模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。
Mistral Large 24.11 將首先在 Google Cloud 和 Microsoft Azure 上推出,預(yù)計(jì)一周內(nèi)即可使用。
- 模型和權(quán)重下載地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
- 試用地址:https://chat.mistral.ai/chat
對(duì)標(biāo) ChatGPT 大升級(jí)
le Chat 已經(jīng)強(qiáng)得可怕
Pixtral Large 的發(fā)布,也讓 le Chat 的能力上升到了一個(gè)新的高度。
le Chat 現(xiàn)在可以處理大型、復(fù)雜的 PDF 文檔和圖像,比如一篇理論文獻(xiàn)的所有內(nèi)容 —— 圖形、表格、圖表、文本、公式、方程式。
下面的例子展示了愛因斯坦、波多爾西和羅森于 1935 年撰寫的著名量子糾纏論文的信息提取、總結(jié)和語義理解。
此外還有兩項(xiàng)新能力登陸 le Chat:
首先是實(shí)時(shí)的網(wǎng)絡(luò)搜索。這是一項(xiàng)關(guān)于生產(chǎn)力的升級(jí),Mistral AI 表示,le Chat 的大部分用戶來自學(xué)生和專業(yè)人士,而這些用戶非常看重其在學(xué)習(xí)、研究和工作中的作用。
下面是一位營銷類專業(yè)人士使用 le Chat 來評(píng)估醫(yī)療保健人工智能市場:
然后是新的 Canvas 界面。當(dāng)用戶需要暫時(shí)離開對(duì)話進(jìn)行構(gòu)思時(shí),它會(huì)彈出到 le Chat 窗口中,隨后用戶可以和 Mistral LLM 合作完成共享輸出。
從此,我們和聊天機(jī)器人的互動(dòng)不再局限于雙向?qū)υ?。借?LLM 強(qiáng)大的推理能力,Canvas 可以用來創(chuàng)建文檔、演示文稿、代碼、模型等,亮點(diǎn)在于「就地修改」內(nèi)容,無需重新生成回復(fù)、版本控制草稿并預(yù)覽設(shè)計(jì)。
比如在下方演示中,是一個(gè)產(chǎn)品團(tuán)隊(duì)為準(zhǔn)備推出 Canvas 而創(chuàng)建產(chǎn)品指標(biāo)儀表板的反應(yīng)模型的視頻。
Mistral AI 與 SD 作者團(tuán)隊(duì)成立的 Black Forest Labs 也達(dá)成了合作,因此 le Chat 擁有了高質(zhì)量的圖像生成能力。
最后,如果你想馬上體驗(yàn)到 Mistral AI 最新放送的搜索、PDF 上傳、編碼、圖像生成等所有功能,請(qǐng)?jiān)L問:http://chat.mistral.ai/