全球!國產(chǎn)AI開源端側(cè)GPT-4o海外爆火,8B參數(shù)iPad就能跑
又一個國產(chǎn)AI在外網(wǎng)被刷屏火了!
來感受一下這個feel:
圖片
這個AI,正是來自面壁智能最新的模型——MiniCPM-o 2.6。
之所以如此火爆,是因為它以僅僅8B的體量,在多模態(tài)能力上直接能跟GPT-4o掰手腕!
而且是在iPad上就能跑的那種哦(MiniCPM-o 2.6開源地址如下)~
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6
從眾多網(wǎng)友們轉(zhuǎn)發(fā)的實測體驗來看,效果也是有點意思在身上的。
例如MiniCPM-o 2.6可以直接“盲聽”聲音,就知道你在干什么:
翻書聲、咳嗽聲、倒水聲、敲門聲,聲聲精準識別。
不僅是聽覺,在看
和說
方面,MiniCPM-o 2.6也是有兩把刷子。
例如你Pad上的MiniCPM-o 2.6,就可以“睜眼”玩兒三仙歸洞,還能記住所有牌被翻過去前的圖案:
在說方面,MiniCPM-o 2.6現(xiàn)在更自然了,不僅能扮演新聞主播、學生等各種角色,甚至連咖喱味的英文(印度口音)也能整出來。
當然,實時打斷也是不在話下:
網(wǎng)友們看罷“Awesome”聲一片,有人還直呼:
超酷的,我的iPad像有了第二個大腦。
圖片
而且不只是效果,面壁智能一道還把看、聽、說等多模態(tài)能力在各項評測榜單的成績曬了出來。
從分數(shù)上來看,僅8B的MiniCPM-o 2.6整體能力已經(jīng)可以跟GPT-4o比肩,甚至在很多細分項目中實現(xiàn)了超越:
圖片
用面壁智能官方的話來說,MiniCPM-o 2.6已經(jīng)是開源社區(qū)最強語音通用模型、最強端側(cè)視覺通用模型,以及最強實時流式多模態(tài)模型了。
那么在實際體驗過程中,它是否真的如此絲滑呢?
來一波實測
首先,我們來看下MiniCPM-o 2.6的視力水平到底如何。
在這輪測試中,我們演示了把原先“這是一張照片”這句話刪除兩個字,看看MiniCPM-o 2.6到底能不能看出來:
我剛才刪除了哪兩個字?
MiniCPM-o 2.6精準地回答出了正確答案:
你剛剛刪除了“照片”兩個字。
再來,我們給它看一段《黑神話:悟空》中的經(jīng)典片段,問它剛剛那個游戲叫什么:
MiniCPM-o 2.6又答對了:
你展示的游戲是《黑神話:悟空》。
而之所以能夠做到這么精準,根據(jù)面壁智能的介紹,是因為MiniCPM-o 2.6已經(jīng)做到了真·看視頻。
它并不是此前的“照片大模型”,即在用戶提問之后,AI才會開始對視頻靜態(tài)圖片抽幀,無法回答提問之前的視頻內(nèi)容。
但真·看視頻的大模型就不是這樣,可以持續(xù)對實時視頻和音頻建模,這就更像人類的眼睛了。
在視覺方面,除了視頻之外,對于圖片的理解和推理,MiniCPM-o 2.6的能力也是更上一層樓。
比如讓它幫忙指導調(diào)整自行車座椅。
從找到位置,再到挑選合適工具,它都能正確get用戶意圖。
圖片
它也能化身學習搭子,幫忙解題。
圖片
當然,以上表現(xiàn)也基于MiniCPM-o 2.6強大的OCR(光學字符識別)能力。
官方聲稱,它可以處理任意寬高比,以及高達180萬像素的圖像(例如1344x1344)。
比如直接對準iPad,它就能識別屏幕上的內(nèi)容。
圖片
在聽方面,我們剛才已經(jīng)展示了很多案例,這里就不再重復測試;我們繼續(xù)深入實測一波MiniCPM-o 2.6說的能力。
例如這樣的:
你幫我用四川話來教我一下怎么煮火鍋。
嗯,算是川味十足了。
由此可見,MiniCPM-o 2.6在交互這塊,是把看、聽、說等交互模式給拿捏住了。
那么接下來的問題是:
怎么做到的?
概括而言,面壁智能一直以來專注于面向邊端算力場景進行極致優(yōu)化,更看重的是單設(shè)備服務(wù)的高效性。
換句話說,一切都是為了能在手機、iPad這樣的端側(cè)設(shè)備上更快、更好、更省的跑起來。
而MiniCPM-o 2.6采用的模型架構(gòu),顯而易見也貫徹了這一核心目標。
具體而言,之所以看聽說全能,關(guān)鍵之一在于下面這個端到端全模態(tài)架構(gòu),它能將不同類型數(shù)據(jù)(如文本、圖像、音頻)的編碼和解碼模塊通過端到端方式連接起來訓練。
這種方式使得模型不是孤立地處理每種模態(tài),而是綜合考慮它們之間的關(guān)聯(lián)和交互,充分調(diào)動了多模態(tài)知識。
而且過程中,完全使用交叉熵(CE)損失(無輔助/中間損失函數(shù))進行端到端訓練。
圖片
此外,為了適應(yīng)流式輸入輸出(即實時、低延遲),不必像傳統(tǒng)那樣需要等所有數(shù)據(jù)都準備好再處理,面壁團隊又進行了兩方面動作。
一是上手改造這些離線編/解碼器模塊,將其變成更適于流式輸入/輸出的在線模塊;另一方面,針對大語言模型的基座,設(shè)計了時分復用的全模態(tài)流式信息處理機制(Omni-modality Time Division Multiplexer,OTDM)。
尤其是后者,它將同時并行輸入的多模態(tài)(如視頻流和音頻流)按照時間順序進行拆分和重組,形成一個個小的周期性時間片序列。
如此一來,在一個時間片內(nèi),可以先處理一小段視覺信息(如幾幀圖像),然后處理一小段音頻信息(如幾毫秒的音頻波形),再將它們組合起來,從而避免信息混亂。
接下來,經(jīng)過OTDM處理后的多模態(tài)信息片段,繼續(xù)按照時間順序傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)(Omni-Modality Streaming Backbone)。
作為架構(gòu)的核心部分,它被用來提取不同類型數(shù)據(jù)的特征,類似關(guān)鍵幀、關(guān)鍵音頻等,然后再把它們?nèi)诤掀饋怼?/p>
過程中,大語言模型隱藏層(圖中H0)被用作語音嵌入,主要是為了最終更好地輸出語音內(nèi)容。
當然這一目標也要靠最后的流式語音解碼器(Streaming Speech Decoder),它將前面接收到的信息轉(zhuǎn)化為語音形式輸出。
而且值得一提的是,面壁團隊還設(shè)置了可配置的聲音方案。
不僅設(shè)計了新的多模態(tài)系統(tǒng)提示,可直接通過文字or語音樣例生成或選擇聲音風格,還支持端到端聲音克隆和音色創(chuàng)建等高級能力。
總體來看,這一架構(gòu)實現(xiàn)了多模態(tài)流式處理+聲音的自由選擇。也就是說,無論面對哪種數(shù)據(jù),都能實現(xiàn)高效、低延遲交互,從而成為聽說看“六邊形戰(zhàn)士”。
事實上,從更大層面來說,作為“以小博大”的老手,本次發(fā)布的MiniCPM-o 2.6僅僅是面壁智能更大計劃的其中一環(huán)。
作為2018年脫胎于清華NLP實驗室,國內(nèi)最早進行大模型研究的一批人,面壁團隊逐漸聚焦于更高效的端側(cè)模型之路。
面壁智能CEO李大海曾表示:
站在大模型時代之下,我們都在提的一個概念便是“AI原生應(yīng)用”;這個時代需要的全新操作系統(tǒng),就是AI原生應(yīng)用+AI原生硬件。
而其中的AI原生硬件,其實很簡單,就是只要能在端側(cè)運行大模型的硬件就是原生硬件。
因此,端側(cè)的大模型就顯得格外重要。
而要想在手機、PC這樣的端側(cè)絲滑跑起來,大模型無疑要滿足兩點:要小,還要性能高效。
對此,早在2020年,他們就作為“悟道”大模型首發(fā)主力陣容發(fā)布了全球第一個20億級中文開源大模型CPM 1,并持續(xù)參與了之后的CPM 2和CPM 3。其中,4B大小的CPM 3就能和GPT-3.5掰手腕了。
可以說,這一時期的面壁團隊就已經(jīng)開始解決高效問題。
后來,當走紅全網(wǎng)的“小鋼炮”系列出來,他們也依舊延續(xù)了這一路線——
僅2B大小的MiniCPM,在多項主流中英測評中均超越“以小博大”的標桿之作Mistral-7B,甚至還能越級比肩Llama2-13B、MPT-30B、Falcon 40B等模型。
而且價格也打下來了,1元=1700000 tokens,成本僅為Mistral-Medium百分之一。
圖片
這之后,過去一年里他們又陸續(xù)推出了一系列“以小博大”的產(chǎn)品。
甚至就在剛剛結(jié)束的CES(國際消費電子展)上,面壁小鋼炮MiniCPM系列也亮相了。
一個是去年9月發(fā)布的MiniCPM 3.0文本模型,雖然只有4B大小,但在代碼、數(shù)學等能力上可達到GPT-3.5水平,并且支持無限長文本。
另一個就是去年8月發(fā)布的MiniCPM-V 2.6多模態(tài)模型,僅8B大小,不過據(jù)當時官方介紹:
它不僅首次將超清OCR識圖、實時視頻理解等能力集成到端側(cè),也首次在端側(cè)達到單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V。
而這一次的MiniCPM-o 2.6,更是加上了多模態(tài)實時語音交互能力,離人人可用的端側(cè)模型可謂更近了。
圖片
當然了,這也極大便利了視障人士友好出行。因為真實的出行環(huán)境大多是異常嘈雜的,而能夠部署在移動設(shè)備的端側(cè)模型,好處恰在于不依賴網(wǎng)絡(luò)就能本地運行。(就像下面這個識別紅綠燈的例子)
由于能在類似弱網(wǎng)斷網(wǎng)場景中依舊正常工作,面壁智能的端側(cè)模型擁有了更多應(yīng)用場景,也適合部署在智能眼鏡等頭戴式設(shè)備上。
更重要的是,面壁智能還將這些端側(cè)模型完全開源了。
有一說一,回顧過去一年大模型的發(fā)展,國產(chǎn)開源力量們無疑表現(xiàn)亮眼。
這其中,從大眾知名度和開源情況來看,DeepSeek、阿里Qwen,以及本次提到的面壁智能,隱隱已有“中國大模型開源三劍客”之勢。
圖片
先說近的,橫空出世的DeepSeek-v3,以1/11算力訓練出超過Llama 3的開源模型,震撼了整個AI圈。
而阿里Qwen,更是隔一兩個月就會刷新一次能力邊界。
拿去年來說,6月發(fā)布的Qwen2全面超越開源標桿Llama 3,上線僅1天下載量就超過3萬次;8月發(fā)布的Qwen2-VL,多模態(tài)能力甚至超過GPT-4o等閉源模型……
再到面壁智能,其小鋼炮MiniCPM系列廣受開源社區(qū)喜愛,是2024年Hugging Face下載量最高的國產(chǎn)模型之一。
而且一直以來,面壁智能在開源這件事上比較活躍,很多項目也受到了社區(qū)不少好評。
圖片
目前,MiniCPM-o 2.6已在GitHub和Hugging Face開源,還有在線demo免費可玩。
體驗地址放文末了,歡迎自取~
最后,附一個面壁智能剛發(fā)的中文版測試:
在線免費體驗:
https://minicpm-omni-webdemo-us.modelbest.cn/
GitHub:
https://github.com/OpenBMB/MiniCPM-o
Hugging Face:
https://huggingface.co/openbmb/MiniCPM-o-2_6