自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球!國產(chǎn)AI開源端側(cè)GPT-4o海外爆火,8B參數(shù)iPad就能跑

人工智能
MiniCPM-o 2.6現(xiàn)在更自然了,不僅能扮演新聞主播、學生等各種角色,甚至連咖喱味的英文(印度口音)也能整出來。

又一個國產(chǎn)AI在外網(wǎng)被刷屏火了!

來感受一下這個feel:

圖片圖片

這個AI,正是來自面壁智能最新的模型——MiniCPM-o 2.6。

之所以如此火爆,是因為它以僅僅8B的體量,在多模態(tài)能力上直接能跟GPT-4o掰手腕!

而且是在iPad上就能跑的那種哦(MiniCPM-o 2.6開源地址如下)~

GitHub:https://github.com/OpenBMB/MiniCPM-o

Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6

從眾多網(wǎng)友們轉(zhuǎn)發(fā)的實測體驗來看,效果也是有點意思在身上的。

例如MiniCPM-o 2.6可以直接“盲聽”聲音,就知道你在干什么:

翻書聲、咳嗽聲、倒水聲、敲門聲,聲聲精準識別。

不僅是聽覺圖片,在圖片圖片方面,MiniCPM-o 2.6也是有兩把刷子。

例如你Pad上的MiniCPM-o 2.6,就可以“睜眼”玩兒三仙歸洞,還能記住所有牌被翻過去前的圖案:

方面,MiniCPM-o 2.6現(xiàn)在更自然了,不僅能扮演新聞主播、學生等各種角色,甚至連咖喱味的英文(印度口音)也能整出來。

當然,實時打斷也是不在話下:

網(wǎng)友們看罷“Awesome”聲一片,有人還直呼:

超酷的,我的iPad像有了第二個大腦。

圖片圖片

而且不只是效果,面壁智能一道還把看、聽、說等多模態(tài)能力在各項評測榜單的成績曬了出來。

從分數(shù)上來看,僅8B的MiniCPM-o 2.6整體能力已經(jīng)可以跟GPT-4o比肩,甚至在很多細分項目中實現(xiàn)了超越:

圖片圖片

用面壁智能官方的話來說,MiniCPM-o 2.6已經(jīng)是開源社區(qū)最強語音通用模型、最強端側(cè)視覺通用模型,以及最強實時流式多模態(tài)模型了。

那么在實際體驗過程中,它是否真的如此絲滑呢?

來一波實測

首先,我們來看下MiniCPM-o 2.6的視力水平到底如何。

在這輪測試中,我們演示了把原先“這是一張照片”這句話刪除兩個字,看看MiniCPM-o 2.6到底能不能看出來:

我剛才刪除了哪兩個字?

MiniCPM-o 2.6精準地回答出了正確答案:

你剛剛刪除了“照片”兩個字。

再來,我們給它看一段《黑神話:悟空》中的經(jīng)典片段,問它剛剛那個游戲叫什么:

MiniCPM-o 2.6又答對了:

你展示的游戲是《黑神話:悟空》。

而之所以能夠做到這么精準,根據(jù)面壁智能的介紹,是因為MiniCPM-o 2.6已經(jīng)做到了真·看視頻。

它并不是此前的“照片大模型”,即在用戶提問之后,AI才會開始對視頻靜態(tài)圖片抽幀,無法回答提問之前的視頻內(nèi)容。

但真·看視頻的大模型就不是這樣,可以持續(xù)對實時視頻和音頻建模,這就更像人類的眼睛了。

在視覺方面,除了視頻之外,對于圖片的理解和推理,MiniCPM-o 2.6的能力也是更上一層樓。

比如讓它幫忙指導調(diào)整自行車座椅。

從找到位置,再到挑選合適工具,它都能正確get用戶意圖。

圖片圖片

它也能化身學習搭子,幫忙解題。

圖片圖片

當然,以上表現(xiàn)也基于MiniCPM-o 2.6強大的OCR(光學字符識別)能力

官方聲稱,它可以處理任意寬高比,以及高達180萬像素的圖像(例如1344x1344)。

比如直接對準iPad,它就能識別屏幕上的內(nèi)容。

圖片圖片

在聽方面,我們剛才已經(jīng)展示了很多案例,這里就不再重復測試;我們繼續(xù)深入實測一波MiniCPM-o 2.6圖片的能力。

例如這樣的:

你幫我用四川話來教我一下怎么煮火鍋。

嗯,算是川味十足了。

由此可見,MiniCPM-o 2.6在交互這塊,是把看、聽、說等交互模式給拿捏住了。

那么接下來的問題是:

怎么做到的?

概括而言,面壁智能一直以來專注于面向邊端算力場景進行極致優(yōu)化,更看重的是單設(shè)備服務(wù)的高效性。

換句話說,一切都是為了能在手機、iPad這樣的端側(cè)設(shè)備上更快、更好、更省的跑起來。

而MiniCPM-o 2.6采用的模型架構(gòu),顯而易見也貫徹了這一核心目標。

具體而言,之所以看聽說全能,關(guān)鍵之一在于下面這個端到端全模態(tài)架構(gòu),它能將不同類型數(shù)據(jù)(如文本、圖像、音頻)的編碼和解碼模塊通過端到端方式連接起來訓練。

這種方式使得模型不是孤立地處理每種模態(tài),而是綜合考慮它們之間的關(guān)聯(lián)和交互,充分調(diào)動了多模態(tài)知識。

而且過程中,完全使用交叉熵(CE)損失(無輔助/中間損失函數(shù))進行端到端訓練。

圖片圖片

此外,為了適應(yīng)流式輸入輸出(即實時、低延遲),不必像傳統(tǒng)那樣需要等所有數(shù)據(jù)都準備好再處理,面壁團隊又進行了兩方面動作。

一是上手改造這些離線編/解碼器模塊,將其變成更適于流式輸入/輸出的在線模塊;另一方面,針對大語言模型的基座,設(shè)計了時分復用的全模態(tài)流式信息處理機制(Omni-modality Time Division Multiplexer,OTDM)。

尤其是后者,它將同時并行輸入的多模態(tài)(如視頻流和音頻流)按照時間順序進行拆分和重組,形成一個個小的周期性時間片序列。

如此一來,在一個時間片內(nèi),可以先處理一小段視覺信息(如幾幀圖像),然后處理一小段音頻信息(如幾毫秒的音頻波形),再將它們組合起來,從而避免信息混亂。

接下來,經(jīng)過OTDM處理后的多模態(tài)信息片段,繼續(xù)按照時間順序傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)(Omni-Modality Streaming Backbone)。

作為架構(gòu)的核心部分,它被用來提取不同類型數(shù)據(jù)的特征,類似關(guān)鍵幀、關(guān)鍵音頻等,然后再把它們?nèi)诤掀饋怼?/p>

過程中,大語言模型隱藏層(圖中H0被用作語音嵌入,主要是為了最終更好地輸出語音內(nèi)容。

當然這一目標也要靠最后的流式語音解碼器(Streaming Speech Decoder),它將前面接收到的信息轉(zhuǎn)化為語音形式輸出。

而且值得一提的是,面壁團隊還設(shè)置了可配置的聲音方案。

不僅設(shè)計了新的多模態(tài)系統(tǒng)提示,可直接通過文字or語音樣例生成或選擇聲音風格,還支持端到端聲音克隆和音色創(chuàng)建等高級能力。

總體來看,這一架構(gòu)實現(xiàn)了多模態(tài)流式處理+聲音的自由選擇。也就是說,無論面對哪種數(shù)據(jù),都能實現(xiàn)高效、低延遲交互,從而成為聽說看“六邊形戰(zhàn)士”。

事實上,從更大層面來說,作為“以小博大”的老手,本次發(fā)布的MiniCPM-o 2.6僅僅是面壁智能更大計劃的其中一環(huán)。

作為2018年脫胎于清華NLP實驗室,國內(nèi)最早進行大模型研究的一批人,面壁團隊逐漸聚焦于更高效的端側(cè)模型之路。

面壁智能CEO李大海曾表示:

站在大模型時代之下,我們都在提的一個概念便是“AI原生應(yīng)用”;這個時代需要的全新操作系統(tǒng),就是AI原生應(yīng)用+AI原生硬件。

而其中的AI原生硬件,其實很簡單,就是只要能在端側(cè)運行大模型的硬件就是原生硬件。

因此,端側(cè)的大模型就顯得格外重要。

而要想在手機、PC這樣的端側(cè)絲滑跑起來,大模型無疑要滿足兩點:要小,還要性能高效。

對此,早在2020年,他們就作為“悟道”大模型首發(fā)主力陣容發(fā)布了全球第一個20億級中文開源大模型CPM 1,并持續(xù)參與了之后的CPM 2和CPM 3。其中,4B大小的CPM 3就能和GPT-3.5掰手腕了。

可以說,這一時期的面壁團隊就已經(jīng)開始解決高效問題。

后來,當走紅全網(wǎng)的“小鋼炮”系列出來,他們也依舊延續(xù)了這一路線——

僅2B大小的MiniCPM,在多項主流中英測評中均超越“以小博大”的標桿之作Mistral-7B,甚至還能越級比肩Llama2-13B、MPT-30B、Falcon 40B等模型。

而且價格也打下來了,1元=1700000 tokens,成本僅為Mistral-Medium百分之一。

圖片圖片

這之后,過去一年里他們又陸續(xù)推出了一系列“以小博大”的產(chǎn)品。

甚至就在剛剛結(jié)束的CES(國際消費電子展)上,面壁小鋼炮MiniCPM系列也亮相了。

一個是去年9月發(fā)布的MiniCPM 3.0文本模型,雖然只有4B大小,但在代碼、數(shù)學等能力上可達到GPT-3.5水平,并且支持無限長文本。

另一個就是去年8月發(fā)布的MiniCPM-V 2.6多模態(tài)模型,僅8B大小,不過據(jù)當時官方介紹:

它不僅首次將超清OCR識圖、實時視頻理解等能力集成到端側(cè),也首次在端側(cè)達到單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V。

而這一次的MiniCPM-o 2.6,更是加上了多模態(tài)實時語音交互能力,離人人可用的端側(cè)模型可謂更近了。

圖片圖片

當然了,這也極大便利了視障人士友好出行。因為真實的出行環(huán)境大多是異常嘈雜的,而能夠部署在移動設(shè)備的端側(cè)模型,好處恰在于不依賴網(wǎng)絡(luò)就能本地運行。(就像下面這個識別紅綠燈的例子)

由于能在類似弱網(wǎng)斷網(wǎng)場景中依舊正常工作,面壁智能的端側(cè)模型擁有了更多應(yīng)用場景,也適合部署在智能眼鏡等頭戴式設(shè)備上。

更重要的是,面壁智能還將這些端側(cè)模型完全開源了。

有一說一,回顧過去一年大模型的發(fā)展,國產(chǎn)開源力量們無疑表現(xiàn)亮眼。

這其中,從大眾知名度和開源情況來看,DeepSeek、阿里Qwen,以及本次提到的面壁智能,隱隱已有“中國大模型開源三劍客”之勢。

圖片圖片

先說近的,橫空出世的DeepSeek-v3,以1/11算力訓練出超過Llama 3的開源模型,震撼了整個AI圈。

而阿里Qwen,更是隔一兩個月就會刷新一次能力邊界。

拿去年來說,6月發(fā)布的Qwen2全面超越開源標桿Llama 3,上線僅1天下載量就超過3萬次;8月發(fā)布的Qwen2-VL,多模態(tài)能力甚至超過GPT-4o等閉源模型……

再到面壁智能,其小鋼炮MiniCPM系列廣受開源社區(qū)喜愛,是2024年Hugging Face下載量最高的國產(chǎn)模型之一。

而且一直以來,面壁智能在開源這件事上比較活躍,很多項目也受到了社區(qū)不少好評。

圖片圖片

目前,MiniCPM-o 2.6已在GitHub和Hugging Face開源,還有在線demo免費可玩。

體驗地址放文末了,歡迎自取~

最后,附一個面壁智能剛發(fā)的中文版測試:

在線免費體驗:
https://minicpm-omni-webdemo-us.modelbest.cn/

GitHub:
https://github.com/OpenBMB/MiniCPM-o

Hugging Face:
https://huggingface.co/openbmb/MiniCPM-o-2_6


責任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-08-15 15:45:00

AI訓練

2024-06-17 18:04:38

2024-10-17 13:30:00

2024-06-11 07:03:00

大模型開源Qwen2

2024-12-02 14:20:00

模型訓練

2025-03-28 12:10:30

2025-04-08 02:26:00

2025-01-02 11:00:34

2024-08-14 14:30:00

AI訓練

2024-08-15 10:07:03

2025-01-02 13:00:00

2024-08-14 09:13:28

2024-05-21 12:23:17

2024-09-24 11:13:14

2024-06-05 08:29:35

2024-07-04 15:30:07

2024-07-04 15:26:56

2024-05-14 11:29:15

點贊
收藏

51CTO技術(shù)棧公眾號