自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="ktmsi"><fieldset id="ktmsi"><menu id="ktmsi"></menu></fieldset></pre>

<cite id="ktmsi"></cite>

<style id="ktmsi"></style>

^{<thead id="ktmsi"></thead>}

<sub id="ktmsi"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全球！國產(chǎn)AI開源端側(cè)GPT-4o海外爆火，8B參數(shù)iPad就能跑

作者：量子位 2025-01-16 16:39:44

MiniCPM-o 2.6現(xiàn)在更自然了，不僅能扮演新聞主播、學生等各種角色，甚至連咖喱味的英文（印度口音）也能整出來。

又一個國產(chǎn)AI在外網(wǎng)被刷屏火了！

來感受一下這個feel：

圖片

這個AI，正是來自面壁智能最新的模型——MiniCPM-o 2.6。

之所以如此火爆，是因為它以僅僅8B的體量，在多模態(tài)能力上直接能跟GPT-4o掰手腕！

而且是在iPad上就能跑的那種哦（MiniCPM-o 2.6開源地址如下）~

GitHub：https://github.com/OpenBMB/MiniCPM-o

Hugging Face：https://huggingface.co/openbmb/MiniCPM-o-2_6

從眾多網(wǎng)友們轉(zhuǎn)發(fā)的實測體驗來看，效果也是有點意思在身上的。

例如MiniCPM-o 2.6可以直接“盲聽”聲音，就知道你在干什么：

翻書聲、咳嗽聲、倒水聲、敲門聲，聲聲精準識別。

不僅是聽覺，在看和說方面，MiniCPM-o 2.6也是有兩把刷子。

例如你Pad上的MiniCPM-o 2.6，就可以“睜眼”玩兒三仙歸洞，還能記住所有牌被翻過去前的圖案：

在說方面，MiniCPM-o 2.6現(xiàn)在更自然了，不僅能扮演新聞主播、學生等各種角色，甚至連咖喱味的英文（印度口音）也能整出來。

當然，實時打斷也是不在話下：

網(wǎng)友們看罷“Awesome”聲一片，有人還直呼：

超酷的，我的iPad像有了第二個大腦。

圖片

而且不只是效果，面壁智能一道還把看、聽、說等多模態(tài)能力在各項評測榜單的成績曬了出來。

從分數(shù)上來看，僅8B的MiniCPM-o 2.6整體能力已經(jīng)可以跟GPT-4o比肩，甚至在很多細分項目中實現(xiàn)了超越：

圖片

用面壁智能官方的話來說，MiniCPM-o 2.6已經(jīng)是開源社區(qū)最強語音通用模型、最強端側(cè)視覺通用模型，以及最強實時流式多模態(tài)模型了。

那么在實際體驗過程中，它是否真的如此絲滑呢？

來一波實測

首先，我們來看下MiniCPM-o 2.6的視力水平到底如何。

在這輪測試中，我們演示了把原先“這是一張照片”這句話刪除兩個字，看看MiniCPM-o 2.6到底能不能看出來：

我剛才刪除了哪兩個字？

MiniCPM-o 2.6精準地回答出了正確答案：

你剛剛刪除了“照片”兩個字。

再來，我們給它看一段《黑神話：悟空》中的經(jīng)典片段，問它剛剛那個游戲叫什么：

MiniCPM-o 2.6又答對了：

你展示的游戲是《黑神話：悟空》。

而之所以能夠做到這么精準，根據(jù)面壁智能的介紹，是因為MiniCPM-o 2.6已經(jīng)做到了真·看視頻。

它并不是此前的“照片大模型”，即在用戶提問之后，AI才會開始對視頻靜態(tài)圖片抽幀，無法回答提問之前的視頻內(nèi)容。

但真·看視頻的大模型就不是這樣，可以持續(xù)對實時視頻和音頻建模，這就更像人類的眼睛了。

在視覺方面，除了視頻之外，對于圖片的理解和推理，MiniCPM-o 2.6的能力也是更上一層樓。

比如讓它幫忙指導調(diào)整自行車座椅。

從找到位置，再到挑選合適工具，它都能正確get用戶意圖。

圖片

它也能化身學習搭子，幫忙解題。

圖片

當然，以上表現(xiàn)也基于MiniCPM-o 2.6強大的OCR（光學字符識別）能力。

官方聲稱，它可以處理任意寬高比，以及高達180萬像素的圖像（例如1344x1344）。

比如直接對準iPad，它就能識別屏幕上的內(nèi)容。

圖片

在聽方面，我們剛才已經(jīng)展示了很多案例，這里就不再重復測試；我們繼續(xù)深入實測一波MiniCPM-o 2.6說的能力。

例如這樣的：

你幫我用四川話來教我一下怎么煮火鍋。

嗯，算是川味十足了。

由此可見，MiniCPM-o 2.6在交互這塊，是把看、聽、說等交互模式給拿捏住了。

那么接下來的問題是：

怎么做到的？

概括而言，面壁智能一直以來專注于面向邊端算力場景進行極致優(yōu)化，更看重的是單設(shè)備服務(wù)的高效性。

換句話說，一切都是為了能在手機、iPad這樣的端側(cè)設(shè)備上更快、更好、更省的跑起來。

而MiniCPM-o 2.6采用的模型架構(gòu)，顯而易見也貫徹了這一核心目標。

具體而言，之所以看聽說全能，關(guān)鍵之一在于下面這個端到端全模態(tài)架構(gòu)，它能將不同類型數(shù)據(jù)（如文本、圖像、音頻）的編碼和解碼模塊通過端到端方式連接起來訓練。

這種方式使得模型不是孤立地處理每種模態(tài)，而是綜合考慮它們之間的關(guān)聯(lián)和交互，充分調(diào)動了多模態(tài)知識。

而且過程中，完全使用交叉熵（CE）損失（無輔助/中間損失函數(shù)）進行端到端訓練。

圖片

此外，為了適應(yīng)流式輸入輸出（即實時、低延遲），不必像傳統(tǒng)那樣需要等所有數(shù)據(jù)都準備好再處理，面壁團隊又進行了兩方面動作。

一是上手改造這些離線編/解碼器模塊，將其變成更適于流式輸入/輸出的在線模塊；另一方面，針對大語言模型的基座，設(shè)計了時分復用的全模態(tài)流式信息處理機制（Omni-modality Time Division Multiplexer，OTDM）。

尤其是后者，它將同時并行輸入的多模態(tài)（如視頻流和音頻流）按照時間順序進行拆分和重組，形成一個個小的周期性時間片序列。

如此一來，在一個時間片內(nèi)，可以先處理一小段視覺信息（如幾幀圖像），然后處理一小段音頻信息（如幾毫秒的音頻波形），再將它們組合起來，從而避免信息混亂。

接下來，經(jīng)過OTDM處理后的多模態(tài)信息片段，繼續(xù)按照時間順序傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)（Omni-Modality Streaming Backbone）。

作為架構(gòu)的核心部分，它被用來提取不同類型數(shù)據(jù)的特征，類似關(guān)鍵幀、關(guān)鍵音頻等，然后再把它們?nèi)诤掀饋怼?/p>

過程中，大語言模型隱藏層（圖中H₀）被用作語音嵌入，主要是為了最終更好地輸出語音內(nèi)容。

當然這一目標也要靠最后的流式語音解碼器（Streaming Speech Decoder），它將前面接收到的信息轉(zhuǎn)化為語音形式輸出。

而且值得一提的是，面壁團隊還設(shè)置了可配置的聲音方案。

不僅設(shè)計了新的多模態(tài)系統(tǒng)提示，可直接通過文字or語音樣例生成或選擇聲音風格，還支持端到端聲音克隆和音色創(chuàng)建等高級能力。

總體來看，這一架構(gòu)實現(xiàn)了多模態(tài)流式處理+聲音的自由選擇。也就是說，無論面對哪種數(shù)據(jù)，都能實現(xiàn)高效、低延遲交互，從而成為聽說看“六邊形戰(zhàn)士”。

事實上，從更大層面來說，作為“以小博大”的老手，本次發(fā)布的MiniCPM-o 2.6僅僅是面壁智能更大計劃的其中一環(huán)。

作為2018年脫胎于清華NLP實驗室，國內(nèi)最早進行大模型研究的一批人，面壁團隊逐漸聚焦于更高效的端側(cè)模型之路。

面壁智能CEO李大海曾表示：

站在大模型時代之下，我們都在提的一個概念便是“AI原生應(yīng)用”；這個時代需要的全新操作系統(tǒng)，就是AI原生應(yīng)用+AI原生硬件。
而其中的AI原生硬件，其實很簡單，就是只要能在端側(cè)運行大模型的硬件就是原生硬件。
因此，端側(cè)的大模型就顯得格外重要。

而要想在手機、PC這樣的端側(cè)絲滑跑起來，大模型無疑要滿足兩點：要小，還要性能高效。

對此，早在2020年，他們就作為“悟道”大模型首發(fā)主力陣容發(fā)布了全球第一個20億級中文開源大模型CPM 1，并持續(xù)參與了之后的CPM 2和CPM 3。其中，4B大小的CPM 3就能和GPT-3.5掰手腕了。

可以說，這一時期的面壁團隊就已經(jīng)開始解決高效問題。

后來，當走紅全網(wǎng)的“小鋼炮”系列出來，他們也依舊延續(xù)了這一路線——

僅2B大小的MiniCPM，在多項主流中英測評中均超越“以小博大”的標桿之作Mistral-7B，甚至還能越級比肩Llama2-13B、MPT-30B、Falcon 40B等模型。

而且價格也打下來了，1元=1700000 tokens，成本僅為Mistral-Medium百分之一。

圖片

這之后，過去一年里他們又陸續(xù)推出了一系列“以小博大”的產(chǎn)品。

甚至就在剛剛結(jié)束的CES（國際消費電子展）上，面壁小鋼炮MiniCPM系列也亮相了。

一個是去年9月發(fā)布的MiniCPM 3.0文本模型，雖然只有4B大小，但在代碼、數(shù)學等能力上可達到GPT-3.5水平，并且支持無限長文本。

另一個就是去年8月發(fā)布的MiniCPM-V 2.6多模態(tài)模型，僅8B大小，不過據(jù)當時官方介紹：

它不僅首次將超清OCR識圖、實時視頻理解等能力集成到端側(cè)，也首次在端側(cè)達到單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V。

而這一次的MiniCPM-o 2.6，更是加上了多模態(tài)實時語音交互能力，離人人可用的端側(cè)模型可謂更近了。

圖片

當然了，這也極大便利了視障人士友好出行。因為真實的出行環(huán)境大多是異常嘈雜的，而能夠部署在移動設(shè)備的端側(cè)模型，好處恰在于不依賴網(wǎng)絡(luò)就能本地運行。(就像下面這個識別紅綠燈的例子）

由于能在類似弱網(wǎng)斷網(wǎng)場景中依舊正常工作，面壁智能的端側(cè)模型擁有了更多應(yīng)用場景，也適合部署在智能眼鏡等頭戴式設(shè)備上。

更重要的是，面壁智能還將這些端側(cè)模型完全開源了。

有一說一，回顧過去一年大模型的發(fā)展，國產(chǎn)開源力量們無疑表現(xiàn)亮眼。

這其中，從大眾知名度和開源情況來看，DeepSeek、阿里Qwen，以及本次提到的面壁智能，隱隱已有“中國大模型開源三劍客”之勢。

圖片

先說近的，橫空出世的DeepSeek-v3，以1/11算力訓練出超過Llama 3的開源模型，震撼了整個AI圈。

而阿里Qwen，更是隔一兩個月就會刷新一次能力邊界。

拿去年來說，6月發(fā)布的Qwen2全面超越開源標桿Llama 3，上線僅1天下載量就超過3萬次；8月發(fā)布的Qwen2-VL，多模態(tài)能力甚至超過GPT-4o等閉源模型……

再到面壁智能，其小鋼炮MiniCPM系列廣受開源社區(qū)喜愛，是2024年Hugging Face下載量最高的國產(chǎn)模型之一。

而且一直以來，面壁智能在開源這件事上比較活躍，很多項目也受到了社區(qū)不少好評。

圖片

目前，MiniCPM-o 2.6已在GitHub和Hugging Face開源，還有在線demo免費可玩。

體驗地址放文末了，歡迎自取~

最后，附一個面壁智能剛發(fā)的中文版測試：

在線免費體驗：
https://minicpm-omni-webdemo-us.modelbest.cn/

GitHub：
https://github.com/OpenBMB/MiniCPM-o

Hugging Face：
https://huggingface.co/openbmb/MiniCPM-o-2_6

責任編輯：武曉燕來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營