自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

7B模型搞定AI視頻通話,阿里最新開源炸場(chǎng),看聽說(shuō)寫全模態(tài)打通,開發(fā)者企業(yè)免費(fèi)商用

人工智能 新聞
僅靠一個(gè)一體式模型,就能搞定文本、音頻、圖像、視頻全模態(tài),并實(shí)時(shí)生成文本和自然語(yǔ)音。

深夜重磅!阿里發(fā)布并開源首個(gè)端到端全模態(tài)大模型——

通義千問Qwen2.5-Omni-7B,來(lái)了。

僅靠一個(gè)一體式模型,就能搞定文本、音頻、圖像、視頻全模態(tài),并實(shí)時(shí)生成文本和自然語(yǔ)音。

堪稱7B模型的全能冠軍。

你的iPhone搭載的很可能就是它!

現(xiàn)在打開Qwen Chat,就能直接和它實(shí)時(shí)進(jìn)行視頻或語(yǔ)音交互:

圖片

話不多說(shuō),先來(lái)看一波能力展示。

在大街上同它視頻通話,它能正確識(shí)別周圍環(huán)境,按照你的需求為你推薦餐館:

走進(jìn)廚房,它又化身“智能菜譜”,一步步指導(dǎo)你變成大廚:

在多模態(tài)任務(wù)OmniBench評(píng)測(cè)中,Qwen2.5-Omni表現(xiàn)刷新記錄拿下新SOTA,遠(yuǎn)超谷歌Gemini-1.5-Pro等同類模型。

在單模態(tài)的語(yǔ)音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解、語(yǔ)音生成任務(wù)中,Qwen2.5-Omni的全維度表現(xiàn)也都優(yōu)于類似大小的單模態(tài)模型以及閉源模型。

在seed-tts-eval語(yǔ)音生成基準(zhǔn)中,Qwen2.5-Omni展現(xiàn)出與人類水平相當(dāng)?shù)恼Z(yǔ)音合成能力。

圖片

這意味著Qwen2.5-Omni-7B能很好地和世界進(jìn)行實(shí)時(shí)交互,甚至能輕松識(shí)別音視頻情緒。

再來(lái)敲重點(diǎn):

模型非常輕量,手機(jī)等終端都可輕松部署運(yùn)行,且開源用的是寬松的Apache2.0協(xié)議,開發(fā)者、企業(yè)現(xiàn)在都可免費(fèi)在魔搭社區(qū)或Hugging Face下載商用。

Qwen2.5-Omni-7B一開源,網(wǎng)友直呼這才是真正的OpenAI(doge)。

圖片

網(wǎng)友紛紛表示可以直接拿來(lái)裝到智能眼鏡上了:

這可能是智能眼鏡的完美模型。

圖片

7B模型的新紀(jì)錄!

圖片

目前,在Qwen Chat上即可體驗(yàn)該模型支持的AI語(yǔ)音和視頻通話功能。

更多實(shí)例,一起來(lái)看~

實(shí)測(cè)效果驚艷

首先,Qwen2.5-Omni-7B能勝任免費(fèi)的數(shù)學(xué)家教。

它能像人類老師一樣,看到題目、聽懂問題,并且一步一步耐心講解。

更復(fù)雜的論文它也看得懂。

只需共享屏幕,然后將論文從上至下滑動(dòng),“給它看一遍”。

它就能通俗解釋論文內(nèi)容。

比如PPT、網(wǎng)頁(yè)資料等,也能找它做講解。

而且它還有一定藝術(shù)見解,比如可以陪著你畫畫,然后給出指導(dǎo)建議。

或者聽你演奏的音樂,給出更好的改進(jìn)建議。

我們還進(jìn)行了一手實(shí)測(cè),在Qwen Chat上每天可使用語(yǔ)音和視頻聊天10次。

圖片

實(shí)測(cè)中,模型能很好地理解商品界面和優(yōu)惠政策。

響應(yīng)速度也很快,并且會(huì)引導(dǎo)人類繼續(xù)問下去、很有耐心。

需要注意的是,當(dāng)前視頻通話還只是Beta測(cè)試版,每次通話限時(shí)3分鐘。

Hugging Face的產(chǎn)品負(fù)責(zé)人Jeff Boudier也第一時(shí)間上手試玩。

模型的英文能力一樣出眾,而且它不僅回答看到了杯子,還細(xì)致描述了杯子上的笑臉花紋。

首創(chuàng)Thinker-Talker雙核架構(gòu)

目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文。

Qwen2.5-Omni采用通義團(tuán)隊(duì)首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu)。

其中,Thinker就像“大腦”,負(fù)責(zé)處理和理解來(lái)自文本、音頻、視頻等多模態(tài)的輸入信息,生成高層語(yǔ)義表征以及對(duì)應(yīng)的文本內(nèi)容。

Talker則更像“嘴巴”,以流式的方式接收由Thinker實(shí)時(shí)輸出的語(yǔ)義表征與文本,并流暢地合成離散語(yǔ)音tokens。

具體來(lái)說(shuō),Thinker基于Transformer解碼器架構(gòu),融合音頻/圖像編碼器進(jìn)行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設(shè)計(jì),在訓(xùn)練和推理過(guò)程中直接接收來(lái)自Thinker的高維表征,并共享Thinker的全部歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)緊密結(jié)合的單一模型運(yùn)行,支持端到端的訓(xùn)練和推理。

與此同時(shí),團(tuán)隊(duì)還提出了一種新的位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding (位置嵌入)融合音視頻技術(shù)。

TMRoPE編碼多模態(tài)輸入的三維位置信息,即多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE),并結(jié)合絕對(duì)時(shí)間位置,通過(guò)將原始旋轉(zhuǎn)嵌入分解為時(shí)間、高度和寬度三個(gè)部分實(shí)現(xiàn)。

圖片

另外值得一提的是,從技術(shù)層面來(lái)看,Qwen2.5-Omni和一般的視頻/語(yǔ)音理解模型以及其相應(yīng)的視頻/語(yǔ)音對(duì)話的AI功能,也有本質(zhì)性區(qū)別。

在傳統(tǒng)語(yǔ)音理解大模型的人機(jī)交互場(chǎng)景里,一般運(yùn)用 ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)技術(shù),把人類語(yǔ)音轉(zhuǎn)換為文字文本,隨后將其交給大語(yǔ)言模型處理,最終生成的內(nèi)容借助 TTS(Text-to-Speech,語(yǔ)音合成)技術(shù)轉(zhuǎn)化為語(yǔ)音反饋給用戶。

而視頻理解模型是基于圖片、視頻進(jìn)行大模型理解,并以文字形式輸出反饋。

這兩種模型均屬于相互獨(dú)立的單鏈路模型。在一些AI應(yīng)用中,甚至?xí)?lián)多個(gè)模型來(lái)實(shí)現(xiàn)類似功能,如此一來(lái),鏈路變得更長(zhǎng),效率大打折扣。

Qwen2.5-Omni-7B的特點(diǎn)在于,它原生支持視頻、圖片、語(yǔ)音、文字等多模態(tài)輸入,并能原生生成語(yǔ)音及文字等多模態(tài)輸出。

也就是說(shuō),一個(gè)模型就能通過(guò)“看”、“聽”、“閱讀”等多種方式來(lái)綜合思考。

所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測(cè)試中,拿下最強(qiáng)全模態(tài)性能,在語(yǔ)音理解、圖片理解、視頻理解、語(yǔ)音生成等領(lǐng)域的測(cè)評(píng)分?jǐn)?shù),均領(lǐng)先于專門的音頻(Audio)或視覺語(yǔ)言(VL)模型。

搶先看到Apple Intelligence?

一個(gè)月前,阿里公開確認(rèn)與蘋果合作,宣布通義千問將為國(guó)行iPhone用戶提供AI功能,此消息一經(jīng)披露,便在科技圈引發(fā)熱議。

而這次Qwen2.5-Omni開源,就是奔著端側(cè)部署來(lái)的,7B尺寸使其具備直接嵌入手機(jī)的可行性,仿佛提前看到了Apple Intelligence,讓大家看到多模態(tài)大模型上手機(jī)都能有哪些效果。

不只是蘋果,據(jù)量子位了解,這種端側(cè)部署能力已吸引超90%國(guó)產(chǎn)手機(jī)品牌接入通義千問,包括OPPO、vivo、榮耀、傳音等,還有眾多汽車品牌、AI硬件產(chǎn)品選擇與之?dāng)y手。

為啥都選通義千問?

梳理通義千問的最新發(fā)展動(dòng)態(tài),答案便不難理解。

首先,通義千問Qwen目前已穩(wěn)居全球最大AI大模型族群。

僅在最近一個(gè)月的時(shí)間里,就接連推出了一系列具有競(jìng)爭(zhēng)力的模型:推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語(yǔ)言模型Qwen2.5-VL-32B-Instruct……

實(shí)際上,2023年至今,阿里通義團(tuán)隊(duì)已累計(jì)開源200多款模型,涵蓋從0.5B到110B全尺寸范圍,模型類型覆蓋文本生成、視覺理解與生成、語(yǔ)音理解與生成、文生圖及視頻模型等全模態(tài)領(lǐng)域,應(yīng)用場(chǎng)景也極為豐富。

在海內(nèi)外開源社區(qū)中,通義千問Qwen衍生模型數(shù)量更是一路飆升,現(xiàn)已超過(guò)10萬(wàn),超越Llama系列。

根據(jù)Hugging Face 在2月10日發(fā)布的最新全球開源大模型榜單,排名前十的開源大模型無(wú)一例外,全部是基于通義千問Qwen開源模型二創(chuàng)的變體模型。

圖片

其次,阿里巴巴通過(guò)開源等一系列積極舉措,成功構(gòu)建起一個(gè)豐富且活躍的大模型生態(tài)。

阿里不僅將開源進(jìn)行到底,更向大模型公司提供了全方位的服務(wù)支持,其中包括算力資源以及開發(fā)工具等,阿里云已成為中國(guó)大模型領(lǐng)域的公共AI算力底座。

截至2025年2月中旬,阿里魔搭社區(qū)ModelScope的模型總量已超4萬(wàn)個(gè),服務(wù)超1000萬(wàn)開發(fā)者。

那么通義千問Qwen團(tuán)隊(duì)下一步要干啥?

期待聽到您的反饋,并看到您使用Qwen2.5-Omni開發(fā)的創(chuàng)新應(yīng)用。

在不久的將來(lái),將著力增強(qiáng)模型對(duì)語(yǔ)音指令的遵循能力,并提升音視頻協(xié)同理解能力。還將持續(xù)拓展多模態(tài)能力邊界,發(fā)展全面的通用模型。

圖片

感興趣的友友不如一起來(lái)上手試試吧~

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo體驗(yàn):https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2023-10-09 12:36:58

2023-08-28 00:50:14

模型開源

2025-03-27 09:40:59

2023-06-16 14:10:45

開源人工智能

2021-10-20 22:17:04

大數(shù)據(jù)AI

2014-06-04 13:36:20

Swift蘋果iOS

2015-09-28 15:17:17

Cocos開發(fā)者

2024-06-11 14:30:18

2024-08-13 15:40:00

2024-05-14 07:20:49

模型AI

2024-10-25 09:48:34

2020-03-12 12:31:01

開源谷歌量子AI

2024-03-25 08:00:00

2009-04-02 08:28:17

2014-02-12 16:19:20

開源CocoaChinacocos2d-x

2010-10-09 09:31:05

Windows Pho

2015-11-06 14:24:08

阿里大魚通信

2023-08-03 19:11:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)