自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里深夜開源Qwen2.5-Omni,7B參數(shù)完成看、聽、說、寫

人工智能 新聞
這是 Qwen 系列中全新的旗艦級多模態(tài)大模型,專為全面的多模式感知設(shè)計,可以無縫處理包括文本、圖像、音頻和視頻的各種輸入,同時支持流式的文本生成和自然語音合成輸出。

3 月 27 日凌晨,阿里通義千問團隊發(fā)布 Qwen2.5-Omni。

2025-03-27_070702.png

這是 Qwen 系列中全新的旗艦級多模態(tài)大模型,專為全面的多模式感知設(shè)計,可以無縫處理包括文本、圖像、音頻和視頻的各種輸入,同時支持流式的文本生成和自然語音合成輸出。

image.png


從此以后,你可以像打電話或進行視頻通話一樣與 Qwen 聊天!可以說是「語音聊天 + 視頻聊天」都實現(xiàn)了。

圖片

體驗地址:https://chat.qwen.ai/

更重要的是,團隊人員將支持這一切的模型 Qwen2.5-Omni-7B 開源了,采用 Apache 2.0 許可證,并且發(fā)布了技術(shù)報告,分享所有細節(jié)!

現(xiàn)在,開發(fā)者和企業(yè)可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕松部署運行。

image.png


  • 論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有網(wǎng)友表示,這才是真正的 Open AI。

image.png

大家可以通過官方 demo 感受一下 Qwen2.5-Omni 真實表現(xiàn)。

Qwen2.5-Omni 模型架構(gòu)

Qwen2.5-Omni 具有以下特點:

  • Omni 和創(chuàng)新架構(gòu):團隊提出了 Thinker-Talker 架構(gòu),這是一個端到端的多模態(tài)模型,旨在感知包括文本、圖像、音頻和視頻在內(nèi)的多種模態(tài),同時以流式方式生成文本和自然語音響應(yīng)。此外,團隊還提出了一種名為 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步視頻輸入與音頻的時間戳;
  • 實時語音和視頻聊天:該架構(gòu)專為完全實時交互而設(shè)計,支持分塊輸入和即時輸出;
  • 自然且穩(wěn)健的語音生成:在語音生成方面,Qwen2.5-Omni 超越了許多現(xiàn)有的流式和非流式替代方案,展現(xiàn)出卓越的穩(wěn)健性和自然性;
  • 多模態(tài)性能強勁:在與同樣大小的單模態(tài)模型進行基準測試時,Qwen2.5-Omni 在所有模態(tài)上均展現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上超越了同樣大小的 Qwen2-Audio,并且達到了與 Qwen2.5-VL-7B 相當?shù)男阅埽?/span>
  • 出色的端到端語音指令遵循能力:Qwen2.5-Omni 在端到端語音指令遵循方面的表現(xiàn)可與文本輸入的有效性相媲美,這一點在 MMLU 和 GSM8K 等基準測試中得到了證明。

前文我們已經(jīng)提到,Qwen2.5-Omni 采用了 Thinker-Talker 架構(gòu)。

Thinker 就像大腦一樣,負責處理和理解來自文本、音頻和視頻模態(tài)的輸入,生成高級表示以及對應(yīng)的文本。

Talker 則像人類的嘴巴,以流式方式接收 Thinker 產(chǎn)生的高級表示和文本,并流暢地輸出離散的語音 token。

Thinker 是一個 Transformer 解碼器,配備有音頻和圖像的編碼器,以便于提取信息。相比之下,Talker 被設(shè)計為一種雙軌自回歸 Transformer 解碼器架構(gòu)。

在訓練和推理過程中,Talker 直接接收來自 Thinker 的高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個架構(gòu)作為一個統(tǒng)一的單一模型運行,實現(xiàn)了端到端的訓練和推理。

image.png

Qwen2.5-Omni 模型架構(gòu)

模型性能

團隊人員對 Qwen2.5-Omni 進行了全面評估,結(jié)果表明,該模型在所有模態(tài)上的表現(xiàn)均優(yōu)于類似大小的單模態(tài)模型以及閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多種模態(tài)的任務(wù)中,如 OmniBench,Qwen2.5-Omni 達到了最先進的水平。

此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni 在多個領(lǐng)域中表現(xiàn)優(yōu)異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU, MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval 和 subjective naturalness)。

image.png

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-14 00:20:00

2025-03-27 10:04:36

阿里云通義千問多模態(tài)

2025-01-13 10:55:53

2025-03-25 12:11:08

2025-03-27 12:30:36

2024-03-18 07:01:42

2024-11-12 14:00:00

AI編程

2024-06-03 10:43:34

2025-01-10 11:42:40

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-03-27 13:23:39

2025-02-24 08:10:00

2023-08-28 00:50:14

模型開源

2024-08-13 15:40:00

2023-12-19 13:18:36

AI數(shù)據(jù)

2024-09-05 14:25:00

訓練代碼

2020-11-04 08:25:13

偶數(shù)B輪融資

2023-08-03 19:11:45

2024-03-25 08:00:00

2024-02-07 12:39:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號