自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動

發(fā)布于 2025-3-28 10:07
瀏覽
0收藏

Hi,這里是Aitrainee,歡迎閱讀本期新文章。

阿里 Qwen 家族添新?。篞wen2.5-Omni,一個真正的“Omni”全能模型。

這款新模型號稱能看、能聽、能說、能寫,還能實時響應。文本、圖片、音頻、視頻,一個模型全搞定。

自家 Qwen Chat 也用上了,還能語音、視頻直接聊,跟真人似的。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

體驗地址:???https://chat.qwen.ai/??

社區(qū)也熱贊,雖然也有人說離 GPT 還差點,但這波開源全能操作確實很頂。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)


更重要的是,團隊把 Qwen2.5-Omni-7B 開源了,用的 Apache 2.0 協(xié)議。

技術報告也一起發(fā)了,里面細節(jié)都有。

現(xiàn)在開發(fā)者和企業(yè)可以免費下載商用,手機這種端側智能硬件也能輕松部

署運行。

想深入了解的,各種傳送門都準備好了:

  • 論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

Github里面的部署教程很詳細,很容易上手。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)


官方放了不少 Qwen2.5-Omni 在真實場景里的 demo,挺有意思。

它現(xiàn)在有四個聲音可選:說話帶停頓語氣,聽著挺自然。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

能干啥呢?

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

廚房幫手:你拿著食材問它咋做,或者讓它看看廚房有啥調料推薦用法,它能實時分析給建議。對廚房小白挺友好。

音樂點評:放段音樂給它聽,它能判斷風格、調性,還能對原創(chuàng)歌曲的詞、節(jié)奏給點意見。

繪畫參謀:看到草圖,它能理解畫的啥,還能給構圖提建議。

戶外觀察/學習輔助:還能判斷天氣、輔助解題、讀論文。多模態(tài)能力確實通用。


性能跑分這塊,Qwen2.5-Omni 表現(xiàn)咋樣?

在需要同時處理多種信息的任務上 (比如 OmniBench)。Qwen2.5-Omni 直接登頂 SOTA,拿了 56.13%,把第二名 Gemini 1.5 Pro 的 42.91% 甩開不少。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

單項能力也沒落下,看官方列出來的:語音識別、翻譯、音頻理解、圖像推理、視頻理解、語音合成…… 都很擅長。

柱狀圖擺在那兒,對比看得很清楚,藍色條(Qwen2.5-Omni)在大部分項目上都頂在前面:

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)


那它是怎么做到這么“全能”的?

Qwen2.5-Omni 用了一套自研的“Thinker-Talker”雙核架構。可以把它想象成大腦和嘴巴協(xié)同工作。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

“Thinker” 模塊,就像是大腦。

它負責接收和處理各種輸入,比如文字、聲音、圖像、視頻。它的任務是理解這些信息的深層含義,并生成相應的文本內容。技術上,它基于 Transformer 解碼器,并融合了專門的音頻和圖像編碼器來提取特征。它會共享整個對話的上下文信息,形成一個統(tǒng)一的模型結構。

“Talker” 模塊,則像是嘴巴。

它從 “Thinker” 那里實時接收理解好的語義信息和文本,然后流暢地合成語音輸出。它用的是一種雙軌 Transformer 解碼器設計,能直接利用 “Thinker” 輸出的高維信息,讓語音合成更自然。

網友們催更移動版上線。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

估計很多人都想使用實時視頻,畢竟電腦使用不太方便。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

也有考慮和硬件結合,app開發(fā)的。

阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動-AI.x社區(qū)

官方也說了,后面還有更強的版本在路上,輸出圖片、視頻、音樂啥的,可以期待下。

本文轉載自??AI進修生??,作者:Aitrainee


收藏
回復
舉報
回復
相關推薦