阿里Qwen家族又添猛將!Qwen2.5-Omni能看能聽能說能寫,性能超越Gemini,視頻實時互動
Hi,這里是Aitrainee,歡迎閱讀本期新文章。
阿里 Qwen 家族添新?。篞wen2.5-Omni,一個真正的“Omni”全能模型。
這款新模型號稱能看、能聽、能說、能寫,還能實時響應。文本、圖片、音頻、視頻,一個模型全搞定。
自家 Qwen Chat 也用上了,還能語音、視頻直接聊,跟真人似的。
體驗地址:???https://chat.qwen.ai/??
社區(qū)也熱贊,雖然也有人說離 GPT 還差點,但這波開源全能操作確實很頂。
更重要的是,團隊把 Qwen2.5-Omni-7B 開源了,用的 Apache 2.0 協(xié)議。
技術報告也一起發(fā)了,里面細節(jié)都有。
現(xiàn)在開發(fā)者和企業(yè)可以免費下載商用,手機這種端側智能硬件也能輕松部
署運行。
想深入了解的,各種傳送門都準備好了:
- 論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
- 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
- GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
- Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
Github里面的部署教程很詳細,很容易上手。
官方放了不少 Qwen2.5-Omni 在真實場景里的 demo,挺有意思。
它現(xiàn)在有四個聲音可選:說話帶停頓語氣,聽著挺自然。
能干啥呢?
廚房幫手:你拿著食材問它咋做,或者讓它看看廚房有啥調料推薦用法,它能實時分析給建議。對廚房小白挺友好。
音樂點評:放段音樂給它聽,它能判斷風格、調性,還能對原創(chuàng)歌曲的詞、節(jié)奏給點意見。
繪畫參謀:看到草圖,它能理解畫的啥,還能給構圖提建議。
戶外觀察/學習輔助:還能判斷天氣、輔助解題、讀論文。多模態(tài)能力確實通用。
性能跑分這塊,Qwen2.5-Omni 表現(xiàn)咋樣?
在需要同時處理多種信息的任務上 (比如 OmniBench)。Qwen2.5-Omni 直接登頂 SOTA,拿了 56.13%,把第二名 Gemini 1.5 Pro 的 42.91% 甩開不少。
單項能力也沒落下,看官方列出來的:語音識別、翻譯、音頻理解、圖像推理、視頻理解、語音合成…… 都很擅長。
柱狀圖擺在那兒,對比看得很清楚,藍色條(Qwen2.5-Omni)在大部分項目上都頂在前面:
那它是怎么做到這么“全能”的?
Qwen2.5-Omni 用了一套自研的“Thinker-Talker”雙核架構。可以把它想象成大腦和嘴巴協(xié)同工作。
“Thinker” 模塊,就像是大腦。
它負責接收和處理各種輸入,比如文字、聲音、圖像、視頻。它的任務是理解這些信息的深層含義,并生成相應的文本內容。技術上,它基于 Transformer 解碼器,并融合了專門的音頻和圖像編碼器來提取特征。它會共享整個對話的上下文信息,形成一個統(tǒng)一的模型結構。
“Talker” 模塊,則像是嘴巴。
它從 “Thinker” 那里實時接收理解好的語義信息和文本,然后流暢地合成語音輸出。它用的是一種雙軌 Transformer 解碼器設計,能直接利用 “Thinker” 輸出的高維信息,讓語音合成更自然。
網友們催更移動版上線。
估計很多人都想使用實時視頻,畢竟電腦使用不太方便。
也有考慮和硬件結合,app開發(fā)的。
官方也說了,后面還有更強的版本在路上,輸出圖片、視頻、音樂啥的,可以期待下。
本文轉載自??AI進修生??,作者:Aitrainee
