阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩! 原創(chuàng)
出品 | 51CTO技術棧(微信號:blog51cto)
Qwen Chat上新實時語音聊天 + 視頻聊天了!
可以像打電話或視頻通話一樣與AI進行聊天,Qwen也有自己的Her了。
更更重要的是,一向大方開源的千問,直接開源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 許可),并發(fā)布了詳細的技術報告!
做了OpenAI應該干的事!
Qwen Chat:?
?
GitHub:?
? https://github.com/QwenLM/Qwen2.5-Omni?
?
目前每天有10次體驗機會:
圖片
圖片
Qwen2.5-Omni-7B模型,它是一個 Omni(全能)模型。簡單說,就是一個模型能同時理解 文本、音頻、圖像、視頻多種輸入,并且能輸出文本和音頻。
與類似規(guī)模的單模態(tài)模型和封閉源模型(如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro)相比,Qwen2.5-Omni 在所有模態(tài)上都表現(xiàn)出強勁的性能。
圖片
我們看一下官方Demo案例,感受下Qwen2.5-Omni-7B的強大。
Qwen2.5-Omni-7B可以成為繪畫搭子,不僅成功識別了小姐姐正在畫的吉他和毛絨熊,還能給出一些建議,提出可以畫一個正在彈吉他的熊,讓畫面更加有趣:
而且,AI還可以聆聽團隊成員的自我介紹,并在結束后回答“聽力問題”,成功對應了特定成員的研究方向,并且還有記憶能力,可以回憶成員有沒有戴眼鏡等等:
目前Qwen提供了四款音色,分別是三個女聲,和一款男聲。
圖片
評論區(qū)網(wǎng)友對千問的更新表達了驚喜,因為Qwen2.5-Omni-7B的開源,這周的模型發(fā)布變得更激烈、更精彩了。
圖片
圖片
也有網(wǎng)友認為,提供“虛擬女友”的音色,不符合千問通用模型的“人設”。
圖片
有網(wǎng)友在一手體驗后,感覺功能復雜,雖然有娛樂性,但從技術上看沒有做到極致,因此需要繼續(xù)努力。
圖片
核心架構:Thinker-Talker,從思考到交流
Qwen2.5-Omni 采用 Thinker-Talker 架構。Thinker 的功能類似大腦,負責處理和理解來自文本、音頻和視頻模式的輸入,生成高級表示和相應的文本。
Talker 的功能就像人的嘴巴,以流式方式接收由 Thinker 生成的高級表征和文本,并流暢地輸出離散的語音標記。思考者是一個變形解碼器,并配有音頻和圖像編碼器,以方便信息提取。相比之下,Talker 被設計為雙軌自回歸變換解碼器架構。
在訓練和推理過程中,Talker 直接從 Thinker 接收高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個架構作為一個具有凝聚力的單一模型運行,實現(xiàn)了端到端的訓練和推理。
圖片
本文轉載自??51CTO技術棧??
