出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
Qwen Chat上新實(shí)時(shí)語音聊天 + 視頻聊天了!
可以像打電話或視頻通話一樣與AI進(jìn)行聊天,Qwen也有自己的Her了。
更更重要的是,一向大方開源的千問,直接開源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 許可),并發(fā)布了詳細(xì)的技術(shù)報(bào)告!
做了OpenAI應(yīng)該干的事!
Qwen Chat:https://chat.qwenlm.ai
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
目前每天有10次體驗(yàn)機(jī)會(huì):
圖片
圖片
Qwen2.5-Omni-7B模型,它是一個(gè) Omni(全能)模型。簡(jiǎn)單說,就是一個(gè)模型能同時(shí)理解 文本、音頻、圖像、視頻多種輸入,并且能輸出文本和音頻。
與類似規(guī)模的單模態(tài)模型和封閉源模型(如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro)相比,Qwen2.5-Omni 在所有模態(tài)上都表現(xiàn)出強(qiáng)勁的性能。
圖片
我們看一下官方Demo案例,感受下Qwen2.5-Omni-7B的強(qiáng)大。
Qwen2.5-Omni-7B可以成為繪畫搭子,不僅成功識(shí)別了小姐姐正在畫的吉他和毛絨熊,還能給出一些建議,提出可以畫一個(gè)正在彈吉他的熊,讓畫面更加有趣:
而且,AI還可以聆聽團(tuán)隊(duì)成員的自我介紹,并在結(jié)束后回答“聽力問題”,成功對(duì)應(yīng)了特定成員的研究方向,并且還有記憶能力,可以回憶成員有沒有戴眼鏡等等:
目前Qwen提供了四款音色,分別是三個(gè)女聲,和一款男聲。
圖片
評(píng)論區(qū)網(wǎng)友對(duì)千問的更新表達(dá)了驚喜,因?yàn)镼wen2.5-Omni-7B的開源,這周的模型發(fā)布變得更激烈、更精彩了。
圖片
圖片
也有網(wǎng)友認(rèn)為,提供“虛擬女友”的音色,不符合千問通用模型的“人設(shè)”。
圖片
有網(wǎng)友在一手體驗(yàn)后,感覺功能復(fù)雜,雖然有娛樂性,但從技術(shù)上看沒有做到極致,因此需要繼續(xù)努力。
圖片
核心架構(gòu):Thinker-Talker,從思考到交流
Qwen2.5-Omni 采用 Thinker-Talker 架構(gòu)。Thinker 的功能類似大腦,負(fù)責(zé)處理和理解來自文本、音頻和視頻模式的輸入,生成高級(jí)表示和相應(yīng)的文本。
Talker 的功能就像人的嘴巴,以流式方式接收由 Thinker 生成的高級(jí)表征和文本,并流暢地輸出離散的語音標(biāo)記。思考者是一個(gè)變形解碼器,并配有音頻和圖像編碼器,以方便信息提取。相比之下,Talker 被設(shè)計(jì)為雙軌自回歸變換解碼器架構(gòu)。
在訓(xùn)練和推理過程中,Talker 直接從 Thinker 接收高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)具有凝聚力的單一模型運(yùn)行,實(shí)現(xiàn)了端到端的訓(xùn)練和推理。
圖片