阿里扔出王炸:全球首個開源全模態(tài)大模型Qwen2.5-Omni:7B搞定看聽說寫,AI越來越像人了
3 月 27 日凌晨,阿里通義千問團隊發(fā)布首個全模態(tài)大模型 Qwen2.5-Omni,直接讓AI學(xué)會“看聽說寫”,還能和你實時視頻通話對答如流。幾乎復(fù)刻了人類“接收信息-思考-表達”的全流程。也就是說,你可以和Qwen2.5-Omni實時進行音視頻通話,隨問隨答。
核心暴擊點如下:
雙核大腦:Thinker整合畫面/語音/文字,Talker秒回人聲,延遲堪比真人對話;全模態(tài)屠榜:干翻谷歌Gemini-1.5-pro,音頻生成自然度幾乎逼近真人;開源白嫖:Hugging Face/GitHub隨便下,手機都能跑,開發(fā)者可以免費商用。想象一下:未來醫(yī)生可能會用它能邊看CT邊聽患者描述,秒出診斷報告;打工人開會直接召喚AI翻譯八國語言,老板都分不清是人是機。
阿里巴巴此次的發(fā)布不僅是技術(shù)上的一大進步,更是對未來多模態(tài) AI 應(yīng)用的全新探索。
當(dāng)然,AI的終極形態(tài)不是替代人類,而是成為延伸我們感官與思維的第六器官,在安全可控的前提下釋放生產(chǎn)力,加速AI普惠。
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦