「交交」媲美GPT-4o!上海交大推出口語對(duì)話情感大模型,首個(gè)純學(xué)術(shù)界自研!
智能語音交互領(lǐng)域,學(xué)術(shù)研究也能如此酷炫。全球首個(gè)純學(xué)術(shù)界自研的支持多人實(shí)時(shí)口語對(duì)話的語音情感大模型 ——“交交”,正式推出!
“交交” 由上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室傾力打造,它不僅是一個(gè)智能語音助手,更是一個(gè)多說話人、多語言、多角色、多情感的全能對(duì)話伙伴。
核心亮點(diǎn)
上海交通大學(xué)此次推出的 “交交” 口語對(duì)話情感大模型,除了在對(duì)話上下文內(nèi)容上的強(qiáng)大理解和知識(shí)問答能力,還同時(shí)具備多人對(duì)話與身份辨識(shí),多語種和方言感知,角色切換與實(shí)時(shí)模仿,情感實(shí)時(shí)理解和表達(dá)等多項(xiàng)能力。這在目前已知發(fā)布的語音對(duì)話大模型中,尚屬首次。
1. 多人對(duì)話,無縫切換
無論是家庭聚會(huì)、團(tuán)隊(duì)會(huì)議,還是朋友閑聊,“交交” 都能同時(shí)與多位用戶進(jìn)行自然流暢的對(duì)話。它能精準(zhǔn)識(shí)別每個(gè)人身份,各自的發(fā)言內(nèi)容,并給出個(gè)性化的回應(yīng)。還能準(zhǔn)確地進(jìn)行總結(jié),讓對(duì)話更加生動(dòng)高效。
視頻 1:上海交通大學(xué)校慶主題對(duì)話示例
視頻 2:會(huì)議場(chǎng)景 5 人多輪對(duì)話示例
2. 語通五洲,方言無礙
“交交” 現(xiàn)已支持漢語、英語、日語和法語四大主流語言,讓您無論身處何地都能用最熟悉的語言與模型進(jìn)行互動(dòng)。不僅如此,“交交” 具備跨語言回復(fù)能力,無論提問和回復(fù)采用同一種語言還是不同語言,都能輕松打破溝通壁壘,實(shí)現(xiàn)無縫交流。
針對(duì)中文,“交交” 進(jìn)行了特殊優(yōu)化,擁有強(qiáng)大的中文方言識(shí)別與理解能力。不論是四川話、山東話,還是其他地方特色方言,均可精準(zhǔn)捕捉語意,讓對(duì)話更加親切自然,貼近您的生活語言習(xí)慣。
視頻 3:中英日法對(duì)話示例
視頻 4:四川話、山東話對(duì)話示例
3. 角色百變,情感豐富
“交交” 不僅能回答問題,還能根據(jù)對(duì)話內(nèi)容和場(chǎng)景理解用戶的情緒,同時(shí)生成富有情感的回應(yīng)。無論是幽默調(diào)侃、暖心安慰,還是專業(yè)建議,它都能恰到好處地表達(dá)?!敖唤弧?不僅能模仿多個(gè)角色的聲音,還能實(shí)時(shí)學(xué)習(xí)并模仿用戶本人的聲音。無論是角色扮演、故事講述,還是個(gè)性化互動(dòng),它都能輕松駕馭。
視頻 5:音色實(shí)時(shí)克隆與角色扮演示例
視頻 6:情感理解與表達(dá)示例
視頻 7:豐富情感表達(dá)示例
4. 知識(shí)問答,無所不知
“交交” 不僅是一個(gè)對(duì)話伙伴,更是一個(gè)知識(shí)寶庫。無論是古詩詞背誦、科學(xué)原理講解,還是文學(xué)名著解讀,它都能信手拈來。結(jié)合超長上下文理解能力,無論是小學(xué)生的學(xué)習(xí)輔導(dǎo),還是高中生的知識(shí)擴(kuò)展,甚至是研究生的科研探索,交交都能滿足您的求知欲。
視頻 8:常見知識(shí)問答示例
視頻 9:唐代歷史主題多輪問答示例
技術(shù)突破
圖 1: “交交” 口語對(duì)話情感大模型技術(shù)框架
1. 端到端語音對(duì)話
采用魯棒的音頻編碼器,具有良好的抗噪能力和多人理解能力的同時(shí),將音頻輸入流式編碼器得到離散序列,并對(duì)齊到文本序列空間。無需大規(guī)模高質(zhì)量數(shù)據(jù)微調(diào),即可最大限度保持和利用文本大模型的基礎(chǔ)泛化能力做到實(shí)時(shí)知識(shí)問答。
2. 多語言理解與生成
基于創(chuàng)新的跨模態(tài)對(duì)齊機(jī)制,將多語言語音信號(hào)與對(duì)應(yīng)文本在特征空間實(shí)現(xiàn)精準(zhǔn)映射,同時(shí)通過隱式表征學(xué)習(xí)保留語言特異性信息,結(jié)合深度語言模型的上下文建模能力,實(shí)現(xiàn)跨語言場(chǎng)景下的無縫切換與高效語義理解。
3. 多人對(duì)話建模
我們通過構(gòu)造多人對(duì)話數(shù)據(jù),模擬家庭聚會(huì)、團(tuán)隊(duì)會(huì)議等真實(shí)場(chǎng)景,增強(qiáng)模型的對(duì)話處理能力。利用端到端模型融合上下文信息,生成個(gè)性化的響應(yīng)和總結(jié),實(shí)現(xiàn)自然且連貫的多方互動(dòng)。
4. 情感理解與表達(dá)
基于上下文信息,利用思維鏈技術(shù)生成符合對(duì)話場(chǎng)景的情感全局表征,用于生動(dòng)的情感語音回復(fù)生成,提升對(duì)話交流的真實(shí)感。
5. 實(shí)時(shí)音色克隆與切換
提供高保真聲音模仿技術(shù),通過思維鏈技術(shù)進(jìn)行控制信號(hào)推理,從而支持多角色語音扮演風(fēng)格以及與用戶自身聲音之間的實(shí)時(shí)無感切換。
6. 靈活拓展
強(qiáng)大的對(duì)齊策略,支持文本與音頻模態(tài)的任意方式拼接融合,不僅顯著提升了多模態(tài)建模的靈活性,還為集成大規(guī)模文本大模型中的多種增強(qiáng)機(jī)制(如聯(lián)網(wǎng)搜索、RAG 檢索增強(qiáng)生成等)提供了統(tǒng)一且可擴(kuò)展的接口。
基準(zhǔn)測(cè)試
在語音對(duì)話大模型的賽道上,性能指標(biāo)是衡量模型實(shí)力的關(guān)鍵。在相關(guān)測(cè)試中,“交交” 展現(xiàn)出卓越的表現(xiàn),全面對(duì)標(biāo)業(yè)內(nèi)主流模型,部分指標(biāo)甚至已實(shí)現(xiàn)逼近甚至超越,充分驗(yàn)證了其在語音理解與交互領(lǐng)域的強(qiáng)大潛力。
1. 通用性能測(cè)試:音頻理解 + LLM 能力雙重突破
隨著大模型時(shí)代的到來,語音理解標(biāo)準(zhǔn)測(cè)試集 VoiceBench 為我們提供了一個(gè)全面評(píng)估語音對(duì)話大模型性能的重要平臺(tái)。基于 VoiceBench 英文基準(zhǔn)測(cè)試,我們對(duì)多款主流語音模型進(jìn)行了全方位的評(píng)測(cè),涵蓋開放域問答、多選 QA、指令遵循等多個(gè)關(guān)鍵任務(wù)。
在整體評(píng)測(cè)中,“交交” 獲得了 79.05 的平均分,僅次于 OpenAI 發(fā)布的 GPT-4o 模型。與業(yè)內(nèi)領(lǐng)先的 GPT-4o-Audio 相比,我們的模型差距縮小到僅 8%,實(shí)現(xiàn)了從傳統(tǒng)模式向端到端語音交互的重大突破。
針對(duì)音頻輸入的特殊性,我們優(yōu)化算法,有效克服語義模糊問題,相較于其他端到端語音大模型,“交交” 顯著提升復(fù)雜任務(wù)表現(xiàn)(如指令跟隨,知識(shí)問答)等。使用同規(guī)模參數(shù)量與 Qwen2.5-7B 文本指令模型的差距大幅縮小,標(biāo)志著我們?cè)诙说蕉苏Z音交互理解模塊達(dá)到和文本相近的能力!
評(píng)測(cè)結(jié)果顯示,在通用知識(shí)、指令跟隨、復(fù)雜問題理解、人工智能安全層面,“交交” 都展現(xiàn)了極強(qiáng)的競(jìng)爭力,不僅全面對(duì)標(biāo)當(dāng)前主流 SOTA 模型,還在多個(gè)關(guān)鍵任務(wù)上實(shí)現(xiàn)超越.
2. 多語言測(cè)試:中英日法全面覆蓋
在 VoiceBench 的中英日法基準(zhǔn)測(cè)試中,我們的模型展現(xiàn)了極強(qiáng)的多語言處理能力,尤其是在中文、日文、法文上的表現(xiàn)均顯著優(yōu)于 Qwen2-Audio。我們的模型不僅支持多語言,還在不同語言環(huán)境下保持了穩(wěn)定的高性能表現(xiàn),真正實(shí)現(xiàn)了 "多語言,零差異"!
3. 真機(jī)中文實(shí)測(cè):無懼設(shè)備場(chǎng)景難題,多領(lǐng)域表現(xiàn)優(yōu)異
為了更全面地評(píng)估模型在實(shí)際場(chǎng)景中的表現(xiàn),我們用豐富的設(shè)備錄制了中文真實(shí)數(shù)據(jù)集,涵蓋健康、人際關(guān)系、小學(xué)數(shù)學(xué)、生活常識(shí)、科學(xué)常識(shí)等多個(gè)領(lǐng)域知識(shí)的單輪問答,確保數(shù)據(jù)的復(fù)雜性、多樣性。測(cè)試結(jié)果表明,我們的模型不僅在通用任務(wù)上表現(xiàn)優(yōu)異,還在垂直領(lǐng)域展現(xiàn)了強(qiáng)大的專業(yè)能力。
4. 語義理解基準(zhǔn)測(cè)試:衡量語音理解的基石
我們對(duì) “交交” 在中英文語音識(shí)別、多語種語音識(shí)別(英語、漢語、法語、日語)及中英互譯任務(wù)上的表現(xiàn)進(jìn)行了全面評(píng)估,并與多款業(yè)界領(lǐng)先模型進(jìn)行了對(duì)比,包括 Whisper-large-v3、Qwen2.5-Omni 與 Qwen2-Audio。
4.1 語音識(shí)別任務(wù)
- 在英文(Librispeech)、中文(WenetSpeech)以及中英日法多語種(CommonVoice)的測(cè)試集中,“交交” 整體性能優(yōu)異,在英文和多語種識(shí)別中表現(xiàn)尤為突出,均已達(dá)到和目前 SOTA 相近的性能。
- 尤其在 CommonVoice 測(cè)試集中的多語言場(chǎng)景下,錯(cuò)誤率顯著低于 Whisper 和 Qwen 系列模型,展現(xiàn)出更強(qiáng)的語音理解與跨語言泛化能力。
4.2 中英互譯任務(wù)
- 在中→英、英→中方向的語音翻譯任務(wù)中,“交交” BLEU 值領(lǐng)先,尤其是對(duì)于英翻中,優(yōu)于 Qwen2 系列模型,顯示出良好的語義把握和翻譯一致性。
“交交” 在多語言理解與翻譯任務(wù)中表現(xiàn)出色,彰顯了我們?cè)?/span>傳統(tǒng)語音理解任務(wù)上的出色實(shí)力。
5. 延遲表現(xiàn)對(duì)比
在語音對(duì)話大模型的實(shí)際應(yīng)用中,對(duì)話延遲是影響用戶體驗(yàn)的關(guān)鍵因素之一。為了驗(yàn)證我們的模型在真實(shí)場(chǎng)景下的表現(xiàn),我們使用同一款手機(jī),在同一公用網(wǎng)絡(luò)環(huán)境下,對(duì)我們的模型與 GPT-4o、通義千問、喜馬拉雅、階躍星辰等主流 App 的最新版本進(jìn)行了延遲測(cè)試。測(cè)試結(jié)果顯示,我們的模型在延遲表現(xiàn)上展現(xiàn)了顯著的競(jìng)爭力。
視頻 10:語音對(duì)話大模型回復(fù)延遲測(cè)試實(shí)錄
圖 2:語音對(duì)話大模型回復(fù)延遲對(duì)比圖
團(tuán)隊(duì)介紹
“交交” 的研發(fā)團(tuán)隊(duì)來自上海交通大學(xué)計(jì)算機(jī)學(xué)院聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab),該實(shí)驗(yàn)室由語音對(duì)話和聽覺處理領(lǐng)域知名學(xué)者錢彥旻教授領(lǐng)導(dǎo),專注于完整的聽覺人工智能與計(jì)算聲學(xué)領(lǐng)域的前沿研究。
團(tuán)隊(duì)集結(jié)了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團(tuán)隊(duì),在語音、音頻、音樂及自然聲信號(hào)處理等領(lǐng)域積累了豐富的技術(shù)經(jīng)驗(yàn)。實(shí)驗(yàn)室依托國家重點(diǎn)項(xiàng)目及企業(yè)合作支持,擁有數(shù)百塊先進(jìn) GPU 計(jì)算資源,致力于解決產(chǎn)業(yè)級(jí)技術(shù)難題。
近年來,團(tuán)隊(duì)在國際頂級(jí)期刊和會(huì)議上發(fā)表了數(shù)百項(xiàng)學(xué)術(shù)成果,并在多項(xiàng)國際評(píng)測(cè)中斬獲冠軍。團(tuán)隊(duì)成員全面發(fā)展,畢業(yè)生均進(jìn)入國內(nèi)外頂級(jí)企業(yè)和研究機(jī)構(gòu),持續(xù)推動(dòng)人工智能技術(shù)的創(chuàng)新與應(yīng)用。
“交交” 項(xiàng)目團(tuán)隊(duì)合影,從左起:孫海洋,張樂瑩,樂辰陽,錢彥旻,龔勛,李晨達(dá),韓冰,王巍。
“交交” 項(xiàng)目團(tuán)隊(duì)合影,從左起:龔勛,樂辰陽,韓冰,李晨達(dá),王巍,錢彥旻,孫海洋,張樂瑩。
“交交” 項(xiàng)目團(tuán)隊(duì)合影,從左起:張樂瑩,龔勛,王巍,李晨達(dá),錢彥旻,韓冰,孫海洋,樂辰陽。
未來已來,對(duì)話無限可能!“交交” 不僅是語音助手,更是您的智能對(duì)話伙伴、知識(shí)導(dǎo)師和娛樂伙伴。它重新定義了人機(jī)交互的方式,讓對(duì)話更加自然、智能、有趣?!敖唤弧?的誕生,展現(xiàn)了在大模型時(shí)代,學(xué)術(shù)界在科技創(chuàng)新中依然具有無限的潛力。上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室用實(shí)力證明,學(xué)術(shù)研究不僅能推動(dòng)科技進(jìn)步,更能直接服務(wù)于社會(huì),為人類生活帶來便利與樂趣。