自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="ztyqs"><rt id="ztyqs"></rt></blockquote>

<sub id="ztyqs"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

「交交」媲美GPT-4o！上海交大推出口語對(duì)話情感大模型，首個(gè)純學(xué)術(shù)界自研！

作者：機(jī)器之心 2025-04-16 08:40:00

人工智能新聞

“交交” 由上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室傾力打造，它不僅是一個(gè)智能語音助手，更是一個(gè)多說話人、多語言、多角色、多情感的全能對(duì)話伙伴。

智能語音交互領(lǐng)域，學(xué)術(shù)研究也能如此酷炫。全球首個(gè)純學(xué)術(shù)界自研的支持多人實(shí)時(shí)口語對(duì)話的語音情感大模型 ——“交交”，正式推出！

“交交” 由上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室傾力打造，它不僅是一個(gè)智能語音助手，更是一個(gè)多說話人、多語言、多角色、多情感的全能對(duì)話伙伴。

核心亮點(diǎn)

上海交通大學(xué)此次推出的 “交交” 口語對(duì)話情感大模型，除了在對(duì)話上下文內(nèi)容上的強(qiáng)大理解和知識(shí)問答能力，還同時(shí)具備多人對(duì)話與身份辨識(shí)，多語種和方言感知，角色切換與實(shí)時(shí)模仿，情感實(shí)時(shí)理解和表達(dá)等多項(xiàng)能力。這在目前已知發(fā)布的語音對(duì)話大模型中，尚屬首次。

1. 多人對(duì)話，無縫切換

無論是家庭聚會(huì)、團(tuán)隊(duì)會(huì)議，還是朋友閑聊，“交交” 都能同時(shí)與多位用戶進(jìn)行自然流暢的對(duì)話。它能精準(zhǔn)識(shí)別每個(gè)人身份，各自的發(fā)言內(nèi)容，并給出個(gè)性化的回應(yīng)。還能準(zhǔn)確地進(jìn)行總結(jié)，讓對(duì)話更加生動(dòng)高效。

視頻 1：上海交通大學(xué)校慶主題對(duì)話示例

視頻 2：會(huì)議場(chǎng)景 5 人多輪對(duì)話示例

2. 語通五洲，方言無礙

“交交” 現(xiàn)已支持漢語、英語、日語和法語四大主流語言，讓您無論身處何地都能用最熟悉的語言與模型進(jìn)行互動(dòng)。不僅如此，“交交” 具備跨語言回復(fù)能力，無論提問和回復(fù)采用同一種語言還是不同語言，都能輕松打破溝通壁壘，實(shí)現(xiàn)無縫交流。

針對(duì)中文，“交交” 進(jìn)行了特殊優(yōu)化，擁有強(qiáng)大的中文方言識(shí)別與理解能力。不論是四川話、山東話，還是其他地方特色方言，均可精準(zhǔn)捕捉語意，讓對(duì)話更加親切自然，貼近您的生活語言習(xí)慣。

視頻 3：中英日法對(duì)話示例

視頻 4：四川話、山東話對(duì)話示例

3. 角色百變，情感豐富

“交交” 不僅能回答問題，還能根據(jù)對(duì)話內(nèi)容和場(chǎng)景理解用戶的情緒，同時(shí)生成富有情感的回應(yīng)。無論是幽默調(diào)侃、暖心安慰，還是專業(yè)建議，它都能恰到好處地表達(dá)?！敖唤弧?不僅能模仿多個(gè)角色的聲音，還能實(shí)時(shí)學(xué)習(xí)并模仿用戶本人的聲音。無論是角色扮演、故事講述，還是個(gè)性化互動(dòng)，它都能輕松駕馭。

視頻 5：音色實(shí)時(shí)克隆與角色扮演示例

視頻 6：情感理解與表達(dá)示例

視頻 7：豐富情感表達(dá)示例

4. 知識(shí)問答，無所不知

“交交” 不僅是一個(gè)對(duì)話伙伴，更是一個(gè)知識(shí)寶庫。無論是古詩詞背誦、科學(xué)原理講解，還是文學(xué)名著解讀，它都能信手拈來。結(jié)合超長上下文理解能力，無論是小學(xué)生的學(xué)習(xí)輔導(dǎo)，還是高中生的知識(shí)擴(kuò)展，甚至是研究生的科研探索，交交都能滿足您的求知欲。

視頻 8：常見知識(shí)問答示例

視頻 9：唐代歷史主題多輪問答示例

技術(shù)突破

圖 1： “交交” 口語對(duì)話情感大模型技術(shù)框架

1. 端到端語音對(duì)話

采用魯棒的音頻編碼器，具有良好的抗噪能力和多人理解能力的同時(shí)，將音頻輸入流式編碼器得到離散序列，并對(duì)齊到文本序列空間。無需大規(guī)模高質(zhì)量數(shù)據(jù)微調(diào)，即可最大限度保持和利用文本大模型的基礎(chǔ)泛化能力做到實(shí)時(shí)知識(shí)問答。

2. 多語言理解與生成

基于創(chuàng)新的跨模態(tài)對(duì)齊機(jī)制，將多語言語音信號(hào)與對(duì)應(yīng)文本在特征空間實(shí)現(xiàn)精準(zhǔn)映射，同時(shí)通過隱式表征學(xué)習(xí)保留語言特異性信息，結(jié)合深度語言模型的上下文建模能力，實(shí)現(xiàn)跨語言場(chǎng)景下的無縫切換與高效語義理解。

3. 多人對(duì)話建模

我們通過構(gòu)造多人對(duì)話數(shù)據(jù)，模擬家庭聚會(huì)、團(tuán)隊(duì)會(huì)議等真實(shí)場(chǎng)景，增強(qiáng)模型的對(duì)話處理能力。利用端到端模型融合上下文信息，生成個(gè)性化的響應(yīng)和總結(jié)，實(shí)現(xiàn)自然且連貫的多方互動(dòng)。

4. 情感理解與表達(dá)

基于上下文信息，利用思維鏈技術(shù)生成符合對(duì)話場(chǎng)景的情感全局表征，用于生動(dòng)的情感語音回復(fù)生成，提升對(duì)話交流的真實(shí)感。

5. 實(shí)時(shí)音色克隆與切換

提供高保真聲音模仿技術(shù)，通過思維鏈技術(shù)進(jìn)行控制信號(hào)推理，從而支持多角色語音扮演風(fēng)格以及與用戶自身聲音之間的實(shí)時(shí)無感切換。

6. 靈活拓展

強(qiáng)大的對(duì)齊策略，支持文本與音頻模態(tài)的任意方式拼接融合，不僅顯著提升了多模態(tài)建模的靈活性，還為集成大規(guī)模文本大模型中的多種增強(qiáng)機(jī)制（如聯(lián)網(wǎng)搜索、RAG 檢索增強(qiáng)生成等）提供了統(tǒng)一且可擴(kuò)展的接口。

基準(zhǔn)測(cè)試

在語音對(duì)話大模型的賽道上，性能指標(biāo)是衡量模型實(shí)力的關(guān)鍵。在相關(guān)測(cè)試中，“交交” 展現(xiàn)出卓越的表現(xiàn)，全面對(duì)標(biāo)業(yè)內(nèi)主流模型，部分指標(biāo)甚至已實(shí)現(xiàn)逼近甚至超越，充分驗(yàn)證了其在語音理解與交互領(lǐng)域的強(qiáng)大潛力。

1. 通用性能測(cè)試：音頻理解 + LLM 能力雙重突破

隨著大模型時(shí)代的到來，語音理解標(biāo)準(zhǔn)測(cè)試集 VoiceBench 為我們提供了一個(gè)全面評(píng)估語音對(duì)話大模型性能的重要平臺(tái)。基于 VoiceBench 英文基準(zhǔn)測(cè)試，我們對(duì)多款主流語音模型進(jìn)行了全方位的評(píng)測(cè)，涵蓋開放域問答、多選 QA、指令遵循等多個(gè)關(guān)鍵任務(wù)。

在整體評(píng)測(cè)中，“交交” 獲得了 79.05 的平均分，僅次于 OpenAI 發(fā)布的 GPT-4o 模型。與業(yè)內(nèi)領(lǐng)先的 GPT-4o-Audio 相比，我們的模型差距縮小到僅 8%，實(shí)現(xiàn)了從傳統(tǒng)模式向端到端語音交互的重大突破。

針對(duì)音頻輸入的特殊性，我們優(yōu)化算法，有效克服語義模糊問題，相較于其他端到端語音大模型，“交交” 顯著提升復(fù)雜任務(wù)表現(xiàn)（如指令跟隨，知識(shí)問答）等。使用同規(guī)模參數(shù)量與 Qwen2.5-7B 文本指令模型的差距大幅縮小，標(biāo)志著我們?cè)诙说蕉苏Z音交互理解模塊達(dá)到和文本相近的能力！

評(píng)測(cè)結(jié)果顯示，在通用知識(shí)、指令跟隨、復(fù)雜問題理解、人工智能安全層面，“交交” 都展現(xiàn)了極強(qiáng)的競(jìng)爭力，不僅全面對(duì)標(biāo)當(dāng)前主流 SOTA 模型，還在多個(gè)關(guān)鍵任務(wù)上實(shí)現(xiàn)超越.

2. 多語言測(cè)試：中英日法全面覆蓋

在 VoiceBench 的中英日法基準(zhǔn)測(cè)試中，我們的模型展現(xiàn)了極強(qiáng)的多語言處理能力，尤其是在中文、日文、法文上的表現(xiàn)均顯著優(yōu)于 Qwen2-Audio。我們的模型不僅支持多語言，還在不同語言環(huán)境下保持了穩(wěn)定的高性能表現(xiàn)，真正實(shí)現(xiàn)了 "多語言，零差異"！

3. 真機(jī)中文實(shí)測(cè)：無懼設(shè)備場(chǎng)景難題，多領(lǐng)域表現(xiàn)優(yōu)異

為了更全面地評(píng)估模型在實(shí)際場(chǎng)景中的表現(xiàn)，我們用豐富的設(shè)備錄制了中文真實(shí)數(shù)據(jù)集，涵蓋健康、人際關(guān)系、小學(xué)數(shù)學(xué)、生活常識(shí)、科學(xué)常識(shí)等多個(gè)領(lǐng)域知識(shí)的單輪問答，確保數(shù)據(jù)的復(fù)雜性、多樣性。測(cè)試結(jié)果表明，我們的模型不僅在通用任務(wù)上表現(xiàn)優(yōu)異，還在垂直領(lǐng)域展現(xiàn)了強(qiáng)大的專業(yè)能力。

4. 語義理解基準(zhǔn)測(cè)試：衡量語音理解的基石

我們對(duì) “交交” 在中英文語音識(shí)別、多語種語音識(shí)別（英語、漢語、法語、日語）及中英互譯任務(wù)上的表現(xiàn)進(jìn)行了全面評(píng)估，并與多款業(yè)界領(lǐng)先模型進(jìn)行了對(duì)比，包括 Whisper-large-v3、Qwen2.5-Omni 與 Qwen2-Audio。

4.1 語音識(shí)別任務(wù)

在英文（Librispeech）、中文（WenetSpeech）以及中英日法多語種（CommonVoice）的測(cè)試集中，“交交” 整體性能優(yōu)異，在英文和多語種識(shí)別中表現(xiàn)尤為突出，均已達(dá)到和目前 SOTA 相近的性能。
尤其在 CommonVoice 測(cè)試集中的多語言場(chǎng)景下，錯(cuò)誤率顯著低于 Whisper 和 Qwen 系列模型，展現(xiàn)出更強(qiáng)的語音理解與跨語言泛化能力。

4.2 中英互譯任務(wù)

在中→英、英→中方向的語音翻譯任務(wù)中，“交交” BLEU 值領(lǐng)先，尤其是對(duì)于英翻中，優(yōu)于 Qwen2 系列模型，顯示出良好的語義把握和翻譯一致性。

“交交” 在多語言理解與翻譯任務(wù)中表現(xiàn)出色，彰顯了我們?cè)?/span>傳統(tǒng)語音理解任務(wù)上的出色實(shí)力。

5. 延遲表現(xiàn)對(duì)比

在語音對(duì)話大模型的實(shí)際應(yīng)用中，對(duì)話延遲是影響用戶體驗(yàn)的關(guān)鍵因素之一。為了驗(yàn)證我們的模型在真實(shí)場(chǎng)景下的表現(xiàn)，我們使用同一款手機(jī)，在同一公用網(wǎng)絡(luò)環(huán)境下，對(duì)我們的模型與 GPT-4o、通義千問、喜馬拉雅、階躍星辰等主流 App 的最新版本進(jìn)行了延遲測(cè)試。測(cè)試結(jié)果顯示，我們的模型在延遲表現(xiàn)上展現(xiàn)了顯著的競(jìng)爭力。

視頻 10：語音對(duì)話大模型回復(fù)延遲測(cè)試實(shí)錄

圖 2：語音對(duì)話大模型回復(fù)延遲對(duì)比圖

團(tuán)隊(duì)介紹

“交交” 的研發(fā)團(tuán)隊(duì)來自上海交通大學(xué)計(jì)算機(jī)學(xué)院聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室（SJTU Auditory Cognition and Computational Acoustics Lab，AudioCC Lab），該實(shí)驗(yàn)室由語音對(duì)話和聽覺處理領(lǐng)域知名學(xué)者錢彥旻教授領(lǐng)導(dǎo)，專注于完整的聽覺人工智能與計(jì)算聲學(xué)領(lǐng)域的前沿研究。

團(tuán)隊(duì)集結(jié)了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團(tuán)隊(duì)，在語音、音頻、音樂及自然聲信號(hào)處理等領(lǐng)域積累了豐富的技術(shù)經(jīng)驗(yàn)。實(shí)驗(yàn)室依托國家重點(diǎn)項(xiàng)目及企業(yè)合作支持，擁有數(shù)百塊先進(jìn) GPU 計(jì)算資源，致力于解決產(chǎn)業(yè)級(jí)技術(shù)難題。

近年來，團(tuán)隊(duì)在國際頂級(jí)期刊和會(huì)議上發(fā)表了數(shù)百項(xiàng)學(xué)術(shù)成果，并在多項(xiàng)國際評(píng)測(cè)中斬獲冠軍。團(tuán)隊(duì)成員全面發(fā)展，畢業(yè)生均進(jìn)入國內(nèi)外頂級(jí)企業(yè)和研究機(jī)構(gòu)，持續(xù)推動(dòng)人工智能技術(shù)的創(chuàng)新與應(yīng)用。

“交交” 項(xiàng)目團(tuán)隊(duì)合影，從左起：孫海洋，張樂瑩，樂辰陽，錢彥旻，龔勛，李晨達(dá)，韓冰，王巍。

“交交” 項(xiàng)目團(tuán)隊(duì)合影，從左起：龔勛，樂辰陽，韓冰，李晨達(dá)，王巍，錢彥旻，孫海洋，張樂瑩。

“交交” 項(xiàng)目團(tuán)隊(duì)合影，從左起：張樂瑩，龔勛，王巍，李晨達(dá)，錢彥旻，韓冰，孫海洋，樂辰陽。

未來已來，對(duì)話無限可能！“交交” 不僅是語音助手，更是您的智能對(duì)話伙伴、知識(shí)導(dǎo)師和娛樂伙伴。它重新定義了人機(jī)交互的方式，讓對(duì)話更加自然、智能、有趣?！敖唤弧?的誕生，展現(xiàn)了在大模型時(shí)代，學(xué)術(shù)界在科技創(chuàng)新中依然具有無限的潛力。上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室用實(shí)力證明，學(xué)術(shù)研究不僅能推動(dòng)科技進(jìn)步，更能直接服務(wù)于社會(huì)，為人類生活帶來便利與樂趣。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型智能語音

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="dmdpd"></style>