自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

登頂新SOTA！阿里新開(kāi)源語(yǔ)音模型Qwen2-Audio ，實(shí)測(cè)優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步

原創(chuàng) 精選

2024-07-19 14:08:02

很妙的是，在Qwen2-Audio支持的語(yǔ)音聊天（但沒(méi)有音頻輸出）和音頻分析這兩種交互模式之間，模型可以自主判斷，并在這兩種模式之間智能地切換，無(wú)需系統(tǒng)提示。

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

SOTA水準(zhǔn)的Qwen2家族又迎來(lái)了新成員！

阿里云發(fā)布并開(kāi)源語(yǔ)音模型Qwen2-Audio。

GitHub：

https://github.com/QwenLM/Qwen2-Audio

論文：

https://arxiv.org/pdf/2407.10759

作為大規(guī)模的音頻-語(yǔ)言模型，Qwen2-Audio能夠接受各種音頻信號(hào)輸入，并執(zhí)行音頻分析或根據(jù)語(yǔ)音指令直接進(jìn)行文字響應(yīng)。

很妙的是，在Qwen2-Audio支持的語(yǔ)音聊天（但沒(méi)有音頻輸出）和音頻分析這兩種交互模式之間，模型可以自主判斷，并在這兩種模式之間智能地切換，無(wú)需系統(tǒng)提示。

同樣讓人驚喜的是，Qwen2-Audio模型具備分析音頻情緒的能力。當(dāng)用戶對(duì)模型說(shuō)，自己馬上就要考試，總是睡不著覺(jué)的時(shí)候。Qwen2-Audio會(huì)識(shí)別用戶的焦慮情緒，并給予可行的建議。

圖片

1.Qwen2-Audio的兩種模式：音頻分析和語(yǔ)音聊天

Qwen2-Audio支持兩種截然不同的模式：音頻分析和語(yǔ)音聊天。

這兩種模式通過(guò)其功能區(qū)分，但模型會(huì)自動(dòng)判斷，用戶無(wú)需感知和進(jìn)行提示。

在音頻分析模式中，用戶可以利用Qwen2-Audio分析各種類型的音頻，包括語(yǔ)音、聲音、音樂(lè)或各種混合音頻形式。命令可以通過(guò)音頻或文本發(fā)出，Qwen2-Audio將自動(dòng)識(shí)別音頻中的命令部分。

如下圖所示，Qwen2-Audio相應(yīng)用戶語(yǔ)音發(fā)出的翻譯命令，通過(guò)文字相應(yīng)完成了該任務(wù)。

圖片

而在語(yǔ)音聊天模式中，用戶可以與Qwen2-Audio進(jìn)行交互，就像它是一個(gè)會(huì)話代理一樣，進(jìn)行不受限制的對(duì)話。

音頻交互是可用的，用戶可以隨時(shí)選擇切換到文本交互。例如，如果用戶輸入一個(gè)音頻片段，其中初始部分是敲擊鍵盤(pán)的聲音，隨后用戶用口語(yǔ)問(wèn)“這是什么聲音？”，Qwen2-Audio預(yù)計(jì)將直接回應(yīng)“這是鍵盤(pán)的聲音。”

即使在較為嘈雜的環(huán)境，例如用戶一邊聽(tīng)歌，一邊發(fā)出指令，讓模型提取出歌詞內(nèi)容。Qwen2-Audio也能有較好的表現(xiàn)。

圖片

從論文中看，Qwen2-Audio在沒(méi)有特定任務(wù)微調(diào)的情況下，超越了之前的大型音頻-語(yǔ)言模型（LALMs），涵蓋了多種任務(wù)。

圖片

2.Qwen2-Audio是如何煉成的？

與Qwen-Audio不同的是，Qwen2-Audio的音頻編碼器基于Whisperlarge-v3模型初始化，負(fù)責(zé)將音頻信號(hào)轉(zhuǎn)換為模型可以理解的表示。

Qwen2-Audio使用了Qwen-7B作為其基礎(chǔ)組件，模型總參數(shù)量為82億。

在訓(xùn)練素材上，Qwen2-Audio使用了多個(gè)數(shù)據(jù)集。

在對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理的階段，音頻被重新采樣到16 kHz的頻率，使用25ms的窗口大小和10ms的跳躍大小將原始波形轉(zhuǎn)換為128通道的mel-頻譜圖。

此外，還加入了一個(gè)步幅為2的池化層，以減少音頻表示的長(zhǎng)度。最終，編碼器輸出的每一幀近似對(duì)應(yīng)于原始音頻信號(hào)的40 ms段。

整個(gè)Qwen2-Audio分為三個(gè)階段：

第一階段：多任務(wù)預(yù)訓(xùn)練，使用自然語(yǔ)言提示和大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。
第二階段：監(jiān)督微調(diào)，通過(guò)高質(zhì)量的SFT數(shù)據(jù)集進(jìn)行微調(diào)，提高模型對(duì)人類指令的理解和響應(yīng)能力。
第三階段：直接偏好優(yōu)化，通過(guò)DPO進(jìn)一步優(yōu)化模型，使其輸出更符合人類的偏好。

3.寫(xiě)在最后

Qwen2-Audio雖然很優(yōu)秀，但遺憾在沒(méi)有涉及語(yǔ)音輸出。而無(wú)論是語(yǔ)音助手、情感陪伴還是更遠(yuǎn)的具身智能，都迫切需要點(diǎn)亮這棵技能樹(shù)。

圖片

Sora的橫空出世，已經(jīng)肉眼可見(jiàn)地催熟了文生視頻的模型技術(shù)。

下一個(gè)值得關(guān)注的模態(tài)，似乎正瞄準(zhǔn)了GPT-4o，瞄準(zhǔn)了語(yǔ)音交互。

根據(jù)專家預(yù)測(cè)，AI語(yǔ)音交互技術(shù)將在今年年底發(fā)展到基本成熟。

快手憑借可靈獲得了一片叫好，那么，語(yǔ)音界令我們驚艷的國(guó)產(chǎn)模型，又將花落誰(shuí)家？

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問(wèn)：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

SOTA GPT-4o 語(yǔ)音

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="9r1hi"><strike id="9r1hi"></strike></p>