自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="eteob"><track id="eteob"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-7-19 14:06

瀏覽

0收藏

SOTA水準(zhǔn)的Qwen2家族又迎來了新成員！

阿里云發(fā)布并開源語音模型Qwen2-Audio。

GitHub：

??https://github.com/QwenLM/Qwen2-Audio??

論文：

??https://arxiv.org/pdf/2407.10759??

作為大規(guī)模的音頻-語言模型，Qwen2-Audio能夠接受各種音頻信號輸入，并執(zhí)行音頻分析或根據(jù)語音指令直接進(jìn)行文字響應(yīng)。

很妙的是，在Qwen2-Audio支持的語音聊天（但沒有音頻輸出）和音頻分析這兩種交互模式之間，模型可以自主判斷，并在這兩種模式之間智能地切換，無需系統(tǒng)提示。

同樣讓人驚喜的是，Qwen2-Audio模型具備分析音頻情緒的能力。當(dāng)用戶對模型說，自己馬上就要考試，總是睡不著覺的時候。Qwen2-Audio會識別用戶的焦慮情緒，并給予可行的建議。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步-AI.x社區(qū) 圖片

1.Qwen2-Audio的兩種模式：音頻分析和語音聊天

Qwen2-Audio支持兩種截然不同的模式：音頻分析和語音聊天。

這兩種模式通過其功能區(qū)分，但模型會自動判斷，用戶無需感知和進(jìn)行提示。

在音頻分析模式中，用戶可以利用Qwen2-Audio分析各種類型的音頻，包括語音、聲音、音樂或各種混合音頻形式。命令可以通過音頻或文本發(fā)出，Qwen2-Audio將自動識別音頻中的命令部分。

如下圖所示，Qwen2-Audio相應(yīng)用戶語音發(fā)出的翻譯命令，通過文字相應(yīng)完成了該任務(wù)。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步-AI.x社區(qū) 圖片

而在語音聊天模式中，用戶可以與Qwen2-Audio進(jìn)行交互，就像它是一個會話代理一樣，進(jìn)行不受限制的對話。

音頻交互是可用的，用戶可以隨時選擇切換到文本交互。例如，如果用戶輸入一個音頻片段，其中初始部分是敲擊鍵盤的聲音，隨后用戶用口語問“這是什么聲音？”，Qwen2-Audio預(yù)計將直接回應(yīng)“這是鍵盤的聲音?！?/p>

即使在較為嘈雜的環(huán)境，例如用戶一邊聽歌，一邊發(fā)出指令，讓模型提取出歌詞內(nèi)容。Qwen2-Audio也能有較好的表現(xiàn)。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步-AI.x社區(qū) 圖片

從論文中看，Qwen2-Audio在沒有特定任務(wù)微調(diào)的情況下，超越了之前的大型音頻-語言模型（LALMs），涵蓋了多種任務(wù)。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步-AI.x社區(qū) 圖片

2.Qwen2-Audio是如何煉成的？

與Qwen-Audio不同的是，Qwen2-Audio的音頻編碼器基于Whisperlarge-v3模型初始化，負(fù)責(zé)將音頻信號轉(zhuǎn)換為模型可以理解的表示。

Qwen2-Audio使用了Qwen-7B作為其基礎(chǔ)組件，模型總參數(shù)量為82億。

在訓(xùn)練素材上，Qwen2-Audio使用了多個數(shù)據(jù)集。

在對音頻數(shù)據(jù)進(jìn)行預(yù)處理的階段，音頻被重新采樣到16 kHz的頻率，使用25ms的窗口大小和10ms的跳躍大小將原始波形轉(zhuǎn)換為128通道的mel-頻譜圖。

此外，還加入了一個步幅為2的池化層，以減少音頻表示的長度。最終，編碼器輸出的每一幀近似對應(yīng)于原始音頻信號的40 ms段。

整個Qwen2-Audio分為三個階段：

第一階段：多任務(wù)預(yù)訓(xùn)練，使用自然語言提示和大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。
第二階段：監(jiān)督微調(diào)，通過高質(zhì)量的SFT數(shù)據(jù)集進(jìn)行微調(diào)，提高模型對人類指令的理解和響應(yīng)能力。
第三階段：直接偏好優(yōu)化，通過DPO進(jìn)一步優(yōu)化模型，使其輸出更符合人類的偏好。

3.寫在最后

Qwen2-Audio雖然很優(yōu)秀，但遺憾在沒有涉及語音輸出。而無論是語音助手、情感陪伴還是更遠(yuǎn)的具身智能，都迫切需要點(diǎn)亮這棵技能樹。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步-AI.x社區(qū) 圖片

Sora的橫空出世，已經(jīng)肉眼可見地催熟了文生視頻的模型技術(shù)。

下一個值得關(guān)注的模態(tài)，似乎正瞄準(zhǔn)了GPT-4o，瞄準(zhǔn)了語音交互。

根據(jù)專家預(yù)測，AI語音交互技術(shù)將在今年年底發(fā)展到基本成熟。

快手憑借可靈獲得了一片叫好，那么，語音界令我們驚艷的國產(chǎn)模型，又將花落誰家？

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 2524瀏覽 ? 0回復(fù)
重大新聞（lmsys.org）：Gemini 1.5 Flash/Advanced逼近GPT-4o，排名第二！

PaperAgent ? 3574瀏覽 ? 0回復(fù)
GPT-4o背后可能的語音技術(shù)

魚蟲子 ? 2820瀏覽 ? 0回復(fù)
GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

angel ? 2147瀏覽 ? 0回復(fù)
超越GPT-4o，Claude 3.5一夜封王！10倍編碼速度逆天，全網(wǎng)最全實測來了

duhorse ? 3956瀏覽 ? 0回復(fù)
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2128瀏覽 ? 0回復(fù)
87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動評估模型FLAMe

duhorse ? 2012瀏覽 ? 0回復(fù)
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 2381瀏覽 ? 0回復(fù)
阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Aceryt ? 3019瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2085瀏覽 ? 0回復(fù)
Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 9209瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3961瀏覽 ? 0回復(fù)
超Gemini-1.5-pro 9.5%！字節(jié)&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 2091瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 5635瀏覽 ? 0回復(fù)
微軟開源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 1929瀏覽 ? 0回復(fù)
視覺文本語音強(qiáng)強(qiáng)聯(lián)合！南大&騰訊優(yōu)圖發(fā)布GPT-4o級別的實時視覺語音交互——VITA1.5

angel ? 2033瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測試中超越了 GPT-4o

Halo咯咯 ? 1.0w瀏覽 ? 0回復(fù)
谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂第一，適合編碼、處理復(fù)雜提示！

老蛀蟲 ? 2167瀏覽 ? 0回復(fù)
阿里版“Her”上線即開源！7B模型太全能了，全面擊敗Gemini-1.5-pro！所有用戶都能試玩！

51CTO技術(shù)棧 ? 1102瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： AI PC真值得入手？84%電腦發(fā)燒友拒絕買單：AI助手成了PDF加載的絆腳石！網(wǎng)友：真不僅僅是性能原因

下一篇：中國有望使用最強(qiáng)Blackwell架構(gòu)！英偉達(dá)拼了！突破拜登政府芯片出口限制，為中國定制旗艦版B20!

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="vgw1z"></blockquote>}

<sub id="vgw1z"><i id="vgw1z"></i></sub>