AI音頻核爆!Kimi開(kāi)源「六邊形戰(zhàn)神」Kimi-Audio,音頻界ChatGPT來(lái)了?
剛剛,kimi 發(fā)布全新通用音頻基礎(chǔ)模型 Kimi-Audio,這款由月之暗面(Moonshot AI)推出的開(kāi)源模型,在 24 小時(shí)內(nèi)收獲 3.2 萬(wàn)星標(biāo),不僅以 1.28% 詞錯(cuò)率刷新語(yǔ)音識(shí)別紀(jì)錄,更在情感分析、聲音事件分類(lèi)等十項(xiàng)任務(wù)中碾壓其他競(jìng)品,堪稱“六邊形戰(zhàn)士”——沒(méi)有短板,只有王炸。
傳統(tǒng)音頻模型往往專精單一任務(wù):語(yǔ)音識(shí)別、情感分析、降噪……開(kāi)發(fā)者需像拼樂(lè)高般組合多個(gè)工具。而 Kimi-Audio 的顛覆性在于,它用三層架構(gòu)統(tǒng)一了音頻處理各項(xiàng)任務(wù):
音頻分詞器: 將聲音轉(zhuǎn)化為離散語(yǔ)義token,保留聲學(xué)細(xì)節(jié);音頻大模型:基于Transformer處理多模態(tài)輸入,生成文本與音頻token;音頻去分詞器:通過(guò)流匹配技術(shù),將token轉(zhuǎn)化為自然聲波。
這種設(shè)計(jì)讓模型能同時(shí)處理語(yǔ)音識(shí)別、情感分析、環(huán)境聲分類(lèi)等任務(wù),完成了從音頻輸入到文本輸出的全過(guò)程,這已經(jīng)超越了工具范疇,更像是擁有聽(tīng)覺(jué)思維的智能體。
除了新穎的模型架構(gòu)外,Kimi-Audio 在數(shù)據(jù)建構(gòu)和訓(xùn)練方法上也下足了功夫。
在實(shí)際應(yīng)用中的表現(xiàn)方面,研究者們基于評(píng)估工具包對(duì) Kimi-Audio 在一系列音頻處理任務(wù)中的表現(xiàn)進(jìn)行了詳細(xì)評(píng)估,包括自動(dòng)語(yǔ)音識(shí)別(ASR)、音頻理解、音頻轉(zhuǎn)文本聊天和語(yǔ)音對(duì)話等。Kimi-Audio 的表現(xiàn)顯著超越了其他同類(lèi)模型。
目前,Kimi-Audio的模型代碼、模型檢查點(diǎn)以及評(píng)估工具包已經(jīng)在 Github 上開(kāi)源。
Kimi-Audio 的發(fā)布,恰逢 AI 多模態(tài)革命的臨界點(diǎn)。當(dāng) GPT-4o、Gemini 3.0 聚焦“視覺(jué)+文本”時(shí),Kimi選擇押注被低估的聽(tīng)覺(jué)賽道,為音頻技術(shù)領(lǐng)域帶來(lái)了新的突破和創(chuàng)新。
