Google 推出神經(jīng)網(wǎng)絡(luò)編解碼器 SoundStream,將整合進(jìn)開源項(xiàng)目 Lyra
Google 近日發(fā)布了一個(gè)端到端的神經(jīng)音頻編解碼器 —— SoundStream。最重要的是,Google 表示這是世界上第一個(gè)由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)并支持語音、音樂和環(huán)境聲音等不同聲音類型的音頻編解碼器,可以在智能手機(jī)的處理器上實(shí)時(shí)處理上述各種音頻。
音頻編解碼器是壓縮音頻文件的基本工具,以使其體積更小,并在傳輸過程中盡可能節(jié)省時(shí)間。因此,音頻編解碼器對(duì)于流媒體、在線語音和視頻通話這類有音頻傳輸需求的服務(wù)而言至關(guān)重要。
雖然音頻編解碼器能夠壓縮音頻體積,加速音頻傳輸過程,但壓縮后的音頻也會(huì)損失音頻質(zhì)量和細(xì)節(jié),產(chǎn)生可以讓用戶察覺到的差異。而這就是 SoundStream 能夠彌補(bǔ)的地方。
今年 2 月的時(shí)候,Google 發(fā)布了一個(gè)用于低比特率語音的神經(jīng)音頻編解碼器 Lyra,并在今年 4 月正式開源。SoundStream 是 Lyra 的一個(gè)擴(kuò)展版本。SoundStream 不僅集成了 Lyra 在低比特率「語音」方面的能力,還具有對(duì)更多聲音類型的編碼支持,包括清晰的語音、嘈雜的語音、帶有回聲的語音、音樂和環(huán)境聲音等。
SoundStream 是圍繞一個(gè)由編碼器、解碼器和量化器組成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)而建立的。編碼器將音頻轉(zhuǎn)換為編碼信號(hào),之后使用量化器進(jìn)行壓縮,并使用解碼器轉(zhuǎn)換回音頻。因此,在經(jīng)過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型后,編碼器和解碼器可以在不同的客戶端工作,有助于在各種環(huán)境下以不損失質(zhì)量的前提傳輸音頻。
Google 已經(jīng)在網(wǎng)站上發(fā)布了不同音頻壓縮樣本與原始音頻樣本的對(duì)比。通過對(duì)比測(cè)試,經(jīng)過 SoundStream 處理過的 3 kbps 的音頻要優(yōu)于 Opus 音頻編解碼器處理過的 12 kbps 音頻,效果與 ECS 編解碼器處理過的 9 kbps 十分接近。
目前 Google 自己的在線會(huì)議平臺(tái) Google Meet 和視頻平臺(tái) YouTube 仍在使用 Opus 音頻編解碼器。隨著 SoundStream 技術(shù)的不斷進(jìn)步,可能很快就能看到 Google 將在自己的服務(wù)中使用自己的技術(shù)。
Google 表示,SoundStream 是將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在音頻編解碼器中重要的一步,比目前最先進(jìn)的編解碼器 Opus 和 EVS 效果更好。SoundStream 將被整合進(jìn) Lyra,并隨著 Lyra 下一版本的發(fā)布一同推出。開發(fā)人員可以利用現(xiàn)有的 Lyra API 和工具,來提供更好的音質(zhì)。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:Google 推出神經(jīng)網(wǎng)絡(luò)編解碼器 SoundStream,將整合進(jìn)開源項(xiàng)目 Lyra
本文地址:https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec