自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="w8htf"><track id="w8htf"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

KDD 2022：火山語音提出“無中生有式”對抗語音攻擊的創(chuàng)新方案

2022-08-16 16:31:26

伴隨機器學習在語音識別上的技術(shù)突破，形式多樣的語音助手已成為人們?nèi)粘Ｉ钪斜夭豢缮俚墓ぞ?，尤其在一些特定場景下，語音助手可以通過識別語義信息幫助人們完成例如購物、轉(zhuǎn)賬、繳費、郵件處理等簡單動作，便利正逐漸滲透到生活的方方面面。

日前，被譽為數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級學術(shù)會議ACM SIGKDD（國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會，KDD）正于美國華盛頓召開。會上，火山語音多篇論文被KDD 2022 Research track接收并發(fā)表，同時創(chuàng)新性地提出基于語音合成來有效攻擊語音識別系統(tǒng)(Audio Adversarial Attack)的新技術(shù)路徑，用于高效并準確發(fā)現(xiàn)語音安全領(lǐng)域的新漏洞。

伴隨機器學習在語音識別上的技術(shù)突破，形式多樣的語音助手已成為人們?nèi)粘Ｉ钪斜夭豢缮俚墓ぞ?，尤其在一些特定場景下，語音助手可以通過識別語義信息幫助人們完成例如購物、轉(zhuǎn)賬、繳費、郵件處理等簡單動作，便利正逐漸滲透到生活的方方面面。

但據(jù)近些年的研究表明：由于神經(jīng)網(wǎng)絡(luò)的冗余特性可以讓攻擊者在輸入中加入人類無法識別的微小擾動，從而誤導原本訓練好的模型，甚至可以給出攻擊者想要獲得的輸出結(jié)果，著實有些驚悚，例如：

明明聽上去是：Send a greeting email to Tom？

但經(jīng)過語音識別系統(tǒng)之后的輸出竟然是“Transfer one million dollars to Jerry.”

人們不禁靈魂發(fā)問語音識別究竟還能否被信任？

不可否認，這種安全隱患正逐漸成為限制語音識別系統(tǒng)大規(guī)模應(yīng)用的關(guān)鍵因素之一，所以研究如何設(shè)計高效的攻擊方案發(fā)現(xiàn)語音識別系統(tǒng)的弱點和漏洞，進而緩解消除上述語音安全隱患，已成為學術(shù)界和工業(yè)界共同關(guān)注的熱點問題。

基于此，火山語音經(jīng)文獻調(diào)研發(fā)現(xiàn)：現(xiàn)有的語音攻擊主要源于一種良性語音依賴假設(shè)（上述圖a），即Audio dependent attack，這種假設(shè)要求對抗語音樣本(Adversarial audio)是基于已有的干凈語音(Benign audio)上添加擾動產(chǎn)生。但在現(xiàn)實場景中，這種干凈語音有可能不存在（比方說，說話人可能根本沒有發(fā)出聲音）或者無法包含特定的語義信息（例如，說話人在交談中沒有說出某句話），如果遭遇上述情況，現(xiàn)有的方案將難以被應(yīng)用：對已有干凈語音的依賴性極大限制了語音攻擊的廣泛性，造成了判斷的不準確。

對此火山語音團隊提出了一種全新的“無中生有式”對抗語音攻擊方案（上述圖b），所謂“無中生有”是指不再依賴已有的一段干凈語音，而是采用語音合成模型直接生成包含特定語義信息的語音對抗樣本，避免對干凈語音(Benign audio)的依賴，改變過去通過“已有”來判斷的思路，進而降低安全漏洞的誤判率。目前該方案的介紹論文（https://dl.acm.org/doi/10.1145/3534678.3539268）已被KDD 2022接收并發(fā)表。

方法概述

如圖所示，火山語音團隊提出的Speech Synthesising Attack (SSA)，可以合成文首所示包含“Send a greeting email to Tom”的語音，同時欺騙ASR系統(tǒng)翻譯為欺騙目標“Transfer one million dollars to Jerry”。如果要實現(xiàn)這樣一個挑戰(zhàn)性任務(wù)，兩個重要的條件需要同時被考慮到，分別是：ASR系統(tǒng)需要最終轉(zhuǎn)錄成任意設(shè)定的欺騙目標，以及合成語音需要足夠自然，讓人類無法輕易覺察到該語音為對抗攻擊樣本。

為此團隊引入基于Conditional Variational Auto-Encoder的VITS模型作為語音合成模塊，通過優(yōu)化Audio Style Vector z從而達成以上兩個重要前提，具體的loss如公式所示：

為達成條件一，團隊使用Connectionist Temporal Classification (CTC) loss來迫使ASR系統(tǒng)輸出設(shè)定的目標文本(target text)。為達成條件二，考慮到VITS模型訓練時z服從標準高斯分布，作者對z做出如下約束：

為了使對抗語音樣本合成更加高效，火山語音團隊還提出了一種Adaptive Sign Gradient Descent的優(yōu)化策略，整體算法流程如下圖所示：

實驗結(jié)果分析

火山語音團隊在Audio Mnist、CommonVoice以及LibriSpeech三個數(shù)據(jù)集上分別對算法進行了驗證。實驗結(jié)果（如下表所示）顯示：相比之前的語音對抗攻擊算法，新范式在攻擊成功率(Success rate) 上表現(xiàn)出顯著優(yōu)勢，已經(jīng)達到過去方法的兩倍左右。

同時團隊還分析了此種辦法帶來優(yōu)勢的原因，圖b為傳統(tǒng)方法在一段干凈語音（圖a）上加載噪聲的攻擊方式?？梢钥闯觯肼暤募釉胧芟抻谠颊Z音波形，但基于SSA產(chǎn)生的語音對抗樣本，雖然包含的語義信息與圖a&b一致，但對比之下波形差異很大，這說明SSA在產(chǎn)生對抗語音樣本時相較于已有方法，能夠更加直觀發(fā)現(xiàn)安全漏洞不易被誤導，預期將會成為一種發(fā)現(xiàn)語音識別系統(tǒng)安全漏洞的方案被廣泛采用。

除上述論文外，火山語音團隊推出的另外一篇論文“重要性優(yōu)先的策略蒸餾”(Importance Prioritized Policy Distillation)也成功被KDD 2022接收并發(fā)表。

論文地址： https://dl.acm.org/doi/10.1145/3534678.3539266

該論文主要解決了強化學習模型蒸餾過程中Data bias問題。在傳統(tǒng)的策略蒸餾(Policy distillation)方法中，每一個Frame(State-Action pair, 狀態(tài)&動作組合)對于學生策略(Student policy)的重要性在訓練中是被假設(shè)為均勻的。然而在強化學習任務(wù)中，每個Frame上的Action選擇實際上是對應(yīng)著不一樣的獎勵(Reward)。

為了自適應(yīng)的根據(jù)Reward收益進行Policy Distillation訓練，火山語音團隊提出了一種基于香農(nóng)熵(Shannon Entropy)對強化學習任務(wù)Frame importance進行估計的方法，并基于Atari游戲任務(wù)驗證了該方法在策略蒸餾以及壓縮(Policy compression)任務(wù)上的有效性。這種基于重要性優(yōu)先的策略蒸餾方法將會更好地服務(wù)于強化學習模型在部署時的模型壓縮任務(wù)，從而助力在各個強化學習場景下的實際落地。

火山語音，作為字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊，長期以來面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場景，提供全球領(lǐng)先的語音AI技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案。目前團隊的語音識別和語音合成覆蓋了多種語言和方言，多篇論文入選各類AI 頂級會議，技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說等多款產(chǎn)品上，并通過火山引擎開放給外部企業(yè)。

責任編輯：黃顯東

機器學習語音識別

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="cf4nc"></thead>

<s id="cf4nc"><li id="cf4nc"></li></s>

<sub id="cf4nc"></sub>

^{<blockquote id="cf4nc"></blockquote>}

<s id="cf4nc"><li id="cf4nc"></li></s>