自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="tx3je"><tt id="tx3je"><mark id="tx3je"></mark></tt></abbr>

^{<blockquote id="tx3je"><i id="tx3je"></i></blockquote>}

<sub id="tx3je"><p id="tx3je"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI如何讓董宇輝不下班？

作者：量子位 2022-07-28 13:16:48

無(wú)論是谷歌的GMS Core，還是蘋(píng)果面向開(kāi)發(fā)者的各種Kit，核心目的都是想不斷降低前沿技術(shù)落地的門(mén)檻，讓更多開(kāi)發(fā)者能在技術(shù)顧慮之外，將更多的精力和時(shí)間投入到創(chuàng)意當(dāng)中。

“還有46分鐘，董老師休假就結(jié)束了?！?/p>

這是董宇輝最新視頻下點(diǎn)贊過(guò)百的一條留言。

他在東方甄選直播間消失的日子里，粉絲們涌入他的個(gè)人號(hào)，調(diào)侃“這個(gè)男人只要一放假休息，幾十萬(wàn)人都得跟著失戀”。

然而對(duì)于頭部主播來(lái)說(shuō)，再怎么愛(ài)崗敬業(yè)，也總有下播的時(shí)候。

畢竟連著幾個(gè)小時(shí)不斷說(shuō)話，還得是妙語(yǔ)連珠的那種，既耗費(fèi)腦力，對(duì)體力也是個(gè)不小的挑戰(zhàn)。

在這種情況之下，不僅“24小時(shí)直播”不大可能，連不輪班的長(zhǎng)時(shí)間嘮嗑也不是人人能頂?shù)米〉摹?/p>

不過(guò)話說(shuō)回來(lái)，如果有機(jī)器加持呢……

特別是這段時(shí)間以來(lái)虛擬人等技術(shù)的爆火，很難不讓人腦洞大開(kāi)——

憑借AI能力，能否做到讓頭部主播“本人”24小時(shí)駐守直播間？

更進(jìn)一步說(shuō)，是不是沒(méi)有董老師的雙語(yǔ)能力，也能語(yǔ)言無(wú)縫轉(zhuǎn)換，直接走向國(guó)際？

24小時(shí)直播，到底難在哪？

按目前實(shí)現(xiàn)的各種AI技術(shù)來(lái)看，這些“腦洞”并非無(wú)法實(shí)現(xiàn)。

在圖像技術(shù)上，AI直接生成虛擬形象、或是給主播“換”個(gè)臉已經(jīng)不是什么難事。

例如，國(guó)外以假亂真的“阿湯哥”在TikTok上火了好一陣，國(guó)內(nèi)的柳夜熙、李星瀾等虛擬形象也在國(guó)內(nèi)社交媒體平臺(tái)上大受歡迎，視頻中幾乎看不見(jiàn)“AI合成”的影子，評(píng)論中驚艷的聲音也居多。

不僅如此，AI生成圖像甚至視頻的效果也日漸精致，國(guó)外OpenAI的DALL·E2、谷歌最新Imagen和Parti、國(guó)內(nèi)智源CogVideo和微軟亞研院NUWA-Infinity等，都是這幾個(gè)月出現(xiàn)的新成果。

上述這些圖像技術(shù)，有不少已經(jīng)開(kāi)放了API接口、或是申請(qǐng)?jiān)囉?，加上有不少類似的開(kāi)源模型，基本上已經(jīng)能做到“人人可玩”。

基于這些技術(shù)，現(xiàn)在國(guó)內(nèi)外各平臺(tái)，也出現(xiàn)了不少“24小時(shí)直播”的AI博主。

但點(diǎn)進(jìn)去看卻會(huì)發(fā)現(xiàn)，這些AI博主遠(yuǎn)不如真人主播、或是真人扮演的虛擬主播人氣高。

△24小時(shí)AI虛擬主播，半天只有167人“看過(guò)”

直播效果上，也與我們期待的那種“24小時(shí)直播”有點(diǎn)遠(yuǎn)：

互動(dòng)時(shí)，大部分AI主播能做的非常有限，有些只能簡(jiǎn)單地唱幾首歌（限定歌單）、或是根據(jù)設(shè)定好的指令進(jìn)行回復(fù)等；

說(shuō)話時(shí)，用AI合成的虛擬主播音色，不僅語(yǔ)氣沒(méi)有真人主播那般生動(dòng)、也無(wú)法主動(dòng)制造一些情緒上的“驚喜”。

這背后反映的是絕大多數(shù)虛擬AI主播的痛點(diǎn)——

雖然這幾年圖像生成技術(shù)突破不斷，但語(yǔ)音語(yǔ)言AI的技術(shù)門(mén)檻，卻仍然較高。

以董宇輝直播間為例，雖然只要董老師樂(lè)意，合成一個(gè)“AI董宇輝”的形象并不是一件難事；

然而，讓“AI版”董老師說(shuō)話語(yǔ)氣和音色更像本人、認(rèn)出直播間其他老師的聲音、甚至聽(tīng)懂直播間外助手的“指示”等操作，卻仍舊難以完成。

這背后對(duì)應(yīng)的，是語(yǔ)音合成、聲音識(shí)別、語(yǔ)音識(shí)別等各種語(yǔ)音語(yǔ)言AI的綜合能力。

更進(jìn)一步，想讓這個(gè)直播間國(guó)際化的話，還會(huì)對(duì)語(yǔ)音能力提出更高一步的要求。

例如，至少需要能夠?qū)崟r(shí)在線翻譯的AI字幕：

在此基礎(chǔ)上，如果要做成無(wú)障礙直播間的話，還需要進(jìn)一步掌握同聲傳譯的能力。

好消息是，現(xiàn)在，已經(jīng)有越來(lái)越多科技大廠注意到這一賽道，這幾年一直在不斷加大投入。

國(guó)內(nèi)外大廠紛紛加碼

光從理論研究來(lái)看，語(yǔ)音語(yǔ)言AI方向的論文已有不少。

亞馬遜谷歌等大廠，關(guān)于對(duì)話AI、NLP和語(yǔ)言處理等方向的AI論文已經(jīng)達(dá)到幾百甚至上千篇，其中有不少都是頂會(huì)論文；Meta光是2018一年，就拿了EMNLP和ACL兩大NLP頂會(huì)的最佳論文……

（當(dāng)然，也有少發(fā)論文的，例如蘋(píng)果更喜歡申請(qǐng)專利）

國(guó)內(nèi)如BAT、華為、京東等公司，這幾年也成立了自己的聲學(xué)或NLP實(shí)驗(yàn)室，在NAACL、AAAI和ACL等不少頂會(huì)上拿過(guò)各種論文獎(jiǎng)項(xiàng)。

△ACL 2022部分杰出論文獎(jiǎng)

以IWSLT（國(guó)際口語(yǔ)機(jī)器翻譯比賽）為例，這是國(guó)際上最具影響力的口語(yǔ)機(jī)器翻譯比賽之一。

就在今年的賽事上，華為在語(yǔ)音到語(yǔ)音翻譯、離線語(yǔ)音翻譯和等長(zhǎng)口語(yǔ)翻譯三個(gè)任務(wù)上，拿到了四個(gè)語(yǔ)言方向的TOP 1。

但在研究以外，各大廠在語(yǔ)音語(yǔ)言AI技術(shù)的落地上卻有著不同的思路。

除了基于最新研究?jī)?yōu)化自身產(chǎn)品（語(yǔ)音助手、搜索引擎等）以外，部分廠商選擇直接將模型開(kāi)源、或是做成AI框架供開(kāi)發(fā)者調(diào)用。

這樣的AI能力，對(duì)于不少?zèng)]接觸過(guò)AI的開(kāi)發(fā)者來(lái)說(shuō)又“過(guò)于深?yuàn)W”，甚至連它應(yīng)該怎么用、用在哪里都難以捉摸清楚。

一定程度上，也導(dǎo)致了不少開(kāi)發(fā)者并沒(méi)有機(jī)會(huì)接觸到最新的語(yǔ)音語(yǔ)言類AI技術(shù)。

尤其是這幾年很火的同聲傳譯AI，對(duì)于實(shí)時(shí)性和模型性能都有一定的要求，相應(yīng)的論文和Workshop也在頂會(huì)上出現(xiàn)得越來(lái)越多。

對(duì)于直播等行業(yè)來(lái)說(shuō)，要想擴(kuò)大受眾和影響范圍，同傳AI也是一項(xiàng)不可或缺的技術(shù)。

所以，有沒(méi)有門(mén)檻更低的落地方式呢？

現(xiàn)在就已經(jīng)有不少?gòu)S商開(kāi)始嘗試一種新方法——

以華為為例，就針對(duì)移動(dòng)端開(kāi)發(fā)者，基于華為移動(dòng)核心服務(wù)（HMS Core）打造了一套專門(mén)的機(jī)器學(xué)習(xí)服務(wù)（ML Kit）工具包。

在這樣的基礎(chǔ)上，開(kāi)發(fā)者無(wú)需掌握AI技術(shù)細(xì)節(jié)，就能在自己開(kāi)發(fā)的移動(dòng)APP或應(yīng)用中用上這些語(yǔ)音語(yǔ)言技術(shù)。

例如，剛剛我們看到的AI字幕（在線文本翻譯）和同聲傳譯，就是基于華為這套工具包中的語(yǔ)音語(yǔ)言AI能力，輕松做出來(lái)的效果。

開(kāi)發(fā)門(mén)檻越來(lái)越低

說(shuō)了這么多，具體怎么上手用起來(lái)，咱們不妨看看前輩們都是怎么做的。

比如，在華為開(kāi)發(fā)者論壇上，就有人基于ML Kit中實(shí)時(shí)語(yǔ)音識(shí)別、實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)等功能，給外婆開(kāi)發(fā)了一個(gè)語(yǔ)音搜索購(gòu)物App。

其中語(yǔ)音功能的實(shí)現(xiàn)，步驟并不復(fù)雜。

首先，你需要做一些開(kāi)發(fā)準(zhǔn)備工作，包括：在華為開(kāi)發(fā)者聯(lián)盟網(wǎng)站上完成實(shí)名注冊(cè)，配置AppGallery Connect，并在工程中配置HMS Core SDK的Maven倉(cāng)地址。

然后，集成相關(guān)服務(wù)SDK。以實(shí)時(shí)語(yǔ)音識(shí)別服務(wù)為例，代碼如下：

dependencies{
    // 引入實(shí)時(shí)語(yǔ)音識(shí)別服務(wù)插件
    implementation 'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'
}

接著，就可以進(jìn)入接入語(yǔ)音服務(wù)的階段了。

還是以實(shí)時(shí)語(yǔ)音識(shí)別服務(wù)為例。在設(shè)置完成應(yīng)用的鑒權(quán)信息之后，第一步是參考支持語(yǔ)言列表LANGUAGE，創(chuàng)建intent，用于設(shè)置實(shí)時(shí)語(yǔ)音識(shí)別參數(shù)。

mSpeechRecognizer.getLanguages(new MLAsrRecognizer.LanguageCallback() { 
     @Override 
    public void onResult(List<String> result) {
        Log.i(TAG, "support languages==" + result.toString());
    }
    @Override
    public void onError(int errorCode, String errorMsg) {
        Log.e(TAG, "errorCode:" + errorCode + "errorMsg:" + errorMsg);
    }
});

第二步是創(chuàng)建activity，傳入之前創(chuàng)建的intent，用于拾音，并將結(jié)果返回原activity，可實(shí)時(shí)識(shí)別60s內(nèi)（包括60s）的語(yǔ)音。

private static final int REQUEST_CODE_ASR = 100;
// REQUEST_CODE_ASR表示當(dāng)前Activity和拾音界面Activity之間的請(qǐng)求碼，通過(guò)該碼可以在當(dāng)前Activity中獲取拾音界面的處理結(jié)果。
startActivityForResult(intent, REQUEST_CODE_ASR);

最后，覆寫(xiě)“onActivityResult”方法，用于處理語(yǔ)音識(shí)別服務(wù)返回結(jié)果即可（詳細(xì)代碼見(jiàn)參考鏈接）。

每一步的開(kāi)發(fā)細(xì)節(jié)，在HMS Core官網(wǎng)都有詳盡的開(kāi)發(fā)指南可供查詢，十分新手友好。

另外，HMS Core的機(jī)器學(xué)習(xí)服務(wù)也不僅適用于華為手機(jī)，Android設(shè)備和iOS設(shè)備也能用，具體版本要求如下。

怎么樣？簡(jiǎn)單接入SDK，無(wú)需復(fù)雜的調(diào)參訓(xùn)練，即可獲得大廠商用級(jí)別的AI算法能力，你是不是已經(jīng)腦洞大開(kāi)了？

（并且還不僅僅是語(yǔ)音語(yǔ)言技術(shù)，ML Kit還提供了文本、圖像等各種AI算法功能。具體詳情，可戳文末“閱讀原文”，參考ML Kit官網(wǎng)）。

然而對(duì)于頭部主播來(lái)說(shuō)，再怎么愛(ài)崗敬業(yè)，也總有下播的時(shí)候。

實(shí)際上，這種把長(zhǎng)期積累的技術(shù)能力，通過(guò)能夠輕松上手的工具釋放給移動(dòng)應(yīng)用開(kāi)發(fā)者的做法，亦非華為一家獨(dú)有。

無(wú)論是谷歌的GMS Core，還是蘋(píng)果面向開(kāi)發(fā)者的各種Kit，核心目的都是想不斷降低前沿技術(shù)落地的門(mén)檻，讓更多開(kāi)發(fā)者能在技術(shù)顧慮之外，將更多的精力和時(shí)間投入到創(chuàng)意當(dāng)中。

如此一來(lái)，手機(jī)用戶們自然喜聞樂(lè)見(jiàn)：最新鮮的技術(shù)能以各種好玩的創(chuàng)意形式，在手機(jī)里直接體驗(yàn)到。

對(duì)于廠商而言，應(yīng)用的繁榮則構(gòu)成生態(tài)循環(huán)中最為重要的一個(gè)節(jié)點(diǎn)，對(duì)外吸引更多用戶，對(duì)內(nèi)匯聚更多優(yōu)秀的開(kāi)發(fā)者。

責(zé)任編輯：武曉燕來(lái)源：量子位

蘋(píng)果技術(shù)谷歌

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<s id="fpmsd"><li id="fpmsd"></li></s>

^{<thead id="fpmsd"></thead>}

<p id="fpmsd"></p>