自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fk1n5"><p id="fk1n5"></p></sub>

<blockquote id="fk1n5"></blockquote>

<sub id="fk1n5"><i id="fk1n5"></i></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI的《Her》難產(chǎn)，是被什么困住了手腳？

2024-07-29 07:02:00

5月14日，OpenAI發(fā)布GPT-4o和端到端實(shí)時(shí)音視頻對話模式，現(xiàn)場演示AI對話絲滑如人類。它能感受到你的呼吸節(jié)奏，也能用比以前更豐富的語氣實(shí)時(shí)回復(fù)，甚至可以做到隨時(shí)打斷AI，效果非常驚艷。

兩個(gè)月又兩周過去了，我們?nèi)匀粵]有見到公開發(fā)布版的OpenAI《Her》。

5月14日，OpenAI發(fā)布GPT-4o和端到端實(shí)時(shí)音視頻對話模式，現(xiàn)場演示AI對話絲滑如人類。

它能感受到你的呼吸節(jié)奏，也能用比以前更豐富的語氣實(shí)時(shí)回復(fù)，甚至可以做到隨時(shí)打斷AI，效果非常驚艷。

可萬眾期待中，不時(shí)有推遲的消息傳出。

是什么拖住了OpenAI的后腿？根據(jù)已知情報(bào)：

有法律糾紛，要確保語音音色不會再出現(xiàn)與“寡姐”斯佳麗·約翰遜這樣的爭議。

也有安全問題，需要做好對齊，以及實(shí)時(shí)音視頻對話開啟新的使用場景，被當(dāng)成詐騙工具也會是其中之一。

……

不過，除了以上這些，還有什么技術(shù)問題和困難需要克服嗎？

渡過最初的熱鬧后，內(nèi)行們開始看門道了。

眼尖的網(wǎng)友可能已經(jīng)注意到，發(fā)布會現(xiàn)場演示手機(jī)可是插著網(wǎng)線的。

在業(yè)內(nèi)人士眼中，GPT-4o發(fā)布會演示效果如此絲滑，還是有幾大限制：

需要“固定網(wǎng)絡(luò)、固定設(shè)備、固定物理環(huán)境”。

真的公開發(fā)布后，全球用戶能否獲得與發(fā)布會相比不打折扣的體驗(yàn)，也還是個(gè)未知數(shù)。

發(fā)布會現(xiàn)場還有一個(gè)有趣的細(xì)節(jié)，帥氣的研究員小哥Barret Zoph，在演示視頻通話時(shí)被ChatGPT當(dāng)成桌子。

視頻通話部分的延遲可見一斑了，語音部分提問已經(jīng)處理完了，視覺部分還在處理上一個(gè)鏡頭，也就是手機(jī)剛被拿起來時(shí)攝像頭拍到的木桌。

試想最終發(fā)布后，很多人用它的場景是什么？

宣傳片中一個(gè)最為人津津樂道的案例，盲人在AI語音的幫助下招手打車，一時(shí)間被網(wǎng)友津津樂道。

不過也要注意到，這會是一個(gè)非常依賴低延遲特性的場景，如果AI指導(dǎo)來的稍慢一點(diǎn)，出租車也就開過去了。

室外場景網(wǎng)絡(luò)信號都不一定能保證穩(wěn)定，更別提機(jī)場火車站、旅游景點(diǎn)這些人多設(shè)備多擠占帶寬的場景，難度還要增加不少。

此外，室外場景還會出現(xiàn)噪音的問題。

大模型本來就深受“幻覺”問題困擾，如果噪音影響到用戶語音的識別，出現(xiàn)一些與指令不相關(guān)的詞語，那回答就不知道拐到哪去了。

最后，還有一個(gè)容易被忽視的問題，多設(shè)備適配。

可以看出目前OpenAI發(fā)布會和宣傳片，清一色用的新款iPhone Pro。

否能在較低端的機(jī)型也獲得一致體驗(yàn)，也要等正式發(fā)布后再揭曉了。

OpenAI宣傳GPT-4o可以在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入，與人類在對話中的反應(yīng)速度一致。

但這只是大模型從輸入到輸出的時(shí)間，并非整個(gè)系統(tǒng)。

總而言之，僅僅把AI能做好，還搞不出《Her》一般絲滑的體驗(yàn)，還需要低延時(shí)、多設(shè)備適配、應(yīng)對多種網(wǎng)絡(luò)條件和嘈雜環(huán)境等一系列能力。

光靠AI，還做不出《Her》

要做到低延時(shí)、多設(shè)備適配等，靠的就是RTC（實(shí)時(shí)通信，Real-Time Communications）技術(shù)了。

在AI時(shí)代之前，RTC技術(shù)已廣泛用于直播、視頻會議等場景，發(fā)展的較為成熟。

在RTC視角下，用戶的語音提示詞在輸入大模型之前，還要經(jīng)歷一整套復(fù)雜流程。

信號采集與預(yù)處理：在手機(jī)等端側(cè)設(shè)備，將用戶的語音采集成原始信號，并對其進(jìn)行降噪、消除回聲等處理，為后續(xù)識別做好準(zhǔn)備。

語音編碼與壓縮：為盡量節(jié)省傳輸帶寬，要對語音信號進(jìn)行編碼和壓縮。同時(shí)，還要根據(jù)網(wǎng)絡(luò)實(shí)際情況自適應(yīng)地加入一些冗余和糾錯(cuò)機(jī)制，以抵抗網(wǎng)絡(luò)丟包。

網(wǎng)絡(luò)傳輸：壓縮后的語音數(shù)據(jù)被切分成一個(gè)個(gè)數(shù)據(jù)包，通過互聯(lián)網(wǎng)送往云端。如果距離服務(wù)器物理距離較遠(yuǎn)，傳輸往往還要經(jīng)過多個(gè)節(jié)點(diǎn)，每一跳都可能引入延遲和丟包。

語音解碼與還原：數(shù)據(jù)包到達(dá)服務(wù)器后，系統(tǒng)對其進(jìn)行解碼，還原出原始的語音信號。

最后才輪到AI出手，先通過Embedding模型將語音信號轉(zhuǎn)化為tokens，才能真正讓端到端多模態(tài)大模型能夠理解并生成回復(fù)。

當(dāng)然，大模型生成回復(fù)后還要走一套相反的流程，再把回復(fù)的音頻信號最終傳回給用戶。

整個(gè)一套流程走下來，每一個(gè)環(huán)節(jié)都需要極致的優(yōu)化，才能真正把AI音視頻對話做到實(shí)時(shí)。

其中對大模型本身的壓縮、量化等手段畢竟會影響AI能力，結(jié)合音頻信號處理、網(wǎng)絡(luò)丟包等因素聯(lián)合優(yōu)化，就顯得尤為重要了。

據(jù)了解，OpenAI也并不是獨(dú)立解決這個(gè)問題的，而是選擇與第三合作。

合作伙伴為開源RTC廠商LiveKit，目前憑借支持ChatGPT語音模式成為業(yè)界關(guān)注焦點(diǎn)。

除OpenAI之外，LiveKit與Character.ai、ElevenLabs等相關(guān)AI公司也都展開了合作。

可能除了谷歌等少數(shù)有較為成熟的自研RTC技術(shù)的巨頭之外，與術(shù)業(yè)有專攻的RTC廠商合作，是AI實(shí)時(shí)音視頻對話玩家目前的主流選擇。

這一波當(dāng)然也少不了國內(nèi)玩家參與，不少國內(nèi)AI公司已經(jīng)在加緊研發(fā)端到端多模態(tài)大模型以及AI實(shí)時(shí)音視頻對話應(yīng)用。

國內(nèi)AI應(yīng)用能不能趕上OpenAI的效果，大家又什么時(shí)候能真正親自上手體驗(yàn)到呢？

由于這些項(xiàng)目基本都在早期階段，公開透露的消息并不多，不過他們的RTC合作伙伴聲網(wǎng)倒成了一個(gè)突破口。

量子位從聲網(wǎng)處打聽到，以目前國內(nèi)的技術(shù)水平，已經(jīng)能把一輪對話的延遲壓到1秒左右，再輔以更多優(yōu)化技巧，實(shí)現(xiàn)能及時(shí)響應(yīng)的流暢對話已不成問題。

做好RTC，AI不只是《Her》

聲網(wǎng)是誰？

RTC行業(yè)代表性企業(yè)，2020年成為全球?qū)崟r(shí)互動云服務(wù)第一股，

聲網(wǎng)上一次出圈，是因?yàn)閷t極一時(shí)的音頻社交應(yīng)用Clubhouse提供技術(shù)支持。

實(shí)際上，B站、小米、小紅書等許多大家耳熟能詳?shù)膽?yīng)用都選擇聲網(wǎng)的RTC解決方案，海外業(yè)務(wù)這幾年也發(fā)展迅速。

那么對于，AI實(shí)時(shí)音視頻對話應(yīng)用，具體該怎么解決低延遲、多設(shè)備適配這些難點(diǎn)，又能做到什么效果呢？

我們請到了聲網(wǎng)首席科學(xué)家、CTO鐘聲來回答這個(gè)問題。

據(jù)鐘聲介紹，不計(jì)算大模型推理，光說信號在網(wǎng)絡(luò)線路上一來一回的時(shí)間，已經(jīng)可以做到到70-300毫秒。

具體來說，主要從三個(gè)方面入手優(yōu)化。

首先，聲網(wǎng)在全球建設(shè)了200多個(gè)數(shù)據(jù)中心，建立連接時(shí)選址也都是選在離終端用戶最近的地方。

結(jié)合上智能路由技術(shù)，就可以在當(dāng)某條線路擁堵，系統(tǒng)可自動選擇其它延遲和帶寬更優(yōu)的路徑，確保通信質(zhì)量。

如果不涉及跨區(qū)域傳輸，就可以端到端低于100ms。如果包含跨區(qū)域，比如從中國到美國，更偏向200-300ms。

第二，成立于2014年的聲網(wǎng)，正在根據(jù)多年來積累的海量真實(shí)場景數(shù)據(jù)，通過數(shù)據(jù)挖掘分析出各種弱網(wǎng)場景，然后在實(shí)驗(yàn)室中進(jìn)行復(fù)現(xiàn)。這為優(yōu)化傳輸算法提供了”靶場”，使之能應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)環(huán)境；也可以在實(shí)時(shí)傳輸過程中出現(xiàn)對應(yīng)的弱網(wǎng)模式時(shí)及時(shí)做出傳輸策略的調(diào)整使得傳輸更順利進(jìn)行。

第三，聲網(wǎng)針對垂直行業(yè)、特定任務(wù)，也在嘗試定制參數(shù)量更小的模型，壓縮大模型自身的響應(yīng)時(shí)間。特定大小的大語言模型和語音模型的極限能力是值得探索的方向，這對優(yōu)化對話式AI或者chatbot的性價(jià)比以及低延時(shí)體驗(yàn)很關(guān)鍵。

最后，聲網(wǎng)開發(fā)的RTC SDK也針對不同的終端設(shè)備進(jìn)行適配與優(yōu)化，尤其針對一些低端機(jī)型，可以做到低功耗、低內(nèi)存占用、極小包體等。尤其是設(shè)備端的基于AI算法的語音降噪、回聲消除、視頻質(zhì)量提升的能力，可以直接影響AI chatbot的適用范圍和效果。

鐘聲還介紹到，在他們探索RTC與大模型技術(shù)的結(jié)合過程中，RTC技術(shù)本身的范疇也在變化。

他舉了自己的一些思考方向，比如可以從傳輸音頻信號改成傳輸大模型可以直接理解的tokens，甚至可以把語音轉(zhuǎn)文字（STT）和情緒識別在端上實(shí)現(xiàn)，這樣可以僅傳送文字及相關(guān)情緒參數(shù)。

這樣一來，就可以把更多信號處理流程放在端側(cè)，把算力需求較小的Embbeding模型放在離用戶更近的地方，減少整個(gè)流程的帶寬需求和云端模型的成本了。

從這一點(diǎn)出發(fā)，鐘聲認(rèn)為最后AI與RTC技術(shù)結(jié)合的形態(tài)，會走向端云結(jié)合。

也就是不能完全依賴云端的大模型，無論是從成本、能耗、延遲的體驗(yàn)，這都不是最好的選擇。

在端云結(jié)合觀點(diǎn)下，整個(gè)基礎(chǔ)設(shè)施相應(yīng)的都需要變化，算力不僅在云端，手機(jī)的算力也會被用上。邊緣端的傳輸節(jié)點(diǎn)也會分布算力，數(shù)據(jù)傳輸協(xié)議也會相應(yīng)變化……

目前，聲網(wǎng)與大模型應(yīng)用廠商已摸索出三種合作模式，也就是整個(gè)系統(tǒng)中，大模型、RTC與云服務(wù)器三個(gè)部分的不同供應(yīng)方式：

私有化部署：聲網(wǎng)只提供RTC SDK，與大模型一起部署在合作伙伴自己的數(shù)據(jù)中心，適合有自研大模型或大模型推理基礎(chǔ)設(shè)施的公司選擇。
聲網(wǎng)云平臺：聲網(wǎng)提供RTC SDK和云服務(wù)器資源，開發(fā)者可根據(jù)需求靈活選擇模型、部署位置與計(jì)算資源。無需自建基礎(chǔ)架構(gòu)，快速構(gòu)建AI語音應(yīng)用。
聲網(wǎng)端到端解決方案：聲網(wǎng)提供自研大模型、RTC SDK與云服務(wù)器資源?？蔀榧?xì)分行業(yè)如教育、電商、社交娛樂、客服等定制垂類模型，并與RTC能力深度整合，提供一體化的語音交互解決方案。

而且已有合作項(xiàng)目中，跑得快的應(yīng)用離與大家見面的時(shí)間不遠(yuǎn)了。

在與聲網(wǎng)的交流中，量子位發(fā)現(xiàn)還有一個(gè)值得關(guān)注的新趨勢：

國內(nèi)AI應(yīng)用，形態(tài)上逐漸在超越AI助手問答與AI情感陪伴的范疇。

就拿社交娛樂、電商直播以及在線教育這些行業(yè)來說，大家最關(guān)注的就是網(wǎng)紅主播和名師。AI實(shí)時(shí)音視頻對話驅(qū)動的數(shù)字人，就可以成為他們的“數(shù)字分身”，進(jìn)一步和每個(gè)粉絲或?qū)W生進(jìn)行一對一的交流互動。同時(shí)用戶本身的時(shí)間和精力也有限，分身乏術(shù)，對自身的AI分身也有需求。隨著技術(shù)的發(fā)展、AI分身技術(shù)體驗(yàn)的提升、成本的下降，他們的應(yīng)用范圍會日益擴(kuò)大。

拿鐘聲的話來說“人終極最稀缺的東西就是時(shí)間”：

我們肯定都有這種體會，如果說兩個(gè)會議沖突了，只能參加一個(gè)怎么辦？

可能自己參加一個(gè)，派AI助手去參加另一個(gè)活動，把精彩的信息帶回來。以后甚至這個(gè)助手可以是自己的AI分身，在活動過程中可以做個(gè)性化的交流，按自己的興趣和關(guān)注點(diǎn)提問或回答各種各樣的問題，與其他人或者其他人的分身互動。

所以說，AI實(shí)時(shí)音視頻對話能做的，還遠(yuǎn)不止是《Her》。

責(zé)任編輯：姜華來源：量子位

OpenAI GPT-4o AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="mwmxk"></blockquote>}