自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI的《Her》難產(chǎn),是被什么困住了手腳?

人工智能
5月14日,OpenAI發(fā)布GPT-4o和端到端實(shí)時(shí)音視頻對話模式,現(xiàn)場演示AI對話絲滑如人類。它能感受到你的呼吸節(jié)奏,也能用比以前更豐富的語氣實(shí)時(shí)回復(fù),甚至可以做到隨時(shí)打斷AI,效果非常驚艷。

兩個(gè)月又兩周過去了,我們?nèi)匀粵]有見到公開發(fā)布版的OpenAI《Her》。

5月14日,OpenAI發(fā)布GPT-4o和端到端實(shí)時(shí)音視頻對話模式,現(xiàn)場演示AI對話絲滑如人類。

它能感受到你的呼吸節(jié)奏,也能用比以前更豐富的語氣實(shí)時(shí)回復(fù),甚至可以做到隨時(shí)打斷AI,效果非常驚艷。

可萬眾期待中,不時(shí)有推遲的消息傳出。

圖片

是什么拖住了OpenAI的后腿?根據(jù)已知情報(bào):

有法律糾紛,要確保語音音色不會再出現(xiàn)與“寡姐”斯佳麗·約翰遜這樣的爭議。

也有安全問題,需要做好對齊,以及實(shí)時(shí)音視頻對話開啟新的使用場景,被當(dāng)成詐騙工具也會是其中之一。

……

不過,除了以上這些,還有什么技術(shù)問題和困難需要克服嗎?

渡過最初的熱鬧后,內(nèi)行們開始看門道了。

眼尖的網(wǎng)友可能已經(jīng)注意到,發(fā)布會現(xiàn)場演示手機(jī)可是插著網(wǎng)線的。

在業(yè)內(nèi)人士眼中,GPT-4o發(fā)布會演示效果如此絲滑,還是有幾大限制:

需要“固定網(wǎng)絡(luò)、固定設(shè)備、固定物理環(huán)境”。

真的公開發(fā)布后,全球用戶能否獲得與發(fā)布會相比不打折扣的體驗(yàn),也還是個(gè)未知數(shù)。

發(fā)布會現(xiàn)場還有一個(gè)有趣的細(xì)節(jié),帥氣的研究員小哥Barret Zoph,在演示視頻通話時(shí)被ChatGPT當(dāng)成桌子。

圖片

視頻通話部分的延遲可見一斑了,語音部分提問已經(jīng)處理完了,視覺部分還在處理上一個(gè)鏡頭,也就是手機(jī)剛被拿起來時(shí)攝像頭拍到的木桌。

試想最終發(fā)布后,很多人用它的場景是什么?

宣傳片中一個(gè)最為人津津樂道的案例,盲人在AI語音的幫助下招手打車,一時(shí)間被網(wǎng)友津津樂道。

圖片

不過也要注意到,這會是一個(gè)非常依賴低延遲特性的場景,如果AI指導(dǎo)來的稍慢一點(diǎn),出租車也就開過去了。

圖片

室外場景網(wǎng)絡(luò)信號都不一定能保證穩(wěn)定,更別提機(jī)場火車站、旅游景點(diǎn)這些人多設(shè)備多擠占帶寬的場景,難度還要增加不少。

此外,室外場景還會出現(xiàn)噪音的問題。

大模型本來就深受“幻覺”問題困擾,如果噪音影響到用戶語音的識別,出現(xiàn)一些與指令不相關(guān)的詞語,那回答就不知道拐到哪去了。

最后,還有一個(gè)容易被忽視的問題,多設(shè)備適配。

可以看出目前OpenAI發(fā)布會和宣傳片,清一色用的新款iPhone Pro。

否能在較低端的機(jī)型也獲得一致體驗(yàn),也要等正式發(fā)布后再揭曉了。

圖片

OpenAI宣傳GPT-4o可以在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,與人類在對話中的反應(yīng)速度一致。

但這只是大模型從輸入到輸出的時(shí)間,并非整個(gè)系統(tǒng)。

總而言之,僅僅把AI能做好,還搞不出《Her》一般絲滑的體驗(yàn),還需要低延時(shí)、多設(shè)備適配、應(yīng)對多種網(wǎng)絡(luò)條件和嘈雜環(huán)境等一系列能力。

光靠AI,還做不出《Her》

要做到低延時(shí)、多設(shè)備適配等,靠的就是RTC(實(shí)時(shí)通信,Real-Time Communications)技術(shù)了。

在AI時(shí)代之前,RTC技術(shù)已廣泛用于直播、視頻會議等場景,發(fā)展的較為成熟。

在RTC視角下,用戶的語音提示詞在輸入大模型之前,還要經(jīng)歷一整套復(fù)雜流程。

信號采集與預(yù)處理:在手機(jī)等端側(cè)設(shè)備,將用戶的語音采集成原始信號,并對其進(jìn)行降噪、消除回聲等處理,為后續(xù)識別做好準(zhǔn)備。

語音編碼與壓縮:為盡量節(jié)省傳輸帶寬,要對語音信號進(jìn)行編碼和壓縮。同時(shí),還要根據(jù)網(wǎng)絡(luò)實(shí)際情況自適應(yīng)地加入一些冗余和糾錯(cuò)機(jī)制,以抵抗網(wǎng)絡(luò)丟包。

網(wǎng)絡(luò)傳輸:壓縮后的語音數(shù)據(jù)被切分成一個(gè)個(gè)數(shù)據(jù)包,通過互聯(lián)網(wǎng)送往云端。如果距離服務(wù)器物理距離較遠(yuǎn),傳輸往往還要經(jīng)過多個(gè)節(jié)點(diǎn),每一跳都可能引入延遲和丟包。

語音解碼與還原:數(shù)據(jù)包到達(dá)服務(wù)器后,系統(tǒng)對其進(jìn)行解碼,還原出原始的語音信號。

最后才輪到AI出手,先通過Embedding模型將語音信號轉(zhuǎn)化為tokens,才能真正讓端到端多模態(tài)大模型能夠理解并生成回復(fù)。

當(dāng)然,大模型生成回復(fù)后還要走一套相反的流程,再把回復(fù)的音頻信號最終傳回給用戶。

圖片

整個(gè)一套流程走下來,每一個(gè)環(huán)節(jié)都需要極致的優(yōu)化,才能真正把AI音視頻對話做到實(shí)時(shí)。

其中對大模型本身的壓縮、量化等手段畢竟會影響AI能力,結(jié)合音頻信號處理、網(wǎng)絡(luò)丟包等因素聯(lián)合優(yōu)化,就顯得尤為重要了。

據(jù)了解,OpenAI也并不是獨(dú)立解決這個(gè)問題的,而是選擇與第三合作。

合作伙伴為開源RTC廠商LiveKit,目前憑借支持ChatGPT語音模式成為業(yè)界關(guān)注焦點(diǎn)。

圖片

除OpenAI之外,LiveKit與Character.ai、ElevenLabs等相關(guān)AI公司也都展開了合作。

可能除了谷歌等少數(shù)有較為成熟的自研RTC技術(shù)的巨頭之外,與術(shù)業(yè)有專攻的RTC廠商合作,是AI實(shí)時(shí)音視頻對話玩家目前的主流選擇。

這一波當(dāng)然也少不了國內(nèi)玩家參與,不少國內(nèi)AI公司已經(jīng)在加緊研發(fā)端到端多模態(tài)大模型以及AI實(shí)時(shí)音視頻對話應(yīng)用。

國內(nèi)AI應(yīng)用能不能趕上OpenAI的效果,大家又什么時(shí)候能真正親自上手體驗(yàn)到呢?

由于這些項(xiàng)目基本都在早期階段,公開透露的消息并不多,不過他們的RTC合作伙伴聲網(wǎng)倒成了一個(gè)突破口。

量子位從聲網(wǎng)處打聽到,以目前國內(nèi)的技術(shù)水平,已經(jīng)能把一輪對話的延遲壓到1秒左右,再輔以更多優(yōu)化技巧,實(shí)現(xiàn)能及時(shí)響應(yīng)的流暢對話已不成問題。

做好RTC,AI不只是《Her》

聲網(wǎng)是誰?

RTC行業(yè)代表性企業(yè),2020年成為全球?qū)崟r(shí)互動云服務(wù)第一股,

聲網(wǎng)上一次出圈,是因?yàn)閷t極一時(shí)的音頻社交應(yīng)用Clubhouse提供技術(shù)支持。

實(shí)際上,B站、小米、小紅書等許多大家耳熟能詳?shù)膽?yīng)用都選擇聲網(wǎng)的RTC解決方案,海外業(yè)務(wù)這幾年也發(fā)展迅速。

那么對于,AI實(shí)時(shí)音視頻對話應(yīng)用,具體該怎么解決低延遲、多設(shè)備適配這些難點(diǎn),又能做到什么效果呢?

我們請到了聲網(wǎng)首席科學(xué)家、CTO鐘聲來回答這個(gè)問題。

據(jù)鐘聲介紹,不計(jì)算大模型推理,光說信號在網(wǎng)絡(luò)線路上一來一回的時(shí)間,已經(jīng)可以做到到70-300毫秒。

具體來說,主要從三個(gè)方面入手優(yōu)化。

首先,聲網(wǎng)在全球建設(shè)了200多個(gè)數(shù)據(jù)中心,建立連接時(shí)選址也都是選在離終端用戶最近的地方。

結(jié)合上智能路由技術(shù),就可以在當(dāng)某條線路擁堵,系統(tǒng)可自動選擇其它延遲和帶寬更優(yōu)的路徑,確保通信質(zhì)量。

如果不涉及跨區(qū)域傳輸,就可以端到端低于100ms。如果包含跨區(qū)域,比如從中國到美國,更偏向200-300ms。

第二,成立于2014年的聲網(wǎng),正在根據(jù)多年來積累的海量真實(shí)場景數(shù)據(jù),通過數(shù)據(jù)挖掘分析出各種弱網(wǎng)場景,然后在實(shí)驗(yàn)室中進(jìn)行復(fù)現(xiàn)。這為優(yōu)化傳輸算法提供了”靶場”,使之能應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)環(huán)境;也可以在實(shí)時(shí)傳輸過程中出現(xiàn)對應(yīng)的弱網(wǎng)模式時(shí)及時(shí)做出傳輸策略的調(diào)整使得傳輸更順利進(jìn)行。

第三,聲網(wǎng)針對垂直行業(yè)、特定任務(wù),也在嘗試定制參數(shù)量更小的模型,壓縮大模型自身的響應(yīng)時(shí)間。特定大小的大語言模型和語音模型的極限能力是值得探索的方向,這對優(yōu)化對話式AI或者chatbot的性價(jià)比以及低延時(shí)體驗(yàn)很關(guān)鍵。

最后,聲網(wǎng)開發(fā)的RTC SDK也針對不同的終端設(shè)備進(jìn)行適配與優(yōu)化,尤其針對一些低端機(jī)型,可以做到低功耗、低內(nèi)存占用、極小包體等。尤其是設(shè)備端的基于AI算法的語音降噪、回聲消除、視頻質(zhì)量提升的能力,可以直接影響AI chatbot的適用范圍和效果。

鐘聲還介紹到,在他們探索RTC與大模型技術(shù)的結(jié)合過程中,RTC技術(shù)本身的范疇也在變化。

他舉了自己的一些思考方向,比如可以從傳輸音頻信號改成傳輸大模型可以直接理解的tokens,甚至可以把語音轉(zhuǎn)文字(STT)和情緒識別在端上實(shí)現(xiàn),這樣可以僅傳送文字及相關(guān)情緒參數(shù)。

這樣一來,就可以把更多信號處理流程放在端側(cè),把算力需求較小的Embbeding模型放在離用戶更近的地方,減少整個(gè)流程的帶寬需求和云端模型的成本了。

從這一點(diǎn)出發(fā),鐘聲認(rèn)為最后AI與RTC技術(shù)結(jié)合的形態(tài),會走向端云結(jié)合。

也就是不能完全依賴云端的大模型,無論是從成本、能耗、延遲的體驗(yàn),這都不是最好的選擇。

在端云結(jié)合觀點(diǎn)下,整個(gè)基礎(chǔ)設(shè)施相應(yīng)的都需要變化,算力不僅在云端,手機(jī)的算力也會被用上。邊緣端的傳輸節(jié)點(diǎn)也會分布算力,數(shù)據(jù)傳輸協(xié)議也會相應(yīng)變化……

目前,聲網(wǎng)與大模型應(yīng)用廠商已摸索出三種合作模式,也就是整個(gè)系統(tǒng)中,大模型、RTC與云服務(wù)器三個(gè)部分的不同供應(yīng)方式:

  • 私有化部署:聲網(wǎng)只提供RTC SDK,與大模型一起部署在合作伙伴自己的數(shù)據(jù)中心,適合有自研大模型或大模型推理基礎(chǔ)設(shè)施的公司選擇。
  • 聲網(wǎng)云平臺:聲網(wǎng)提供RTC SDK和云服務(wù)器資源,開發(fā)者可根據(jù)需求靈活選擇模型、部署位置與計(jì)算資源。無需自建基礎(chǔ)架構(gòu),快速構(gòu)建AI語音應(yīng)用。
  • 聲網(wǎng)端到端解決方案:聲網(wǎng)提供自研大模型、RTC SDK與云服務(wù)器資源??蔀榧?xì)分行業(yè)如教育、電商、社交娛樂、客服等定制垂類模型,并與RTC能力深度整合,提供一體化的語音交互解決方案。

而且已有合作項(xiàng)目中,跑得快的應(yīng)用離與大家見面的時(shí)間不遠(yuǎn)了。

在與聲網(wǎng)的交流中,量子位發(fā)現(xiàn)還有一個(gè)值得關(guān)注的新趨勢:

國內(nèi)AI應(yīng)用,形態(tài)上逐漸在超越AI助手問答與AI情感陪伴的范疇。

就拿社交娛樂、電商直播以及在線教育這些行業(yè)來說,大家最關(guān)注的就是網(wǎng)紅主播和名師。AI實(shí)時(shí)音視頻對話驅(qū)動的數(shù)字人,就可以成為他們的“數(shù)字分身”,進(jìn)一步和每個(gè)粉絲或?qū)W生進(jìn)行一對一的交流互動。同時(shí)用戶本身的時(shí)間和精力也有限,分身乏術(shù),對自身的AI分身也有需求。隨著技術(shù)的發(fā)展、AI分身技術(shù)體驗(yàn)的提升、成本的下降,他們的應(yīng)用范圍會日益擴(kuò)大。

拿鐘聲的話來說“人終極最稀缺的東西就是時(shí)間”:

我們肯定都有這種體會,如果說兩個(gè)會議沖突了,只能參加一個(gè)怎么辦?

可能自己參加一個(gè),派AI助手去參加另一個(gè)活動,把精彩的信息帶回來。以后甚至這個(gè)助手可以是自己的AI分身,在活動過程中可以做個(gè)性化的交流,按自己的興趣和關(guān)注點(diǎn)提問或回答各種各樣的問題,與其他人或者其他人的分身互動。

所以說,AI實(shí)時(shí)音視頻對話能做的,還遠(yuǎn)不止是《Her》。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2019-04-01 15:28:20

996互聯(lián)網(wǎng)ICU

2013-01-28 14:02:34

手機(jī)殺毒軟件手機(jī)安全手機(jī)病毒

2024-12-24 14:30:00

模型AI訓(xùn)練

2023-03-06 00:19:17

ClosedAIOpenAI知識產(chǎn)權(quán)

2024-12-13 11:22:01

2023-11-18 09:09:44

OpenAI微軟

2024-03-06 23:29:45

Claude 3GPT-4人工智能

2024-05-13 07:30:00

2024-09-11 14:40:00

OpenAI奧特曼

2012-03-13 11:21:34

索尼AndroidVita OS

2023-11-22 09:30:50

e簽寶面試企業(yè)面經(jīng)

2023-12-14 12:56:00

鏈?zhǔn)?/a>調(diào)用代碼

2022-07-29 11:39:31

?WindowLinux雙系統(tǒng)

2025-01-15 13:01:07

2023-03-31 15:12:33

ChatGPTOpenAI谷歌

2024-01-08 07:59:48

OpenAI人工智能AI

2019-09-20 11:55:39

戴爾

2024-11-07 08:28:53

2015-11-02 11:39:42

大數(shù)據(jù)應(yīng)用

2025-04-23 11:40:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號