自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="7vt5u"></bdo>

<cite id="7vt5u"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPT-4o背后可能的語(yǔ)音技術(shù) 原創(chuàng)

發(fā)布于 2024-6-13 13:00

瀏覽

0收藏

如果我不說(shuō)明這是一段GPT-4o調(diào)戲主持人的視頻，你是否會(huì)認(rèn)為電話另一端是真人在對(duì)話？

GPT-4o在與人類的對(duì)話過(guò)程中，不僅能理解人的情緒，還能像人一樣說(shuō)話。

總結(jié)來(lái)說(shuō)，GPT-4o具有下列語(yǔ)音能力：

具有豐富的語(yǔ)音風(fēng)格：語(yǔ)速快一點(diǎn)、語(yǔ)調(diào)柔和一點(diǎn)、或者用說(shuō)唱的風(fēng)格；
可以理解語(yǔ)音以外的信息：喘氣聲、嘆氣聲；
可以發(fā)出非語(yǔ)言聲音：笑聲；
可以進(jìn)行自然而即時(shí)的互動(dòng)，不需要喚醒詞。?

其實(shí)，早在GPT-4o以前，GPT3.5手機(jī)版就有語(yǔ)音功能，那么它和新版的GPT-4o有什么區(qū)別呢？李宏毅教授對(duì)GPT-4o背后的語(yǔ)音技術(shù)進(jìn)行了分析，下面是對(duì)其分析內(nèi)容的總結(jié)，后臺(tái)回復(fù)cam獲取pdf下載鏈接。

老版本的ChatGPT是先通過(guò)語(yǔ)音識(shí)別模型（whisper）將語(yǔ)音轉(zhuǎn)換成文本，然后將文本傳送給大模型（ChatGPT），最后通過(guò)語(yǔ)音合成模型（TTS）將大模型的輸出合成語(yǔ)音。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

然而，文本作為語(yǔ)音的某種壓縮，在語(yǔ)音轉(zhuǎn)換為文本的過(guò)程中，情感信息往往無(wú)法被保留，導(dǎo)致后面生成的聲音顯得單調(diào)。

為了解決這個(gè)問(wèn)題，有人在此基礎(chǔ)上加入了情感分析模塊，將情感信息以上下文的形式發(fā)給大模型和語(yǔ)音合成模塊。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

雖然這在一定程度上解決了情感丟失問(wèn)題，但情感分析、語(yǔ)音識(shí)別、語(yǔ)音合成這三個(gè)獨(dú)立的模塊，無(wú)疑增加了推理負(fù)擔(dān)，這也是為什么老版本會(huì)思考片刻才會(huì)做出回應(yīng)的原因，“反應(yīng)遲鈍”在多人對(duì)話中顯得很不自然。

而GPT-4o是一個(gè)端到端的語(yǔ)音模型。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

文本語(yǔ)言模型輸入、輸出都是文本，處理文本時(shí)，先要將文本轉(zhuǎn)換成tokens，然后將token ids轉(zhuǎn)換成詞嵌入輸入到Transformer，最后將Transformer輸出的token ids解碼成token。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

GPT-4o輸入、輸出都是語(yǔ)音，聲波是一種模擬信號(hào)，別說(shuō)是大模型，就算是計(jì)算機(jī)也沒(méi)辦法直接處理模擬信號(hào)，所以很多音頻處理軟件需要先通過(guò)聲卡將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

語(yǔ)音版語(yǔ)言模型也需要類似的編解碼器，它不僅要將連續(xù)的語(yǔ)音轉(zhuǎn)換成離散的tokens，還要將其壓縮到隱空間，但文字是人造的，語(yǔ)音是自然生成的，所以沒(méi)辦法像NLP那樣構(gòu)造一個(gè)詞表，這個(gè)過(guò)程需要神經(jīng)音頻編解碼模型模型來(lái)完成。

神經(jīng)音頻編解碼模型也并不是什么新玩意，最初用于音頻數(shù)據(jù)壓縮傳輸。下圖列出了神經(jīng)編解碼模型的重要時(shí)間節(jié)點(diǎn)。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

編碼器負(fù)責(zé)將語(yǔ)音壓縮到離散的隱空間，解碼器負(fù)責(zé)將隱空間信息解壓縮成語(yǔ)音信號(hào)，這個(gè)隱空間類似于詞嵌入空間。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

將語(yǔ)音信號(hào)編碼成離散的數(shù)字向量后就可以輸入到Transformer中了，其它的和大語(yǔ)言模型基本就一樣了。

下圖是基于神經(jīng)編解碼模型的大語(yǔ)言模型，也就是說(shuō)GPT-4o很可能就是這個(gè)樣子的。神經(jīng)編解碼模型是和語(yǔ)言模型一起訓(xùn)練的，而在老版本中，語(yǔ)言模型和三個(gè)獨(dú)立模塊都是單獨(dú)訓(xùn)練的。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

和基于文本的大模型一樣，基于語(yǔ)音的大模型也需要經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)過(guò)程。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

但鑒于文本資料要比語(yǔ)音資料豐富，所以可能會(huì)用文本語(yǔ)言模型的參數(shù)去初始化語(yǔ)音版語(yǔ)言模型。

GPT-4o背后可能的語(yǔ)音技術(shù) -AI.x社區(qū)

本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/kfV4T0lTNiBFyl3EAEM8qw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

語(yǔ)音技術(shù)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI顛覆世界：GPT-4o完全免費(fèi)，實(shí)時(shí)語(yǔ)音視頻交互震撼全場(chǎng)，直接進(jìn)入科幻時(shí)代

輕薄滴假象 ? 2894瀏覽 ? 0回復(fù)
GPT-4o：實(shí)現(xiàn)跨越文本與視覺(jué)的智能交互

51CTO內(nèi)容精選 ? 3736瀏覽 ? 0回復(fù)
Sam Altman：GPT-4o幕后揭秘，GPT-5會(huì)很特別

Aceryt ? 2451瀏覽 ? 0回復(fù)
曝斯嘉麗曾拒絕為ChatGPT配音：GPT-4o語(yǔ)音上線前夕，這款最像“Her”的語(yǔ)音卻下架了！

51CTO技術(shù)棧 ? 2768瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3068瀏覽 ? 0回復(fù)
GPT-4o做Code Review可行嗎？

51CTO技術(shù)棧 ? 3166瀏覽 ? 0回復(fù)
?天下武功唯快不破，GPT-4o真的牛

ermulong ? 2057瀏覽 ? 0回復(fù)
現(xiàn)在，所有人都能免費(fèi)用GPT-4o了！

duhorse ? 4338瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2173瀏覽 ? 0回復(fù)
GPT-4o不香了

Crystalcxt ? 2962瀏覽 ? 0回復(fù)
終于來(lái)了，OpenAI測(cè)試GPT-4o高級(jí)語(yǔ)音模式！

Aceryt ? 2120瀏覽 ? 0回復(fù)
GPT-4o模仿人類聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐

duhorse ? 2393瀏覽 ? 0回復(fù)
開發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 2225瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 1769瀏覽 ? 0回復(fù)
微軟開源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 1913瀏覽 ? 0回復(fù)
視覺(jué)文本語(yǔ)音強(qiáng)強(qiáng)聯(lián)合！南大&騰訊優(yōu)圖發(fā)布GPT-4o級(jí)別的實(shí)時(shí)視覺(jué)語(yǔ)音交互——VITA1.5

angel ? 2006瀏覽 ? 0回復(fù)
閑得沒(méi)事，猜猜GPT-4o如何對(duì)圖像編碼

魯班模錘1 ? 1425瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開源GPT-ImgEval

angel ? 1435瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 1727瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

訓(xùn)練大模型時(shí)，顯存都哪去了？ 2024-11-19 12:41:34發(fā)布
生產(chǎn)環(huán)境測(cè)試模型的四種方法 2024-11-15 11:22:05發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： GPT-4o熱潮來(lái)襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

下一篇： The Annotated Transformer注釋加量版，讀懂代碼就真的懂了Transformer

社區(qū)精華內(nèi)容

目錄

<cite id="j1qck"></cite>

<blockquote id="j1qck"></blockquote>

<cite id="j1qck"><track id="j1qck"></track></cite>

^{<sub id="j1qck"><i id="j1qck"></i></sub>}

<style id="j1qck"></style>

^{<sub id="j1qck"><i id="j1qck"></i></sub>}