自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音

發(fā)布于 2024-4-3 08:32
瀏覽
0收藏

OpenAI 又帶來了一項超酷的進展!周五推出了一項名為 Voice Engine 的語音引擎,僅憑一段15秒的聲音樣本,便能夠精準模仿出那個人的聲音。

OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音-AI.x社區(qū)

Voice Engine 的獨特之處在于,它能通過簡單的文本輸入和短短音頻樣本,創(chuàng)造出非常接近原始說話者的自然聲音。這意味著無論你讓它讀什么語言的文字,都能以那個人獨有的聲音風(fēng)格朗讀,效果既逼真又充滿感情。

總而言之,OpenAI 通過這項新技術(shù)展示了人工智能復(fù)制人聲的驚人可能性,接下來讓我們一起看下吧~

Voice Engine 兩年前已開始研發(fā)

事實上,OpenAI 早在 2022 年末便啟動了 Voice Engine 的開發(fā),并已利用此技術(shù)為其文本到語音 API、ChatGPT Voice 以及朗讀功能裝配了預(yù)設(shè)聲音。

在技術(shù)成功開發(fā)后,OpenAI 并未立即向市場全面推廣,而是選擇與一小群早期測試者“小心翼翼”地合作,共同探索其應(yīng)用可能性和潛在風(fēng)險。

在與 TechCrunch 的采訪中,OpenAI 產(chǎn)品團隊成員 Jeff Harris 透露,該模型是在“已獲授權(quán)和公開可用數(shù)據(jù)的結(jié)合”上進行訓(xùn)練的。該技術(shù)將僅限于大約 10 名開發(fā)者使用,獲準訪問的組織包括教育技術(shù)企業(yè) Age of Learning、視覺敘事平臺 HeyGen、前沿健康軟件制造商 Dimagi、AI 通信應(yīng)用開發(fā)者 Livox 以及醫(yī)療健康系統(tǒng) Lifespan。

OpenAI在官網(wǎng)展示出了一些已經(jīng)開始應(yīng)用的例子:

1. 生成更自然、富有情感的聲音

通過自然、富有情感的聲音,比預(yù)設(shè)的聲音更能代表更廣泛的說話者,為非讀者和兒童提供閱讀幫助,致力于兒童學(xué)業(yè)的教育技術(shù)公司Age of Learning使用這其生成預(yù)先編寫好的配音內(nèi)容。此外,語音引擎和GPT-4創(chuàng)建實時、個性化的響應(yīng)來與學(xué)生互動。

原預(yù)設(shè)錄音:

1

夕小瑤科技說

15秒

生成的自然語音:

2

夕小瑤科技說

16秒

2. 翻譯視頻和播客等內(nèi)容

為了讓創(chuàng)作者和企業(yè)以其獨有的聲音接觸到全球更多的聽眾,HeyGen,— 一家專注于AI視覺敘事的平臺,成為了此技術(shù)的早期采用者。他們?yōu)閺漠a(chǎn)品營銷到銷售展示的廣泛內(nèi)容制作定制化、仿真的頭像。借助Voice Engine技術(shù)將視頻內(nèi)容翻譯成多種語言,以此拓寬其全球受眾的范圍。這項技術(shù)的一大特色是在翻譯過程中能夠保留演講者原有的口音特征,例如,使用一位法國演講者的聲音樣本進行英語翻譯時,生成的語音將保留有法國口音,為翻譯增添了更多的真實感和個性化色彩。

原錄音:

3

夕小瑤科技說

16秒

翻譯的語音: 

4

夕小瑤科技說

21秒

3. 改善偏遠地區(qū)的基本服務(wù)

OpenAI 強調(diào)自身的存在是希望為全球社區(qū)帶來福祉,因此正在和當(dāng)?shù)睾狭樯鐓^(qū)衛(wèi)生工作提供各類基礎(chǔ)服務(wù),例如向哺乳期母親提供專業(yè)咨詢。為了促進這些工作者技能的提升,采用Voice Engine擎和GPT-4技術(shù),以工作者的母語提供互動式反饋。

原錄音:

5

夕小瑤科技說

15秒

翻譯的語音: 

6

夕小瑤科技說

41秒

4.支持言語障礙人士提供幫助

為非言語人群提供支持,例如開發(fā)針對語言障礙者的治療應(yīng)用,以及為有特殊學(xué)習(xí)需求的人提供教育輔助。Livox是一款采用人工智能的替代及增強通信(AAC)應(yīng)用,能夠賦能殘障人士進行溝通。通過利用先進的語音引擎,Livox能為用戶提供獨一無二、非機械化的聲音,涵蓋多種語言。這使得用戶能夠選擇最能體現(xiàn)其個性的聲音,并且對于那些使用多種語言的用戶,保持在各種語言中聲音的一致性。

原錄音:

7

夕小瑤科技說

16秒

生成的語音:

8

夕小瑤科技說

14秒

5. 幫助患者恢復(fù)他們的聲音

針對那些受到突發(fā)性或退行性語言障礙影響的人群,OpenAI與Norman Prince 神經(jīng)科學(xué)研究所合作,正在研究AI在臨床設(shè)置中的應(yīng)用。他們最近啟動了一個試點項目,為那些因癌癥或神經(jīng)病理學(xué)問題而遭受語言障礙的患者提供Voice Engine服務(wù)。這項技術(shù)的一個顯著優(yōu)點是它僅需很短的音頻樣本即可運作。因此,醫(yī)生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年輕患者之前為學(xué)校項目錄制的視頻音頻,成功恢復(fù)了她因血管性腦瘤而失去的流暢語言能力。

原錄音:

9

夕小瑤科技說

30秒

生成的語音:

10

夕小瑤科技說

16秒

潛在風(fēng)險與安全措施

想一想,如果有人只用幾段錄音就能復(fù)刻出你的聲音,這聽起來是不是雖然酷炫,但也挺駭人聽聞?

技術(shù)在進步,我們能做的事情越來越神奇,比如讓失聲的人再次“說話”,或者讓你聽到一個從未學(xué)過外語的朋友用流利的法語或日語跟你聊天。

OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音-AI.x社區(qū)

但是伴之而來的,也會有人用你的聲音去騙你家人的錢,或者在網(wǎng)上放一個假的你說話的錄音,甚至隨著這些生物特征能用AI生成,先是人臉、聲音那這樣高速發(fā)展的雙刃劍技術(shù)進入我們的世界,會不會帶來失控呢?

OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音-AI.x社區(qū)

而且Voice Engine的出生剛好撞到槍口!

上個月,聯(lián)邦通信委員會(FCC)因收到使用喬·拜登總統(tǒng) AI 克隆聲音的騷擾電話而禁止使用 AI 生成的語音電話,全國拉響了警鈴。

OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音-AI.x社區(qū)

“這是一個敏感的領(lǐng)域,處理得當(dāng)極為重要,”O(jiān)penAI 產(chǎn)品經(jīng)理 Jeff Harris 在采訪中指出,公司內(nèi)部也承認,生成人類聲音的技術(shù)確實攜帶著嚴重的風(fēng)險。

Open AI 正在探索為合成聲音添加水印或其他控制措施的方法,以防止技術(shù)被用來模仿政治人物或其他公眾人物的聲音。

OpenAI 希望引發(fā)有關(guān)合成聲音負責(zé)任使用的對話,以及社會如何適應(yīng)這些新興技能的討論。根據(jù)這些對話和小規(guī)模測試的結(jié)果,OpenAI 將做出更明智的決策,以確定是否以及如何在更大范圍內(nèi)部署這項技術(shù)。

而現(xiàn)階段,由于技術(shù)目前只面向合作伙伴的使用,OpenAI要求使用者們遵循一項使用政策,該政策禁止未經(jīng)同意或合法權(quán)利冒充他人或組織,要求合作伙伴從原始說話者處獲得明確和知情的同意,并禁止開發(fā)者構(gòu)建允許個人用戶創(chuàng)建自己聲音的工具。

合作伙伴還必須向其聽眾清楚地披露他們聽到的聲音是由 AI 生成的。此外,還實施了一系列安全跟蹤措施,包括水印技術(shù),以追蹤任何由 Voice Engine 生成的音頻的來源,以及主動監(jiān)控其使用方式。

小結(jié)

在這個令人興奮的科技進展背后,我們不禁要問自己:

我們真的準備好迎接這樣的未來了嗎?

OpenAI 的 Voice Engine人工智能擬人的無限可能,讓我們得以用新的方式“聽見”世界。

但是,正如我們所見,這項技術(shù)也帶來了不小的挑戰(zhàn)和道德考驗。隨著這樣的技術(shù)越來越成熟,我們必須更加認真地考慮如何平衡創(chuàng)新和安全。我們該如何確保技術(shù)的發(fā)展能夠促進人類福祉,而不是成為操控和欺詐的工具?


本文轉(zhuǎn)載自夕小瑤科技說,作者:付奶茶

原文鏈接:??https://mp.weixin.qq.com/s/sL2rAlaLjCrBOfBK2VbzxA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦