編輯 | 伊風
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
OpenAI的離職潮還風波未平。另一邊,ChatGPT語音模式中的“Sky”突然被宣布下架。
OpenAI在推文中說:我們聽到有人質(zhì)疑我們?nèi)绾芜x擇 ChatGPT 中的聲音,尤其是 Sky。我們正在努力暫停 Sky 的使用,同時解決這些問題。
消息一經(jīng)發(fā)出,X上的網(wǎng)友頓時哀嚎一片,甚至威脅將投奔谷歌的產(chǎn)品。
圖片
這都因為Sky是最好的、最性感的、最像斯嘉麗·約翰遜所飾演的《Her》的音色——這也正是Sky引起爭議的原因。
OpenAI不得不在聲明中明確澄清:Sky的聲音并非是對斯嘉麗·約翰遜的一種模仿,她是一位專業(yè)配音演員的音色生成的(并表示為了隱私保護,不會透露該演員的姓名)。
圖片
捍衛(wèi)Sky音色的網(wǎng)友,毫不留情地諷刺說“斯嘉麗想賺點AGI的錢”。言下之意,正是因為OpenAI未付費給她,才導致的此次聲音爭議與下架。
圖片
但是等等,事情似乎還有反轉(zhuǎn)。OpenAI所說的并非模仿,可能要被打上一個大大的問號。
在 OpenAI 發(fā)布上面的聲明后,外媒記者亞沙爾-阿里(Yashar Ali)在 X 上發(fā)布了一條消息,他稱這條消息經(jīng)證實來自約翰遜的經(jīng)紀人。
約翰遜在消息中表示,在一周前 ChatGPT 的新語音和模型 GPT-4o 發(fā)布之前,OpenAI 首席執(zhí)行官山姆-阿爾特曼(Sam Altman)曾找到她,要求她為該項目配音,但她拒絕了!
盡管如此,約翰遜還是表示:"當我聽到發(fā)布的演示時,我感到震驚、憤怒和難以置信,奧特曼先生竟然會追求一個聽起來與我非常相似的聲音,以至于我最親密的朋友和新聞機構(gòu)都分辨不出來。"
當Sky重復(fù)《Her》中臺詞的時候,大家覺得兩者是否相像呢?(溫馨提示:兩支視頻音量不同,耳機黨注意調(diào)節(jié))
有網(wǎng)友跟帖說,“一名 OpenAI 的員工向我證實,4o 可以對所有音頻進行訓練,而不僅僅是聲音。因此,它可以重現(xiàn)任何噪音,從人類聲音到你能想象到的任何其他噪音...”
圖片
此前,OpenAI的聲音引擎就有根據(jù)15s語音復(fù)刻任何音色的能力!(詳見:GPT-5史詩級更新之前,OpenAI的“新東西”來了,曝定價百萬字符15美元,語音克隆引擎讓老外說“有口音的”中文)
由于約翰遜提供的消息,OpenAI的聲明看起來沒那么真誠了。此前奧特曼還在X上發(fā)文,稱自己對OpenAI離職的“封口協(xié)議”并不知情。每次的澄清都留下一些可疑之處,必然會對企業(yè)的形象造成影響。
也許Sky短時間內(nèi)不會回歸了。喜愛Sky音色的用戶們只能寄希望于即將出場的新聲音能帶來些安慰和驚喜了……
1.付費用戶即將體驗GPT-4o,以及新的聲音選項
語音模式已經(jīng)成為ChatGPT中最受歡迎的功能之一。在APP用戶界面點擊右下角的耳麥標志,就可以與ChatGPT開展一段對話,在alpha版語音功能上線之前,這種交流雖然有著較高的延時,但已經(jīng)讓人驚艷。
圖片
目前ChatGPT提供五種聲音模式——Breeze、Cove、Ember、Juniper和Sky。
OpenAI在聲明中表示,他們將為付費用戶帶來新的語音模式,并增加新的聲音選項。
未來幾周內(nèi),信仰充值的ChatGPT Plus用戶將被推送GPT-4o(在新窗口中打開)的alpha版新語音模式。
如同發(fā)布會中展示的,通過GPT-4o,用戶可以與ChatGPT進行更加自然的語音交互。因為升級后的語音版本可以流暢處理對話中斷、有效管理群組對話、過濾背景噪音并更改語調(diào)。
在ChatGPT中引入更多聲音可以更好地滿足用戶的多樣化興趣和偏好??磥?,出于風險考慮(聲明中提到“我們認為,AI聲音不應(yīng)故意模仿名人的獨特聲音”),ChatGPT可能會在音色模仿等方面設(shè)定一些限制。
屆時,可能又會在OpenAI與擅長“越獄”的網(wǎng)友之間上演新一輪的斗智斗勇。就像上一輪的DAN那樣(讓ChatGPT繞過限制的prompt,“Do Anything Now”)。
2.ChatGPT選擇“自己”的音色:百里挑一
根據(jù)OpenAI的聲明,現(xiàn)在所提供的五種聲音,是經(jīng)過長達五個月的廣泛篩選精心挑選出來的。
這個過程比我們所想象的復(fù)雜得多。OpenAI透露,這一過程涉及專業(yè)配音演員、人才代理機構(gòu)、選角導演以及行業(yè)顧問。為此OpenAI做了許多的準備:
l支持創(chuàng)意社群并與配音行業(yè)緊密合作。這樣做是為了確保在挑選ChatGPT聲音時采取了最佳流程,并且OpenAI為每位配音演員提供的報酬都高于市場最高水平。
l與獲獎的選角導演和制片人合作,制定聲音標準。在2023年初,為了確定ChatGPT的配音演員,OpenAI與專業(yè)人士合作制定了一套ChatGPT聲音的選擇標準:
a.來自多元背景或能說多種語言的演員
b.具有時代感的聲音
c.親切、能激發(fā)信任的聲音
d.溫暖、引人入勝、充滿自信、魅力四射且音色豐富的聲音
e.自然易聽
3.ChatGPT聲音模式上線時間表
從OpenAI所提供的細節(jié)時間表來看,自啟動配音演員申請到最終確定上線,經(jīng)過了實打?qū)嵉?個月時間進行打磨。
在2023年5月,OpenAI選角機構(gòu)發(fā)起了人才招募。不到一周,就收到了超過400份來自配音和出鏡演員的申請。
為了進行試鏡,演員們會收到一份包含ChatGPT回答的劇本,并被要求錄制。這些樣本涵蓋了從解答關(guān)于正念問題到頭腦風暴旅行計劃,甚至參與討論用戶的日常生活對話。
在2023年5月期間,選角團隊獨立審閱并初步選出了14位演員。他們進一步精簡名單,然后將最頂尖的聲音人選提交給OpenAI。
OpenAI接著與每位演員討論了人類-人工智能語音交互的愿景以及OpenAI的宗旨,并探討了技術(shù)的能力、局限性、相關(guān)風險以及相關(guān)已經(jīng)實施的安全措施。重要的是,每位演員在參與項目前都能理解語音模式的范圍和目的。
OpenAI內(nèi)部團隊從產(chǎn)品和研究角度審查了這些聲音,經(jīng)過慎重考慮,最終選擇了五種聲音——Breeze、Cove、Ember、Juniper和Sky的聲音。
2023年6月和7月間,選中的配音演員們被帶到舊金山進行錄音會議,并與OpenAI的產(chǎn)品和研究團隊進行了面對面交流。
2023年9月25日,他們的聲音正式在ChatGPT中啟用。整個過程涉及與演員和選角團隊的廣泛協(xié)調(diào),歷時五個月。
同時,這些演員也在持續(xù)與OpenAI合作,并為GPT-4o的音頻研究和新語音功能做出了貢獻。
OpenAI能注意到用戶在語音交互上的個性化需求,并且花費大量的精力完成音色的篩選,體現(xiàn)了他們對產(chǎn)品的機制追求。不知道今年6月的WWDC,如果會有AI Siri被推出,是否能給予用戶更多的選擇?
圖片
在失去了Sky之后,我們還有活潑的Juniper、充滿磁性的Breeze、以及兩個具有特色的男音,Ember沉穩(wěn)可靠,Cove低沉性感。你將會選擇哪款音色與ChatGPT互動呢?
參考鏈接:
1.https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/