自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nobr id="nzzcm"></nobr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4o預(yù)告中的語(yǔ)音助手“Her”真的很驚艷，但問(wèn)題是我們還有多久才能夠真正上手？網(wǎng)友：PR鬼才奧特曼都坐不住了

原創(chuàng) 精選

作者：伊風(fēng) 2024-05-17 18:32:20

盡管如此，AI領(lǐng)域的創(chuàng)新其實(shí)并未停滯。OpenAI的GPT-4o模型，盡管尚未完全實(shí)現(xiàn)其承諾，但其潛在的影響力已經(jīng)足以讓科技界充滿(mǎn)期待。26分鐘的發(fā)布會(huì)也許足以改變?nèi)祟?lèi)在以后26年的工作和生活方式。

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

OpenAI 發(fā)布會(huì)中的GPT-4o給所有人都看眼饞了！

誰(shuí)不想第一時(shí)間體驗(yàn)下傳說(shuō)中的“Her”呢？

圖片

在發(fā)布會(huì)上，GPT-4o展示了自己的“magic”：高超的語(yǔ)音理解水平，像人類(lèi)思考般極為短暫的延時(shí)，富有幽默感和同情心的溝通方式，以及對(duì)話中途被打斷而轉(zhuǎn)入傾聽(tīng)的切換能力。

加上OpenAI在發(fā)布會(huì)中說(shuō)，GPT-4o功能將率先推送給Plus用戶(hù)。更讓人覺(jué)得付費(fèi)玩家上手“Her”是件分分鐘的事情了！

圖片

確實(shí)已經(jīng)有用戶(hù)被推送了GPT-4o的版本，但當(dāng)他們迫不及待地使用語(yǔ)音交互功能時(shí)才發(fā)現(xiàn)，自己的“Her”怎么跟發(fā)布會(huì)上說(shuō)好的不一樣？

因?yàn)椤褪遣灰粯印?/p>

圖片

用戶(hù)使用的GPT-4o模型中的語(yǔ)音對(duì)話功能仍然是外掛的whisper模型來(lái)實(shí)現(xiàn)的。即需要將用戶(hù)音頻，轉(zhuǎn)為文字后再進(jìn)行處理。因此當(dāng)前的語(yǔ)音交互是“回合制”的，用戶(hù)說(shuō)完話后要等待處理，不能夠隨時(shí)打斷對(duì)話。

圖片

而發(fā)布會(huì)中GPT-4o則采用的是同一個(gè)神經(jīng)網(wǎng)絡(luò)將音頻映射到音頻的技術(shù)，是端到端的生成方式。

畢竟用戶(hù)界面顯示的是“GPT-4o”，期待所提供的語(yǔ)音交互，能像發(fā)布會(huì)demo中展示的一樣神奇也是理所應(yīng)當(dāng)。甚至許多測(cè)評(píng)也直接把舊的通話功能當(dāng)成GPT-4o去測(cè)了！

誤會(huì)越來(lái)越大，這下連PR大師、營(yíng)銷(xiāo)鬼才、阻擊谷歌發(fā)布會(huì)的多面手奧特曼本人也坐不住了。趕緊發(fā)了條X文說(shuō)：“新的（GPT-4o）語(yǔ)音模式還未發(fā)布呢！我們發(fā)的是 GPT-4o 的文本模式哦！您目前可以在（GPT-4o）應(yīng)用程序中使用的語(yǔ)音模式是舊版本（非GPT-4o）。

新版本非常值得期待！ ”

圖片

單是看翻譯都要把人繞糊涂了。相當(dāng)于GPT-4o真正的王炸功能音頻、視頻都沒(méi)有上場(chǎng)，在這個(gè)前提下，新版本與GPT-4V的體驗(yàn)幾乎沒(méi)啥區(qū)別！

網(wǎng)友在下面紛紛調(diào)侃道，不是吧……又像Sora那樣耍我們？

1、驚艷的demo，到手的半成品

根據(jù)OpenAI官網(wǎng)的說(shuō)法，OpenAI將在未來(lái)幾周內(nèi)推出具有發(fā)布會(huì)介紹功能的新語(yǔ)音模式 alpha 版，并為 Plus 用戶(hù)提供早期訪問(wèn)權(quán)限。

圖片

有意思的是，許多用戶(hù)測(cè)試了“舊的”語(yǔ)音功能后感覺(jué)，“延遲短了”、“更有感情了”，恰恰說(shuō)明人類(lèi)也是很容易出現(xiàn)幻覺(jué)的。

另外，即使是GPT-4o已經(jīng)提供給plus用戶(hù)的圖片多模態(tài)功能，也出現(xiàn)了“貨不對(duì)板”的質(zhì)疑。在之前的demo展示中，GPT-4o已經(jīng)在圖片中解決了一致性和字體生成的問(wèn)題。

圖片

今天，OpenAI的聯(lián)創(chuàng)Greg Brockman在X上曬出了GPT-4o生成的第一張圖片。GPT-4o給了照片級(jí)別的答卷，一個(gè)穿著OpenAI logoT恤的男人背身站在黑板前，正在進(jìn)行板書(shū)，而板書(shū)上的內(nèi)容清晰可見(jiàn):"模態(tài)之間的傳輸"。假設(shè)我們直接用一個(gè)大的自回歸變壓器對(duì) P（文本、像素、聲音）建模。利弊如何？"

圖片

從上圖來(lái)看，新方法比 OpenAI 于 2023 年 9 月推出的上一個(gè)圖像生成模型 DALL-E 3 有了明顯的改進(jìn)。在 ChatGPT 中通過(guò) DALL-E 3 運(yùn)行了類(lèi)似的提示，結(jié)果如下。

圖片

布洛克曼分享的使用 GPT-4o 創(chuàng)建的圖像在質(zhì)量、逼真度和文本生成的準(zhǔn)確性方面都有顯著提高。

不過(guò)，評(píng)論區(qū)有網(wǎng)友感到疑惑：“我們用的是同一個(gè)GPT-4o嗎？”

圖片

乍一看這張圖片還算逼真，能看出網(wǎng)友本想生成一個(gè)Greg Brockman在瀏覽X的圖片。放大看看發(fā)現(xiàn)屏幕上的文字猶如天書(shū)，GPT-4o在生成正確的文字方面沒(méi)堅(jiān)持了多久就開(kāi)始了“鬼畫(huà)符”。即使網(wǎng)友嘗試了多輪提示詞也仍然如此。

二、半成品的世界，谷歌輸在哪了？

今早，奧特曼突然公開(kāi)發(fā)文諷刺谷歌審美不行。

圖片

他發(fā)布了OpenAI和Google發(fā)布新產(chǎn)品的現(xiàn)場(chǎng)，并配文“我嘗試不去多想我們的競(jìng)爭(zhēng)對(duì)手，但我忍不住去想我們兩者間巨大的審美差距”。

不過(guò)，雖然奧特曼嘴上說(shuō)著不想考慮競(jìng)爭(zhēng)對(duì)手，但卻偏偏將新品發(fā)布挪到了谷歌的前一天。

雖然谷歌的CEO在I/O大會(huì)前接受彭博社的采訪中說(shuō)，他不認(rèn)為自己是一位因循守舊的領(lǐng)導(dǎo)者，他在上任初期就宣布未來(lái)的谷歌將以AI為導(dǎo)向，這在那時(shí)是非常激進(jìn)的舉措。

但從谷歌所發(fā)布的產(chǎn)品來(lái)看，他們的確在做優(yōu)化和防守的相關(guān)工作。

英偉達(dá)科學(xué)家Jim Fan說(shuō)，谷歌做的最正確的一件事，就是開(kāi)始將人工智能認(rèn)真地融入自家的搜索框了。

圖片

有人在谷歌的X文下尖刻的評(píng)論道，“OpenAI所展示的東西正在送貨。然而你們的舞臺(tái)上卻只有一個(gè)小丑”。

圖片

另一個(gè)人則回復(fù)道，“公平點(diǎn)吧！OpenAI用戶(hù)界面也沒(méi)發(fā)布他們的新功能啊，就算是充值用戶(hù)，不還是DALL-E 3、TTS那一套嗎？”不過(guò)他又話鋒一轉(zhuǎn)的說(shuō)，“不過(guò)我覺(jué)得他們發(fā)貨還是會(huì)比谷歌的Astra”更快的。

圖片

三、寫(xiě)在最后

在當(dāng)今的科技領(lǐng)域，人工智能（AI）無(wú)疑是最具變革性的、最為人所關(guān)注的技術(shù)之一。

然而，隨著AI技術(shù)的快速發(fā)展，我們也目睹了一種令人擔(dān)憂的趨勢(shì)：從模型到軟件再到硬件，整個(gè)AI領(lǐng)域似乎都陷入了一種“半成品炒作”的模式。這種模式不僅消耗了公眾的耐心，也對(duì)行業(yè)的健康發(fā)展構(gòu)成了威脅。

AI技術(shù)的炒作現(xiàn)象，從Sora、human的AI PIN到最近備受爭(zhēng)議的rabbit，已經(jīng)引起了廣泛的不滿(mǎn)?？萍脊颈究梢缘却磺羞M(jìn)入ready狀態(tài)后，再向用戶(hù)發(fā)布他們的產(chǎn)品。而如今卻越來(lái)越加速，用戶(hù)買(mǎi)到手中的半成品可以運(yùn)行的功能有時(shí)少得可憐。

公眾對(duì)于“fake it until you make it”的策略感到厭煩，他們渴望的是實(shí)實(shí)在在的技術(shù)進(jìn)步和開(kāi)箱即用的體驗(yàn)。

這種炒作不僅掩蓋了AI技術(shù)發(fā)展的真實(shí)狀況，也可能導(dǎo)致對(duì)AI潛力的過(guò)度樂(lè)觀預(yù)期。

分析專(zhuān)家認(rèn)為，AI技術(shù)的增速放緩，部分原因在于技術(shù)瓶頸和安全問(wèn)題的挑戰(zhàn)。以GPT-5為例，盡管市場(chǎng)對(duì)其充滿(mǎn)期待，但其遲遲未能面世，可能是因?yàn)檠邪l(fā)過(guò)程中遇到了難以克服的技術(shù)障礙。

與此同時(shí)，硬件供應(yīng)的變化也反映了AI發(fā)展的現(xiàn)狀。根據(jù)硅谷科技博主的爆料，幾個(gè)月前供不應(yīng)求的高性能GPU，而現(xiàn)在無(wú)需預(yù)訂就可以完成購(gòu)買(mǎi)。隨著芯片公司的競(jìng)爭(zhēng)加劇，英偉達(dá)一家獨(dú)大的局面可能會(huì)被打破，市場(chǎng)供應(yīng)開(kāi)始趨于穩(wěn)定。

盡管如此，AI領(lǐng)域的創(chuàng)新其實(shí)并未停滯。OpenAI的GPT-4o模型，盡管尚未完全實(shí)現(xiàn)其承諾，但其潛在的影響力已經(jīng)足以讓科技界充滿(mǎn)期待。26分鐘的發(fā)布會(huì)也許足以改變?nèi)祟?lèi)在以后26年的工作和生活方式。

但是，我們真正想要的良性發(fā)展，是AI科技能夠擺脫炒作的陰影，以更加穩(wěn)健的步伐，為人類(lèi)社會(huì)帶來(lái)真正的有益的變革和安全的進(jìn)步。

參考鏈接：

1.https://simonwillison.net/2024/May/15/chatgpt-in-4o-mode/

2.https://twitter.com/howie_serious/status/1790890586486267970

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問(wèn)：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

GPT-4o AI OpenAI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="ueb9z"><samp id="ueb9z"></samp></em>

<samp id="ueb9z"></samp>

<table id="ueb9z"></table>