OpenAI顛覆世界:GPT-4o完全免費,實時語音視頻交互震撼全場,直接進入科幻時代 精華
太震撼了!
當各家科技公司還在追趕大模型多模態(tài)能力,把總結(jié)文本、P 圖等功能放進手機里的時候,遙遙領(lǐng)先的 OpenAI 直接開了大招,發(fā)布的產(chǎn)品連自家 CEO 奧特曼都驚嘆:就像電影里一樣。
5 月 14 日凌晨,OpenAI 在首次「春季新品發(fā)布會」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App,并展示了一系列新能力。這一次,技術(shù)顛覆了產(chǎn)品形態(tài),OpenAI 用行動給全世界的科技公司上了一課。
今天的主持人是 OpenAI 的首席技術(shù)官 Mira Murati,她表示,今天主要講三件事:
- 第一,以后 OpenAI 做產(chǎn)品就是要免費優(yōu)先,為的就是讓更多的人能使用。?
- 第二,因此 OpenAI 此次發(fā)布了桌面版本的程序和更新后的 UI,其使用起來更簡單,也更自然。?
- 第三,GPT-4 之后,新版本的大模型來了,名字叫 GPT-4o。GPT-4o 的特別之處在于它以極為自然的交互方式為每個人帶來了 GPT-4 級別的智能,包括免費用戶。
ChatGPT 的這次更新以后,大模型可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出 —— 這才是屬于未來的交互方式。
最近,ChatGPT 不用注冊也可以使用了,今天又增加了桌面程序,OpenAI 的目標就是讓人們可以隨時隨地的無感使用它,讓 ChatGPT 集成在你的工作流中。這 AI 現(xiàn)在就是生產(chǎn)力了。
GPT-4o 是面向未來人機交互范式的全新大模型,具有文本、語音、圖像三種模態(tài)的理解力,反應(yīng)極快還帶有感情,也很通人性。
在現(xiàn)場,OpenAI 的工程師拿出一個 iPhone 演示了新模型的幾種主要能力。最重要的是實時語音對話,Mark Chen 說:「我第一次來直播的發(fā)布會,有點緊張?!笴hatGPT 說,要不你深呼吸一下。
好的,我深呼吸。
ChatGPT 立即回答說,你這不行,喘得也太大了。
如果你之前用過 Siri 之類的語音助手,這里就可以看出明顯的不同了。首先,你可以隨時打斷 AI 的話,不用等它說完就可以繼續(xù)下一輪對話。其次,你不用等待,模型反應(yīng)極快,比人類的回應(yīng)還快。第三,模型能夠充分理解人類的情感,自己也能表現(xiàn)出各種感情。
隨后是視覺能力。另一個工程師在紙上現(xiàn)寫的方程,讓 ChatGPT 不是直接給答案,而是讓它解釋要一步步怎么做??雌饋恚诮倘俗鲱}方面很有潛力。
ChatGPT 說,每當你為數(shù)學焦頭爛額的時候,我就在你身邊。
接下來嘗試 GPT-4o 的代碼能力。這有一些代碼,打開電腦里桌面版的 ChatGPT 用語音和它交互,讓它解釋一下代碼是用來做什么的,某個函數(shù)是在做什么,ChatGPT 都對答如流。
輸出代碼的結(jié)果,是一個溫度曲線圖,讓 ChatGPT 以一句話的方式回應(yīng)所有有關(guān)此圖的問題。
最熱的月份在幾月,Y 軸是攝氏度還是華氏度,它都能回答得上來。
OpenAI 還回應(yīng)了一些 X/Twitter 上網(wǎng)友們實時提出的問題。比如實時語音翻譯,手機可以拿來當翻譯機來回翻譯西班牙語和英語。
又有人問道,ChatGPT 能識別你的表情嗎?
看起來,GPT-4o 已經(jīng)能夠做到實時的視頻理解了。
接下來,就讓我們詳細了解下 OpenAI 今天放出的核彈。
全能模型 GPT-4o
首先介紹的是 GPT-4o,o 代表 Omnimodel(全能模型)。
第一次,OpenAI 在一個模型中集成了所有模態(tài),大幅提升了大模型的實用性。
OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水準」的智能,但在 GPT-4 的基礎(chǔ)上改進了文本、視覺和音頻方面的能力,將在未來幾周內(nèi)「迭代式」地在公司產(chǎn)品中推出。
「GPT-4o 的理由橫跨語音、文本和視覺,」Muri Murati 說道:「我們知道這些模型越來越復雜,但我們希望交互體驗變得更自然、更簡單,讓你完全不用關(guān)注用戶界面,而只關(guān)注與 GPT 的協(xié)作?!?/p>
GPT-4o 在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,但在非英語文本上的性能顯著提高,同時 API 的速度也更快,成本降低了 50%。與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。
它最快可以在 232 毫秒的時間內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時長 320 毫秒,與人類相似。在 GPT-4o 發(fā)布之前,體驗過 ChatGPT 語音對話能力的用戶能夠感知到 ChatGPT 的平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
這種語音響應(yīng)模式是由三個獨立模型組成的 pipeline:一個簡單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個簡單模型將該文本轉(zhuǎn)換回音頻。但 OpenAI 發(fā)現(xiàn)這種方法意味著 GPT-4 會丟失大量信息,例如模型無法直接觀察音調(diào)、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。
而在 GPT-4o 上,OpenAI 跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。
「從技術(shù)角度來看,OpenAI 已經(jīng)找到了一種方法,可以將音頻直接映射到音頻作為一級模態(tài),并將視頻實時傳輸?shù)?transformer。這些需要對 token 化和架構(gòu)進行一些新的研究,但總體來說是一個數(shù)據(jù)和系統(tǒng)優(yōu)化問題(大多數(shù)事情都是如此)。」英偉達科學家 Jim Fan 如此評論道。
GPT-4o 可以跨文本、音頻和視頻進行實時推理,這是向更自然的人機交互(甚至是人 - 機器 - 機器交互)邁出的重要一步。
OpenAI 總裁 Greg Brockman 也在線「整活」,不僅讓兩個 GPT-4o 實時對話,還讓它們即興創(chuàng)作了一首歌曲,雖然旋律有點「感人」,但歌詞涵蓋房間的裝飾風格、人物穿著特點以及期間發(fā)生的小插曲等。
此外,GPT-4o 在理解和生成圖像方面的能力比任何現(xiàn)有模型都要好得多,此前很多不可能的任務(wù)都變得「易如反掌」。
比如,你可以讓它幫忙把 OpenAI 的 logo 印到杯墊上:
經(jīng)過這段時間的技術(shù)攻關(guān),OpenAI 應(yīng)該已經(jīng)完美解決了 ChatGPT 生成字體的問題。
同時,GPT-4o 還擁有 3D 視覺內(nèi)容生成的能力,能夠從 6 個生成的圖像進行 3D 重建:
這是一首詩,GPT-4o 可以將其排版為手寫樣式:
更復雜的排版樣式也能搞定:
與 GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續(xù)的漫畫分鏡:
而下面這些玩法,應(yīng)該會讓很多設(shè)計師有點驚訝:
這是一張由兩張生活照演變而來的風格化海報:
還有一些小眾的功能,比如「文本轉(zhuǎn)藝術(shù)字」:
GPT-4o 性能評估結(jié)果
OpenAI 技術(shù)團隊成員在 X 上表示,之前在 LMSYS Chatbot Arena 上引起廣泛熱議的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一個版本。
在比較困難的 prompt 集上 —— 特別是編碼方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其顯著。
具體來說,在多項基準測試中,GPT-4o 在文本、推理和編碼智能方面實現(xiàn)了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上實現(xiàn)了新高。
推理提升:GPT-4o 在 5-shot MMLU(常識問題)上創(chuàng)下了 87.2% 的新高分。(注:Llama3 400b 還在訓練中)
音頻 ASR 性能:GPT-4o 相比 Whisper-v3 顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。
GPT-4o 在語音翻譯方面取得了新的 SOTA 水平,并且在 MLS 基準測試中優(yōu)于 Whisper-v3。
M3Exam 基準測試既是多語言評估基準也是視覺評估基準,由來自多個國家 / 地區(qū)的標準化測試多項選擇題組成,并包括圖形、圖表。在所有語言基準測試中,GPT-4o 都比 GPT-4 更強。
未來,模型能力的提升將實現(xiàn)更自然、實時的語音對話,并能夠通過實時視頻與 ChatGPT 進行對話。例如,用戶可以向 ChatGPT 展示一場現(xiàn)場體育比賽,并要求它解釋規(guī)則。
ChatGPT 用戶將免費獲得更多高級功能
每周都有超過一億人使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和圖像功能今天開始免費在 ChatGPT 中推出,并向 Plus 用戶提供高達 5 倍的消息上限。
現(xiàn)在打開 ChatGPT,我們發(fā)現(xiàn) GPT-4o 已經(jīng)可以使用了。
使用 GPT-4o 時,ChatGPT 免費用戶現(xiàn)在可以訪問以下功能:體驗 GPT-4 級別智能;用戶可以從模型和網(wǎng)絡(luò)獲取響應(yīng)。
此外,免費用戶還可以有以下選擇 ——
分析數(shù)據(jù)并創(chuàng)建圖表:
和拍攝的照片對話:
上傳文件以獲取總結(jié)、寫作或分析方面的幫助:
發(fā)現(xiàn)并使用 GPTs 和 GPT 應(yīng)用商店:
以及使用記憶功能打造更有幫助的體驗。
不過,根據(jù)使用情況和需求,免費用戶可以使用 GPT-4o 發(fā)送的消息數(shù)量會受到限制。當達到限制時,ChatGPT 將自動切換到 GPT-3.5,以便用戶可以繼續(xù)對話。
此外,OpenAI 還將在未來幾周內(nèi)在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha,并通過 API 向一小部分值得信賴的合作伙伴推出對 GPT-4o 更多新的音頻和視頻功能。
當然了,通過多次的模型測試和迭代,GPT-4o 在所有模態(tài)下都存在一些局限性。在這些不完美的地方,OpenAI 表示正努力改進 GPT-4o。
可以想到的是, GPT-4o 音頻模式的開放肯定會帶來各種新的風險。在安全性問題上,GPT-4o 通過過濾訓練數(shù)據(jù)和通過訓練后細化模型行為等技術(shù),在跨模態(tài)設(shè)計中內(nèi)置了安全性。OpenAI 還創(chuàng)建了新的安全系統(tǒng),為語音輸出提供防護。
新的桌面 app 簡化用戶工作流程
對于免費和付費用戶,OpenAI 還推出了適用于 macOS 的新 ChatGPT 桌面應(yīng)用程序。通過簡單的鍵盤快捷鍵(Option + Space),用戶可以立即向 ChatGPT 提問,此外,用戶還可以直接在應(yīng)用程序中截取屏幕截圖并進行討論。
現(xiàn)在,用戶還可以直接從計算機與 ChatGPT 進行語音對話,GPT-4o 的音頻和視頻功能將在未來推出,通過點擊桌面應(yīng)用程序右下角的耳機圖標來開始語音對話。
從今天開始,OpenAI 將向 Plus 用戶推出 macOS 應(yīng)用程序,并將在未來幾周內(nèi)更廣泛地提供該應(yīng)用程序。此外今年晚些時候 OpenAI 會推出 Windows 版本。
奧特曼:你們開源,我們免費
在發(fā)布結(jié)束后,OpenAI CEO 山姆?奧特曼久違地發(fā)表了一篇博客文章,介紹了推動 GPT-4o 工作時的心路歷程:
在我們今天的發(fā)布中,我想強調(diào)兩件事。
首先,我們使命的一個關(guān)鍵部分是將強大的人工智能工具免費(或以優(yōu)惠的價格)提供給人們。我非常自豪地宣布,我們在 ChatGPT 中免費提供世界上最好的模型,沒有廣告或類似的東西。
當我們創(chuàng)立 OpenAI 時,我們的最初構(gòu)想是:我們要創(chuàng)造人工智能并利用它為世界創(chuàng)造各種利益。現(xiàn)在情況有所變化,看起來我們將創(chuàng)造人工智能,然后其他人將使用它來創(chuàng)造各種令人驚奇的事物,我們所有人都會從中受益。
當然,我們是一家企業(yè),會發(fā)明很多收費的東西,這將幫助我們向數(shù)十億人提供免費、出色的人工智能服務(wù)(希望如此)。
其次,新的語音和視頻模式是我用過的最好的計算交互界面。感覺就像電影里的人工智能一樣,我仍然有點驚訝于它竟然是真的。事實證明,達到人類水平的響應(yīng)時間和表達能力是一個巨大的飛躍。
最初的 ChatGPT 暗示了語言界面的可能性,而這個新事物(GPT-4o 版本)給人的感覺有本質(zhì)上的不同 —— 它快速、智能、有趣、自然且能給人帶來幫助。
對我來說,與電腦交互從來都不是很自然的事情,事實如此。而當我們添加(可選)個性化、訪問個人信息、讓 AI 代替人采取行動等等能力時,我確實可以看到一個令人興奮的未來,我們能夠使用計算機做比以往更多的事情。
最后,非常感謝團隊為實現(xiàn)這一目標付出了巨大的努力!
值得一提的是,上個星期奧特曼在一次采訪中表示,雖然全民免費收入(universal basic income)難以實現(xiàn),但我們可以實現(xiàn)「全民免費計算 universal basic compute」。在未來,所有人都可以免費獲得 GPT 的算力,可以使用、轉(zhuǎn)售或捐贈。
「這個想法是,隨著 AI 變得更加先進,并嵌入到我們生活的方方面面,擁有像 GPT-7 這樣的大語言模型單元可能比金錢更有價值,你擁有了部分生產(chǎn)力,」奧特曼解釋道。
GPT-4o 的發(fā)布,或許就是 OpenAI 朝著這方面努力的一個開始。
是的,這還只是個開始。
最后提一句,今天 OpenAI 博客中展示的「Guessing May 13th’s announcement.」的視頻,幾乎完全撞車谷歌明天 I/O 大會的一個預(yù)熱視頻,這無疑是對谷歌的貼臉開大。不知道看完今天 OpenAI 的發(fā)布,谷歌有沒感到巨大壓力?
本文轉(zhuǎn)自機器之心 ,作者:機器之心
