ChatGPT-4o有何特別之處?
大家已經(jīng)知道,OpenAI 在 GPT-4 發(fā)布一年多后終于推出了一個(gè)新模型。它仍然是 GPT-4 的一個(gè)變體,但具有前所未見(jiàn)的多模態(tài)功能。
有趣的是,它包括實(shí)時(shí)視頻處理等強(qiáng)大功能,這一關(guān)鍵功能最終可以讓我們創(chuàng)建強(qiáng)大的虛擬助手,實(shí)時(shí)支持我們的日常生活。然而,這樣的功能應(yīng)該很昂貴且緩慢,考慮到該模型速度極快且免費(fèi)使用(有限免費(fèi)),這不合情理。
那么,到底發(fā)生了什么事呢?
OpenAI 一定已經(jīng)意識(shí)到了一些我們尚未意識(shí)到的事情,即我們今天討論的智能設(shè)計(jì)決策可以以極低的價(jià)格創(chuàng)建出更智能的模型。
那么,這一切有何意義?它對(duì)你未來(lái)意味著什么?
多模態(tài)輸入,多模態(tài)輸出
那么,ChatGPT-4o 有什么特別之處呢?它是有史以來(lái)第一個(gè)真正的“多模態(tài)輸入/多模態(tài)輸出”前沿模型。
但我們這樣說(shuō)到底是什么意思呢?
在真正的多模態(tài)模型中,您可以向模型發(fā)送音頻、文本、圖像或視頻,模型將根據(jù)需求使用文本、圖像或音頻(還不是視頻)進(jìn)行響應(yīng)。
但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已經(jīng)處理和生成圖像或音頻了嗎?是的,但有一個(gè)需要注意的點(diǎn)是:
他們是通過(guò)獨(dú)立的外生組件來(lái)實(shí)現(xiàn)的。
之前的模型和現(xiàn)在模型對(duì)比
以前,每當(dāng)你向大模型發(fā)送音頻時(shí),都是這樣的標(biāo)準(zhǔn)流程:
輸入輸出過(guò)程:用戶發(fā)出的語(yǔ)音請(qǐng)求經(jīng)過(guò)自動(dòng)語(yǔ)音識(shí)別(ASR)轉(zhuǎn)為文本(這里用的Whisper),文本經(jīng)過(guò)大語(yǔ)言模型處理生成響應(yīng)文本,響應(yīng)文本再經(jīng)過(guò)文本轉(zhuǎn)語(yǔ)音(TTS)模塊轉(zhuǎn)換為語(yǔ)音,最終以語(yǔ)音形式返回給用戶。
Whisper 是由 OpenAI 開(kāi)發(fā)的一種自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)。它利用深度學(xué)習(xí)技術(shù)和大規(guī)模語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,能夠?qū)⒄Z(yǔ)音信號(hào)轉(zhuǎn)換為文本。Whisper 系統(tǒng)具有高準(zhǔn)確性和多語(yǔ)言支持,能夠處理各種音質(zhì)和背景噪聲的語(yǔ)音輸入。
在此過(guò)程中,自然語(yǔ)音中的聲調(diào)、節(jié)奏、韻律、傳達(dá)的情感和關(guān)鍵停頓都會(huì)丟失,因?yàn)檎Z(yǔ)音轉(zhuǎn)文本組件Whisper會(huì)將音頻轉(zhuǎn)錄為 LLM 可以處理的文本。
然后,LLM 將生成文本響應(yīng)并將其發(fā)送到另一個(gè)組件(即文本到語(yǔ)音模型),該模型將生成最終傳達(dá)的語(yǔ)音。
自然,由于人類(lèi)通過(guò)語(yǔ)音傳達(dá)的信息遠(yuǎn)不止文字,許多重要信息也因此丟失, 而且由于信息必須在不同的組件之間發(fā)送,造成的延遲并不理想。
但是在 ChatGPT-4o 中,一切都相似但又完全不同;因?yàn)橐磺卸及l(fā)生在同一個(gè)地方。
乍一看,似乎變化不大。盡管組件幾乎沒(méi)有變化(vocoder和音頻解碼器是我們之前展示的文本轉(zhuǎn)語(yǔ)音模型的一部分),但這些組件如何共享信息,完全改變了信息丟失的程度。
具體來(lái)說(shuō),LLM 現(xiàn)在看到的是語(yǔ)音的語(yǔ)義表示,而不是原始文本。通俗地說(shuō),模型現(xiàn)在不僅能看到“我想殺了你!”這句文字,還能接收到以下信息:
{
轉(zhuǎn)譯的文字: "我想殺了你!";
情緒: "高興";
語(yǔ)氣: "喜悅";
}
這里雖然使用了 JSON 示例來(lái)說(shuō)明,但語(yǔ)音編碼器實(shí)際上為 LLM 生成的是一組向量嵌入(Vector Embeddings),除了實(shí)際文本之外,它們還捕捉語(yǔ)音的情感、語(yǔ)調(diào)、節(jié)奏和其他線索。
向量嵌入 是一種將離散的數(shù)據(jù)(如單詞、句子、圖像等)映射到連續(xù)的低維向量空間的方法。這些向量捕捉了數(shù)據(jù)的語(yǔ)義關(guān)系,使得相似的數(shù)據(jù)在向量空間中更接近。
因此,LLM 生成的響應(yīng)更加基于實(shí)際情況,除了文字之外,還能捕捉信息中的關(guān)鍵特征。
然后將該響應(yīng)發(fā)送到音頻解碼器,音頻解碼器使用它來(lái)生成梅爾頻譜圖(很可能),最后將其發(fā)送到聲碼器以生成音頻。
您可以將頻譜圖視為“查看”聲音的一種方式。頻譜圖 是一種將音頻信號(hào)的頻率成分展示在二維圖表上的工具。頻譜圖顯示了音頻信號(hào)在不同時(shí)間點(diǎn)的頻率分布及其強(qiáng)度
那么梅爾頻譜圖是什么?梅爾頻譜圖 是一種特殊類(lèi)型的頻譜圖,它通過(guò) Mel 頻率尺度對(duì)頻率軸進(jìn)行變換,更符合人耳對(duì)聲音的感知
順便說(shuō)一句,所有這些也適用于圖像處理和生成或視頻處理,因?yàn)樗鼈儗⑺薪M件打包成一個(gè)單一模型,而不僅僅是音頻。
總而言之,ChatGPT-4o 現(xiàn)在可以從文本以外的其他形式捕獲信息,包括關(guān)鍵音頻、圖像或視頻提示,以生成更相關(guān)的響應(yīng)。簡(jiǎn)而言之,它不再關(guān)心數(shù)據(jù)如何進(jìn)入并適應(yīng)上下文,而是需要決定必須以何種方式回復(fù)。
這個(gè)改變有多么重要
OpenAI 實(shí)現(xiàn)的真正多模態(tài)向世界傳遞了一個(gè)鮮明的信息:
在不使模型的主干(LLM)本身更加智能的情況下,能夠跨多種模態(tài)進(jìn)行推理的模型必然會(huì)更加智能,因?yàn)樵撃P筒粌H具有更多功能,而且還能夠在不同數(shù)據(jù)類(lèi)型之間傳遞知識(shí)。
人類(lèi)運(yùn)用所有感官的能力被認(rèn)為是智能的關(guān)鍵部分,而人工智能也旨在掌握這種能力。
作為一個(gè)很大的好處,它還使模型在推理方面變得更加高效(撇開(kāi)它們本可以應(yīng)用的特定效率不談)。
