?天下武功唯快不破,GPT-4o真的牛
面對這一更新發(fā)布,激動者不在少數(shù),各類自媒體震驚體輪番上陣,更有甚者鼓吹A(chǔ)GI時(shí)代已來。
Related Image
唱衰者同樣存在,貶低GPT-4o所展現(xiàn)的能力只是將tts,vision,llm等已然發(fā)布過的技術(shù)進(jìn)行了二次打包組裝,并無創(chuàng)新技術(shù)存在,而且演示的能力之前的Gemini-1.5已然演示過(雖然被實(shí)錘為剪輯)。
Related Image
作為一個(gè)大語言模型開發(fā)者,我也著實(shí)震驚于GPT-4o所展現(xiàn)的強(qiáng)大的多模態(tài)能力。不過遭受過AI原生應(yīng)用開發(fā)反復(fù)拷打的我,最為感嘆的點(diǎn)在于 232 毫秒語音響應(yīng)的這一數(shù)據(jù),更別說在急速響應(yīng)的情況下,GPT-4o回復(fù)的內(nèi)容質(zhì)量還在上一代基礎(chǔ)上有了大幅度的提升。不得不說,天下武功唯快不破!LLM領(lǐng)域的摩爾定律依然存在。
如果你還不理解我為啥我要關(guān)注全場精彩演示里的這個(gè)簡單數(shù)字,不如聽我說說我在AI開發(fā)時(shí)的一些小故事!
快真的很重要
在AI技術(shù)發(fā)展的過程中,速度一直是衡量性能的重要指標(biāo)。無論是在數(shù)據(jù)處理、模型訓(xùn)練還是實(shí)時(shí)交互中,快速響應(yīng)都是用戶體驗(yàn)的關(guān)鍵。
Demo還沒跑完,觀眾已經(jīng)跑完了
在去年這個(gè)時(shí)候,LLM已然起步。在一次hackthon比賽中,為了展示AI的強(qiáng)大能力,我們構(gòu)想了一個(gè)使用AI還原詩詞場景的產(chǎn)品。
然而要完成這個(gè)創(chuàng)意,我們需要通過LLM語義理解,文生圖提示詞自動優(yōu)化,生圖接口調(diào)用,自動視頻串場剪輯,tts語音合成等諸多耗時(shí)環(huán)節(jié),來完成一個(gè)完整的演示。然而,由于這些環(huán)節(jié)的處理速度太慢,有時(shí)候在演示時(shí),Demo還沒跑完,觀眾已經(jīng)跑完了。這就是速度對于AI應(yīng)用的重要性。
能聽懂情緒如同有魔法一般
在人機(jī)交互中,理解用戶的情緒和語境是提升體驗(yàn)的重要一環(huán)。GPT-4o在這方面的能力,讓機(jī)器的“聽覺”不再局限于文字,而是能夠感知到語氣和情感。
別說語氣,聽清文字,當(dāng)初就不尷尬了
回想起2018年雷軍在演示小米小愛藍(lán)牙音箱隨身版時(shí)的那一幕,他連續(xù)問三次“三個(gè)木叫什么?”,結(jié)果藍(lán)牙音箱答非所問。那時(shí)候的AI還不能很好的理解人的語境和情緒,甚至連基本的詞義都理解不清。而現(xiàn)在,GPT-4o的出現(xiàn),讓我們看到了AI在理解人類情緒和語境方面的巨大進(jìn)步。
集成也是創(chuàng)新,GPT-4o如有大腦
在AI領(lǐng)域,將不同的技術(shù)進(jìn)行有效集成,實(shí)現(xiàn)1+1>2的效果,本身就是一種創(chuàng)新。GPT-4o的多模態(tài)能力,就是這種集成創(chuàng)新的體現(xiàn)。
GPT-4o能輔導(dǎo)數(shù)學(xué)題了,我用的LLM還判斷不了0-1
在我開發(fā)Agent的過程中,我需要通過模型進(jìn)行0-1決策,以執(zhí)行下一步的任務(wù),但無法得到合適的回復(fù)。我問模型以下問題,期望只有真正需要執(zhí)行搜索動作時(shí),才回復(fù)true,然而模型卻無法正常運(yùn)轉(zhuǎn)。
Related Image
這就是GPT-4o的強(qiáng)大之處,它不僅能理解我們的問題,還能根據(jù)問題的內(nèi)容做出正確的回答。這是我們在開發(fā)AI應(yīng)用時(shí),一直追求的目標(biāo)。
結(jié)語
AGI還尚未到來,但AI技術(shù)的進(jìn)步真的每一次都能震撼人心,讓我們一起迎接這個(gè)精彩的未來吧!
本文轉(zhuǎn)載自 ??AI小智??,作者: AI小智
