?作者 | 云昭
3月9日,微軟德國CTO Andreas Braun在AI kickoff會議上帶來了一個期待已久的消息:“我們將于下周推出GPT-4,屆時我們將推出多模式模式,提供完全不同的可能性——例如視頻。”
言語之中,他將大型語言模型(LLM)比作“游戲改變者”,因?yàn)樗麄兘虣C(jī)器理解自然語言,然后機(jī)器以統(tǒng)計的方式理解以前只能由人類閱讀和理解的東西。與此同時,這項(xiàng)技術(shù)已經(jīng)發(fā)展到“適用于所有語言”:你可以用德語提問,也可以用意大利語回答。借助多模態(tài),微軟(-OpenAI)將“使模型變得全面”。
那么看來,GPT-4將是一個多模態(tài)大模型基本可以確定無疑了。但如果想提前知道有關(guān)GPT-4的真面目,并非無跡可尋。
一、預(yù)測:GPT-4基于此前多模態(tài)大語言模型Kosmos-1
其實(shí)早在3月1日,我們注意到微軟就發(fā)表了多模態(tài)的大語言模型Kosmos-1。如果GPT-4是多模態(tài)的,我們可以合理地預(yù)測GPT-4能夠做什么。
KOSMOS-1是一種多模態(tài)大型語言模型(MLLM),能夠感知多模態(tài)輸入,遵循指令,并執(zhí)行上下文學(xué)習(xí)任務(wù),也可以是多模態(tài)任務(wù)。在這項(xiàng)工作中,將視覺與大型語言模型(LLM)對齊,推動了從LLM向MLLM的演進(jìn)。
斯坦福博士、英偉達(dá)AI科學(xué)家Jim Fan基于此做出了5點(diǎn)具體的預(yù)測:
(1)視覺智商測試:是的,人類參加的測試?。?)無OCR閱讀理解:輸入屏幕截圖、掃描文檔、路牌或任何包含文本的像素。直接對內(nèi)容進(jìn)行推理,無需顯式OCR。這對于解鎖多媒體網(wǎng)頁上的AI驅(qū)動的應(yīng)用程序或來自現(xiàn)實(shí)世界攝像頭的“野外文本”非常有用。(3)多模態(tài)聊天:就圖片進(jìn)行對話。你甚至可以在中途提供“后續(xù)”圖片。(4)廣泛的視覺理解能力,如字幕、視覺問答、物體檢測、場景布局、常識推理等。(5)音頻和語音識別:在Kosmos-1論文中沒有提到,但Whisper已經(jīng)是一個OpenAI API,應(yīng)該很容易集成。
Jim認(rèn)為基于Andreas最近宣布的內(nèi)容做出的預(yù)測,可能有些出入。但 Kosmos-1已經(jīng)做到這些了。有理由相信,它提供了GPT-4或微軟接下來將提供的任何人工智能服務(wù)的能力。“很難相信Kosmos-1會留在實(shí)驗(yàn)室,而不成為產(chǎn)品”。
多模態(tài)大模型應(yīng)用示例:圖像捕捉、圖像問答、OCR、可視化對話
Jim建議從業(yè)者,“請為多模態(tài)API做好準(zhǔn)備——它們遲早會出現(xiàn)!”
二、GPT-4會成為AGI?遠(yuǎn)遠(yuǎn)不夠
首先,準(zhǔn)確度的問題仍然不夠。當(dāng)被問及操作可靠性和事實(shí)保真度時,微軟德國高級人工智能專家Siebler表示AI不會總是正確回答,因此有必要進(jìn)行驗(yàn)證。微軟目前正在創(chuàng)建置信度指標(biāo)來解決此問題??蛻敉ǔH在自己的數(shù)據(jù)集上使用AI支持,主要用于閱讀理解和查詢庫存數(shù)據(jù),其中模型已經(jīng)相當(dāng)準(zhǔn)確然而,模型生成的文本仍然是生成性的,因此不容易驗(yàn)證。Siebler說:“我們圍繞它建立了一個反饋循環(huán),包括贊成和反對?!边@是一個迭代過程。
其次,數(shù)據(jù)不夠。即便多模態(tài)的GPT-4即將展現(xiàn)出強(qiáng)大的視覺、聽覺、閱讀理解和推理能力,但這僅僅是AGI的冰山一角,以類人機(jī)器人為例,機(jī)器人的控制數(shù)據(jù)很難做到統(tǒng)一,而且,這些控制數(shù)據(jù)與機(jī)器人硬件有關(guān),差異很大。因此,無法輕松組合來自不同真實(shí)機(jī)器人的訓(xùn)練數(shù)據(jù),與文本、視頻、圖像、音頻等數(shù)據(jù)有著質(zhì)的不同。
三、GPT-4的兩個謠言
1.百萬億參數(shù)?假的!
GPT-4是OpenAI正在創(chuàng)建的一種新的語言模型,它可以生成類似于人類語音的文本。它將推進(jìn)基于GPT-3.5的ChatGPT所使用的技術(shù)。
早在2021年8月,行業(yè)專家就推測GPT-4將具有100萬億個參數(shù),但當(dāng)時就有人表示:用更多參數(shù)構(gòu)建AI并不一定能保證更好的性能,并且可能影響響應(yīng)性。
但ChatGPT之父Altman很快就辟謠了:ChatGPT的下一個版本不會是AGI,也不會有100萬億個參數(shù)。那些謠言是不正確的。
2.Bing聊天是否使用GPT-4?
微軟曾表示,新的Bing或Bing Chat比ChatGPT更強(qiáng)大。由于OpenAI的聊天使用GPT-3.5,因此有人推測,Bing聊天可能使用GPT-4。這一點(diǎn)尚未得到證實(shí)。
很明顯,Bing Chat已經(jīng)升級,可以通過互聯(lián)網(wǎng)訪問當(dāng)前信息,這是對ChatGPT的一個巨大改進(jìn),在此之前,它只能從2021之前接受的訓(xùn)練數(shù)據(jù)中受益。
除了互聯(lián)網(wǎng)的接入,用于Bing聊天的AI模型要快得多,這在從實(shí)驗(yàn)室取出并添加到搜索引擎中時非常重要。
但這似乎不太可能等同于OpenAI的GPT-4模型。如果GPT-4已經(jīng)公開可用,則無需再秘而不宣了。
四、GPT-4:一種進(jìn)化,而不是革命
毫無疑問,即將到來的GPT-4,肯定會給人留下深刻印象,但OpenAI首席執(zhí)行官Sam·Altman在StrictlyVC采訪中表示,“人們正在‘乞求’失望,他們會失望的?!?/p>
Altman之前還曾在推特上表示:AGI對世界經(jīng)濟(jì)造成巨大破壞的潛力,并表示,快速推出幾項(xiàng)小變化,總比令人震驚的進(jìn)步要好,因?yàn)樗鼛缀鯖]有為世界提供適應(yīng)變化的機(jī)會。
無獨(dú)有偶,世界級人工智能大神Ben Goertzel也給GPT-3/GPT-4潑了不少冷水:
當(dāng)然,現(xiàn)在人們應(yīng)該注意到,投入這些“知識重新排列”系統(tǒng)(如 ChatGPT)的美元和人力的數(shù)量遠(yuǎn)遠(yuǎn)大于投入替代人工智能方法的數(shù)量,這些方法更多地尊重扎根的、自我修正的認(rèn)知的復(fù)雜性。
1970年代末 - 90年代初對多層神經(jīng)網(wǎng)絡(luò)的全面懷疑和對專家系統(tǒng)的擁護(hù)看起來天真、陳舊和愚蠢,像極了現(xiàn)在的樣子。
同樣,到2020年代中期/后期,今天對LLM滿懷幻想的熱情和對更微妙的 AGI 方法的油嘴滑舌的駁斥將看起來太荒謬了
我在這個帖子中的觀點(diǎn),并不是說這些基于LLM的系統(tǒng)不酷或無用——只是它們是一種時髦的新型窄人工智能技術(shù),它與AGI的聯(lián)系并不像它出現(xiàn)在表面上,或者正如一些評論者所聲稱的那樣。
簡而言之,GPT-4將是一場進(jìn)化,而不是一場革命。
五、寫在最后
很明顯,ChatGPT 4不太可能成為OpenAI下一個產(chǎn)品的名稱,但會帶來一些創(chuàng)造性的想象,ChatGPT的名字,極有可能與驅(qū)動其改進(jìn)的AI模型GPT-4結(jié)合起來。AI從業(yè)者及管理者需要重點(diǎn)關(guān)注GPT-4、ChatGPT目前的工作進(jìn)展,以及OpenAI何時可能發(fā)布下一次重大升級。
最后,想對大家說,下周發(fā)布GPT-4是否符合本文的預(yù)測并不重要,包括我們期待的國產(chǎn)大模型“文心一言”也是如此。重要的是,開發(fā)者或者所在的企業(yè)是否已經(jīng)做好準(zhǔn)備來迎接多模態(tài)大模型的API。何其有幸,這些都有希望在2024之前到來!
參考鏈接:
https://arxiv.org/abs/2302.14045
https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html
https://t.co/JbtQvjoJ3W