?作者 | 云昭
一開始據(jù)說是本周四發(fā)布,結(jié)果en~~周三凌晨就發(fā)布了,果真,OpenAI向來喜歡提前給人們制造驚喜!
1、GPT4、ChatGPT大比拼
廢話不多說,先上GPT4的硬技能。
首先,是長文本處理的能力,OpenAI官網(wǎng)上是這么描述的:“GPT4 能夠處理超過25,000個單詞的文本,允許使用長格式內(nèi)容創(chuàng)建、擴展對話以及文檔搜索和分析等用例。”
OpenAI怕大家不能很形象的理解,干脆用一篇維基百科的長文舉了個例子,這個文本有多長呢?小編實際點開了鏈接(見下圖),要比目前ChatGPT(GPT3.5)能處理的文本長出一倍去。不信的朋友可以去這個鏈接:https://en.wikipedia.org/wiki/Rihanna看一看實際長度。
對于文本對話任務(wù),兩者表現(xiàn)幾何?OpenAI官方是這樣說的。
在隨意的交談中,GPT3.5和GPT4之間的區(qū)別可能很細(xì)微。當(dāng)任務(wù)的復(fù)雜性達到足夠的閾值時,差異就會顯現(xiàn)出來。GPT4比GPT3.5更可靠、更具創(chuàng)造力,并且能夠處理更細(xì)微的指令。
GPT4的上下文長度為8192個令牌。OpenAI還提供了對32768上下文(約50頁文本)版本gpt-4-32k的有限訪問,該版本也將隨著時間的推移自動更新(當(dāng)前版本gpt-4-22k-0314,也支持到6月14日)。定價為每1K提示令牌0.06美元,每1K完成令牌0.12美元。
OpenAI仍在改進長期環(huán)境下的模型質(zhì)量,并希望得到有關(guān)它在的用例中表現(xiàn)如何的反饋。OpenAI根據(jù)容量以不同的速率處理8K和32K引擎的請求,因此可以在不同的時間訪問它們。
第二個,對圖像的識別能力:接受圖像作為輸入。
GPT4可以接受文本和圖像的提示,這與純文本設(shè)置并行,允許用戶指定任何視覺或語言任務(wù)。具體來說,它生成文本輸出(自然語言、代碼等),給定由穿插的文本和圖像組成的輸入。在一系列領(lǐng)域,包括帶有文本和照片的文檔、圖表或屏幕截圖,GPT4表現(xiàn)出與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發(fā)的測試時間技術(shù)來增強,包括少量鏡頭和思維鏈提示。遺憾的是,圖像輸入仍然只是研究預(yù)覽階段,暫時沒有公開。
(問題和答案都是英文:為了便于理解,已翻譯為中文)
圖片上給出了一些食材,問GPT4可以根據(jù)圖片上的食材做哪些美食??梢钥闯鯣PT4正式跨界了!
第三個,更靠譜的推理能力。
GPT4較之前的模型,更具有創(chuàng)造性和協(xié)作性。它不僅能夠完成許多創(chuàng)意和基礎(chǔ)寫作,而且還能創(chuàng)作歌曲、劇本,重要的是還能學(xué)習(xí)用戶的寫作風(fēng)格。
關(guān)于推理能力這塊,OpenAI還給出了一個讓GPT4預(yù)定會議室的例子:
問題大致是這樣的:三個人在每一天的空閑時間不一樣,讓GPT找出一個30分鐘會議的合適時間。
可以看出ChatGPT的邏輯思路和文本分析的都沒毛病,但給出的答案全錯。而GPT4則給出了正確的答案。
GPT4還有一個更強的BUFF,讓它參加考試,會碾壓不少學(xué)霸!而ChatGPT則弱爆了!
在統(tǒng)一律師考試中取得了前10%的成績,而ChatGPT獲得了倒數(shù)10%。
除此之外,OpenAI還給出了SAT等其他考試的排名,均比ChatGPT能扛能打!
與ChatGPT比起來,還有哪些硬貨??
GPT4的可操作性更加靈活。使用過ChatGPT的朋友都知道,如果用API提交請求的話,一般有兩個消息:系統(tǒng)消息(規(guī)定的AI風(fēng)格和角色)和用戶消息(具體提出的問題)。之前的ChatGPT對于系統(tǒng)消息不太看重,風(fēng)格、語調(diào)比較固定。
而GPT4則不然,開發(fā)人員(以及很快的ChatGPT用戶)現(xiàn)在可以通過在“系統(tǒng)”消息中描述這些方向來規(guī)定他們的AI風(fēng)格和任務(wù),系統(tǒng)消息允許API用戶在一定范圍內(nèi)顯著自定義用戶體驗。OpenAI將繼續(xù)在這里進行改進(尤其要知道,系統(tǒng)消息是“越獄”當(dāng)前模型的最簡單方法,即,對邊界的遵守不再那么死板),OpenAI也非常鼓勵讓他們知道用戶想要嘗試這些ideas。
還有對多語種的支持能力也更強。測試的26種語言當(dāng)中,有24種要比GPT3.5和其他的語言模型的精確度都要強。
小編瞪大眼睛瞅來瞅去,也沒有看見中文。果斷就去找了相關(guān)中文測試的效果究竟如何,結(jié)果呵呵了。不僅速度慢,一樣也是給出了錯誤的答案!
ChatGPT有沒有比GPT4領(lǐng)先的地方?
有!那就是生成文本的速度,GPT4生成答案的速度明顯慢于ChatGPT??磥砟芰υ綇姡卮饐栴}就會越慎重!
2、實際測評
第一個例子是:餐巾紙上的草圖都能讓GPT4魔法一樣生成個網(wǎng)頁圖!
圖源:推特
真實例子,推特上一位用戶將一張餐巾紙上的草紙圖拍完照后,交給GPT4,結(jié)果真的變成一張功能齊全的html/css/JavaScript網(wǎng)站。
網(wǎng)友驚呼:這模型竟然能夠閱讀和解釋餐巾紙上寫的任何內(nèi)容!
還有位網(wǎng)友腦洞大開:那是不是基于GPT4的應(yīng)用程序,將我的書面處方變成藥劑師可以實際閱讀的東西,就可以成為下一個美國生物技術(shù)億萬富翁。
第二個例子:用GPT4重建游戲。
一位叫Pietro的用戶在60s內(nèi)重建了Pong游戲,而且分?jǐn)?shù)還不錯。
圖源:推特
圖源:推特
GPT4由于其廣泛的通用知識和解決問題的能力,可以更準(zhǔn)確地解決難題。GPT4的創(chuàng)造性恐怖如斯。
3、GPT4的局限性
GPT4雖然能力比ChatGPT更強,但局限性依舊與早期GPT模型相似。最重要的是,它仍然不完全可靠(它依舊會編造事實,并會犯推理錯誤)。在使用語言模型輸出時,尤其是在高風(fēng)險上下文中,應(yīng)非常小心,使用與特定用例需求匹配的精確協(xié)議(如人工審查、附加上下文基礎(chǔ)或完全避免高風(fēng)險使用)。
在OpenAI的內(nèi)部對抗性真實性評估中,GPT4的得分比我們最新的GPT3.5高40%。也就是說,即便GPT4生成的答案更準(zhǔn)確,但也只是比GPT4更加可信了40%而已!
4、訪問權(quán)限
ChatGPT Plus用戶可以從chat.openai.com上獲得GPT4訪問權(quán)限。同時,OpenAI將根據(jù)實際需求和系統(tǒng)性能調(diào)整確切的使用上限,但OpenAI預(yù)計會產(chǎn)生嚴(yán)重的容量限制(盡管OpenAI將在未來幾個月內(nèi)進行擴展和優(yōu)化)。
根據(jù)OpenAI看到的流量模式,OpenAI可能會為更高容量的GPT4使用量引入新的訂閱級別;OpenAI還希望在某個時候提供一些免費的GPT4查詢,這樣那些沒有訂閱的用戶也可以嘗試。
要訪問GPT-4 API(它使用與GPT-3.5-turbo相同的ChatCompletions API),還需要注冊O(shè)penAI的等待名單。
OpenAI從今天開始,將邀請一些開發(fā)商,并逐步擴大規(guī)模,以平衡容量和需求。如果是有社會影響的研究人員,也可以通過OpenAI的研究人員準(zhǔn)入計劃申請使用。
5、應(yīng)用生態(tài)已有探索
OpenAI在內(nèi)部使用GPT4,對支持、銷售、內(nèi)容管理和編程等功能產(chǎn)生了巨大影響。OpenAI還使用它來幫助人類評估人工智能輸出,開始OpenAI對齊策略的第二階段。
OpenAI期待GPT4通過為許多應(yīng)用程序提供動力,成為改善人們生活的寶貴工具。還有很多工作要做,OpenAI期待著通過社區(qū)建設(shè)的集體努力來改進這一模式,探索并為這一模式做出貢獻。小編注意到OpenAI已經(jīng)和一家虛擬志愿者工具的公司達成合作。
Be My Eyes的合作伙伴。通過世界各地的事實視頻將需要視力支持的人與志愿者和住院者和公司聯(lián)系起來。
簡化低視力人群的任務(wù)
借助Be My Eyes應(yīng)用程序,可以支持視障人群并幫助他們實現(xiàn)獨立。盲人或低視力用戶可能需要的支持包括:檢查有效期、區(qū)分顏色、閱讀說明或在新環(huán)境中導(dǎo)航。
6、寫在最后
OpenAI稱GPT4是努力擴展深度學(xué)習(xí)的最新里程碑。GPT4作為一個大型多模態(tài)模型(接受圖像和文本輸入,發(fā)出文本輸出),在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。
雖然跟我們之前做出的多模態(tài)能力預(yù)測?(文本、圖像、音頻、視頻等輸入)有較大的差距,但可以看出GPT模型的演進正在扎實推進,尤其是通用知識的理解能力和更難問題的處理上,著實驚艷到了!