性能直追GPT-4,5000個H100訓成!DeepMind聯(lián)創(chuàng)發(fā)全新一代大模型
最近,InflectionAI發(fā)布了全新的一款AI模型。
更炸裂的是InfectionAI對這款模型的評價——性能直超谷歌和Meta開發(fā)的兩款模型,緊隨OpenAI的GPT-4之后。
到底是什么樣的表現(xiàn)讓InflectionAI能夸下如此??谀兀?/span>
在介紹具體的模型性能以前,我們先來看看它的基本信息。
這款AI模型名叫Inflection-2,在多項標準的基準測試中,成績碾壓谷歌5月發(fā)布的PaLM Large 2模型,還在很多不同的項目中擊敗了Meta開發(fā)的LLaMA-2.
圖片
這么來看,InflectionAI確實可以有這個自信。
公司內(nèi)部人員表示,總體而言Inflection的新模型是同類產(chǎn)品中性能最好的,可以說僅次于OpenAI發(fā)布的旗艦模型 GPT-4,而后者我們都知道,要大得多。
InflectionAI的首席執(zhí)行官Mustafa Suleyman在接受采訪時表示,「我們相信,我們只是處于下一步技術推進的起點,AI模型所展現(xiàn)出來的性能,以及即將出現(xiàn)的新功能確實令人震撼。」
集成到Pi?
除了新模型的發(fā)布,還有另外一個重磅信息。
相關人員表示,新發(fā)布的模型將很快集成到Inflection于5月份發(fā)布的聊天機器人Pi中。
CEO Suleyman也講到,首先模型的集成還需要一些額外的工作,即「對齊」,技術人員會教它Pi的語氣和回答風格,并幫助Pi在吸收最新信息時更好地發(fā)揮作用,而不會產(chǎn)生額外的幻覺。
「無論你想就種族、性別、政治、競家OpenAI,或當下任何有爭議的問題進行可能有那么點敏感的對話,Pi都會非常巧妙、謹慎地與你進行實事求是的交流,并實時在互聯(lián)網(wǎng)上獲取信息。Pi將很快更新出新模式?!?/span>
圖片
Suleyman表示,不會太久。但是具體發(fā)布日期卻沒有明說。
同時,他也不愿意提供聊天機器人Pi的最新用戶數(shù)量,但表示Pi非常受歡迎,用戶留存率相當高。
要知道,兩周前,OpenAI曾經(jīng)披露其免費的ChatGPT服務的周用戶數(shù)量已達到1億。
當然,這之后還發(fā)生了我們耳熟能詳?shù)腛penAI董事會版宮斗,突然臨時解雇了首席執(zhí)行官Sam Altman(當然現(xiàn)在他已經(jīng)回來了)。
不過,預計Pi發(fā)布后,InflectionAI的用戶量也會有一波大規(guī)模的上漲。畢竟Inflection發(fā)布的大型語言模型號稱是 當今世界上能力第二強的LLM。
相比LLM業(yè)內(nèi)也會因為Inflection-2的發(fā)布繼續(xù)出現(xiàn)動蕩的局面。
此外,CEO Suleyman表示,Inflection AI在今年早些時候剛剛獲得了一輪13億美元的融資,不過這筆大額融資也并沒有提前Inflection-2的發(fā)布。
不過,輿論場中有些聲音還是傳了出來,InflectionAI將會在年底發(fā)布新模型。但Suleyman表示,模型的訓練已經(jīng)結束,還有一些后續(xù)工作需要處理,所以發(fā)布時間出現(xiàn)了推遲。
性能吊打一眾模型,只輸GPT-4
為了訓練Inflection-2,Inflection AI使用了5000個英偉達H100圖形處理器(GPU),要知道,訓練Inflection-2的前身模型,使用的是幾千個相對比較舊的A100圖形處理器。
Suleyman表示,新模型的訓練速度更快、成本更低,但即便如此,還是能處理大量運算(10的25次方FLOPs)。
InflectionAI還與微軟、英偉達和CoreWeave在進行緊密合作,管理其龐大的計算集群。
Inflection用一些專業(yè)級任務的流行基準(MMLU)測試了新模型的性能,該基準向模型提出了從各類世界知識到問題解決和道德規(guī)范等57個主題的各種問題。
下圖即為Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之間的性能對比。
圖片
我們可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六項基準上,Inflection-2都拔得了頭籌。
Suleyman表示,Inflection-2的性能已經(jīng)超過了最大的700億參數(shù)版本的LLaMA 2、馬斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能僅次于GPT-4。
報告顯示,新模型在七項科學性回答的基準測試中,除兩項外,均擊敗了LLaMA 2和PaLM 2模型,它還在三項問答任務基準測試中的兩項測試中表現(xiàn)最佳,但在一項測試中輸給了PaLM 2 Large。
此外,在四項數(shù)學和代碼基準測試中,它的成績依舊可圈可點,雖說這些領域和前面的測試比起來沒那么是重點。
不過,在OpenAI已分享結果的兩項基準測試中,它的成績遠遠落后于GPT-4。
Suleyman繼續(xù)介紹說,雖然除了AI研究人員和開發(fā)人員之外,這些基準測試對其他普通人來說可能并沒那么重要,但微小的改進就能讓笨拙的原型與生產(chǎn)級、可靠且高質量的模型截然不同。
總的來說,Suleyman認為Inflection-2在同類產(chǎn)品中可以說是規(guī)模最大的,與GPT-4非常非常接近。
從行動上,我們也可以看到InflectionAI對新模型的滿意程度。公司規(guī)劃顯示,從現(xiàn)在起,Inflection就將把培訓重點轉移到下一個型號的模型上。
相關人士預測說,下一個型號的模型(大膽猜測是Inflection-3)將在六個月內(nèi)達到剛聊完的新模型的10倍,而再過六個月,性能又將達到上一代型號的10倍。
一句話說明,就是InflectionAI的人有自信,在12個月內(nèi),讓模型規(guī)模翻個一百倍。
個人助理「Pi」
對于不熟悉的朋友,咱們還是掉過頭來再講講InflectionAI的個人助理「Pi」。
咱們可以這么說,CEO Suleyman的認知里,這一切都是很自洽的。
曾經(jīng),他還寫過一本書《The Coming Wave》,全書有一個核心觀點就是,未來AI能讓人類徹底遠離心理問題。
而Suleyman之所以有這樣的論斷,也許和他自己的經(jīng)歷有關:
1984年,他出生于倫敦北部,父親是敘利亞人,母親是英國人。他在貧困中長大,16歲時,父母分居,兩人都移居國外,留下他和弟弟自謀生路。
后來他被牛津大學錄取,學習哲學和神學,但一年后就退學了。
這種人生經(jīng)歷,讓Suleyman格外關注人類的心理健康。當然,就少不了這一part和涌現(xiàn)出來的新技術的結合。
他的這番說法也絕不是空想,他創(chuàng)立的Inflection AI,目標就是開發(fā)出一個全能的個人助理,解決每個人在生活中可能遇到的幾乎一切問題。
這個個人助理,就是「Pi」。
圖片
而這一切也是有理論基礎的。
心理學還真有這個研究:聊天機器人相比人類有著更高的情感認知。
測試針對的是人類在不同場景下表現(xiàn)出來的同理心進行打分。測試對象被給予20種情感情境的詳細描述,比如葬禮、職業(yè)成功或侮辱,并描述他們在這種情況下可能感受到的情緒。
情緒描述越詳細、越容易理解,情緒意識水平量表(LEAS)得分越高。
研究人員使用與人類反應相同的標準來評估ChatGPT的反應,并將結果與先前在法國17至84歲人群(n = 750)中進行的研究進行了比較。
在進行的兩次測試中,ChatGPT獲得了85和98的高分,而人類的表現(xiàn)就完全被AI碾壓。男性56,女性59分,甚至沒有及格。
圖片
很多研究結果都曾指出,AI聊天機器人在心理健康方面可以為人類提供其他任何工具都沒法比擬的幫助。
可以這么說,相比于其他生產(chǎn)效率方面的應用,大語言模型似乎天生就更適合進行感情方面的理解和溝通。畢竟,人類之間傳遞感情,語言是最重要的載體。
那么,Suleyman創(chuàng)立的Inflection AI推出的個人助理「Pi」已經(jīng)上線有幾個月,表現(xiàn)究竟如何,大家心里可能也都有定論了。
圖片
我們可以看到,Pi的登錄界面還是非常簡潔的。
圖片
進入到Pi的聊天頁面,點擊左下角的田字格,可以看到官方為用戶準備的幾個常用場景。
每個場景相當于一個定制化指令,選擇一個之后,就會自動給聊天機器人設定一個工作環(huán)境。
聊天機器人也會針對每個場景給用戶一個開頭的提示,比如選擇了「motive myself」之后,系統(tǒng)會提示我要如何開始聊天。
圖片
總而言之,「Pi」寄托了Suleyman的美好愿望。
而有了新模型Inflection-2的加持,相信「Pi」會迸發(fā)出更加不一樣的火花。
說不定,真能充當心理咨詢的角色呢。
參考資料: