自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬斯克突然「發(fā)射」Grok-2 !??爆火AI生圖網(wǎng)友玩瘋,數(shù)學(xué)編碼追平GPT-4o

人工智能 新聞
xAI連發(fā)兩款模型Grok-2和Grok-2 mini,相較上一代在編碼、數(shù)學(xué)、推理方面性能大漲,而且在LMSYS總榜上與GPT-4o不相上下。最讓人興奮的是,最強AI生圖Flux能力已經(jīng)在??上線了。

Grok-2測試版來的,讓人猝不及防。

剛剛,Xai官方丟出一篇博文,官宣Grok-2測試版正式發(fā)布。

而且,一發(fā)就是兩彈——Grok-2 + 輕量級Grok-2 mini。

圖片

馬斯克稱,Grok進展的速度驚人,只能用坐上火箭來形容。

圖片

相較于上一代Grok-1.5,Grok-2取得了顯著的進步,在聊天、編碼、推理方面,再次刷新SOTA。

大模型競技場LMSYS上,Grok-2早期版本sus-column-r在總榜上位列第三,可與GPT-4o抗衡,碾壓Claude 3.5 Sonnet。

圖片

此外,Grok-2在「編碼」和「數(shù)學(xué)」榜單位列第2,Hard Prompts位列第4。

圖片

網(wǎng)友:馬斯克的Grok已經(jīng)是榜上第五個GPT-4級模型了,保不齊最終版哪天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在??上開啟了測試。本月底,兩個模型的API將會放出。

值得一提的是,X平臺這次還融合了爆火的Flux AI生圖能力。

圖片

這一點,今早就有網(wǎng)友提前放出了預(yù)告。

圖片

就看Grok生成美女的能力,真有點TED演講者那味兒了。

圖片

下面這位網(wǎng)友用Luma和Grok 2.0結(jié)合后,大贊做出的視頻簡直就像電影截圖一樣。

圖片

圖片

Grok-2能力如何?

Grok-2其實早就在我們身邊了,只是沒有人得知。

如前所述,早期版本sus-column-r在LMSYS平臺,接受了多種基準(zhǔn)的評測。

在LLM排行榜中,Grok-2整體Elo評分(1281分),優(yōu)于Claude 3.5和GPT-4。

圖片

就勝率來看,Grok-2遠(yuǎn)遠(yuǎn)領(lǐng)先DeepSeek V2、Claude 3 Opus,相較于指令微調(diào)版的Llama 3.1超大杯,勝率為58%。

與GPT-4o和GPT-4o mini幾乎打成平手。

圖片

在Xai內(nèi)部,研究人員采用了類似的流程,以評估模型。

這里,他們訓(xùn)練了專門的AI系統(tǒng)——AI導(dǎo)師,在模擬Grok真實世界交互的任務(wù)中,與新模型進行互動。

每次互動中,AI導(dǎo)師會收到Grok生成的2個響應(yīng),并根據(jù)指南中列出的特定標(biāo)準(zhǔn),選擇更優(yōu)的響應(yīng)。

實驗過程中,研究團隊重點評估了模型在兩個關(guān)鍵領(lǐng)域的能力:

一是遵循指令,二是提供準(zhǔn)確、事實性的信息。

結(jié)果發(fā)現(xiàn),Grok-2利用檢索內(nèi)容進行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正確識別缺失信息、推理事件的順序,甚至剔除無關(guān)的帖子。

可以看得出,就AI導(dǎo)師的偏好來看,Grok-2勝券在握。

圖片

接下來,具體看看Grok-2在不同基準(zhǔn)上的表現(xiàn)吧。

性能評估

研究人員在一系列基準(zhǔn)測試中評估了Grok-2,包括推理、閱讀理解、數(shù)學(xué)、科學(xué)、寫代碼。

宏觀講,相較于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了顯著的改進。

下圖中可以看出,Grok-2和Grok-2 mini在研究生級別科學(xué)知識(GPQA)、數(shù)學(xué)競賽問題(MATH),代碼(HumanEval)領(lǐng)域,顯著提分10%-20%。

而且,另一個值得關(guān)注的現(xiàn)象是,Grok-2 mini是小參數(shù)版本的Grok-2。

但是,Grok-2 mini的性能絲毫不輸,幾乎接近大模型的性能,可見并沒有因為參數(shù)減少,而縮減模型的性能。

圖片

與前沿模型相比,Grok-2在編碼、數(shù)學(xué)、通用知識領(lǐng)域,與GPT-4o、Llama 3 405B有一定的差距,但結(jié)果非常接近。

它遠(yuǎn)遠(yuǎn)超過了GPT-4 Turno、Claude 3 Opus基準(zhǔn)的性能。

另外,在視覺化任務(wù)中,比如視覺化數(shù)學(xué)推理(MathVista)和基于文檔的問題回答(DocVQA)上,Grok-2表現(xiàn)出色。

令人驚喜的是,經(jīng)典的「strawberry難題」,也被Grok 2.0一舉攻克。

圖片

在??上的體驗

當(dāng)然了,Grok模型的每次迭代,就是為了更好地服務(wù)??。

經(jīng)過幾個月的不斷改進,全面升級之后的Grok,也有了新的界面和功能。

圖片

所有的Premium和Premium+用戶,都可以訪問這次新推出的Grok-2和Grok-2 mini。

作為??上最強的AI助手,Grok-2具備文本和視覺理解的高級能力,并集成了來自平臺的實時信息。

Grok-2 mini則是一個規(guī)模較小但功能強大的模型,提供了速度和質(zhì)量之間的最佳平衡。

與前輩相比,Grok-2在廣泛的任務(wù)中更直觀、可控且多功能,無論是尋找答案、協(xié)作寫作還是解決編程任務(wù)。

圖片

圖片

最近FLUX的爆火,讓全網(wǎng)都見識到了這款文生圖模型的強勁實力。

如今,xAI正在與推出它的「Black Forest Labs」合作,嘗試?yán)肍LUX.1來增強Grok在??上的功能。

網(wǎng)友實測生圖

拿到測試資格的網(wǎng)友們,已經(jīng)迫不及待地上手測試了。

圖片

生成喬治華盛頓這樣人物的圖片,果然FLUX最拿手。

圖片

在吃熱狗的馬斯克,有點兒不像本尊。

圖片

說到馬斯克,下面這個海盜版大家覺得如何?

圖片

還有角斗士馬斯克,以及馬斯克在火星。

圖片

此外,也有網(wǎng)友生成了一張小扎拖著腮幫子眉頭緊鎖的照片。

圖片

這位網(wǎng)友表示,Grok 2.0的生圖功能比Llama要好,而且沒有「愚蠢的護欄」。

圖片

宮殿里的豪車、美少女戰(zhàn)士、一座雕塑、魔法書院,Grok都拿捏了。

圖片

看得出來,這位網(wǎng)友主打的就是一個精致。

圖片

加菲貓頭戴紅帽,附上「Make Mondays Great Again」,可見Grok在生成帶有字體的圖像時,也非常精致。

圖片

和聊天一樣,Grok生圖還可以生成兩種不同模式的,簡言之兩種風(fēng)格的圖像——趣味和常規(guī)。

圖片

網(wǎng)友分別測試了這兩種模式,趣味模式下Grok的自畫像,更像是一位故事中的圣者。

圖片

而常規(guī)模式下的自畫像,反倒有些搞笑了。

它竟把自己設(shè)想成了,(類似)一份惠靈頓牛排。

圖片

API即將上線

除了能夠在??上體驗之外,Grok-2和Grok-2 mini還將在8月底正式上線企業(yè)API平臺。

xAI表示,Grok-2的API將基于新的定制技術(shù)棧。

一方面是支持多區(qū)域推理部署,可以實現(xiàn)全球范圍的低延遲訪問。

另一方面是支持增強的安全功能,例如強制多因素認(rèn)證(如使用Yubikey、Apple TouchID或TOTP),豐富的流量統(tǒng)計,以及高級計費分析(包括詳細(xì)的數(shù)據(jù)導(dǎo)出)等等。

此外,xAI還提供了一個管理API,讓開發(fā)者和企業(yè)可以將團隊、用戶和計費管理集成到現(xiàn)有的內(nèi)部工具和服務(wù)中。

圖片

接下來是什么?

自從2023年11月Grok-1發(fā)布以來,xAI一直在以驚人的速度發(fā)展。

現(xiàn)在的Grok-2和Grok-2 mini,已經(jīng)具備了更強的搜索能力和改進的回復(fù)功能,并且可以對??的帖子進行更深入的洞察。

不久之后,xAI還會??和API上發(fā)布Grok的另一個核心體驗——多模態(tài)理解預(yù)覽版。

隨著Grok-2的推出,xAI再一次站到了AI開發(fā)的前沿。并且,有了新集群的加持,模型的推理能力也將得到進一步加強。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-12 17:53:27

馬斯克AIChatGPT

2024-08-15 11:15:20

2023-12-13 08:46:33

人工智能ChatGPT機器人

2023-07-22 13:47:57

開源項目

2024-03-18 15:00:48

Grok現(xiàn)已開源Grok-1混合專家模型

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-05-27 13:05:20

2024-06-11 07:03:00

大模型開源Qwen2

2024-05-15 09:13:37

GPT-4oAI

2025-01-03 15:42:59

AI模型數(shù)據(jù)

2024-03-18 14:17:06

大模型開源人工智能

2024-03-29 12:48:00

數(shù)據(jù)訓(xùn)練

2024-12-09 14:00:00

AI生成

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2025-03-24 08:43:00

GrokAI模型

2025-01-16 16:39:44

2024-06-21 09:51:17

2022-12-12 13:54:16

2023-11-06 10:41:46

ChatGPT馬斯克

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval
點贊
收藏

51CTO技術(shù)棧公眾號