Grok祭出首款生圖模型Aurora!兩位95后華人立大功,耗時6月自研MoE
消失的Aurora再度回歸了!
剛剛,xAI發(fā)布了首款完全自研圖像生成模型Aurora,直接集成到了Grok當(dāng)中。
整個研發(fā)過程,耗時6個月。
馬斯克:模型選項中已經(jīng)刪除了Aurora名字,選擇Grok 2即可無縫體驗全新模型
這款從0開始搭建的新模型,是一個自回歸模型,采用了MoE架構(gòu),在混合文本和圖像數(shù)據(jù)集上完成了訓(xùn)練。
網(wǎng)友在周末展開的一波瘋狂測試,早已見識到了Aurora模型強大生圖能力。
如今一大波驚艷的評測,正在刷屏全網(wǎng)。
左右滑動查看
自研6個月,Grok圖像生成功能正式上線
官博中,xAI介紹了Aurora專為提升Grok的圖像生成能力而推出。
此前,Grok集成的圖像模型,還只是別家的FLUX模型。
如今,自研新模型不論在人物肖像,還是表情包、藝術(shù)字體、實物生成方面,取得了極大的一致性。
如前所述,Aurora是一種自回歸混合專家模型(MoE),能夠通過混合的文本和圖像數(shù)據(jù)預(yù)測下一個 Token。
xAI研究團(tuán)隊在互聯(lián)網(wǎng)上數(shù)十億個示例數(shù)據(jù)上訓(xùn)練了模型,賦予其對世界深刻的理解能力。
Aurora的強大體現(xiàn)在多個維度:無論是生成逼真的圖像渲染,還是精準(zhǔn)執(zhí)行復(fù)雜的文本指令,都展現(xiàn)出卓越的性能。
更令人興奮地是,它還能原生支持多模態(tài)輸入,用戶可以直接使用圖像進(jìn)行創(chuàng)作和編輯。
這些強大的生圖、編輯能力,極大地拓展了AI交互的邊界。
目前,Grok全新圖像生成功能,現(xiàn)已在??平臺的部分國家上線,預(yù)計將在一周內(nèi)向所有用戶全面開放。
接下來,一起看一些讓人拍案叫絕的demo吧。
圖像生成
首先,Grok能夠能夠在多個領(lǐng)域生成高質(zhì)量的圖像,這些領(lǐng)域通常來說,是圖像生成模型的難點。
它可以呈現(xiàn)真實世界實體的精確視覺細(xì)節(jié)、文本、標(biāo)志,還能生成逼真的人像。
Entity generation(實體):
Artistic text(藝術(shù)字):
Meme generation(梗圖):
Realistic portraits(肖像):
Celebrities(名人):
可以看到,其他的AI生圖模型在這個場景下,不僅容易觸發(fā)安全機(jī)制拒絕生成,而且即便是生成出來了,效果也不盡人意。
圖像編輯
其次,Grok還將編輯與生成能力合二為一,用戶可以直接在生成的圖像上進(jìn)行修改,提供了更大創(chuàng)作自由度和靈活性。
據(jù)介紹,這一功能將很快在??平臺上正式推出。
網(wǎng)友大波試用來襲
網(wǎng)友再次驚嘆道,Grok在生成真實的人的圖像方面,比自己用過的任何模型都要好。
不久后,AI制作的表情包就會覆蓋全網(wǎng)。
Cybertruck正接近木星。
還有坐在Cybertruck上的小浣熊。
更多測試案例:
團(tuán)隊介紹
xAI團(tuán)隊的執(zhí)行力,完全以高效著稱。
在Aurora還未正式發(fā)布之前,聯(lián)創(chuàng)Greg Yang曾表示,在xAI工作起來太有趣了,不僅高效,還很有趣。
馬斯克稱贊道,xAI團(tuán)隊超硬核。
研究員Ethan Knight分享了這次模型背后是由一個小團(tuán)隊完成。
四位核心研究人員分別是:
Gabriel Ilharco
Gabriel Ilharco目前在xAI從事大規(guī)模多模態(tài)模型的研究工作。
在此之前,他曾在華盛頓大學(xué)獲得博士學(xué)位,師從Ali Farhadi和Hannaneh Hajishirzi教授。在進(jìn)入華盛頓大學(xué)之前,他曾在谷歌研究院擔(dān)任AI研究員。
Ilharco的研究興趣廣泛,涉及自然語言處理和計算機(jī)視覺領(lǐng)域。尤其是,多模態(tài)模型、遷移學(xué)習(xí)、分布魯棒性和以數(shù)據(jù)為中心的機(jī)器學(xué)習(xí)。
Eric Zelikman
Eric Zelikman對算法如何(以及是否能夠)學(xué)習(xí)有意義的表征和推理這個問題非常著迷,并且正在xAI探索這些問題。
入職xAI之前,他曾是斯坦福大學(xué)博士候選人,導(dǎo)師是Nick Haber和Noah Goodman。
Haotian Liu
Haotian Liu是xAI的一名技術(shù)人員。他于2024年5月在威斯康星大學(xué)麥迪遜分校獲得博士學(xué)位,師從Yong Jae Lee教授。
在此之前,他曾在浙江大學(xué)獲得學(xué)士學(xué)位(榮譽學(xué)位)。
Haotian Liu對計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域非常感興趣,最近的研究重點是構(gòu)建可控的大型模型。此前,他還曾參與開發(fā)的研究成果包括LLaVA、Grok-1.5V和Grok-2。
Lianmin Zheng(鄭憐憫)
Lianmin Zheng是xAI的技術(shù)人員。他曾在UC伯克利完成了博士學(xué)位,導(dǎo)師是Ion Stoica和Joseph E. Gonzalez教授。他本科就讀于上海交通大學(xué)ACM班。
他曾和團(tuán)隊共同創(chuàng)立了非營利組織LMSYS.org,致力于推進(jìn)開源大語言模型研究。
他的研究興趣包括機(jī)器學(xué)習(xí)系統(tǒng)、大型語言模型、編譯器和分布式系統(tǒng)。
還有整個產(chǎn)品團(tuán)隊,也在Aurora模型上做出了杰出的貢獻(xiàn),尤其是Greg Yang、Ehsan Ghandhari、Yaroslav Nazarov和Vincent Stark。