馬斯克的首款多模態(tài)大模型來(lái)了,GPT-4V又被超越了一次
自從 2023 年 11 月 Grok 首次亮相以來(lái),馬斯克的 xAI 正在大模型領(lǐng)域不斷取得進(jìn)步,向 OpenAI 等先行者發(fā)起進(jìn)攻。在 Grok-1 開(kāi)源后不到一個(gè)月,xAI 的首個(gè)多模態(tài)模型就問(wèn)世了。
昨天,xAI 推出了 Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內(nèi)容。
官方博文表示:「Grok-1.5V 在許多領(lǐng)域都能媲美當(dāng)前頂尖的多模態(tài)模型,從多學(xué)科推理到理解文檔、科學(xué)圖表、圖表、截圖和照片。」 xAI 還表示,在接下來(lái)的幾個(gè)月里,預(yù)計(jì)將在圖像、音頻和視頻等各種模態(tài)上顯著提高模型能力。
我們看到了 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測(cè)試對(duì)比。其中特別提到的是:「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準(zhǔn)測(cè)試中,Grok 的表現(xiàn)優(yōu)于同類(lèi)產(chǎn)品。對(duì)于下面的所有數(shù)據(jù)集,我們都是在沒(méi)有思維鏈提示的情況下對(duì) Grok 進(jìn)行評(píng)估的?!?/p>
如果 Grok-1.5 能在類(lèi)似于 Grok-1 的開(kāi)源許可證下發(fā)布,這將成為當(dāng)下 LLM 競(jìng)爭(zhēng)格局的一個(gè)重要節(jié)點(diǎn)。
Grok-1.5V 表現(xiàn)如何?
目前,Grok-1.5V 還沒(méi)有完全開(kāi)放,但會(huì)很快提供給早期測(cè)試者和現(xiàn)有的 Grok 用戶。不過(guò),博客中展示了 Grok-1.5V 的七個(gè)示例。
第一個(gè)是將流程圖的白板草圖轉(zhuǎn)換為 Python 代碼:
Prompt:Can you translate this into Python code?(你能把它翻譯成 Python 代碼嗎?)
Grok:當(dāng)然!您提供的流程圖描述了一個(gè)簡(jiǎn)單的競(jìng)猜游戲:計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù),用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼:
import random
def guess_number(): # Generate a random number between 1 and 10
target = random.randint(1, 10)
while True:
guess = int(input("Guess a number between 1 and 10: "))
if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")
if __name__ == "__main__":
guess_number()
第二個(gè)是計(jì)算卡路里:
Prompt:How many calories are there in 5 slices of this?(5 片有多少卡路里?)
Grok:如果一份是 3 片,含有 60 卡路里,那么 5 片就含有大約 100 卡路里。計(jì)算方法是首先確定每片的熱量:60 卡 / 3 片 = 20 卡 / 片。然后,將每片的卡路里乘以片數(shù):每片 20 卡路里 * 5 片 = 100 卡路里。
第三個(gè)是將草圖轉(zhuǎn)化為睡前故事:
Prompt:My son drew this, can you tell a short bedtime story based on his drawing?(這是我兒子畫(huà)的,你能根據(jù)他的畫(huà)講一個(gè)簡(jiǎn)短的睡前故事嗎?)
Grok:
很久很久以前,在一個(gè)充滿冒險(xiǎn)和奇跡的國(guó)度里,有一個(gè)勇敢的小男孩,名叫提米。提米和家人住在舒適的小房子里,他最喜歡的事情就是探索周?chē)氖澜纭?/p>
在一個(gè)陽(yáng)光明媚的日子里,提米決定去附近的森林探險(xiǎn)。他帶上了自己最喜歡的零食、指南針和他最信任的筆記本,準(zhǔn)備把看到的所有令人興奮的事物都畫(huà)下來(lái)。
當(dāng) Timmy 走進(jìn)森林深處時(shí),他發(fā)現(xiàn)了一條在陽(yáng)光下閃閃發(fā)光的神奇河流。這條河是如此迷人,以至于提米決定做一艘小紙船,順流而下,作為給森林精靈的特別訊息。
提米小心翼翼地折好紙船,在上面畫(huà)了一個(gè)笑臉,希望能給森林精靈帶來(lái)歡樂(lè)。然后,他把小船放在河面上,看著小船載著他的友誼和對(duì)大自然的愛(ài)漂走了。
夕陽(yáng)西下,提米知道是時(shí)候回家了。他為自己在森林里度過(guò)的神奇的一天感到慶幸,他知道自己將永遠(yuǎn)銘記這次探險(xiǎn)。
回到家后,提米和家人分享了他的故事,家人聽(tīng)到他在森林里度過(guò)的神奇一天都非常高興。他們一致認(rèn)為,提米勇敢、善良的精神是一種真正的激勵(lì),他們知道,提米今后還會(huì)有更多精彩的冒險(xiǎn)經(jīng)歷。
就這樣,帶著滿心的愛(ài)和滿腦子的夢(mèng)想,提米漸漸進(jìn)入了夢(mèng)鄉(xiāng),他渴望發(fā)現(xiàn)在他的想象世界里還有什么新的冒險(xiǎn)在等著他。
第四個(gè)是解釋梗圖:
Prompt:I don't get it, please explain(我不理解,啥意思?)
Grok:
這幅圖幽默地將初創(chuàng)公司和大公司作了對(duì)比。在標(biāo)有 "初創(chuàng)企業(yè)" 的左側(cè),有一群人在一起挖洞。他們都在積極參與,洞已經(jīng)挖得很深了。
在標(biāo)有 "大公司" 的右側(cè),有一群人圍著一個(gè)洞站著。然而,與初創(chuàng)公司不同的是,只有一個(gè)人真正在挖洞,其他人都在觀看或從事其他活動(dòng)。
這幅圖的幽默感來(lái)自于對(duì)初創(chuàng)企業(yè)和大公司之間差異的夸大。在初創(chuàng)公司,人們往往有一種緊迫感,希望每個(gè)人都能直接為手頭的任務(wù)做出貢獻(xiàn)。相比之下,大公司往往被描述為官僚主義更嚴(yán)重,所有團(tuán)隊(duì)成員對(duì)每個(gè)項(xiàng)目的直接參與更少。
第五個(gè)是將表格轉(zhuǎn)換為 CSV 文件格式:
Prompt:Please convert this table to csv.(請(qǐng)將此表轉(zhuǎn)換為 csv。)
Grok:
medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
CSV 格式不支持樣式或格式設(shè)置,因此信息以純文本格式呈現(xiàn)。
第六個(gè)是辨別木頭的腐朽程度:
Prompt:These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(這些孔出現(xiàn)在我的甲板上的螺釘周?chē)J遣皇菭€了?我應(yīng)該更換嗎?)
Grok:
甲板上的木材似乎已經(jīng)開(kāi)始腐爛。這表現(xiàn)在螺絲周?chē)霈F(xiàn)孔洞,這是木材腐爛的常見(jiàn)跡象。
為了確保露臺(tái)的安全和使用壽命,建議更換受影響的木板。這將有助于防止其受到進(jìn)一步損壞,并保持其結(jié)構(gòu)的完整性。
如果您不確定如何更換木板,咨詢專(zhuān)業(yè)的露臺(tái)建造商或承包商可能會(huì)有所幫助。他們將能夠評(píng)估損壞的程度,并就最佳行動(dòng)方案向您提供專(zhuān)家建議。
第七個(gè)是解決編程問(wèn)題:
Prompt:Can you write Python code that solves this?(你能編寫(xiě) Python 代碼來(lái)解決這個(gè)問(wèn)題嗎?)
Grok 回復(fù)如下:
def find_triplets(nums):
result = []
nums.sort()
for i in range(len(nums) - 2):
if i > 0 and nums[i] == nums[i - 1]:
continue
target = -nums[i]
left = i + 1
right = len(nums) - 1
while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left - 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1
return result
RealWorldQA 基準(zhǔn)
本次發(fā)布還有一個(gè)亮點(diǎn):xAI 推出了一個(gè)新的基準(zhǔn)「RealWorldQA」。
下載地址:https://data.x.ai/realworldqa.zip
「為了開(kāi)發(fā)有用的真實(shí)世界人工智能助手,提高模型對(duì)物理世界的理解至關(guān)重要?!箈AI 希望借助該基準(zhǔn)更好地評(píng)估多模態(tài)模型的基本真實(shí)世界空間理解能力?!鸽m然當(dāng)前基準(zhǔn)中的許多示例對(duì)人類(lèi)來(lái)說(shuō)相對(duì)容易,但它們往往對(duì)前沿模型構(gòu)成挑戰(zhàn)?!?/p>
目前,RealWorldQA 包含 700 多張圖片,每張圖片都有一個(gè)問(wèn)題和易于驗(yàn)證的答案。
在真實(shí)世界的圖像外,該數(shù)據(jù)集還包括從車(chē)輛上拍攝的匿名圖像。這對(duì)于自動(dòng)駕駛領(lǐng)域來(lái)說(shuō),或許是個(gè)好消息。
巧合的是,微軟研究院前段時(shí)間更新了跨語(yǔ)言、模態(tài)、模型和任務(wù)的基準(zhǔn)測(cè)試 MEGAVERSE,包含 22 個(gè)數(shù)據(jù)集,涵蓋 83 種語(yǔ)言(包括資源匱乏的非洲語(yǔ)言)。微軟還在基準(zhǔn)測(cè)試中加入了兩個(gè)多模態(tài)數(shù)據(jù)集,并比較了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。
Meta 在前幾天也開(kāi)源了衡量人工智能系統(tǒng)具體問(wèn)答能力的基準(zhǔn)數(shù)據(jù)集 OpenEQA,包含家庭和辦公室等 180 多種不同現(xiàn)實(shí)環(huán)境的 1600 多個(gè)問(wèn)題,跨越七個(gè)類(lèi)別,全面測(cè)試 AI 在物體和屬性識(shí)別、空間和功能推理以及常識(shí)知識(shí)等技能方面的能力,加深大模型對(duì)現(xiàn)實(shí)世界的理解。
即使是最先進(jìn)的 AI 模型,如 GPT-4V,在 OpenEQA 上也難以與人類(lèi)表現(xiàn)相媲美。OpenEQA 是衡量人工智能系統(tǒng)理解和回答現(xiàn)實(shí)世界問(wèn)題能力的新基準(zhǔn)。
在這些研究的推動(dòng)下,我們可以期待一下 2024 年大模型在現(xiàn)實(shí)世界任務(wù)取得更多的進(jìn)展。
參考鏈接:https://x.ai/blog/grok-1.5v