自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬斯克的首款多模態(tài)大模型來(lái)了,GPT-4V又被超越了一次

人工智能
昨天,xAI 推出了 Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內(nèi)容。

自從 2023 年 11 月 Grok 首次亮相以來(lái),馬斯克的 xAI 正在大模型領(lǐng)域不斷取得進(jìn)步,向 OpenAI 等先行者發(fā)起進(jìn)攻。在 Grok-1 開(kāi)源后不到一個(gè)月,xAI 的首個(gè)多模態(tài)模型就問(wèn)世了。

昨天,xAI 推出了 Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內(nèi)容。

官方博文表示:「Grok-1.5V 在許多領(lǐng)域都能媲美當(dāng)前頂尖的多模態(tài)模型,從多學(xué)科推理到理解文檔、科學(xué)圖表、圖表、截圖和照片。」 xAI 還表示,在接下來(lái)的幾個(gè)月里,預(yù)計(jì)將在圖像、音頻和視頻等各種模態(tài)上顯著提高模型能力。

我們看到了 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測(cè)試對(duì)比。其中特別提到的是:「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準(zhǔn)測(cè)試中,Grok 的表現(xiàn)優(yōu)于同類(lèi)產(chǎn)品。對(duì)于下面的所有數(shù)據(jù)集,我們都是在沒(méi)有思維鏈提示的情況下對(duì) Grok 進(jìn)行評(píng)估的?!?/p>

如果 Grok-1.5 能在類(lèi)似于 Grok-1 的開(kāi)源許可證下發(fā)布,這將成為當(dāng)下 LLM 競(jìng)爭(zhēng)格局的一個(gè)重要節(jié)點(diǎn)。

Grok-1.5V 表現(xiàn)如何?

目前,Grok-1.5V 還沒(méi)有完全開(kāi)放,但會(huì)很快提供給早期測(cè)試者和現(xiàn)有的 Grok 用戶。不過(guò),博客中展示了 Grok-1.5V 的七個(gè)示例。

第一個(gè)是將流程圖的白板草圖轉(zhuǎn)換為 Python 代碼:

Prompt:Can you translate this into Python code?(你能把它翻譯成 Python 代碼嗎?)

Grok:當(dāng)然!您提供的流程圖描述了一個(gè)簡(jiǎn)單的競(jìng)猜游戲:計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù),用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼:

import random

def guess_number(): # Generate a random number between 1 and 10

    target = random.randint(1, 10)

    while True:
        guess = int(input("Guess a number between 1 and 10: "))

        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")

if __name__ == "__main__":
    guess_number()

第二個(gè)是計(jì)算卡路里:

Prompt:How many calories are there in 5 slices of this?(5 片有多少卡路里?)

Grok:如果一份是 3 片,含有 60 卡路里,那么 5 片就含有大約 100 卡路里。計(jì)算方法是首先確定每片的熱量:60 卡 / 3 片 = 20 卡 / 片。然后,將每片的卡路里乘以片數(shù):每片 20 卡路里 * 5 片 = 100 卡路里。

第三個(gè)是將草圖轉(zhuǎn)化為睡前故事:

Prompt:My son drew this, can you tell a short bedtime story based on his drawing?(這是我兒子畫(huà)的,你能根據(jù)他的畫(huà)講一個(gè)簡(jiǎn)短的睡前故事嗎?)

Grok:

很久很久以前,在一個(gè)充滿冒險(xiǎn)和奇跡的國(guó)度里,有一個(gè)勇敢的小男孩,名叫提米。提米和家人住在舒適的小房子里,他最喜歡的事情就是探索周?chē)氖澜纭?/p>

在一個(gè)陽(yáng)光明媚的日子里,提米決定去附近的森林探險(xiǎn)。他帶上了自己最喜歡的零食、指南針和他最信任的筆記本,準(zhǔn)備把看到的所有令人興奮的事物都畫(huà)下來(lái)。

當(dāng) Timmy 走進(jìn)森林深處時(shí),他發(fā)現(xiàn)了一條在陽(yáng)光下閃閃發(fā)光的神奇河流。這條河是如此迷人,以至于提米決定做一艘小紙船,順流而下,作為給森林精靈的特別訊息。

提米小心翼翼地折好紙船,在上面畫(huà)了一個(gè)笑臉,希望能給森林精靈帶來(lái)歡樂(lè)。然后,他把小船放在河面上,看著小船載著他的友誼和對(duì)大自然的愛(ài)漂走了。

夕陽(yáng)西下,提米知道是時(shí)候回家了。他為自己在森林里度過(guò)的神奇的一天感到慶幸,他知道自己將永遠(yuǎn)銘記這次探險(xiǎn)。

回到家后,提米和家人分享了他的故事,家人聽(tīng)到他在森林里度過(guò)的神奇一天都非常高興。他們一致認(rèn)為,提米勇敢、善良的精神是一種真正的激勵(lì),他們知道,提米今后還會(huì)有更多精彩的冒險(xiǎn)經(jīng)歷。

就這樣,帶著滿心的愛(ài)和滿腦子的夢(mèng)想,提米漸漸進(jìn)入了夢(mèng)鄉(xiāng),他渴望發(fā)現(xiàn)在他的想象世界里還有什么新的冒險(xiǎn)在等著他。

第四個(gè)是解釋梗圖:

Prompt:I don't get it, please explain(我不理解,啥意思?)

Grok:

這幅圖幽默地將初創(chuàng)公司和大公司作了對(duì)比。在標(biāo)有 "初創(chuàng)企業(yè)" 的左側(cè),有一群人在一起挖洞。他們都在積極參與,洞已經(jīng)挖得很深了。

在標(biāo)有 "大公司" 的右側(cè),有一群人圍著一個(gè)洞站著。然而,與初創(chuàng)公司不同的是,只有一個(gè)人真正在挖洞,其他人都在觀看或從事其他活動(dòng)。

這幅圖的幽默感來(lái)自于對(duì)初創(chuàng)企業(yè)和大公司之間差異的夸大。在初創(chuàng)公司,人們往往有一種緊迫感,希望每個(gè)人都能直接為手頭的任務(wù)做出貢獻(xiàn)。相比之下,大公司往往被描述為官僚主義更嚴(yán)重,所有團(tuán)隊(duì)成員對(duì)每個(gè)項(xiàng)目的直接參與更少。

第五個(gè)是將表格轉(zhuǎn)換為 CSV 文件格式:

Prompt:Please convert this table to csv.(請(qǐng)將此表轉(zhuǎn)換為 csv。)

Grok:


medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持樣式或格式設(shè)置,因此信息以純文本格式呈現(xiàn)。

第六個(gè)是辨別木頭的腐朽程度:

Prompt:These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(這些孔出現(xiàn)在我的甲板上的螺釘周?chē)J遣皇菭€了?我應(yīng)該更換嗎?)

Grok:

甲板上的木材似乎已經(jīng)開(kāi)始腐爛。這表現(xiàn)在螺絲周?chē)霈F(xiàn)孔洞,這是木材腐爛的常見(jiàn)跡象。

為了確保露臺(tái)的安全和使用壽命,建議更換受影響的木板。這將有助于防止其受到進(jìn)一步損壞,并保持其結(jié)構(gòu)的完整性。

如果您不確定如何更換木板,咨詢專(zhuān)業(yè)的露臺(tái)建造商或承包商可能會(huì)有所幫助。他們將能夠評(píng)估損壞的程度,并就最佳行動(dòng)方案向您提供專(zhuān)家建議。

第七個(gè)是解決編程問(wèn)題:

Prompt:Can you write Python code that solves this?(你能編寫(xiě) Python 代碼來(lái)解決這個(gè)問(wèn)題嗎?)

Grok 回復(fù)如下:

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

RealWorldQA 基準(zhǔn)

本次發(fā)布還有一個(gè)亮點(diǎn):xAI 推出了一個(gè)新的基準(zhǔn)「RealWorldQA」。

下載地址:https://data.x.ai/realworldqa.zip

「為了開(kāi)發(fā)有用的真實(shí)世界人工智能助手,提高模型對(duì)物理世界的理解至關(guān)重要?!箈AI 希望借助該基準(zhǔn)更好地評(píng)估多模態(tài)模型的基本真實(shí)世界空間理解能力?!鸽m然當(dāng)前基準(zhǔn)中的許多示例對(duì)人類(lèi)來(lái)說(shuō)相對(duì)容易,但它們往往對(duì)前沿模型構(gòu)成挑戰(zhàn)?!?/p>

目前,RealWorldQA 包含 700 多張圖片,每張圖片都有一個(gè)問(wèn)題和易于驗(yàn)證的答案。

在真實(shí)世界的圖像外,該數(shù)據(jù)集還包括從車(chē)輛上拍攝的匿名圖像。這對(duì)于自動(dòng)駕駛領(lǐng)域來(lái)說(shuō),或許是個(gè)好消息。

巧合的是,微軟研究院前段時(shí)間更新了跨語(yǔ)言、模態(tài)、模型和任務(wù)的基準(zhǔn)測(cè)試 MEGAVERSE,包含 22 個(gè)數(shù)據(jù)集,涵蓋 83 種語(yǔ)言(包括資源匱乏的非洲語(yǔ)言)。微軟還在基準(zhǔn)測(cè)試中加入了兩個(gè)多模態(tài)數(shù)據(jù)集,并比較了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

Meta 在前幾天也開(kāi)源了衡量人工智能系統(tǒng)具體問(wèn)答能力的基準(zhǔn)數(shù)據(jù)集 OpenEQA,包含家庭和辦公室等 180 多種不同現(xiàn)實(shí)環(huán)境的 1600 多個(gè)問(wèn)題,跨越七個(gè)類(lèi)別,全面測(cè)試 AI 在物體和屬性識(shí)別、空間和功能推理以及常識(shí)知識(shí)等技能方面的能力,加深大模型對(duì)現(xiàn)實(shí)世界的理解。

即使是最先進(jìn)的 AI 模型,如 GPT-4V,在 OpenEQA 上也難以與人類(lèi)表現(xiàn)相媲美。OpenEQA 是衡量人工智能系統(tǒng)理解和回答現(xiàn)實(shí)世界問(wèn)題能力的新基準(zhǔn)。

在這些研究的推動(dòng)下,我們可以期待一下 2024 年大模型在現(xiàn)實(shí)世界任務(wù)取得更多的進(jìn)展。

參考鏈接:https://x.ai/blog/grok-1.5v

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-10-17 12:34:04

2024-04-15 12:52:00

AI數(shù)據(jù)

2024-06-04 14:11:00

2023-10-12 09:28:17

2019-07-18 17:01:10

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-02-16 13:48:56

模型論文

2023-10-12 13:05:00

谷歌AI

2024-02-02 21:53:58

AI訓(xùn)練

2024-03-29 14:04:00

模型訓(xùn)練

2024-06-27 13:10:21

2024-04-07 11:25:54

2024-06-11 08:16:00

2023-12-08 12:58:26

2023-04-20 17:51:41

馬斯克微軟

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2023-08-27 14:08:17

開(kāi)源代碼Meta大模型

2024-03-18 14:17:06

大模型開(kāi)源人工智能

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2021-12-03 09:38:39

特斯拉自動(dòng)駕駛技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)