自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

馬斯克的首款多模態(tài)大模型來(lái)了，GPT-4V又被超越了一次

作者：機(jī)器之心 2024-04-14 19:53:44

昨天，xAI 推出了 Grok-1.5V，該模型不僅能理解文本，還能處理文檔、圖表、截圖和照片中的內(nèi)容。

自從 2023 年 11 月 Grok 首次亮相以來(lái)，馬斯克的 xAI 正在大模型領(lǐng)域不斷取得進(jìn)步，向 OpenAI 等先行者發(fā)起進(jìn)攻。在 Grok-1 開(kāi)源后不到一個(gè)月，xAI 的首個(gè)多模態(tài)模型就問(wèn)世了。

昨天，xAI 推出了 Grok-1.5V，該模型不僅能理解文本，還能處理文檔、圖表、截圖和照片中的內(nèi)容。

官方博文表示：「Grok-1.5V 在許多領(lǐng)域都能媲美當(dāng)前頂尖的多模態(tài)模型，從多學(xué)科推理到理解文檔、科學(xué)圖表、圖表、截圖和照片。」 xAI 還表示，在接下來(lái)的幾個(gè)月里，預(yù)計(jì)將在圖像、音頻和視頻等各種模態(tài)上顯著提高模型能力。

我們看到了 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測(cè)試對(duì)比。其中特別提到的是：「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準(zhǔn)測(cè)試中，Grok 的表現(xiàn)優(yōu)于同類(lèi)產(chǎn)品。對(duì)于下面的所有數(shù)據(jù)集，我們都是在沒(méi)有思維鏈提示的情況下對(duì) Grok 進(jìn)行評(píng)估的?！?/p>

如果 Grok-1.5 能在類(lèi)似于 Grok-1 的開(kāi)源許可證下發(fā)布，這將成為當(dāng)下 LLM 競(jìng)爭(zhēng)格局的一個(gè)重要節(jié)點(diǎn)。

Grok-1.5V 表現(xiàn)如何？

目前，Grok-1.5V 還沒(méi)有完全開(kāi)放，但會(huì)很快提供給早期測(cè)試者和現(xiàn)有的 Grok 用戶。不過(guò)，博客中展示了 Grok-1.5V 的七個(gè)示例。

第一個(gè)是將流程圖的白板草圖轉(zhuǎn)換為 Python 代碼：

Prompt：Can you translate this into Python code?（你能把它翻譯成 Python 代碼嗎？）

Grok：當(dāng)然！您提供的流程圖描述了一個(gè)簡(jiǎn)單的競(jìng)猜游戲：計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù)，用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼：

import random

def guess_number(): # Generate a random number between 1 and 10

    target = random.randint(1, 10)

    while True:
        guess = int(input("Guess a number between 1 and 10: "))

        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")

if __name__ == "__main__":
    guess_number()

第二個(gè)是計(jì)算卡路里：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路里？）

Grok：如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大約 100 卡路里。計(jì)算方法是首先確定每片的熱量：60 卡 / 3 片 = 20 卡 / 片。然后，將每片的卡路里乘以片數(shù)：每片 20 卡路里 * 5 片 = 100 卡路里。

第三個(gè)是將草圖轉(zhuǎn)化為睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（這是我兒子畫(huà)的，你能根據(jù)他的畫(huà)講一個(gè)簡(jiǎn)短的睡前故事嗎？）

Grok：

很久很久以前，在一個(gè)充滿冒險(xiǎn)和奇跡的國(guó)度里，有一個(gè)勇敢的小男孩，名叫提米。提米和家人住在舒適的小房子里，他最喜歡的事情就是探索周?chē)氖澜纭?/p>
在一個(gè)陽(yáng)光明媚的日子里，提米決定去附近的森林探險(xiǎn)。他帶上了自己最喜歡的零食、指南針和他最信任的筆記本，準(zhǔn)備把看到的所有令人興奮的事物都畫(huà)下來(lái)。
當(dāng) Timmy 走進(jìn)森林深處時(shí)，他發(fā)現(xiàn)了一條在陽(yáng)光下閃閃發(fā)光的神奇河流。這條河是如此迷人，以至于提米決定做一艘小紙船，順流而下，作為給森林精靈的特別訊息。
提米小心翼翼地折好紙船，在上面畫(huà)了一個(gè)笑臉，希望能給森林精靈帶來(lái)歡樂(lè)。然后，他把小船放在河面上，看著小船載著他的友誼和對(duì)大自然的愛(ài)漂走了。
夕陽(yáng)西下，提米知道是時(shí)候回家了。他為自己在森林里度過(guò)的神奇的一天感到慶幸，他知道自己將永遠(yuǎn)銘記這次探險(xiǎn)。
回到家后，提米和家人分享了他的故事，家人聽(tīng)到他在森林里度過(guò)的神奇一天都非常高興。他們一致認(rèn)為，提米勇敢、善良的精神是一種真正的激勵(lì)，他們知道，提米今后還會(huì)有更多精彩的冒險(xiǎn)經(jīng)歷。
就這樣，帶著滿心的愛(ài)和滿腦子的夢(mèng)想，提米漸漸進(jìn)入了夢(mèng)鄉(xiāng)，他渴望發(fā)現(xiàn)在他的想象世界里還有什么新的冒險(xiǎn)在等著他。

第四個(gè)是解釋梗圖：

Prompt：I don't get it, please explain（我不理解，啥意思？）

Grok：

這幅圖幽默地將初創(chuàng)公司和大公司作了對(duì)比。在標(biāo)有 "初創(chuàng)企業(yè)" 的左側(cè)，有一群人在一起挖洞。他們都在積極參與，洞已經(jīng)挖得很深了。
在標(biāo)有 "大公司" 的右側(cè)，有一群人圍著一個(gè)洞站著。然而，與初創(chuàng)公司不同的是，只有一個(gè)人真正在挖洞，其他人都在觀看或從事其他活動(dòng)。
這幅圖的幽默感來(lái)自于對(duì)初創(chuàng)企業(yè)和大公司之間差異的夸大。在初創(chuàng)公司，人們往往有一種緊迫感，希望每個(gè)人都能直接為手頭的任務(wù)做出貢獻(xiàn)。相比之下，大公司往往被描述為官僚主義更嚴(yán)重，所有團(tuán)隊(duì)成員對(duì)每個(gè)項(xiàng)目的直接參與更少。

第五個(gè)是將表格轉(zhuǎn)換為 CSV 文件格式：

Prompt：Please convert this table to csv.（請(qǐng)將此表轉(zhuǎn)換為 csv。）

Grok：


medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持樣式或格式設(shè)置，因此信息以純文本格式呈現(xiàn)。

第六個(gè)是辨別木頭的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（這些孔出現(xiàn)在我的甲板上的螺釘周?chē)Ｊ遣皇菭€了？我應(yīng)該更換嗎？）

Grok：

甲板上的木材似乎已經(jīng)開(kāi)始腐爛。這表現(xiàn)在螺絲周?chē)霈F(xiàn)孔洞，這是木材腐爛的常見(jiàn)跡象。
為了確保露臺(tái)的安全和使用壽命，建議更換受影響的木板。這將有助于防止其受到進(jìn)一步損壞，并保持其結(jié)構(gòu)的完整性。
如果您不確定如何更換木板，咨詢專(zhuān)業(yè)的露臺(tái)建造商或承包商可能會(huì)有所幫助。他們將能夠評(píng)估損壞的程度，并就最佳行動(dòng)方案向您提供專(zhuān)家建議。

第七個(gè)是解決編程問(wèn)題：

Prompt：Can you write Python code that solves this?（你能編寫(xiě) Python 代碼來(lái)解決這個(gè)問(wèn)題嗎？）

Grok 回復(fù)如下：

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

RealWorldQA 基準(zhǔn)

本次發(fā)布還有一個(gè)亮點(diǎn)：xAI 推出了一個(gè)新的基準(zhǔn)「RealWorldQA」。

下載地址：https://data.x.ai/realworldqa.zip

「為了開(kāi)發(fā)有用的真實(shí)世界人工智能助手，提高模型對(duì)物理世界的理解至關(guān)重要?！箈AI 希望借助該基準(zhǔn)更好地評(píng)估多模態(tài)模型的基本真實(shí)世界空間理解能力?！鸽m然當(dāng)前基準(zhǔn)中的許多示例對(duì)人類(lèi)來(lái)說(shuō)相對(duì)容易，但它們往往對(duì)前沿模型構(gòu)成挑戰(zhàn)?！?/p>

目前，RealWorldQA 包含 700 多張圖片，每張圖片都有一個(gè)問(wèn)題和易于驗(yàn)證的答案。

在真實(shí)世界的圖像外，該數(shù)據(jù)集還包括從車(chē)輛上拍攝的匿名圖像。這對(duì)于自動(dòng)駕駛領(lǐng)域來(lái)說(shuō)，或許是個(gè)好消息。

巧合的是，微軟研究院前段時(shí)間更新了跨語(yǔ)言、模態(tài)、模型和任務(wù)的基準(zhǔn)測(cè)試 MEGAVERSE，包含 22 個(gè)數(shù)據(jù)集，涵蓋 83 種語(yǔ)言（包括資源匱乏的非洲語(yǔ)言）。微軟還在基準(zhǔn)測(cè)試中加入了兩個(gè)多模態(tài)數(shù)據(jù)集，并比較了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

Meta 在前幾天也開(kāi)源了衡量人工智能系統(tǒng)具體問(wèn)答能力的基準(zhǔn)數(shù)據(jù)集 OpenEQA，包含家庭和辦公室等 180 多種不同現(xiàn)實(shí)環(huán)境的 1600 多個(gè)問(wèn)題，跨越七個(gè)類(lèi)別，全面測(cè)試 AI 在物體和屬性識(shí)別、空間和功能推理以及常識(shí)知識(shí)等技能方面的能力，加深大模型對(duì)現(xiàn)實(shí)世界的理解。

即使是最先進(jìn)的 AI 模型，如 GPT-4V，在 OpenEQA 上也難以與人類(lèi)表現(xiàn)相媲美。OpenEQA 是衡量人工智能系統(tǒng)理解和回答現(xiàn)實(shí)世界問(wèn)題能力的新基準(zhǔn)。

在這些研究的推動(dòng)下，我們可以期待一下 2024 年大模型在現(xiàn)實(shí)世界任務(wù)取得更多的進(jìn)展。

參考鏈接：https://x.ai/blog/grok-1.5v

責(zé)任編輯：趙寧寧來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)