自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

發(fā)布于 2024-11-18 16:58

瀏覽

0收藏

Google DeepMind的最新版本 Gemini Exp 1114，在Chatbot Arena上取得了重要成就，憑借超過6000個(gè)社區(qū)投票，躍升至總榜第1，并在多個(gè)領(lǐng)域表現(xiàn)出色：

總排名：#3 -> #1
數(shù)學(xué)：#3 -> #1
難題解答：#4 -> #1
創(chuàng)意寫作：#2 -> #1
視覺識別：#2 -> #1
編程：#5 -> #3

首先，我們要理解LLM Arena是什么。LLM Arena（或稱聊天機(jī)器人競技場）是一個(gè)評估LLM的平臺(tái)，主要目標(biāo)是促進(jìn)社區(qū)驅(qū)動(dòng)的LLM性能評估。它是最有聲望的評估平臺(tái)之一。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總榜來看，谷歌新模型Gemini（Exp 1114）分?jǐn)?shù)直漲40+，得分為1344，而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型這好像還是第一次有這樣的成績。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini-Exp-1114 在數(shù)學(xué)競技場中并列第一，性能匹敵 o1：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

要知道，以前o1剛發(fā)布的時(shí)候，很驚艷的一點(diǎn)就是它可以在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家，還可以拿下奧數(shù)金牌。

網(wǎng)友：這會(huì)兒滿血版的o1是真得出來了。。。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總體勝率熱圖上來看，Gemini 對 4o-latest 的勝率為 50%，對 o1-preview 的勝率為 56%，對 Claude-3.5-Sonnet 的勝率為 62%。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

除了總體排名，Gemini Exp 1114 在細(xì)分任務(wù)上獲得6項(xiàng)第一：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

可惜代碼能力遜色了一點(diǎn)，從圖中我們可以看到與 o1-mini/preview 還是有一定差距的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

目前，Gemini-Exp-1114 可以在谷歌AI Studio 對話體驗(yàn)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

官方計(jì)劃后續(xù)提供API，這個(gè)模型后續(xù)如果像Flash那樣限速免費(fèi)使用的話，我們還是可以和Cline、Continue這些編碼助手配合使用的。

一些實(shí)踐：

在一位博主的測試中，Gemini Exp 1114通過了所有的問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

感覺還不錯(cuò)。

另一位網(wǎng)友：Gemini-exp-1114 的回答令人驚訝，早期的Flash模型通常會(huì)卡在 cat-age 問題上，而Gemini-exp-1114答對了這個(gè)問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

不過 Gemini-exp-1114在被問到是誰創(chuàng)造和自己是誰時(shí)，竟然回答Anthropic 和 Claude。網(wǎng)友戲稱，最讓人感到直觀的解釋就是使用Claude生成的數(shù)據(jù)訓(xùn)練的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

然后我問了一下他一些視覺問題，相同的問題曾經(jīng)寫在這篇文章中你可以與之比較：

??https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw??

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖中有多少水果，哪一種最小，哪一種酸性最強(qiáng)，它們在貨架上的哪一排，哪一列？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū) 圖片

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖片中心的石頭被堆疊了幾塊？有沒有不是圖片場景的東西？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

你能理解這個(gè)梗圖的梗點(diǎn)在哪里嗎?

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

最后這個(gè)模型，在視覺計(jì)數(shù)上似乎不太完美，圖1、圖2分別應(yīng)該是30條船和10條船：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI進(jìn)修生??，作者： Aitrainee

標(biāo)簽

已于2024-11-18 17:01:29修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 2966瀏覽 ? 0回復(fù)
阿里開源多模態(tài)視覺語言模型，多項(xiàng)超越GPT4o與Claude 3.5-Sonnet

angel ? 9189瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強(qiáng)大模型--Nemotron

Aceryt ? 2989瀏覽 ? 0回復(fù)
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 1881瀏覽 ? 0回復(fù)
Claude 3.5超預(yù)期炸場！編程能力超o1，像人類一樣操作電腦，開啟Agent新時(shí)代！

51CTO技術(shù)棧 ? 2208瀏覽 ? 0回復(fù)
Anthropic 升級版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時(shí)空111 ? 2181瀏覽 ? 0回復(fù)
Anthropic AI的Claude 3.5，讓機(jī)器更懂你

Halo咯咯 ? 1963瀏覽 ? 0回復(fù)
Claude 3.5 引領(lǐng)人工智能新時(shí)代的強(qiáng)大模型

丟翅膀的魚 ? 2319瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。?em>擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 7255瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2301瀏覽 ? 0回復(fù)
推進(jìn)醫(yī)療人工智能：評估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 2196瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級模型

Syrupup ? 5941瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 1.4w瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 1715瀏覽 ? 0回復(fù)
大語言模型都有哪些特質(zhì)？區(qū)分度達(dá)97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 1925瀏覽 ? 0回復(fù)
全球首個(gè)混合推理模型Claude 3.7 Sonnet發(fā)布，編碼能力直接起飛！

AI博物院 ? 2100瀏覽 ? 0回復(fù)
Agentic RAR+Nano-GraphRAG+Claude 3.7 Sonnet=智能推理RAG系統(tǒng)

PyTorch研習(xí)社 ? 696瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 198瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Cursor 新版搶先體驗(yàn)！規(guī)則自動(dòng)生成+項(xiàng)目結(jié)構(gòu)感知+MCP 圖片支持，網(wǎng)友：多項(xiàng)實(shí)用更新！ 7天前發(fā)布
A2A + MCP = AI Agent 完全體？AI Agent 既能 “單挑” 工具，又能 “群毆” 任務(wù) 2025-04-11 00:08:29發(fā)布

熱門推薦

A2A + MCP = AI Agent 完全體？AI Agent 既能 “單挑” 工具，又能 “群毆” 任務(wù) 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： Qwen2.5：13個(gè)新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

下一篇： Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

社區(qū)精華內(nèi)容

目錄

<sup id="a6wsf"><rt id="a6wsf"></rt></sup>

<em id="a6wsf"><rt id="a6wsf"></rt></em>