自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<wbr id="dfhmx"></wbr><center id="dfhmx"><samp id="dfhmx"></samp></center>

<big id="dfhmx"><mark id="dfhmx"></mark></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一招分辨刷榜作弊大模型，博士小哥開源AI數(shù)學“照妖鏡”

作者：夢晨 2023-11-16 12:36:00

人工智能新聞

讓大模型考匈牙利全國高中數(shù)學期末考試，這招出自馬斯克的xAI。xAI的Grok大模型發(fā)布時，除了幾個常見的測試集，還額外做了這項測試，就是為了排除模型無意中在網(wǎng)絡數(shù)據(jù)見過測試題的問題。

如今很多大模型都聲稱擅長數(shù)學，誰有真才實學？誰是靠背測試題“作弊”的？

有人在今年剛剛公布題目的匈牙利全國數(shù)學期末考試上做了一把全面測試。

很多模型一下子就“現(xiàn)原形”了。

先看綠色部分，這些大模型在經(jīng)典數(shù)學測試集GSM8k和全新卷子上取得的成績差不多，共同組成參照標準。

再看紅色部分，在GSM8K上的成績顯著高于同參數(shù)規(guī)模的大模型，一到全新卷子上成績卻明顯下降，與同規(guī)模大模型差不多了。

研究者把他們歸類為“疑似或已知在GSM8k上訓練過”。

網(wǎng)友看過這項測試后表示，是時候開始在大模型從來沒見過的題目上搞評測了。

也有人認為，這項測試+每個人實際上手使用大模型的經(jīng)驗，是目前唯一靠譜的評估手段。

馬斯克Grok僅次于GPT-4，開源Llemma成績出色

測試者Keiran Paster是多倫多大學博士生、谷歌學生研究者，也是測試中Lemma大模型的作者之一。

讓大模型考匈牙利全國高中數(shù)學期末考試，這招出自馬斯克的xAI。

xAI的Grok大模型發(fā)布時，除了幾個常見的測試集，還額外做了這項測試，就是為了排除模型無意中在網(wǎng)絡數(shù)據(jù)見過測試題的問題。

這個考試今年5月底才考完，當前大模型基本沒機會見過這套試題。

xAI發(fā)布時還公布了的GPT-3.5、GPT-4、Claude 2的成績作為比較。

在這組數(shù)據(jù)基礎上，Paster進一步測試了多個生成數(shù)學能力強的開源模型。

并把測試題目、測試腳本、各模型回答結(jié)果都開源在了Huggingface上，供大家檢驗以及進一步測試其他模型。

結(jié)果來看，GPT-4和Claude-2組成第一梯隊，在GSM8k和新卷子上成績都很高。

雖然這不代表GPT-4和Claude 2的訓練數(shù)據(jù)中完全沒有GSM8k的泄露題，但至少它倆泛化能力不錯、能做對新題，就不計較了。

接下來，馬斯克xAI的Grok-0（33B）和Grok-1（未公布參數(shù)規(guī)模）表現(xiàn)都不錯。

Grok-1是“未作弊組”里成績最高的，新卷子成績甚至高過Claude 2。

Grok-0在GSM8k上的表現(xiàn)接近GPT3.5-Turbo，新卷子上略差一些。

除了上面這幾個閉源模型，測試中其他的都是開源模型了。

Code Llama系列是Meta自己在Llama 2基礎上微調(diào)的，主打根據(jù)自然語言生成代碼，現(xiàn)在看來數(shù)學能力比同規(guī)模的模型稍差。

在Code Llama的基礎上，多所大學和研究機構共同推出Llemma系列，并由EleutherAI開源。

團隊從科學論文、包含數(shù)學的網(wǎng)絡數(shù)據(jù)和數(shù)學代碼中收集了Proof-Pile-2數(shù)據(jù)集，訓練后的Llemma能使用工具和做形式定理證明，無需任何進一步的微調(diào)。

Llemma 34B在新卷子上與GPT-3.5 Turbo水平接近。

Mistral系列則是法國AI獨角獸Mistral AI訓練的，Apache2.0開源協(xié)議比Llama更寬松，成為羊駝家族之后最受開源社區(qū)歡迎的基礎模型。

“過擬合組”里的OpenChat 3.5和MetaMath Mistral都是基于Mistral生態(tài)微調(diào)而來。

MetaMath和MAmmoTH Code則是基于Code Llama生態(tài)。

有在實際業(yè)務中選擇開源大模型的就要小心避開這一組了，它們很有可能只是刷榜成績好看，但實際能力弱于同規(guī)模模型。

不少網(wǎng)友都對Paster這項試驗表示感謝，認為這正是了解模型實際情況所需要的。

也有人提出擔心：

從這一天起，所有訓練大模型的人都會加入匈牙利歷年數(shù)學考試題。

同時他認為，解決辦法可能是有一家擁有專有測試的專門大模型評估公司。

另一項提議是建立一個逐年更新的測試基準，來緩和過度擬合問題。

責任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<s id="g5sg9"><li id="g5sg9"></li></s>