自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

抵擋AI的最后一個(gè)基準(zhǔn)！CAIS發(fā)布50萬(wàn)美元懸賞令：匯集人類頂尖專家，專攻高難度問(wèn)題

2024-09-23 13:41:05

隨著AI模型的水平不斷提高，現(xiàn)有的基準(zhǔn)測(cè)試也被逐一攻破。CAIS和Scale AI共同發(fā)起了屬于人類的最后一搏，懸賞50萬(wàn)美元，把最高難度、只有最頂尖的人才能回答出的問(wèn)題收集起來(lái)作為基準(zhǔn)，是否能擋住AI模型的攻勢(shì)？

OpenAI最近發(fā)布的o1-preview可以說(shuō)是再次震撼了整個(gè)大模型屆，在各個(gè)主流高難度基準(zhǔn)測(cè)試中都展現(xiàn)出了驚人的性能，甚至能在博士級(jí)別的科學(xué)問(wèn)答環(huán)節(jié)上超越人類專家。

不過(guò)，o1模型的超強(qiáng)實(shí)力也帶來(lái)了一個(gè)問(wèn)題：現(xiàn)有的基準(zhǔn)測(cè)試已經(jīng)無(wú)法評(píng)估模型的能力了，需要新的、更難的基準(zhǔn)。

最近，Scale AI與CAIS（人工智能安全中心，Center for AI Safety）計(jì)劃合作推出Humanity's Last Exam （人類的最終測(cè)驗(yàn)），號(hào)稱將要構(gòu)建大型語(yǔ)言模型屆最難的開(kāi)源基準(zhǔn)；此前CAIS發(fā)布的MMLU目前仍然是Huggingface社區(qū)中下載次數(shù)最多的基準(zhǔn)數(shù)據(jù)集。

兩個(gè)機(jī)構(gòu)總共籌集了50萬(wàn)來(lái)收集「有史以來(lái)最難、最廣泛的」問(wèn)題，面向所有人類專家來(lái)收集那些尖銳的問(wèn)題，以將人工智能模型推向極限：前50個(gè)被選中的問(wèn)題，每題將獲得5000美元；后面的500個(gè)問(wèn)題，每題將獲得500美元。

圖片

問(wèn)題提交：https://agi.safe.ai/submit

不管是數(shù)學(xué)、天文、火箭工程還是分析哲學(xué)，不限領(lǐng)域，不限格式，只要夠難，只要AI回答不上來(lái)，就能拿獎(jiǎng)！

在數(shù)據(jù)集發(fā)布后，問(wèn)題被選中的提交者也將成為論文的共同作者，被接受的問(wèn)題數(shù)量越多，出現(xiàn)的位置也會(huì)越靠前，目前麻省理工學(xué)院、加州大學(xué)伯克利分校、斯坦福大學(xué)等研究人員都已參與到獎(jiǎng)金爭(zhēng)奪中！

問(wèn)題提交的截止日期為2024年11月1日。

示例問(wèn)題

好問(wèn)題1：存在多少個(gè)正整數(shù)G2類型的Coxeter-Conway格柵？

圖片

問(wèn)題解讀：該問(wèn)題對(duì)于人工智能模型來(lái)說(shuō)足夠具有挑戰(zhàn)性，并且重點(diǎn)關(guān)注研究概念。

好問(wèn)題2：假設(shè)X1，X2，...是在0和1之間獨(dú)立且均勻隨機(jī)選擇的實(shí)數(shù)。設(shè)，其中k是最小的正整數(shù)，使得 Xk<Xk+1；或者如果沒(méi)有這樣的整數(shù)，則 k=∞；求S的期望值。

圖片

問(wèn)題解讀：盡管沒(méi)有引用研究級(jí)別的概念，但這個(gè)問(wèn)題對(duì)于人工智能模型來(lái)說(shuō)已經(jīng)足夠具有挑戰(zhàn)性了。對(duì)于精確匹配格式來(lái)說(shuō)，答案也并不太復(fù)雜。

壞問(wèn)題1：確定最小的正實(shí)數(shù)使得存在可微函數(shù)和滿足下列五個(gè)限制。

圖片

問(wèn)題解讀：這個(gè)問(wèn)題太簡(jiǎn)單了。三個(gè)模型中，有兩個(gè)都能答對(duì)。

壞問(wèn)題2：我正在研究病毒顆粒（尤其是冠狀病毒）中基于系鏈蛋白的相互作用。我想進(jìn)行實(shí)驗(yàn)來(lái)評(píng)估各種 ORF3 和 Spike 蛋白是否能與系鏈蛋白更好地相互作用，從而增強(qiáng)受感染細(xì)胞中的病毒釋放。我直接使用改良的 SARS-CoV-2 毒株代替 HIVΔVpu 作為報(bào)告病毒，并使用 HeLa 細(xì)胞作為系鏈蛋白陽(yáng)性毒株。感染一些測(cè)試 HeLa 細(xì)胞，孵育、固定并通過(guò)透射電子顯微鏡 (TEM) 進(jìn)行分析后，拍攝了結(jié)果圖像。下列哪個(gè)選項(xiàng)是正確的？

圖片

1. 固定甚至 TEM 技術(shù)過(guò)程可能會(huì)導(dǎo)致偽影，例如源自細(xì)胞質(zhì)膜降解的小囊泡，如圖 i 和 ii 所示。這些偽影可能是解釋病毒活動(dòng)的混雜因素。

2. 在圖像 iii 中，白色箭頭指向類似于尚未釋放的病毒顆粒的結(jié)構(gòu)，有時(shí)封閉在雙膜囊泡內(nèi)。

3. 圖像 i、ii 和 iii 實(shí)際上顯示了受感染細(xì)胞的不同細(xì)節(jié)：質(zhì)膜外的病毒體 (i)、與質(zhì)膜相關(guān)的病毒體及其附近充滿病毒的隔室 (ii) 以及細(xì)胞器內(nèi)的病毒體 (iii) ）。

4. 圖像 i、ii 和 iii 的分辨率不足以區(qū)分病毒顆粒和常見(jiàn)的細(xì)胞結(jié)構(gòu)，使得很難確定這些尖頭結(jié)構(gòu)確實(shí)是病毒顆粒。

問(wèn)題解讀：我們不希望數(shù)據(jù)集中出現(xiàn)與病毒學(xué)相關(guān)的問(wèn)題，盡管這是一個(gè)很好的問(wèn)題。

壞問(wèn)題3：「strawberry and raspberries」這個(gè)短語(yǔ)中有多少個(gè) r？

圖片

問(wèn)題解讀：無(wú)論是知識(shí)范圍還是難度，該問(wèn)題都沒(méi)有超出本科生或碩士的水平，只是AI模型不擅長(zhǎng)此類棘手問(wèn)題，對(duì)于普通人來(lái)說(shuō)并不具備挑戰(zhàn)性。

壞問(wèn)題4：計(jì)算樣本標(biāo)準(zhǔn)差。

圖片

問(wèn)題解讀：這是一個(gè)簡(jiǎn)單的計(jì)算問(wèn)題，在難度上并不超出本科或碩士水平；沒(méi)有對(duì)人類知識(shí)的最前沿進(jìn)行測(cè)試，并且問(wèn)題中還沒(méi)有指定答案中預(yù)期的精度，一般來(lái)說(shuō)答案形式應(yīng)該是明確的、唯一的。

問(wèn)題評(píng)估過(guò)程

步驟1：寫(xiě)問(wèn)題

提交者首先用「英語(yǔ)」寫(xiě)一個(gè)AI模型和普通人無(wú)法回答的、有效的、且非常困難的問(wèn)題。研究人員的目標(biāo)是只有非常杰出的人才能正確回答的問(wèn)題，所以在提交之前，用戶需要先在各個(gè)AI模型上進(jìn)行測(cè)試，確定無(wú)法回答后再提交。

步驟2：AI評(píng)估問(wèn)題難度

研究人員會(huì)使用最先進(jìn)的AI模型來(lái)判斷問(wèn)題的難度，以過(guò)濾掉那些非常簡(jiǎn)單的問(wèn)題。

步驟3：寫(xiě)下答案解釋

如果該問(wèn)題對(duì)于AI模型來(lái)說(shuō)非常困難，研究人員就會(huì)要求提交者為該問(wèn)題寫(xiě)出一個(gè)完善但簡(jiǎn)潔的解決方案。

步驟4：同行評(píng)審

提交完問(wèn)題、答案和理由后，回答將會(huì)被保存下來(lái)，再進(jìn)行另一輪手動(dòng)審核以保證基準(zhǔn)的質(zhì)量。

答案理由可以幫助專家和AI模型來(lái)判斷提供的答案是否正確；提交著可以隨時(shí)在dashboard上進(jìn)行更改或刪除提交的問(wèn)題。

步驟5：發(fā)布

如果提交的問(wèn)題最終入選了數(shù)據(jù)集，在發(fā)布論文中，提交者也會(huì)獲得合作者身份，并且熱門問(wèn)題作者也會(huì)在附錄中進(jìn)行強(qiáng)調(diào)。

其中一小部分問(wèn)題將會(huì)作為測(cè)試集，以測(cè)試、防止AI模型作弊。

提交指南

1. 挑戰(zhàn)性

問(wèn)題對(duì)于非專家來(lái)說(shuō)應(yīng)該是困難的，并且不能通過(guò)在線搜索來(lái)回答；避免刁鉆的（trick）問(wèn)題；前沿人工智能系統(tǒng)能夠很好地回答大師級(jí)的問(wèn)題。

研究人員鼓勵(lì)具有 5 年以上技術(shù)行業(yè)工作經(jīng)驗(yàn)（例如 SpaceX）或者是學(xué)術(shù)培訓(xùn)的博士生或以上來(lái)提出問(wèn)題。

在籌備Humanity’s Last Exam時(shí)，研究人員發(fā)現(xiàn)本科生寫(xiě)的問(wèn)題對(duì)于模型來(lái)說(shuō)往往太簡(jiǎn)單了；根據(jù)經(jīng)驗(yàn)來(lái)說(shuō)，如果隨便一個(gè)本科生都能夠理解所問(wèn)的內(nèi)容，那么對(duì)于前沿LLMs來(lái)說(shuō)，開(kāi)發(fā)出能回答這類問(wèn)題的模型可能會(huì)很輕松。

2. 客觀性

答案應(yīng)該被該領(lǐng)域的其他專家所接受，并且沒(méi)有個(gè)人品味、模糊性或主觀性。提供問(wèn)題中所有必要的上下文和定義，使用標(biāo)準(zhǔn)、明確的術(shù)語(yǔ)和符號(hào)。

3. 原創(chuàng)性

問(wèn)題必須是自己的作品，不能抄襲他人。

4. 保密性

問(wèn)題和答案不能以任何公開(kāi)渠道獲得。

5. 武器化限制

請(qǐng)勿提交與化學(xué)、生物、放射性、核武器、網(wǎng)絡(luò)武器或病毒學(xué)相關(guān)的問(wèn)題。

參考資料：https://x.com/alexandr_wang/status/1835738937719140440

責(zé)任編輯：武曉燕來(lái)源：新智元

AI 測(cè)試 CAIS

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="z1c0g"><track id="z1c0g"></track></cite>

<sub id="z1c0g"></sub>

<legend id="z1c0g"><track id="z1c0g"></track></legend>

<sub id="z1c0g"></sub>

^{<blockquote id="z1c0g"></blockquote>}