自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="1ykkk"><p id="1ykkk"></p></blockquote>

<thead id="1ykkk"><samp id="1ykkk"><thead id="1ykkk"></thead></samp></thead>

<ul id="1ykkk"></ul>

<cite id="1ykkk"></cite>

<s id="1ykkk"></s>

<tr id="1ykkk"><menuitem id="1ykkk"><dl id="1ykkk"></dl></menuitem></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4o mini排名雪崩，大模型競(jìng)技場(chǎng)規(guī)則更新，奧特曼刷分小技巧無(wú)效了

作者：量子位 2024-09-02 08:30:00

人工智能新聞

在新規(guī)則下，奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。

大模型競(jìng)技場(chǎng)規(guī)則更新，GPT-4o mini排名立刻雪崩，跌出前10。

新榜單對(duì)AI回答的長(zhǎng)度和風(fēng)格等特征做了降權(quán)處理，確保分?jǐn)?shù)反映模型真正解決問(wèn)題的能力。

想用漂亮的格式、增加小標(biāo)題數(shù)量等技巧討好用戶、刷榜，現(xiàn)在統(tǒng)統(tǒng)沒(méi)用了。

在新規(guī)則下，奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。

Claude系列、Llama-3.1-405b大模型分?jǐn)?shù)則紛紛上漲。

只計(jì)算困難任務(wù)（Hard Prompt）的情況下，大模型在風(fēng)格控制榜單中的優(yōu)勢(shì)更加明顯。

此前GPT-4o mini小模型一度登頂，與GPT-4o滿血版并列第一，與網(wǎng)友的體感明顯不符。

Lmsys大模型競(jìng)技場(chǎng)這個(gè)一度被Karpathy推薦的評(píng)價(jià)標(biāo)準(zhǔn)，口碑也跌落到“只能反映用戶喜好而不是模型能力了”。

Lmsys組織痛定思痛，先是公開(kāi)了GPT-4o mini參與的1000場(chǎng)battle數(shù)據(jù)，從而分析出模型拒絕回答率、生成內(nèi)容長(zhǎng)度、和格式排版是影響投票結(jié)果的幾個(gè)因素。

而且?jiàn)W特曼還在GPT-4o mini發(fā)布之前，暗示了正是按照人類偏好做優(yōu)化的。

現(xiàn)在，Lmsys進(jìn)一步推出了控制這些因素的新算法，而且還只是規(guī)劃中的第一步。

如何控制風(fēng)格的影響？

假設(shè)有模型A擅長(zhǎng)生成代碼、事實(shí)和無(wú)偏見(jiàn)的答案等，但它的輸出非常簡(jiǎn)潔。

模型B在實(shí)質(zhì)內(nèi)容（例如正確性）上不是很好，但它輸出的內(nèi)容長(zhǎng)而詳細(xì)、格式排版華麗。

那么哪個(gè)更好？

答案不是唯一的，Lmsys嘗試用數(shù)學(xué)方法找出一個(gè)模型的得分有多少是內(nèi)容或風(fēng)格貢獻(xiàn)的。

此外，最近也已經(jīng)有研究表明，人類對(duì)排版漂亮和更詳細(xì)的AI回答可能存在偏好性。

通過(guò)在Bradley-Terry回歸中添加樣式特征，如響應(yīng)長(zhǎng)度、markdown小標(biāo)題的數(shù)量、列表和加粗文本數(shù)量作為自變量。

這是統(tǒng)計(jì)學(xué)中的一種常用技術(shù)，最近被AlpacaEval LC等用于大模型評(píng)估。

在回歸中包含任何混雜變量（例如回答長(zhǎng)度），可以將分?jǐn)?shù)的增加歸因于混雜變量，而不是模型能力本身。

相關(guān)代碼已在Google Colab上公開(kāi)。

此外團(tuán)隊(duì)還對(duì)“只控制長(zhǎng)度”和“只控制格式”做了消融實(shí)驗(yàn)。GPT-4o mini、谷歌Gemini系列分?jǐn)?shù)受格式影響更大。

不過(guò)這種做法也存在局限性，比如可能存在未觀察到的混雜因素，例如長(zhǎng)度和回答質(zhì)量之間的正相關(guān)，這些因素沒(méi)有被考慮在內(nèi)（例如思維鏈提示）。

有不少網(wǎng)友表示，調(diào)整后的困難任務(wù)榜單與自己的主觀印象更吻合了。

也有人覺(jué)得，正是榜單和沖榜的大模型公司這種來(lái)回博弈，才能讓整個(gè)領(lǐng)域一起進(jìn)步。

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<wbr id="agzi1"></wbr>

<menuitem id="agzi1"><td id="agzi1"></td></menuitem>

<cite id="agzi1"><track id="agzi1"><sub id="agzi1"></sub></track></cite>

<blockquote id="agzi1"><p id="agzi1"><th id="agzi1"></th></p></blockquote>