自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="34m8m"></sub>

<cite id="34m8m"><rp id="34m8m"><pre id="34m8m"></pre></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI“短板”暴露：研究發(fā)現(xiàn) GPT-4 Turbo 回答高級(jí)歷史題準(zhǔn)確率僅 46%

作者：遠(yuǎn)洋 2025-01-21 08:00:00

盡管人工智能（AI）在編碼等任務(wù)中表現(xiàn)出色，但一項(xiàng)最新研究發(fā)現(xiàn)，AI 在應(yīng)對(duì)高級(jí)歷史考試時(shí)仍顯得力不從心。

1 月 20 日消息，盡管人工智能（AI）在編碼等任務(wù)中表現(xiàn)出色，但一項(xiàng)最新研究發(fā)現(xiàn)，AI 在應(yīng)對(duì)高級(jí)歷史考試時(shí)仍顯得力不從心。

這項(xiàng)研究由奧地利復(fù)雜科學(xué)研究所（CSH）的團(tuán)隊(duì)主導(dǎo)，旨在測(cè)試三大頂尖大型語(yǔ)言模型（LLMs）——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在歷史問(wèn)題上的表現(xiàn)。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為“Hist-LLM”的基準(zhǔn)測(cè)試工具，其根據(jù) Seshat 全球歷史數(shù)據(jù)庫(kù)來(lái)測(cè)試答案的正確性，Seshat 全球歷史數(shù)據(jù)庫(kù)是一個(gè)以古埃及智慧女神命名的龐大歷史知識(shí)數(shù)據(jù)庫(kù)。

研究結(jié)果于上月在知名 AI 會(huì)議 NeurIPS 上公布，結(jié)果顯示，即使是表現(xiàn)最佳的 GPT-4 Turbo 模型，其準(zhǔn)確率也僅為 46%，并不比隨機(jī)猜測(cè)高多少。

論文合著者、倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)副教授 Maria del Rio-Chanona 表示：“這項(xiàng)研究的主要結(jié)論是，盡管 LLMs 令人印象深刻，但它們?nèi)匀狈?duì)高級(jí)歷史知識(shí)的深度理解。它們擅長(zhǎng)處理基本事實(shí)，但在面對(duì)更復(fù)雜、博士級(jí)別的歷史研究時(shí)，仍無(wú)法勝任。”

IT之家注意到，研究人員分享了一些 LLMs 答錯(cuò)的歷史問(wèn)題示例。例如，當(dāng)被問(wèn)及古埃及某一特定時(shí)期是否存在鱗甲時(shí)，GPT-4 Turbo 給出了肯定的回答，但實(shí)際上，這種技術(shù)是在 1500 年后才出現(xiàn)在埃及的。del Rio-Chanona 解釋說(shuō)，LLMs 在處理技術(shù)性歷史問(wèn)題時(shí)表現(xiàn)不佳，可能是因?yàn)樗鼈儍A向于從非常突出的歷史數(shù)據(jù)中推斷，而難以檢索到更冷門(mén)的歷史知識(shí)。

另一個(gè)例子是，研究人員詢問(wèn) GPT-4 古埃及在某一歷史時(shí)期是否擁有職業(yè)常備軍。正確答案是否定的，但 LLM 卻錯(cuò)誤地回答“有”。del Rio-Chanona 認(rèn)為，這可能是因?yàn)殛P(guān)于其他古代帝國(guó)（如波斯）擁有常備軍的公開(kāi)信息較多，而古埃及的相關(guān)信息較少。“如果你被反復(fù)告知 A 和 B，而 C 只被提到一次，當(dāng)你被問(wèn)及 C 時(shí)，你可能會(huì)只記得 A 和 B，并試圖從中推斷?！彼忉尩馈?/p>

研究還發(fā)現(xiàn)，OpenAI 和 Llama 模型在撒哈拉以南非洲等地區(qū)的表現(xiàn)更差，這表明其訓(xùn)練數(shù)據(jù)可能存在偏見(jiàn)。研究負(fù)責(zé)人、CSH 研究員 Peter Turchin 表示，這些結(jié)果表明，在某些領(lǐng)域，LLMs 仍無(wú)法替代人類。

盡管如此，研究人員對(duì) LLMs 在未來(lái)輔助歷史研究的前景仍持樂(lè)觀態(tài)度。他們正在通過(guò)納入更多來(lái)自代表性不足地區(qū)的數(shù)據(jù)和增加更復(fù)雜的問(wèn)題來(lái)改進(jìn)基準(zhǔn)測(cè)試工具。論文總結(jié)道：“總體而言，盡管我們的結(jié)果突顯了 LLMs 需要改進(jìn)的領(lǐng)域，但它們也強(qiáng)調(diào)了這些模型在歷史研究中的潛力。”

責(zé)任編輯：龐桂玉來(lái)源： IT之家

人工智能 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="nkwun"></tfoot>

<cite id="nkwun"><rp id="nkwun"><pre id="nkwun"></pre></rp></cite>

<style id="nkwun"></style>

^{<blockquote id="nkwun"></blockquote>}