【PaperDaily】谷歌推出AlphaGeometry2,超過(guò)金牌選手,稱霸IMO
1. Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
我們推出了 AlphaGeometry2,這是對(duì) Trinh 等人在 2024 年提出的 AlphaGeometry 的重大改進(jìn)版本,如今它在解決奧林匹克幾何問(wèn)題方面的能力已經(jīng)超過(guò)了普通金牌得主。為了實(shí)現(xiàn)這一突破,我們首先對(duì)原有的 AlphaGeometry 語(yǔ)言進(jìn)行了擴(kuò)展,使其能夠處理涉及物體運(yùn)動(dòng)的更難題型,以及包含角度、比例和距離的線性方程的問(wèn)題。這些改進(jìn)以及其他新增內(nèi)容,顯著提高了 AlphaGeometry 語(yǔ)言對(duì) 2000 - 2024 年國(guó)際數(shù)學(xué)奧林匹克(IMO)幾何題的覆蓋率,從 66% 提升到了 88% 。 。
AlphaGeometry2 的搜索過(guò)程也有了極大改進(jìn),我們采用了 Gemini 架構(gòu)以實(shí)現(xiàn)更優(yōu)的語(yǔ)言建模,還運(yùn)用了一種將多個(gè)搜索樹結(jié)合起來(lái)的全新知識(shí)共享機(jī)制。再加上對(duì)符號(hào)引擎和合成數(shù)據(jù)生成的進(jìn)一步優(yōu)化,我們大幅提升了 AlphaGeometry2 的整體解題率,在過(guò)去 25 年的所有幾何問(wèn)題上,解題率從之前的 54% 提升到了 84%。AlphaGeometry2 還是在 2024 年國(guó)際數(shù)學(xué)奧林匹克中達(dá)到銀牌水平的系統(tǒng)的一部分,詳情見https://dpmd.ai/imo-silver 。
論文: ??https://arxiv.org/pdf/2502.03544??
2. ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution
大語(yǔ)言模型(LLMs)能夠執(zhí)行圖表問(wèn)答任務(wù),但常常會(huì)生成未經(jīng)核實(shí)的虛假回復(fù)。由于視覺語(yǔ)義上下文有限、復(fù)雜的視覺 - 文本對(duì)齊要求,以及在復(fù)雜布局中進(jìn)行邊界框預(yù)測(cè)存在困難,現(xiàn)有的答案歸因方法難以將回復(fù)與源圖表建立關(guān)聯(lián)。
我們推出了 ChartCitor,這是一個(gè)多智能體框架,它通過(guò)識(shí)別圖表圖像中的支撐證據(jù),提供細(xì)粒度的邊界框引用。該系統(tǒng)協(xié)調(diào)大語(yǔ)言模型智能體執(zhí)行從圖表到表格的提取、答案重新組織、表格擴(kuò)充、通過(guò)預(yù)過(guò)濾和重排序進(jìn)行證據(jù)檢索,以及從表格到圖表的映射。
在不同類型的圖表中,ChartCitor 的表現(xiàn)均優(yōu)于現(xiàn)有的基線模型。定性用戶研究表明,ChartCitor 通過(guò)增強(qiáng)大語(yǔ)言模型輔助圖表問(wèn)答的可解釋性,有助于提升用戶對(duì)生成式人工智能的信任,還能讓專業(yè)人士提高工作效率。
論文: ??https://arxiv.org/pdf/2502.00989??
3. Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression
我們提出了異構(gòu)掩碼自回歸(HMA)方法,用于對(duì)動(dòng)作視頻動(dòng)態(tài)進(jìn)行建模,以生成高質(zhì)量數(shù)據(jù),并在拓展機(jī)器人學(xué)習(xí)中開展評(píng)估工作。由于既要應(yīng)對(duì)各種不同場(chǎng)景,又要保持計(jì)算效率以實(shí)現(xiàn)實(shí)時(shí)運(yùn)行,因此構(gòu)建適用于機(jī)器人技術(shù)的交互式視頻世界模型和策略頗具挑戰(zhàn)。
HMA 利用來(lái)自不同機(jī)器人實(shí)體、領(lǐng)域及任務(wù)中的觀測(cè)數(shù)據(jù)和動(dòng)作序列,進(jìn)行異構(gòu)預(yù)訓(xùn)練。它借助掩碼自回歸生成量化或軟令牌,以實(shí)現(xiàn)視頻預(yù)測(cè)。與以往的機(jī)器人視頻生成模型相比,我們的模型(HMA)視覺保真度和可控性更佳,在現(xiàn)實(shí)世界中的運(yùn)行速度更是快了 15 倍。經(jīng)過(guò)后期訓(xùn)練,該模型可用作視頻模擬器,接受低層級(jí)動(dòng)作輸入,以評(píng)估策略并生成合成數(shù)據(jù)。如需更多信息,請(qǐng)?jiān)L問(wèn)此鏈接:https://liruiw.github.io/hma 。
論文: ??https://arxiv.org/pdf/2502.04296??
4. Enhancing Code Generation for Low-Resource Languages: No Silver Bullet
大語(yǔ)言模型(LLMs)的出現(xiàn)極大地推動(dòng)了自動(dòng)化代碼生成領(lǐng)域的發(fā)展。大語(yǔ)言模型依賴大量多樣的數(shù)據(jù)集來(lái)學(xué)習(xí)編程語(yǔ)言的語(yǔ)法、語(yǔ)義及使用模式。對(duì)于低資源語(yǔ)言(即那些因訓(xùn)練數(shù)據(jù)稀缺而小眾的編程語(yǔ)言)而言,此類數(shù)據(jù)的有限可用性限制了模型的有效泛化能力,導(dǎo)致其代碼生成性能相較于高資源語(yǔ)言要差。因此,人們一直在探尋能夠縮小這一性能差距的技術(shù)。
我們開展了一項(xiàng)實(shí)證研究,探究幾種提升大語(yǔ)言模型在低資源語(yǔ)言上性能的方法的有效性,具體如下:(i)經(jīng)典的微調(diào)方法,但由于訓(xùn)練數(shù)據(jù)稀缺,其規(guī)模受限;(ii)三種上下文學(xué)習(xí)變體,通過(guò)精心設(shè)計(jì)提示,為大語(yǔ)言模型提供關(guān)于低資源語(yǔ)言的額外信息(例如,展示目標(biāo)語(yǔ)言特性的少樣本示例);(iii)一種預(yù)訓(xùn)練目標(biāo),教會(huì)模型如何在高資源語(yǔ)言和低資源語(yǔ)言之間進(jìn)行翻譯。
我們的研究以兩種低資源語(yǔ)言(R 語(yǔ)言和 Racket 語(yǔ)言)以及六種不同架構(gòu)和規(guī)模的大語(yǔ)言模型為背景。研究結(jié)果表明,對(duì)于規(guī)模較小的大語(yǔ)言模型,微調(diào)通常是最佳選擇,這可能是因?yàn)榧词故巧倭繑?shù)據(jù)集也足以訓(xùn)練其有限數(shù)量的參數(shù)。隨著模型規(guī)模的增大,上下文學(xué)習(xí)變得越來(lái)越有效,是一種穩(wěn)妥且成本較低的策略(即它總能起到一定作用,只是程度有所不同)。然而,對(duì)于超大規(guī)模的大語(yǔ)言模型,進(jìn)行微調(diào)時(shí),它們?cè)诘唾Y源語(yǔ)言上的性能可能會(huì)下降,這可能是由于缺乏足夠的數(shù)據(jù)來(lái)有效更新其權(quán)重。
論文: ???https://arxiv.org/pdf/2501.19085??
本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily
