自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力 原創(chuàng)

發(fā)布于 2025-4-2 07:35
瀏覽
0收藏

公式識別是文檔智能解析中的重要一環(huán),本文筆者將介紹筆者自己的工作,供參考。

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

問題陳述與動機(jī)

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

核心問題:當(dāng)前的數(shù)學(xué)表達(dá)式識別(MER)模型難以處理復(fù)雜公式中的層次結(jié)構(gòu)和細(xì)粒度細(xì)節(jié)。

數(shù)學(xué)公式是邏輯的建筑藍(lán)圖——它們在求和符號中嵌套分?jǐn)?shù),在行文中堆疊矩陣,并分支為條件分段函數(shù)。然而,盡管數(shù)學(xué)公式具有復(fù)雜的結(jié)構(gòu),當(dāng)前的數(shù)學(xué)表達(dá)式識別(MER)模型甚至難以可靠解析中等復(fù)雜度的表達(dá)式。試想:當(dāng)公式的視覺密度增加時,其渲染圖像會擴(kuò)大以保持清晰度。但問題在于——模型會將所有輸入嚴(yán)格調(diào)整為224×224像素等固定尺寸。圖1中的負(fù)號在原始高分辨率圖像中清晰可辨,但經(jīng)過壓縮后,它會坍縮成一個與分?jǐn)?shù)線模糊融合的兩像素污點(diǎn)。這種壓縮會引發(fā)連鎖故障:下標(biāo)與基準(zhǔn)字符粘連,括號等定界符失去方向感,層級關(guān)系消解為視覺噪聲。

數(shù)學(xué)表達(dá)式識別挑戰(zhàn)

復(fù)雜公式帶來了三個關(guān)鍵挑戰(zhàn)。首先,層次嵌套(如分?jǐn)?shù)內(nèi)的矩陣)需要精確解析。其次,不同LaTeX代碼可能渲染出相同圖像,導(dǎo)致歧義問題。第三,現(xiàn)有數(shù)據(jù)集規(guī)模小且缺乏結(jié)構(gòu)多樣性。

為應(yīng)對這些挑戰(zhàn),我們提出三項貢獻(xiàn),重新定義數(shù)學(xué)表達(dá)式識別領(lǐng)域:

  1. HDR數(shù)據(jù)集——MER研究的重大突破。不同于局限于簡單方程的現(xiàn)有數(shù)據(jù)集,HDR包含超過10億個公式,精心組織為HDR-100M訓(xùn)練集和覆蓋12個復(fù)雜度層級的專項測試集。從基礎(chǔ)分?jǐn)?shù)到嵌套矩陣求和,再到多分支分段函數(shù),該資源完整捕捉了真實(shí)科學(xué)符號的多樣性。每個公式包含多標(biāo)簽注釋和替代性語法表示,使模型能夠?qū)W習(xí)不同LaTeX格式的等價表達(dá)。
  2. HDNet架構(gòu)——帶有顛覆性層次子公式模塊的編解碼架構(gòu)。其動態(tài)裁剪機(jī)制可分離求和界限、矩陣?yán)ㄌ枴⒎謹(jǐn)?shù)線等關(guān)鍵子組件,在分層融合特征前對每個組件進(jìn)行最優(yōu)分辨率處理。
  3. 公平評估協(xié)議——針對MER評估體系性缺陷的解決方案?,F(xiàn)有指標(biāo)將有效LaTeX變體誤判為錯誤,混淆語法偏好與真實(shí)錯誤。我們的評估協(xié)議為數(shù)學(xué)等價表達(dá)式建立等價類標(biāo)準(zhǔn)。

1. HDR數(shù)據(jù)集

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

首先是HDR數(shù)據(jù)集。我們在表1中的分析展示了HDR-Test如何系統(tǒng)地按層次級別和線條數(shù)對公式進(jìn)行分類。HDR數(shù)據(jù)集涵蓋八個類別的公式,其復(fù)雜度分別由層次級別和線條數(shù)計算得出。

分層如下:

  • 0級:獨(dú)立字符

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

  • 1級:字符+位置關(guān)系
  • 公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

  • 2級:構(gòu)造結(jié)構(gòu)

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

  • 3級:多層
  • 公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

首先是HDR數(shù)據(jù)集。為標(biāo)準(zhǔn)化公式復(fù)雜度的表示,我們在此解釋層次級別的含義:

在0級,我們定義原子元素——獨(dú)立字符如"a"或數(shù)字,它們是構(gòu)成公式的基礎(chǔ)單元。當(dāng)這些元素與上標(biāo)、下標(biāo)等操作符結(jié)合時,復(fù)雜度上升至1級。

2級引入結(jié)構(gòu)性復(fù)雜度——分?jǐn)?shù)、積分或求和符號。此時空間關(guān)系決定了語義。但真正的挑戰(zhàn)出現(xiàn)在更高層級,公式呈現(xiàn)俄羅斯套娃式嵌套結(jié)構(gòu):例如包裹矩陣的分段函數(shù),這類表達(dá)式要求跨多層精確匹配開閉定界符。

通過在復(fù)雜度梯度上訓(xùn)練模型,我們迫使它們掌握LaTeX的結(jié)構(gòu)語法——不僅識別符號,更要理解其嵌套依賴關(guān)系。這種層次劃分不僅是理論概念,更是解析真實(shí)公式的關(guān)鍵。

HDR-1億數(shù)據(jù)集提供了前所未有的規(guī)模和多樣性,涵蓋了從數(shù)學(xué)到計算機(jī)科學(xué)領(lǐng)域的arXiv論文中的公式。HDR測試集包含多標(biāo)簽注釋,以涵蓋有效的LaTeX變體。如圖3所示,HDR在復(fù)雜性方面超越了先前的數(shù)據(jù)集,能夠支持強(qiáng)大的模型訓(xùn)練和評估。

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

2. HDNet架構(gòu)

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

Encoder-Decoder: ViT encoder + Transformer decoder

HDNet將視覺Transformer編碼器與Transformer解碼器相結(jié)合。其關(guān)鍵創(chuàng)新點(diǎn)在于特征融合:將主公式的全局上下文信息與子公式的局部細(xì)節(jié)信息相融合。損失函數(shù)通過參數(shù)α來平衡主公式損失和子公式損失。這種雙重關(guān)注確保了對公式結(jié)構(gòu)和細(xì)節(jié)的準(zhǔn)確解析。

在訓(xùn)練過程中,如圖2的左側(cè)所示,公式會根據(jù)其標(biāo)簽進(jìn)行分層解析。每個公式會被拆分、渲染并調(diào)整大小成為子公式。主公式也會進(jìn)行渲染和調(diào)整大小。主公式和子公式都會被輸入到編碼器中以提取特征。然后,子公式的特征會通過加權(quán)聚合的方式與主公式的特征相融合,以提供額外的視覺細(xì)節(jié)信息。經(jīng)過加權(quán)的特征會被傳遞到解碼器,以預(yù)測主公式的結(jié)果。此外,每個子公式的特征會被單獨(dú)傳遞到解碼器,以預(yù)測子公式的結(jié)果。該模型的優(yōu)化目標(biāo)包括主公式的損失以及子公式損失的總和。

loss如下:

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

公平評估策略

評估的公平性至關(guān)重要。傳統(tǒng)的評估方法局限于字符層面,當(dāng)數(shù)學(xué)公式圖像可以用多種有效方式進(jìn)行解釋時,這些方法往往無法公平地評估模型。由于具有功能等效性的LaTeX命令,預(yù)測結(jié)果和真實(shí)標(biāo)簽在字符層面可能會有所不同,但作為圖像渲染出來時卻是相同的。例如,一些LaTeX公式在功能上是相同的,但在文本表達(dá)上存在差異。

為了克服這一問題,如圖所示,我們提出了一種簡單而高效的評估策略,該策略考慮了功能等效表達(dá)式的所有有效解析選項。我們的方法在進(jìn)行字符層面的評估之前,會用等效表達(dá)式來替換標(biāo)簽和模型預(yù)測結(jié)果。

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

這種方法能夠涵蓋更廣泛的有效表達(dá)式,確保在識別和解析復(fù)雜公式時,對模型性能進(jìn)行更可靠、更公平的評估。通過處理基于LaTeX的公式生成過程中的可變性,我們的策略提高了字符層面評估的準(zhǔn)確性和公平性。

評價指標(biāo):Edit distance, BLEU, character recall

實(shí)驗評測

我們將HDNet與一些基線模型進(jìn)行了比較,結(jié)果見表。HDNet的表現(xiàn)優(yōu)于所有基線模型,實(shí)現(xiàn)了最高的字符召回率(0.968)、最低的平均編輯距離,以及最高的BLEU分?jǐn)?shù)。

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

跨數(shù)據(jù)集泛化

我們還對現(xiàn)有的公式識別數(shù)據(jù)集進(jìn)行了比較,HDNet同樣取得了最佳結(jié)果。值得一提的是,HDNet在參數(shù)數(shù)量方面也具有優(yōu)勢,如圖4所示,子公式模塊并未增加額外的參數(shù)。

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

消融實(shí)驗

為了驗證我們的分層子公式模塊,我們進(jìn)行了四種配置下的消融實(shí)驗:不裁剪、隨機(jī)裁剪、子公式裁剪,以及子公式和隨機(jī)裁剪相結(jié)合。

實(shí)驗結(jié)果總結(jié)在表IV中,結(jié)果表明“子公式 + 隨機(jī)裁剪”的配置取得了最佳性能,公平字符召回率(Fair-CR)得分達(dá)到了0.968。然而,僅使用子公式裁剪時,得分降至0.837。這是為什么呢?

公式識別:利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力-AI.x社區(qū)

子公式裁剪在訓(xùn)練過程中依賴標(biāo)簽來提取子公式,但在測試階段這些標(biāo)簽是不可用的。這就導(dǎo)致了訓(xùn)練階段和測試階段之間的不匹配。通過將子公式裁剪與隨機(jī)裁剪相結(jié)合(在訓(xùn)練和測試中都一致應(yīng)用),我們消除了這種差距,確保了模型的穩(wěn)健性能。

這個實(shí)驗強(qiáng)調(diào)了使訓(xùn)練條件和推理條件保持一致的重要性,尤其是對于像數(shù)學(xué)表達(dá)式識別(MER)這樣對細(xì)節(jié)敏感的任務(wù)來說。

總結(jié)與展望

我們的工作解決了數(shù)學(xué)表達(dá)式識別(MER)領(lǐng)域的兩個根本性局限:一是缺乏能夠涵蓋復(fù)雜層次結(jié)構(gòu)的數(shù)據(jù)集,二是現(xiàn)有模型無法解析復(fù)雜公式中的細(xì)粒度細(xì)節(jié)。

首先,HDR數(shù)據(jù)集為MER研究樹立了新的標(biāo)桿。它擁有一億個訓(xùn)練樣本,并且有一個涵蓋多個不同學(xué)科領(lǐng)域的多標(biāo)簽測試集。這促使模型去處理嵌套結(jié)構(gòu)、多行公式以及功能等效的解釋。通過納入從簡單字符到深度嵌套矩陣的不同層次,HDR彌合了理論研究與實(shí)際應(yīng)用之間的差距。

其次,HDNet重新定義了模型處理復(fù)雜公式的方式。它的分層子公式模塊將表達(dá)式分解為高分辨率的子組件,從而實(shí)現(xiàn)對細(xì)節(jié)的精確識別。通過融合主公式及其子公式的特征,HDNet在面對尺度變化和復(fù)雜的符號排列時表現(xiàn)出很強(qiáng)的穩(wěn)健性。雙重?fù)p失函數(shù)進(jìn)一步確保了平衡優(yōu)化,既重視全局結(jié)構(gòu),又注重局部的準(zhǔn)確性。

我們的實(shí)驗表明,HDNet優(yōu)于現(xiàn)有的MER模型,在編輯距離和字符召回率等指標(biāo)上均取得了最佳性能。至關(guān)重要的是,我們引入了一個公平的評估框架,該框架考慮了公式的多種有效解釋,這是對以往嚴(yán)格的字符層面比較的一種范式轉(zhuǎn)變。

展望未來,我們設(shè)想HDNet將成為科學(xué)文獻(xiàn)分析、教育技術(shù)以及多語言公式識別的基礎(chǔ)工具。未來的工作將擴(kuò)展HDR數(shù)據(jù)集,使其包含手寫表達(dá)式,并針對實(shí)時應(yīng)用對HDNet進(jìn)行優(yōu)化。

總之,HDR數(shù)據(jù)集和HDNet架構(gòu)解決了數(shù)學(xué)表達(dá)式識別(MER)領(lǐng)域的關(guān)鍵缺陷。未來的工作將包括將其擴(kuò)展到手寫表達(dá)式識別以及多語言環(huán)境中。


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/jqanDf9Vk_IXJx5XEJkw3w??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-2 07:35:30修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦