自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SpreadsheetLLM:微軟對Excel編碼的“攤膀伏” 原創(chuàng) 精華

發(fā)布于 2024-7-19 09:53
瀏覽
0收藏

1.SpreadsheetLLM

Excel的特點是二維數(shù)據(jù)格式、靈活的布局和多樣化的格式選項。微軟最近引入了SpreadsheetLLM,開創(chuàng)了一種高效的編碼方法,用于釋放和優(yōu)化LLMs在電子表格上的強大理解和推理能力。最初研究人員提出一種包含單元格地址、值和格式的普通序列化方法。但是這種方法受到LLMs 上下文長度的約束,為此微軟推出了SheetCompressor(下圖綠色部分),它是一種創(chuàng)新的編碼框架,可以有效地壓縮電子表格。


SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

左邊為文檔輸入,經(jīng)過SheetCompressor的壓縮編碼,之后將編碼輸入到現(xiàn)有的大模型,進而加深大模型對電子表格的深入理解,最后利用chain of Spreadsheet完成下游任務(wù)。

SSLLM最終在GPT4的上下文學習中比普通方法高出25.6%。此外,利用SheetCompressor進行微調(diào)的平均壓縮比為25×,卻達到了最先進的 78.9%F1 分數(shù),比目前的優(yōu)等生高出12.3%。

最后研究人員還提出了電子表格鏈,用于電子表格理解的下游任務(wù),事實證明SpreadsheetLLM在各種電子表格任務(wù)中非常有效。

2.SheetCompressor

SheetCompressor是這次研究的靈魂,本文重點來看看它的實現(xiàn)模式。它主要由三個模塊組成:基于結(jié)構(gòu)錨點的壓縮、逆索引轉(zhuǎn)換和數(shù)據(jù)格式感知聚合。


SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

首先在在整個電子表格中放置“結(jié)構(gòu)錨點”,以幫助LLM更好地了解正在發(fā)生什么。

SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

然后,刪除“遙遠的、均勻的行和列”,以生成電子表格的壓縮“骨架”版本,如上圖所示。

SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

索引轉(zhuǎn)換解決了由具有大量空單元格和重復(fù)值的電子表格引起的挑戰(zhàn)。“為了提高效率,SheetCompressor擺脫了傳統(tǒng)的逐行和逐列序列化,采用JSON格式的無損倒排索引翻譯,”  研究人員表示  “這種方法創(chuàng)建了一個字典,該字典為非空單元格文本編制索引,并將具有相同文本的地址合并,在保證數(shù)據(jù)完整性的同時且優(yōu)化Token長度。”


<輸入Token的長度很重要,因為這些經(jīng)過編碼的Token下一步就會被送到各種大模型學習,而大模型對于輸入Token是有限制的!>


SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)


認識到精確的數(shù)值對于掌握電子表格結(jié)構(gòu)不太重要,研究人員從這些單元格中提取數(shù)字格式字符串和數(shù)據(jù)類型。


SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)


然后具有相同格式或類型的相鄰單元格聚集在一起,進而簡化對數(shù)值數(shù)據(jù)分布的理解,而不會浪費Token長度。

通過上面三種辦法的疊加組合,SheetCompressor顯著減少了96%的電子表格的Enbedding Token。在文中的一個示例中,電子表格由576行和23列組成,原始編碼為61,240個標記。按照新的技術(shù)首先使用結(jié)構(gòu)錨提取單元格,將它們重新排列成一個較小的24×8工作表。隨后執(zhí)行索引反轉(zhuǎn),刪除空單元格。最后根據(jù)數(shù)據(jù)格式聚合單元格,實現(xiàn)電子表格的極其緊湊的表示,其中僅包含708個標記!


SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

上表為三個組件在測試數(shù)據(jù)集上面的各種組合壓縮比率清單,第一列為沒有運用任何手段,所以壓縮比率為1(原始的Token長度/壓縮的Token長度)。可以觀察到三種方法組合可以達到24.79的壓縮比例。

3.性能對比

為了評估SpreadsheetLLM的性能,研究人員選擇了TableSense-CNN作為基線,因為之前在電子表格檢測任務(wù)中證明了有效性。本次采用F1分數(shù)作為主要指標來評估和比較不同模型的性能,它平衡了精確度和召回率,提供了模型準確性的整體視圖。

SpreadsheetLLM:微軟對Excel編碼的“攤膀伏”-AI.x社區(qū)

微調(diào)后GPT4模型在所有數(shù)據(jù)集上獲得了約 76%的F1分數(shù),而利用本文涉及的不帶聚合編碼的方法在所有數(shù)據(jù)集上獲得了約79%的F1分數(shù)。

這標志著與在原始數(shù)據(jù)上微調(diào)的相同模型相比提高了27%,比 TableSense-CNN提高了13%,并成為新的王(SOTA)。整個編碼方法在可容忍的范圍內(nèi)略微降低了F1分數(shù),但取得了良好的壓縮結(jié)果。

此外基于本文的壓縮方法,Llama3的分數(shù)加了25%,Phi3增加了36%,Llama2增加了38%,Mistral-v2增加了18%。這些結(jié)果突顯了編碼方法顯著增強了性能,也就是說它改善了上下文學習(In-Context Learning)。同時還節(jié)省了大量的成本,這種方法的成本幾乎與輸入Token成正比,根據(jù)ICL中GPT4和GPT3.5-turbo型號的價格,在測試集中降低了96%的成本。

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 ????



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦