自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="nda9o"><rt id="nda9o"></rt></sub><style id="nda9o"></style>

<blockquote id="nda9o"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型“玩”Excel更6了，微軟搞的

作者：量子位 2024-07-16 13:09:09

大模型理解、推理Excel，現(xiàn)在變得更加精準(zhǔn)了。這就是來自微軟的一項最新研究——SPREADSHEETLLM，主打的就是讓大模型有條不紊地處理各種電子表格任務(wù)。

大模型理解、推理Excel，現(xiàn)在變得更加精準(zhǔn)了。

這就是來自微軟的一項最新研究——SPREADSHEETLLM，主打的就是讓大模型有條不紊地處理各種電子表格任務(wù)。

圖片

例如在下面這張圖中，如果用傳統(tǒng)的大模型方法，會直接忽略掉“R5:R14”這列數(shù)據(jù)。

圖片

然而，這一列數(shù)據(jù)其實是與左側(cè)單元格有著較強(qiáng)的語義關(guān)系，表示這些值在左側(cè)單元格中的百分比。

現(xiàn)在有了SPREADSHEETLLM，這種有難度的推理任務(wù)已經(jīng)是可以輕松應(yīng)對了。

再如當(dāng)Excel表格里存在結(jié)構(gòu)稀疏或者有大量空格單元的時候，大模型在識別任務(wù)上也會出錯，最終導(dǎo)致結(jié)果的錯誤。

圖片

而SPREADSHEETLLM就能讓大模型更加精準(zhǔn)地“看清”Excel——

可以識別并保留表格的關(guān)鍵結(jié)構(gòu)信息，同時去除多余的空單元格和行。

這項研究目前已經(jīng)引來了不少網(wǎng)友們的圍觀，有人認(rèn)為它將對那些跟數(shù)據(jù)打交道的打工人造成不小的沖擊。

圖片

不過也有網(wǎng)友認(rèn)為微軟用大模型新研究“整治”Excel……也挺合理。

圖片

那么這項研究是如何讓大模型處理Excel的能力Pro Max的？

我們繼續(xù)往下看。

問答準(zhǔn)確率提高了22%

在回答這個問題之前，我們先來了解一下傳統(tǒng)大模型在處理Excel等電子表格任務(wù)時存在的問題。

圖片

首先就是tokens的限制。

眾所周知，大部分的大模型在處理任務(wù)的時候都存在這方面的限制；而電子表格往往因為存在大量的二維網(wǎng)格和復(fù)雜的結(jié)構(gòu)而超出了這個限制。

加之傳統(tǒng)的電子表格編碼方法，如HTML、XML由于需要重復(fù)使用標(biāo)簽來表示數(shù)據(jù)結(jié)構(gòu)，也會導(dǎo)致tokens的消耗較高。

即使是Markdown的編碼方法可以節(jié)省tokens，但它缺乏明確的單元格地址信息，導(dǎo)致在索引特定單元格位置時容易出錯。

其次還存在像結(jié)構(gòu)錨點識別的問題。

在沒有有效方法來識別電子表格中的結(jié)構(gòu)錨點（如表格邊界的行和列）之前，即便是GPT-4也難以理解電子表格的布局和結(jié)構(gòu)。

為了解決上述的問題，微軟團(tuán)隊首先提出了一個叫做SheetCompressor的編碼框架，主要包含三大模塊：

結(jié)構(gòu)錨點壓縮（structural-anchor-based compression）
反向索引轉(zhuǎn)換（inverse index translation）
數(shù)據(jù)格式感知聚合（data-format-aware aggregation）

圖片

結(jié)構(gòu)錨點壓縮的目的是識別電子表格中的結(jié)構(gòu)錨點，即在表格邊界處的非同質(zhì)行和列。

這一步驟主要是通過識別和提取這些結(jié)構(gòu)錨點，然后移除遠(yuǎn)離錨點的同質(zhì)行和列，生成一個精簡版的“骨架”電子表格。

這種方法有效地減少了需要處理的數(shù)據(jù)量，同時保留了對理解表格結(jié)構(gòu)至關(guān)重要的信息。

圖片

反向索引轉(zhuǎn)換的目的是提高tokens的使用效率，特別是在處理包含大量空單元格和重復(fù)值的電子表格的時候。

與傳統(tǒng)的逐行逐列的序列化方法不同，反向索引轉(zhuǎn)換采用無損的JSON格式的反向索引翻譯方法。

通過創(chuàng)建一個字典，將非空單元格文本作為鍵，將具有相同文本的地址合并，優(yōu)化了tokens的使用，同時保持了數(shù)據(jù)的完整性。

圖片

而數(shù)據(jù)格式感知聚合，則是為了簡化對數(shù)值單元格的理解，因為相鄰的數(shù)值單元格通常具有相似的數(shù)字格式。

它先是提取單元格的數(shù)字格式字符串和數(shù)據(jù)類型，然后將具有相同格式或類型的相鄰單元格進(jìn)行聚類。

通過這種方法，可以使用統(tǒng)一的格式字符串和數(shù)據(jù)類型來表示矩形區(qū)域，簡化了對數(shù)值數(shù)據(jù)分布的理解，減少了大量的tokens支出。

圖片

在實驗結(jié)果來看，SheetCompressor將tokens使用量減少了96%，并且與原始數(shù)據(jù)上微調(diào)的相同模型相比，性能提高了27%，在表格檢測任務(wù)上的F1分?jǐn)?shù)達(dá)到了約79%。

圖片

除此之外，微軟團(tuán)隊在這項研究中還提出了Chain of Spreadsheet（CoS）的框架。

它是用來擴(kuò)展SPREADSHEETLLM的應(yīng)用范圍，特別是在處理電子表格的下游任務(wù)的時候。

首先，CoS需要確定與特定任務(wù)查詢相關(guān)的表格，并確定相關(guān)內(nèi)容的確切邊界；這一步確保了只有相關(guān)數(shù)據(jù)在后續(xù)分析中被考慮，優(yōu)化了處理效率和焦點。

在確定了相關(guān)表格后，下一步是生成對查詢的準(zhǔn)確響應(yīng)。

CoS通過將處理過程分解為可管理的部分，有效地處理了復(fù)雜的電子表格，從而實現(xiàn)了精確且上下文感知的響應(yīng)。

圖片

從結(jié)果上來看，CoS方法顯著提高了大模型在問答方面的準(zhǔn)確性。

例如，與基線GPT-4模型相比，CoS 方法的準(zhǔn)確度提高了22%。

微調(diào)模型在電子表格表格檢測任務(wù)上的表現(xiàn)也證明了CoS的泛化能力，微調(diào)后的模型在問答任務(wù)上的準(zhǔn)確度提高了 6%。

總而言之，大模型現(xiàn)在處理Excel等電子表格這事兒，確實是變得更6了。

那么你覺得這項研究如何呢？歡迎在評論區(qū)留言討論。

參考鏈接：[1]https://arxiv.org/abs/2407.09025[2]https://x.com/emollick/status/1812684733538541694

責(zé)任編輯：武曉燕來源：量子位

模型 Excel 電子表格

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<rp id="ite6r"><pre id="ite6r"></pre></rp>

<s id="ite6r"><li id="ite6r"></li></s>