微軟野心再現(xiàn):對Excel和谷歌Sheet下手了!
編輯 | 星璇
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
微軟團(tuán)隊(duì)在辦公領(lǐng)域有著很強(qiáng)的“AI霸者”的野心。
近日,微軟最新公布的研究論文,正在計(jì)劃為 Excel、谷歌 Sheets 等電子表格應(yīng)用程序,開發(fā)全新的 AI 大語言模型--SpreadsheetLLM。
圖片
研究人員表示現(xiàn)有電子表格應(yīng)用程序具備豐富的功能,在布局和格式方面為用戶提供大量的選項(xiàng),因此傳統(tǒng) AI 大語言模型很難勝任電子表格處理場景。
圖片
而 SpreadsheetLLM 就是專門為電子表格應(yīng)用而設(shè)計(jì)的 AI 模型,微軟還研發(fā)了 SheetCompressor(壓縮電子表格),讓 SpreadsheetLLM 能夠更好地理解、處理電子表格數(shù)據(jù)。
論文摘要部分,SpreadsheetLLM 模型主要由 3 個模塊組成:基于結(jié)構(gòu)錨的壓縮、反向索引轉(zhuǎn)換和數(shù)據(jù)格式感知聚合。
圖片
SpreadsheetLLM 大大提高了電子表格表檢測任務(wù)的性能,在 GPT4 的情境學(xué)習(xí)設(shè)置中,比普通方法高出 25.6%;使用詞元(token)的成本降低了 96%,并能提供更好的處理結(jié)果。
論文指出,這種電子表格LLM框架,顯著提高了LLM解釋和利用電子表格的方式。但還有很多改進(jìn)的空間,比如這種方法沒有利用電子表格格式的細(xì)節(jié),如背景顏色和邊框,因?yàn)樗鼈冃枰嗟臉?biāo)記(這些元素通常包含有價值的上下文和視覺線索,可以進(jìn)一步深化模型對電子表格數(shù)據(jù)的理解和處理)。
此外,雖然SheetCompressor有效地聚合了數(shù)據(jù)區(qū)域,但它目前沒有對包含自然語言的單元格采用復(fù)雜的基于語義的壓縮方法。例如,將“中國”、“美國”和“法國”等術(shù)語歸入“國家”等統(tǒng)一標(biāo)簽下,不僅可以提高壓縮比,還可以加深LLM對數(shù)據(jù)的語義理解。探索這些先進(jìn)的語義壓縮技術(shù)將是我們持續(xù)努力增強(qiáng)SpreadsheetLLM功能的一個關(guān)鍵重點(diǎn)。
目前還沒有關(guān)于微軟計(jì)劃何時或是否向公眾提供 SpreadsheetLLM 的消息。
參考鏈接:??https://arxiv.org/html/2407.09025v1??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:星璇
