編輯 | 星璇
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
微軟團隊在辦公領(lǐng)域有著很強的“AI霸者”的野心。
近日,微軟最新公布的研究論文,正在計劃為 Excel、谷歌 Sheets 等電子表格應(yīng)用程序,開發(fā)全新的 AI 大語言模型--SpreadsheetLLM。
圖片
研究人員表示現(xiàn)有電子表格應(yīng)用程序具備豐富的功能,在布局和格式方面為用戶提供大量的選項,因此傳統(tǒng) AI 大語言模型很難勝任電子表格處理場景。
圖片
而 SpreadsheetLLM 就是專門為電子表格應(yīng)用而設(shè)計的 AI 模型,微軟還研發(fā)了 SheetCompressor(壓縮電子表格),讓 SpreadsheetLLM 能夠更好地理解、處理電子表格數(shù)據(jù)。
論文摘要部分,SpreadsheetLLM 模型主要由 3 個模塊組成:基于結(jié)構(gòu)錨的壓縮、反向索引轉(zhuǎn)換和數(shù)據(jù)格式感知聚合。
圖片
SpreadsheetLLM 大大提高了電子表格表檢測任務(wù)的性能,在 GPT4 的情境學(xué)習(xí)設(shè)置中,比普通方法高出 25.6%;使用詞元(token)的成本降低了 96%,并能提供更好的處理結(jié)果。
論文指出,這種電子表格LLM框架,顯著提高了LLM解釋和利用電子表格的方式。但還有很多改進的空間,比如這種方法沒有利用電子表格格式的細節(jié),如背景顏色和邊框,因為它們需要太多的標(biāo)記(這些元素通常包含有價值的上下文和視覺線索,可以進一步深化模型對電子表格數(shù)據(jù)的理解和處理)。
此外,雖然SheetCompressor有效地聚合了數(shù)據(jù)區(qū)域,但它目前沒有對包含自然語言的單元格采用復(fù)雜的基于語義的壓縮方法。例如,將“中國”、“美國”和“法國”等術(shù)語歸入“國家”等統(tǒng)一標(biāo)簽下,不僅可以提高壓縮比,還可以加深LLM對數(shù)據(jù)的語義理解。探索這些先進的語義壓縮技術(shù)將是我們持續(xù)努力增強SpreadsheetLLM功能的一個關(guān)鍵重點。
目前還沒有關(guān)于微軟計劃何時或是否向公眾提供 SpreadsheetLLM 的消息。