自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

提升5.69倍,高效RAG上下文壓縮方法COCOM

發(fā)布于 2024-7-22 06:53
瀏覽
0收藏

GPT-4、Llama等開閉大模型通過預訓練的方式將海量數(shù)據(jù)積累成一個龐大的知識庫,再通過文本問答的形式為用戶生成各種內容。但這種方法僅局限于訓練數(shù)據(jù)集,為了擴大輸出范圍允許模型通過檢索額外的數(shù)據(jù)來豐富生成內容,RAG(知識檢索增強)成為了必備功能之一。


RAG也有一個明顯的缺點,就是隨著上下文信息量的增加,模型的解碼時間顯著延長,嚴重影響用戶獲取答案的效率。


所以,阿姆斯特丹大學、昆士蘭大學和NAVER實驗室的研究人員聯(lián)合發(fā)布了創(chuàng)新壓縮方法COCOM(Context COmpression Model)。


論文地址:https://arxiv.org/abs/2407.09252

提升5.69倍,高效RAG上下文壓縮方法COCOM-AI.x社區(qū)

在傳統(tǒng)的RAG模型中,為了生成一個準確的答案,系統(tǒng)需要考慮大量的上下文信息。這些信息可能來自多個文檔,每個文檔都包含了對生成答案可能有用的信息。


不過將這些長文本直接輸入到大模型中會導致解碼時間顯著增加,因為模型需要處理更多的輸入數(shù)據(jù),消耗的算力和推理時間也就更多。


COCOM使用了一種創(chuàng)新的上下文壓縮技術,將長文本上下文轉換成一組緊湊的上下文嵌入。這些嵌入能夠捕捉原始文本的關鍵信息,并以一種更高效的方式提供給大模型,能夠在減少模型輸入大小的同時,保持提升生成內容的質量。


COCOM還使用了一個轉換器,幫助大模型對輸入的上下文進行分詞處理,將其轉換成一系列的標記。然后,這些標記被輸入到一個壓縮模型中,并負責將這些標記轉換成一組上下文嵌入。

提升5.69倍,高效RAG上下文壓縮方法COCOM-AI.x社區(qū)

在壓縮模型的訓練過程中,研究者們采用了兩種主要的預訓練任務:自編碼和基于上下文嵌入的語言建模。自編碼任務的目標是訓練模型將上下文嵌入重構回原始的輸入文本,這有助于模型學習如何有效地壓縮和解壓上下文信息。


而基于上下文嵌入的語言建模任務則是訓練模型根據(jù)壓縮后的嵌入生成文本的下一部分,這有助于模型學習如何利用上下文嵌入中的信息。


值得一提的是,COCOM的壓縮率非常靈活可以調節(jié),通過調整壓縮率參數(shù)幫助開發(fā)人員在減少解碼時間和保持答案質量之間找到一個平衡點。


例如,一個較低的壓縮率可能會生成更多的嵌入,從而保留更多的上下文信息,但同時也會略微增加解碼時間。相反,一個較高的壓縮率會減少生成的嵌入數(shù)量,從而加快解碼效率,但可能會犧牲一些生成答案的質量。


此外,COCOM還能夠處理多個上下文的情況。在知識密集型任務中,通常需要從多個文檔中提取信息以生成答案。COCOM能夠獨立地壓縮每個文檔的上下文,并將生成的嵌入向量作為一組提供給大模型,這種方法能幫助模型在處理多個上下文時仍保持高效率。

提升5.69倍,高效RAG上下文壓縮方法COCOM-AI.x社區(qū)

研究人員在Natural Questions、MS MARCO、HotpotQA測試平臺中評估了COCOM,并與現(xiàn)有AutoCompressor、xRAG、ICAE等壓縮方法進行比較,COCOM的效率能提升5.69倍,內存減少1.27倍。


本文轉自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/C2r3GYpcK-B8RZevC1ejEw??

收藏
回復
舉報
回復
相關推薦