自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="mmiqh"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮原創(chuàng)

數(shù)字化助推器

發(fā)布于 2025-4-14 08:36

瀏覽

0收藏

隨著人工智能技術的飛速發(fā)展，大語言模型（LLMs）已成為自然語言處理領域的核心力量，展現(xiàn)出強大的語言理解和生成能力。然而，LLMs的開發(fā)與部署面臨著巨大的數(shù)據(jù)管理挑戰(zhàn)，包括數(shù)據(jù)收集、治理、存儲和優(yōu)化等多個方面。

AI對存儲的需求幾乎涵蓋所有方面：高性價比的容量、高可用性、高可靠性、高IOPS、高吞吐量和安全性。更具挑戰(zhàn)的是，AI流水線的不同階段對存儲性能也提出各異且動態(tài)變化的要求。簡而言之，在滿足上述需求的同時，最大化GPU利用率和最小化數(shù)據(jù)移動帶來的延遲是存儲面臨的核心挑戰(zhàn)。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

數(shù)據(jù)重刪和數(shù)據(jù)壓縮是兩種常見的數(shù)據(jù)縮減技術，它們在存儲和數(shù)據(jù)管理中被廣泛應用，以優(yōu)化存儲空間和提高數(shù)據(jù)處理效率。

重刪和壓縮，這兩個技術是目前最有效節(jié)約存儲空間的技術，普遍應用在主存、閃存、備份軟件和數(shù)據(jù)傳輸軟件中。那么數(shù)據(jù)重刪和壓縮技術區(qū)別是什么，在主存儲和閃存中是如何實現(xiàn)的？

重刪和壓縮到底是什么？

我們先來看看什么是重刪，重刪全稱重復數(shù)據(jù)刪除（Deduplication）是一種數(shù)據(jù)縮減技術。

簡單來說，重刪就是說有很多分相同的數(shù)據(jù)，我只存儲其中一份，其他的重復數(shù)據(jù)塊我保留一個地址引用到這個唯一存儲的塊即可。

通過重刪技術可以有效提高存儲效率和利用率，數(shù)據(jù)可以縮減到原來的1/20～1/60。這種技術可以很大程度上減少對物理存儲空間的需求，減少傳輸過程中的網(wǎng)絡帶寬，有效節(jié)約設備采購與維護成本。同時它也是一種綠色存儲技術，能有效降低能耗。

壓縮（Compression）技術原理就是將一個大字符串中的子串用一個很簡短的數(shù)字來標記，然后檢索該字符串出現(xiàn)的位置，用個簡單的字符來替代。從而來減少數(shù)據(jù)表達所需要的空間，帶來空間節(jié)省。

打比方來說，用1代表“AB”，用2代表“BC”，然后用255 來代表“Inside”。1到255只需要8個bit，而“AB”“CD”或者“Inside”則需要很多的空間，這樣多次掃描替代之后，就可以快速的將數(shù)據(jù)縮減壓縮。

用通俗的話說：重刪就是講相同的東西只存儲一次，而壓縮則是改造數(shù)據(jù)排布用一種算法來統(tǒng)計數(shù)據(jù)的排布模式，從而達到減少數(shù)據(jù)存儲的模式。

重刪和壓縮通常會配合起來一起使用。如在備份場景中，為了提高數(shù)據(jù)的縮減效率，在數(shù)據(jù)經(jīng)過重刪之后會對唯一數(shù)據(jù)塊再執(zhí)行一次壓縮。這樣，數(shù)據(jù)的縮減效果就是重刪和壓縮效果的疊加。以下是它們的定義、原理、區(qū)別以及應用場景的詳細說明：

1.數(shù)據(jù)重刪(Deduplication)

定義：數(shù)據(jù)重刪是一種通過識別和刪除重復數(shù)據(jù)來減少存儲空間需求的技術。

? 指紋計算：通過對數(shù)據(jù)塊或文件進行哈希計算（如MD5或SHA-1），生成唯一的指紋。

? 數(shù)據(jù)比對：將新數(shù)據(jù)的指紋與已存儲數(shù)據(jù)的指紋進行比對，如果發(fā)現(xiàn)重復，則只保留一份數(shù)據(jù)，并通過指針引用。

? 實現(xiàn)方式：

? 文件級重刪：以整個文件為單位進行比對，適用于文件備份和歸檔，但無法識別文件內(nèi)部的部分重復。

? 塊級重刪：將文件分割成多個數(shù)據(jù)塊，對每個塊進行指紋計算和比對，能夠更細粒度地識別重復數(shù)據(jù)。

? 源端重刪：在數(shù)據(jù)寫入存儲系統(tǒng)之前進行，節(jié)省存儲空間，但可能影響寫入性能。

? 目標端重刪：數(shù)據(jù)寫入后進行，不影響寫入性能，但需要額外時間和存儲資源。

優(yōu)勢：

? 顯著減少存儲空間需求，降低存儲成本。

? 提高備份和恢復效率，減少數(shù)據(jù)傳輸量。

? 增強數(shù)據(jù)安全性，通過數(shù)據(jù)切分和隨機化處理，防止數(shù)據(jù)被輕易識別。

2.數(shù)據(jù)壓縮(Compression)

定義：數(shù)據(jù)壓縮是通過編碼技術減少數(shù)據(jù)占用存儲空間的方法。

原理：

? 無損壓縮：通過統(tǒng)計數(shù)據(jù)的模式，將重復或冗余信息用更短的編碼表示，解壓后數(shù)據(jù)與原始數(shù)據(jù)完全一致。常見的算法包括Huffman編碼和LZ77。

? 有損壓縮：允許一定程度的信息丟失以換取更高的壓縮率，常用于圖像、音頻和視頻文件。

優(yōu)勢：

? 減少數(shù)據(jù)存儲空間，節(jié)省存儲成本。

? 提高數(shù)據(jù)傳輸效率，減少傳輸時間。

3.數(shù)據(jù)重刪與數(shù)據(jù)壓縮的區(qū)別

? 作用對象：

? 數(shù)據(jù)重刪關注的是重復數(shù)據(jù)的刪除，只存儲唯一的數(shù)據(jù)副本。

? 數(shù)據(jù)壓縮則通過編碼技術對數(shù)據(jù)進行重新編碼，減少數(shù)據(jù)的物理存儲空間。

? 實現(xiàn)方式：

? 數(shù)據(jù)重刪基于哈希算法和指紋比對。

? 數(shù)據(jù)壓縮基于編碼算法，如Huffman編碼。

? 應用場景：

? 數(shù)據(jù)重刪廣泛應用于備份、存檔和虛擬化環(huán)境。

? 數(shù)據(jù)壓縮適用于需要高效存儲和傳輸?shù)膱鼍?，如網(wǎng)絡傳輸和存儲密集型應用。

重刪和壓縮是怎么實現(xiàn)的呢？

1.重刪技術的實現(xiàn)

重刪一般分為文件級重刪和塊級重刪，我們先看文件級重刪，文件級重刪理解起來比較簡單，就比如我們的郵件服務器，我轉發(fā)一份郵件給100個人，大家收到我的郵件后就會產(chǎn)生100個一樣的文件，假設大家的數(shù)據(jù)盤使用的共享存儲，存儲只需要在每個人存入文件的時候查詢一下這個文件本地有沒有，有我就不再存儲。這樣在存儲上就只存儲了一個文件。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

在計算機里面有個技術名字叫做”指紋”，非常的形象生動，就好像每個人的指紋肯定不一樣，那么我們是不是可以用一個很小的數(shù)據(jù)來標記一個文件的唯一信息。這里有很多的算法可以快速的得到一個唯一值，比如說MD5算法、Sha算法。

塊級重刪的基本原理就是對寫入的數(shù)據(jù)按照固定長度進行切片，切片后進行hash計算，然后進行寫入處理，非重復數(shù)據(jù)就單獨寫入，重復數(shù)據(jù)就寫入引用即可。塊級重刪有兩種方式，定長重刪和變長重刪。定長重刪將數(shù)據(jù)按照固定長度進行分塊，之后進行重刪。例入一個文件大小為128M，按照128K來切，切完就是一千份的子文件，然后對這一千份進行對比，把重復數(shù)據(jù)去掉就是定長重刪。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

變長重刪對性能和算法要求都比較高，同時對于CPU內(nèi)存消耗也大，影響了數(shù)據(jù)的實時處理效率。以下面這個圖片為例，變長重刪效率可能達到10：1，而定長重刪只有3：1。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

因此，對于全閃存存儲這種響應要求高的，建議定長重刪，速度快。對于歸檔、備份這種冷存儲建議變長重刪，重刪率高節(jié)省成本。

2.壓縮技術的實現(xiàn)

壓縮技術由來已久，分為無損壓縮和有損壓縮。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

有損壓縮主要用于圖像處理領域，比如說我微信發(fā)一個照片，明明本地10M的高清圖片傳輸?shù)脚笥咽謾C里面就有300K的圖片。這主要為了節(jié)省網(wǎng)絡傳輸?shù)牧髁恳约拔⑿糯鎯臻g節(jié)省。

存儲系統(tǒng)領域用的壓縮都是無損壓縮。借助于算法的普及，業(yè)界主流存儲廠商的壓縮實現(xiàn)幾乎都沒有算法上的區(qū)別，只是在于壓縮的實現(xiàn)選擇上，主要考慮兼顧性能和數(shù)據(jù)縮減率。

傳統(tǒng)的存儲，不需要壓縮的時候，我們每個數(shù)據(jù)都是由自己在硬盤上的固定地址的。只需要記錄一共由幾塊盤，一共組成了幾個RAID組，每個RAID條帶深度是多少，起始地址是多少，就能在內(nèi)存中快速的用這些基本數(shù)據(jù)算出數(shù)據(jù)對應的物理地址是多少。這種基本的寫入模式叫做COW（copy on write），就是說寫前拷貝。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

由于ROW架構每個塊都需要單獨存儲一次地址的映射關系，所以容量越大，產(chǎn)生的元數(shù)據(jù)量也越大，所以ROW架構一般容量越大，性能越差。由于ROW架構的數(shù)據(jù)寫入采用了新找地址寫入，這樣原來邏輯上連續(xù)的數(shù)據(jù)會被不斷的離散化，最終連續(xù)IO也會變成隨機IO，對性能影響較大。而SSD盤內(nèi)部的數(shù)據(jù)處理也是類似，SSD中開啟垃圾回收導致的性能下降被稱之為“寫懸崖”。

AI大模型如何存儲海量數(shù)據(jù)？一文讀懂數(shù)據(jù)重刪和數(shù)據(jù)壓縮-AI.x社區(qū)

壓縮對于存儲性能帶來的沖擊，根本不是來自與壓縮本身，而是由于實現(xiàn)壓縮的架構而帶來的影響。按照當前業(yè)界主流存儲廠商的軟件架構和效率來評估，一般ROW架構的存儲相對于COW架構在性能上大概要下降35%左右，而壓縮本身帶來的性能損失一般在5%以內(nèi)，所以對于整個存儲系統(tǒng)來說，開啟壓縮性能下降幅度大概在40%左右。

重刪和壓縮的珠聯(lián)璧合

數(shù)據(jù)壓縮與重復數(shù)據(jù)刪除兩種技術具有不同層面的針對性，通常需要先應用數(shù)據(jù)刪除技術，然后再使用數(shù)據(jù)壓縮技術進一步降低"結構圖"和基本數(shù)據(jù)塊的體積。

壓縮會對數(shù)據(jù)進行重新編碼，從而破壞了數(shù)據(jù)原生的冗余結構，因此再應用重復數(shù)據(jù)刪除效果則會大打折扣，而且消耗時間也更多。而先執(zhí)行重復數(shù)據(jù)刪除則不同，它首先消除了冗余數(shù)據(jù)塊，然后應用數(shù)據(jù)壓縮對唯一副本數(shù)據(jù)塊進行再次壓縮。這樣，兩種技術的數(shù)據(jù)縮減作用得到疊加，而且數(shù)據(jù)壓縮的消耗時間大大降低。因此，先去重后壓縮，可以獲得更高的數(shù)據(jù)壓縮率和性能。

數(shù)據(jù)重刪和壓縮都是優(yōu)化存儲和數(shù)據(jù)管理的重要技術。數(shù)據(jù)重刪通過刪除重復數(shù)據(jù)減少存儲需求，而數(shù)據(jù)壓縮通過編碼技術減少數(shù)據(jù)的物理存儲空間。兩者結合使用可以顯著提高存儲效率和數(shù)據(jù)處理性能。

數(shù)據(jù)重刪與壓縮在AI大模型的全生命周期中發(fā)揮關鍵作用，從數(shù)據(jù)準備到模型部署均需精細化設計。未來趨勢包括：

**智能化算法**：結合AI優(yōu)化壓縮與重刪，實現(xiàn)自適應策略。

**硬件協(xié)同**：專有芯片（如TPU）支持高效壓縮計算。

**標準化工具**：開源框架（如PyTorch、TensorFlow）集成一站式壓縮/重刪工具鏈。

通過合理應用這些技術，可顯著降低AI大模型的資源門檻，推動其在更多場景落地。

本文轉載自公眾號數(shù)字化助推器作者：天涯咫尺TGH

原文鏈接：??https://mp.weixin.qq.com/s/5ObV6dSzoIWoI0OKJcOuPA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

數(shù)據(jù)壓縮

已于2025-4-14 08:36:56修改

贊

收藏

回復

舉報

回復

相關推薦

一文讀懂大模型協(xié)作策略：Merge、Ensemble、Cooperate！

PaperAgent ? 4308瀏覽 ? 0回復
中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓練損失關系

輕薄滴假象 ? 2442瀏覽 ? 0回復
一文讀懂GraphRAG大模型知識圖譜

數(shù)字化助推器 ? 3590瀏覽 ? 0回復
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3256瀏覽 ? 0回復
一文讀懂LLMs的幻覺問題和對策

數(shù)字化助推器 ? 2298瀏覽 ? 0回復
英偉達NVLM多模態(tài)大模型細節(jié)和數(shù)據(jù)集

大模型自然語言處理 ? 2237瀏覽 ? 0回復
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓練數(shù)據(jù)的來源、版權與地域差異

sbf_2000 ? 2010瀏覽 ? 0回復
AI驅動數(shù)據(jù)存儲變革：2025年五大趨勢展望

chengganfei ? 2410瀏覽 ? 0回復
一文讀懂 DeepSeek-V3 技術報告

xuxiangda ? 4328瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術，為何震動了全球 AI 圈

玄姐聊AGI ? 6533瀏覽 ? 1回復
一文讀懂AI智能體的原理類型、功能優(yōu)勢和最常見使用場景

數(shù)字化助推器 ? 4528瀏覽 ? 0回復
數(shù)據(jù)多副本保留：AI時代企業(yè)存儲的戰(zhàn)略重點

chengganfei ? 1515瀏覽 ? 0回復
別慌一文讀懂AI智能體常見的九種設計模式

數(shù)字化助推器 ? 2150瀏覽 ? 0回復
一文讀懂 RAG 中的 embedding model

鴻煊的學習筆記 ? 2397瀏覽 ? 0回復
神經(jīng)網(wǎng)絡的兩個重難點之一，數(shù)據(jù)處理和模型設計

AI探索時代 ? 1226瀏覽 ? 0回復
一文讀懂AI智能體：概念、特性、類型與應用全解析

Halo咯咯 ? 2865瀏覽 ? 0回復
一文讀懂AI智能體融合與數(shù)據(jù)隱私安全問題

數(shù)字化助推器 ? 1089瀏覽 ? 0回復
AI在數(shù)據(jù)存儲與管理中的應用：3個案例

chengganfei ? 1057瀏覽 ? 0回復
探索數(shù)據(jù)礦藏：AI大模型與數(shù)據(jù)挖掘實戰(zhàn)經(jīng)驗分享

風云2002_1 ? 757瀏覽 ? 0回復

數(shù)字化助推器

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

基礎智能體的進展與挑戰(zhàn)：自進化機制和構建群體MAS系統(tǒng) 1天前發(fā)布
基礎智能體的進展與挑戰(zhàn)：智能體的七個核心組件構建認知基石 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： AI智能體融合時代數(shù)據(jù)隱私安全的“守護之道”

下一篇：忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來

社區(qū)精華內(nèi)容

目錄

<p id="00oz8"></p>