自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ywdxz"></sub>

<legend id="ywdxz"><track id="ywdxz"></track></legend>

<sub id="ywdxz"><p id="ywdxz"></p></sub>

<style id="ywdxz"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大數(shù)據(jù)存儲模型訓(xùn)練數(shù)據(jù)從哪來

作者：天涯咫尺TGH 2024-08-07 15:27:50

大數(shù)據(jù)

面對大數(shù)據(jù)的爆炸式增長，且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時，數(shù)據(jù)的存儲不僅僅有存儲容量的壓力，還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。

面對大數(shù)據(jù)的爆炸式增長，且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時，數(shù)據(jù)的存儲不僅僅有存儲容量的壓力，還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。這些大量的數(shù)據(jù)結(jié)構(gòu)復(fù)雜，種類繁多，如何對分布、多態(tài)、異構(gòu)的大數(shù)據(jù)進(jìn)行管理的問題已經(jīng)不期而至，傳統(tǒng)的數(shù)據(jù)存儲方式面對大數(shù)據(jù)的猛烈增長已不能滿足需求，需要開展分布式存儲的研究。

大數(shù)據(jù)的存儲方式

分布式系統(tǒng)：分布式系統(tǒng)可以解決大數(shù)據(jù)存儲的問題，為大數(shù)據(jù)的存儲提供了方式。分布式系統(tǒng)的定義包括兩個方面：第一是關(guān)于硬件的：機(jī)器本身是獨(dú)立的。第二個方面是關(guān)于軟件的：對于用戶來說，他們就像跟單個系統(tǒng)打交道。這兩個方面一起闡明了分布式系統(tǒng)的本質(zhì)，缺一不可。

NoSQL數(shù)據(jù)庫：它是“Not Only SQL”的縮寫，意義是：適用關(guān)系型數(shù)據(jù)庫的時候就使用關(guān)系型數(shù)據(jù)庫，不適用的時候也沒必要非使用關(guān)系型數(shù)據(jù)庫不可，可以考慮使用更加合適的數(shù)據(jù)存儲方式。

云存儲：云存儲是伴隨著云計算技術(shù)的發(fā)展而衍生出來的一種新興的網(wǎng)絡(luò)存儲技術(shù)，它是云計算的重要組成部分，也是云計算的重要應(yīng)用之一；它不僅是數(shù)據(jù)信息存儲的新技術(shù)、新設(shè)備模型，也是一種服務(wù)的創(chuàng)新模型。

面臨的挑戰(zhàn)

1 系統(tǒng)問題

面對大數(shù)據(jù)的爆炸式增長，且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時，數(shù)據(jù)的存儲不僅僅有存儲容量的壓力，還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。

2 管理問題

這些大量的數(shù)據(jù)結(jié)構(gòu)復(fù)雜，種類繁多，如何對分布、多態(tài)、異構(gòu)的大數(shù)據(jù)進(jìn)行管理的問題已經(jīng)不期而至，傳統(tǒng)的數(shù)據(jù)存儲方式面對大數(shù)據(jù)的猛烈增長已不能滿足需求，需要開展分布式存儲的研究。

3 應(yīng)用問題

隨著數(shù)據(jù)量的爆炸式增長，不斷刺激著計算機(jī)技術(shù)的發(fā)展，如何利用大數(shù)據(jù)為人們生活所用，即是大數(shù)據(jù)的應(yīng)用問題。大數(shù)據(jù)的應(yīng)用在人類活動中所涉及的范圍越來越大，與我們已經(jīng)密不可分。

4 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換是按照預(yù)先設(shè)計好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換，在轉(zhuǎn)化過程中，我們需要對數(shù)據(jù)進(jìn)行清洗、整理和集成，即發(fā)現(xiàn)數(shù)據(jù)中的錯誤數(shù)據(jù)并進(jìn)行相應(yīng)的改正，將原來不同規(guī)則的數(shù)據(jù)整理集成為統(tǒng)一的規(guī)則。

全量抽取發(fā)現(xiàn)空值并處理：發(fā)現(xiàn)源數(shù)據(jù)中字段空值，按照一定的規(guī)則進(jìn)行加載或者替換，比如可以用“0”或者按照該字段的平均取值來替換。

規(guī)范數(shù)據(jù)格式：將不同源系統(tǒng)的不同數(shù)據(jù)格式統(tǒng)一規(guī)范。轉(zhuǎn)化過程需要將這些不同的表示格式統(tǒng)一成為唯一的規(guī)范格式。

拆分?jǐn)?shù)據(jù)：有時候需要一句業(yè)務(wù)需求對字段進(jìn)行分解。比如通話主叫號碼02381322854，可進(jìn)行區(qū)域碼和電話號碼分解為主叫地區(qū)023和主叫號碼81322854。

數(shù)據(jù)存儲系統(tǒng)能力的提升主要有三個方面，一是提升系統(tǒng)的存儲容量，二是提升系統(tǒng)的吞吐量，三是系統(tǒng)的容錯性

存儲容量：提升系統(tǒng)容量有兩種方式：一種是提升單硬盤的容量，通過不斷采用新的材質(zhì)和新的讀寫技術(shù)，目前單個硬盤的容量已經(jīng)進(jìn)入TB時代。一種是在多硬盤的情況的下如何提升整體的存儲容量。

吞吐量：對于單個硬盤，提升吞吐量的主要方法是提高硬盤轉(zhuǎn)速、改進(jìn)磁盤接口形式或增加讀寫緩存等。而要提升數(shù)據(jù)存儲系統(tǒng)的整體吞吐量，比較典型的技術(shù)是早期的專用數(shù)據(jù)庫機(jī)體系。

容錯性：數(shù)據(jù)存儲容錯是指當(dāng)系統(tǒng)中的部件或節(jié)點(diǎn)由于硬件或軟件故障，導(dǎo)致數(shù)據(jù)、文件損壞或丟失時，系統(tǒng)能夠自動將這些損壞或丟失的文件和數(shù)據(jù)恢復(fù)到故障發(fā)生前的狀態(tài)，使系統(tǒng)能夠維持正常運(yùn)行的技術(shù)。

大數(shù)據(jù)從獲取到分析的各個階段都可能會涉及到數(shù)據(jù)集的存儲，考慮到大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)集，因此大數(shù)據(jù)存儲技術(shù)有別于傳統(tǒng)存儲技術(shù)。大數(shù)據(jù)一般通過分布式系統(tǒng)、NoSQL數(shù)據(jù)庫等方式（還有云數(shù)據(jù)庫）進(jìn)行存儲。同時涉及到以下幾個新理念。

集群：將多臺服務(wù)器集中在一起，每臺服務(wù)器（節(jié)點(diǎn)）實(shí)現(xiàn)相同的業(yè)務(wù)。

因此每臺服務(wù)器并不是缺一不可，集群的目的是緩解并發(fā)壓力和單點(diǎn)故障轉(zhuǎn)移問題。

例如：新浪網(wǎng)微博的訪問量巨大，因此可以通過群集技術(shù)，幾臺服務(wù)器完成同一業(yè)務(wù)。當(dāng)有業(yè)務(wù)訪問時，選擇負(fù)載較輕的服務(wù)器完成任務(wù)。

分布式

傳統(tǒng)的項(xiàng)目中，各個業(yè)務(wù)模塊存在于同一系統(tǒng)中，導(dǎo)致系統(tǒng)過于龐大，開發(fā)維護(hù)困難，無法針對單個模塊進(jìn)行優(yōu)化以及水平擴(kuò)展。因此考慮分布式系統(tǒng)：

將多臺服務(wù)器集中在一起，分別實(shí)現(xiàn)總體中的不同業(yè)務(wù)。每臺服務(wù)器都缺一不可，如果某臺服務(wù)器故障，則網(wǎng)站部分功能缺失，或?qū)е抡w無法運(yùn)行。因此可大幅度的提高效率、緩解服務(wù)器的訪問存儲壓力。

分布式與集群的關(guān)系、區(qū)別

關(guān)系：分布式方便我們系統(tǒng)的維護(hù)和開發(fā)，但是不能解決并發(fā)問題，也無法保證我們的系統(tǒng)崩潰后的正常運(yùn)轉(zhuǎn)。集群則恰好彌補(bǔ)了分布式的缺陷，多個服務(wù)器處理相同的業(yè)務(wù)，這可以改善系統(tǒng)的并發(fā)問題，同時保證系統(tǒng)崩潰后的正常運(yùn)轉(zhuǎn)。

因此，分布式和集群技術(shù)一般同時出現(xiàn)，密不可分。（分布式中的每一個節(jié)點(diǎn)，都可以做集群）

區(qū)別：分布式是以縮短單個任務(wù)的執(zhí)行時間來提升效率的，而集群則是通過提高單位時間內(nèi)執(zhí)行的任務(wù)數(shù)來提升效率。

【補(bǔ)充】例如：

如果一個任務(wù)由10個子任務(wù)組成，每個子任務(wù)單獨(dú)執(zhí)行需1小時，則在一臺服務(wù)器上執(zhí)行改任務(wù)需10小時。

采用分布式方案：提供10臺服務(wù)器，每臺服務(wù)器只負(fù)責(zé)處理一個子任務(wù)，不考慮子任務(wù)間的依賴關(guān)系，執(zhí)行完這個任務(wù)只需一個小時。(這種工作模式的一個典型代表就是Hadoop的Map/Reduce分布式計算模型）
而采用集群方案：同樣提供10臺服務(wù)器，每臺服務(wù)器都能獨(dú)立處理這個任務(wù)。假設(shè)有10個任務(wù)同時到達(dá)，10個服務(wù)器將同時工作，10小時后，10個任務(wù)同時完成。整身來看，還是1小時內(nèi)完成一個任務(wù)。

文件系統(tǒng) & 分布式文件系統(tǒng)

文件系統(tǒng)——是一種存儲和組織計算機(jī)數(shù)據(jù)的方法。

數(shù)據(jù)是以文件的形式存在，提供 Open、Read、Write、Seek、Close 等API 進(jìn)行訪問；

文件以樹形目錄進(jìn)行組織，提供重命名（Rename）操作改變文件或者目錄的位置。

分布式文件系統(tǒng)——允許文件通過網(wǎng)絡(luò)在多臺主機(jī)上分享的文件系統(tǒng)，可讓多機(jī)器上的多用戶分享文件和存儲空間。

幾種常見的分布式文件存儲系統(tǒng)有GFS（Google分布式文件系統(tǒng)）、HDFS（Hadoop分布式文件系統(tǒng)）、TFS、Swift、Ceph等。

HDFS系統(tǒng)示意圖

NoSQL（非關(guān)系型數(shù)據(jù)庫）

NoSQL(Not Only SQL)，意即"不僅僅是SQL"。NoSQL數(shù)據(jù)庫可同時存儲結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。

相比于關(guān)系型數(shù)據(jù)庫，非關(guān)系型數(shù)據(jù)庫提出另一種理念：每一個樣本（元組）根據(jù)需要可以有不同的字段，這樣就不局限于固定的結(jié)構(gòu)，調(diào)取數(shù)據(jù)時也更方便?？梢詼p少一些時間和空間的開銷。因此為了獲取用戶的不同信息，不需要像關(guān)系型數(shù)據(jù)庫中，對多表進(jìn)行關(guān)聯(lián)查詢。僅需要根據(jù)id取出相應(yīng)的value就可以完成查詢，通過XQuery、SPARQL等查詢語言完成查詢過程。

非關(guān)系型數(shù)據(jù)庫有以下幾種類型：

大數(shù)據(jù)集的數(shù)據(jù)量巨大，單機(jī)無法存儲與處理如此規(guī)模的數(shù)據(jù)量，只能依靠大規(guī)模集群以進(jìn)行存儲和處理，因此系統(tǒng)需要具備可擴(kuò)展性。

目前主流的大數(shù)據(jù)存儲與計算系統(tǒng)往往采用橫向擴(kuò)展（Scale Out）的方式。因此，對于待存儲處理的海量數(shù)據(jù)，需要用過數(shù)據(jù)分片將數(shù)據(jù)進(jìn)行切分，并分配到各服務(wù)器中。

數(shù)據(jù)分布的兩條途徑：復(fù)制 & 分片

分布式NoSQL的兩大特性：復(fù)制和分片。

數(shù)據(jù)分片與數(shù)據(jù)復(fù)制是緊密聯(lián)系的兩個概念。對于海量數(shù)據(jù)，可通過數(shù)據(jù)分片實(shí)現(xiàn)系統(tǒng)的水平擴(kuò)展，通過數(shù)據(jù)復(fù)制保證數(shù)據(jù)的高可用性。

數(shù)據(jù)分片與數(shù)據(jù)復(fù)制的關(guān)系

分片（sharding/partition）——將數(shù)據(jù)的各個部分存放在不同的服務(wù)器/節(jié)點(diǎn)中，每個服務(wù)器/節(jié)點(diǎn)負(fù)責(zé)自身數(shù)據(jù)的讀取與寫入操作，以此實(shí)現(xiàn)橫向擴(kuò)展。

復(fù)制（replication）——將同一份數(shù)據(jù)拷貝到多個節(jié)點(diǎn)。分為主從復(fù)制master-slave方式、對等式復(fù)制peer-to-peer。

主從式復(fù)制：master節(jié)點(diǎn)用于存放權(quán)威數(shù)據(jù)，通常負(fù)責(zé)數(shù)據(jù)的更新，其余節(jié)點(diǎn)都叫做slave節(jié)點(diǎn)，復(fù)制操作就是讓slave節(jié)點(diǎn)的數(shù)據(jù)與master節(jié)點(diǎn)的數(shù)據(jù)同步。適用于讀請求密集的負(fù)載。
對等式復(fù)制：兩個節(jié)點(diǎn)相互為各自的副本，也同時可以接受寫入請求，丟失其中一個不影響整個數(shù)據(jù)庫的訪問。但同時接受寫入請求，容易出現(xiàn)數(shù)據(jù)（寫入）不一致問題，實(shí)際使用上，通常是只有一個節(jié)點(diǎn)接受寫入請求，另一個master作為stand-by，在對方出現(xiàn)故障的時候自動承接寫操作請求。

分片與復(fù)制可以組合，即同時采用主從復(fù)制與分片、對等復(fù)制與分片。

優(yōu)缺點(diǎn)對比：

分片可以極大地提高讀取性能，但對于要頻繁寫的應(yīng)用，幫助不大。另外，分片對改善故障恢復(fù)能力并沒有幫助，但是它減少了故障范圍，只有訪問這個節(jié)點(diǎn)的那些用戶才會受影響，其余用戶可以正常訪問。雖然數(shù)據(jù)庫缺失了一部分，但是還是其余部分還是可以正常運(yùn)轉(zhuǎn)。

復(fù)制除保證可用性之外，還可增加讀操作的效率。即客戶端可以從多個備份數(shù)據(jù)中選擇物理距離較近的進(jìn)行讀取，這既增加了讀操作的并發(fā)性又可以提高單次讀的讀取效率。

對于分布式數(shù)據(jù)庫系統(tǒng)的設(shè)計過程，需遵循CAP定理：

CAP定理（布魯爾定理）

布式數(shù)據(jù)庫系統(tǒng)不可能同時滿足以下三點(diǎn)，最多只能同時滿足兩個:

一致性(Consistency)——所有節(jié)點(diǎn)在同一時間具有相同的數(shù)據(jù)；
可用性(Availability)——保證每個請求不管成功或者失敗都有響應(yīng)；
分區(qū)容忍(Partition tolerance)——系統(tǒng)中任意信息的丟失或失敗不會影響系統(tǒng)的繼續(xù)運(yùn)作。

因此，當(dāng)代的分布式數(shù)據(jù)存儲服務(wù)，均是針對各自服務(wù)的內(nèi)容、性質(zhì)取舍。

而NoSQL數(shù)據(jù)庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三大類。

關(guān)系型數(shù)據(jù)庫的設(shè)計原則與事務(wù)管理遵循ACID規(guī)則：

ACID

事務(wù)（transaction），具有如下四個特性：

A (Atomicity) 原子性——事務(wù)里的所有操作要么全部做完，要么都不做，事務(wù)成功的條件是事務(wù)里的所有操作都成功，只要有一個操作失敗，整個事務(wù)失敗，需要回滾。
C (Consistency)一致性——數(shù)據(jù)庫要一直處于一致的狀態(tài)，事務(wù)的運(yùn)行不會改變數(shù)據(jù)庫原本的約束。
I (Isolation) 獨(dú)立性——并發(fā)的事務(wù)是相互隔離的，一個事務(wù)的執(zhí)行不能被其他事務(wù)干擾。
D (Durability) 持久性——是指一旦事務(wù)提交后，它所做的修改將會永久的保存在數(shù)據(jù)庫上，即使系統(tǒng)崩潰也不會丟失。

基于CAP定理演化而來BASE數(shù)據(jù)庫設(shè)計原則：

BASE

包括：Basically Available（基本可用）、Soft state（軟狀態(tài)）、Eventually consistent（最終一致性）。

針對數(shù)據(jù)庫系統(tǒng)要求的可用性、一致性，BASE放寬要求，形成基本可用和軟狀態(tài)/柔性事務(wù)。而一致性是最終目的。

大模型訓(xùn)練的數(shù)據(jù)來源

大模型的基礎(chǔ)是大量的數(shù)據(jù)以及算力，下面是一些典型大模型的訓(xùn)練數(shù)據(jù)集大?。ㄒ?GB 為單位）。

大模型的訓(xùn)練數(shù)據(jù)源主要包含：

維基百科維基百科是一個免費(fèi)的多語言協(xié)作在線百科全書，由超過 300,000 名志愿者組成的社區(qū)編寫和維護(hù)。截至 2022 年 4 月，英文版維基百科中有超過 640 萬篇文章，包含超 40 億個詞[5]。一般來說，重點(diǎn)研究實(shí)驗(yàn)室會首先選取它的純英文過濾版作為數(shù)據(jù)集。
書籍故事型書籍由小說和非小說兩大類組成，主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力，數(shù)據(jù)集包括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus) 等。
雜志期刊預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅實(shí)而嚴(yán)謹(jǐn)?shù)幕A(chǔ)，因?yàn)閷W(xué)術(shù)寫作通常來說更有條理、理性和細(xì)致。這類數(shù)據(jù)集包括 ArXiv 和美國國家衛(wèi)生研究院等。
Reddit 鏈接 WebText 是一個大型數(shù)據(jù)集，它的數(shù)據(jù)是從社交媒體平臺 Reddit 所有出站鏈接網(wǎng)絡(luò)中爬取的，每個鏈接至少有三個贊，代表了流行內(nèi)容的風(fēng)向標(biāo)，對輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。
Common Crawl
Common Crawl 是 2008 年至今的一個網(wǎng)站抓取的大型數(shù)據(jù)集，數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取，它的文本來自不同語言、不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會首先選取它的純英文過濾版（C4）作為數(shù)據(jù)集。
其他數(shù)據(jù)集不同于上述類別，這類數(shù)據(jù)集由 GitHub 等代碼數(shù)據(jù)集、StackExchange 等對話論壇和視頻字幕數(shù)據(jù)集組成。
很多人認(rèn)為，這個數(shù)據(jù)量也不大啊，也就是幾百GB到TB，根本無法稱之為大量數(shù)據(jù)。其實(shí)，以CC數(shù)據(jù)集為例，合計1.4PB，而GPT3用于訓(xùn)練的CC數(shù)據(jù)僅使用了其中的570GB。這中間是因?yàn)閱未斡?xùn)練進(jìn)行了數(shù)據(jù)的預(yù)處理，只提取了自己關(guān)心的部分。

數(shù)據(jù)爬取和保存通常使用WARC、WAT和WET格式的數(shù)據(jù)存儲。LLaMA的模型使用的是WET格式的數(shù)據(jù)。以Common Crawl為例，每個CC快照的文本大小約300T，而一個WET格式的快照大小約30T。
數(shù)據(jù)去重
用CCNet將這些快照進(jìn)行分片（sharding），將原來的數(shù)據(jù)分成5G一個分片。然后對每個數(shù)據(jù)做預(yù)處理：如小寫化所有數(shù)據(jù)、數(shù)字變成占位符等，然后計算每個段落的hash，再去重。并行處理數(shù)據(jù)，提高處理速度，降低數(shù)據(jù)量。
文本語言識別與過濾
識別語言，然后對不同語言的數(shù)據(jù)計算分?jǐn)?shù)，最后根據(jù)分?jǐn)?shù)確定是否保留某些語言。在pipeline中執(zhí)行此操作的順序可能會影響語言識別的質(zhì)量。CCNet使用使用n-gram特征的fastText分類器。
質(zhì)量過濾
CCNet中，他們建議使用維基百科在目標(biāo)語言上訓(xùn)練一個簡單的語言模型，然后計算每段的困惑度（perplexity），并使用困惑度分布的來對它們進(jìn)行分段。
進(jìn)一步過濾
為了確定頁面的質(zhì)量。如果這個頁面無法被認(rèn)為是可以作為維基百科引用的，說明頁面本身質(zhì)量可能比較差，所以可以進(jìn)一步丟棄，提高數(shù)據(jù)的質(zhì)量，降低訓(xùn)練成本。經(jīng)過這么一輪操作猛如虎，剩下數(shù)據(jù)就很少了。未來數(shù)據(jù)從單一的文本自然語言走向多模態(tài)，相關(guān)的訓(xùn)練數(shù)據(jù)集就會更多了。

責(zé)任編輯：龐桂玉來源：數(shù)字化助推器

大數(shù)據(jù)大數(shù)據(jù)存儲

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營