自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)存儲 模型訓(xùn)練數(shù)據(jù)從哪來

大數(shù)據(jù)
面對大數(shù)據(jù)的爆炸式增長,且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時,數(shù)據(jù)的存儲不僅僅有存儲容量的壓力,還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。

面對大數(shù)據(jù)的爆炸式增長,且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時,數(shù)據(jù)的存儲不僅僅有存儲容量的壓力,還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。這些大量的數(shù)據(jù)結(jié)構(gòu)復(fù)雜,種類繁多,如何對分布、多態(tài)、異構(gòu)的大數(shù)據(jù)進(jìn)行管理的問題已經(jīng)不期而至,傳統(tǒng)的數(shù)據(jù)存儲方式面對大數(shù)據(jù)的猛烈增長已不能滿足需求,需要開展分布式存儲的研究。

大數(shù)據(jù)的存儲方式

分布式系統(tǒng):分布式系統(tǒng)可以解決大數(shù)據(jù)存儲的問題,為大數(shù)據(jù)的存儲提供了方式。分布式系統(tǒng)的定義包括兩個方面:第一是關(guān)于硬件的:機(jī)器本身是獨(dú)立的。第二個方面是關(guān)于軟件的:對于用戶來說,他們就像跟單個系統(tǒng)打交道。這兩個方面一起闡明了分布式系統(tǒng)的本質(zhì),缺一不可。

NoSQL數(shù)據(jù)庫:它是“Not Only SQL”的縮寫,意義是:適用關(guān)系型數(shù)據(jù)庫的時候就使用關(guān)系型數(shù)據(jù)庫,不適用的時候也沒必要非使用關(guān)系型數(shù)據(jù)庫不可,可以考慮使用更加合適的數(shù)據(jù)存儲方式。

云存儲:云存儲是伴隨著云計算技術(shù)的發(fā)展而衍生出來的一種新興的網(wǎng)絡(luò)存儲技術(shù),它是云計算的重要組成部分,也是云計算的重要應(yīng)用之一;它不僅是數(shù)據(jù)信息存儲的新技術(shù)、新設(shè)備模型,也是一種服務(wù)的創(chuàng)新模型。

面臨的挑戰(zhàn)

1 系統(tǒng)問題

面對大數(shù)據(jù)的爆炸式增長,且具有大數(shù)據(jù)量、異構(gòu)型、高時效性的需求時,數(shù)據(jù)的存儲不僅僅有存儲容量的壓力,還給系統(tǒng)的存儲性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。

2 管理問題

這些大量的數(shù)據(jù)結(jié)構(gòu)復(fù)雜,種類繁多,如何對分布、多態(tài)、異構(gòu)的大數(shù)據(jù)進(jìn)行管理的問題已經(jīng)不期而至,傳統(tǒng)的數(shù)據(jù)存儲方式面對大數(shù)據(jù)的猛烈增長已不能滿足需求,需要開展分布式存儲的研究。

3 應(yīng)用問題

隨著數(shù)據(jù)量的爆炸式增長,不斷刺激著計算機(jī)技術(shù)的發(fā)展,如何利用大數(shù)據(jù)為人們生活所用,即是大數(shù)據(jù)的應(yīng)用問題。大數(shù)據(jù)的應(yīng)用在人類活動中所涉及的范圍越來越大,與我們已經(jīng)密不可分。

4 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換是按照預(yù)先設(shè)計好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,在轉(zhuǎn)化過程中,我們需要對數(shù)據(jù)進(jìn)行清洗、整理和集成,即發(fā)現(xiàn)數(shù)據(jù)中的錯誤數(shù)據(jù)并進(jìn)行相應(yīng)的改正,將原來不同規(guī)則的數(shù)據(jù)整理集成為統(tǒng)一的規(guī)則。

全量抽取發(fā)現(xiàn)空值并處理:發(fā)現(xiàn)源數(shù)據(jù)中字段空值,按照一定的規(guī)則進(jìn)行加載或者替換,比如可以用“0”或者按照該字段的平均取值來替換。

規(guī)范數(shù)據(jù)格式:將不同源系統(tǒng)的不同數(shù)據(jù)格式統(tǒng)一規(guī)范。轉(zhuǎn)化過程需要將這些不同的表示格式統(tǒng)一成為唯一的規(guī)范格式。

拆分?jǐn)?shù)據(jù):有時候需要一句業(yè)務(wù)需求對字段進(jìn)行分解。比如通話主叫號碼02381322854,可進(jìn)行區(qū)域碼和電話號碼分解為主叫地區(qū)023和主叫號碼81322854。

數(shù)據(jù)存儲系統(tǒng)能力的提升主要有三個方面,一是提升系統(tǒng)的存儲容量,二是提升系統(tǒng)的吞吐量,三是系統(tǒng)的容錯性

存儲容量:提升系統(tǒng)容量有兩種方式:一種是提升單硬盤的容量,通過不斷采用新的材質(zhì)和新的讀寫技術(shù),目前單個硬盤的容量已經(jīng)進(jìn)入TB時代。一種是在多硬盤的情況的下如何提升整體的存儲容量。

吞吐量:對于單個硬盤,提升吞吐量的主要方法是提高硬盤轉(zhuǎn)速、改進(jìn)磁盤接口形式或增加讀寫緩存等。而要提升數(shù)據(jù)存儲系統(tǒng)的整體吞吐量,比較典型的技術(shù)是早期的專用數(shù)據(jù)庫機(jī)體系。

容錯性:數(shù)據(jù)存儲容錯是指當(dāng)系統(tǒng)中的部件或節(jié)點(diǎn)由于硬件或軟件故障,導(dǎo)致數(shù)據(jù)、文件損壞或丟失時,系統(tǒng)能夠自動將這些損壞或丟失的文件和數(shù)據(jù)恢復(fù)到故障發(fā)生前的狀態(tài),使系統(tǒng)能夠維持正常運(yùn)行的技術(shù)。

大數(shù)據(jù)從獲取到分析的各個階段都可能會涉及到數(shù)據(jù)集的存儲,考慮到大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)集,因此大數(shù)據(jù)存儲技術(shù)有別于傳統(tǒng)存儲技術(shù)。大數(shù)據(jù)一般通過分布式系統(tǒng)、NoSQL數(shù)據(jù)庫等方式(還有云數(shù)據(jù)庫)進(jìn)行存儲。同時涉及到以下幾個新理念。

集群:將多臺服務(wù)器集中在一起,每臺服務(wù)器(節(jié)點(diǎn))實(shí)現(xiàn)相同的業(yè)務(wù)。

因此每臺服務(wù)器并不是缺一不可,集群的目的是緩解并發(fā)壓力和單點(diǎn)故障轉(zhuǎn)移問題。

例如:新浪網(wǎng)微博的訪問量巨大,因此可以通過群集技術(shù),幾臺服務(wù)器完成同一業(yè)務(wù)。當(dāng)有業(yè)務(wù)訪問時,選擇負(fù)載較輕的服務(wù)器完成任務(wù)。

分布式

傳統(tǒng)的項(xiàng)目中,各個業(yè)務(wù)模塊存在于同一系統(tǒng)中,導(dǎo)致系統(tǒng)過于龐大,開發(fā)維護(hù)困難,無法針對單個模塊進(jìn)行優(yōu)化以及水平擴(kuò)展。因此考慮分布式系統(tǒng):

將多臺服務(wù)器集中在一起,分別實(shí)現(xiàn)總體中的不同業(yè)務(wù)。每臺服務(wù)器都缺一不可,如果某臺服務(wù)器故障,則網(wǎng)站部分功能缺失,或?qū)е抡w無法運(yùn)行。因此可大幅度的提高效率、緩解服務(wù)器的訪問存儲壓力。

分布式與集群的關(guān)系、區(qū)別

關(guān)系:分布式方便我們系統(tǒng)的維護(hù)和開發(fā),但是不能解決并發(fā)問題,也無法保證我們的系統(tǒng)崩潰后的正常運(yùn)轉(zhuǎn)。集群則恰好彌補(bǔ)了分布式的缺陷,多個服務(wù)器處理相同的業(yè)務(wù),這可以改善系統(tǒng)的并發(fā)問題,同時保證系統(tǒng)崩潰后的正常運(yùn)轉(zhuǎn)。

因此,分布式和集群技術(shù)一般同時出現(xiàn),密不可分。(分布式中的每一個節(jié)點(diǎn),都可以做集群)

區(qū)別:分布式是以縮短單個任務(wù)的執(zhí)行時間來提升效率的,而集群則是通過提高單位時間內(nèi)執(zhí)行的任務(wù)數(shù)來提升效率。

【補(bǔ)充】例如:

如果一個任務(wù)由10個子任務(wù)組成,每個子任務(wù)單獨(dú)執(zhí)行需1小時,則在一臺服務(wù)器上執(zhí)行改任務(wù)需10小時。

  • 采用分布式方案:提供10臺服務(wù)器,每臺服務(wù)器只負(fù)責(zé)處理一個子任務(wù),不考慮子任務(wù)間的依賴關(guān)系,執(zhí)行完這個任務(wù)只需一個小時。(這種工作模式的一個典型代表就是Hadoop的Map/Reduce分布式計算模型)
  • 而采用集群方案:同樣提供10臺服務(wù)器,每臺服務(wù)器都能獨(dú)立處理這個任務(wù)。假設(shè)有10個任務(wù)同時到達(dá),10個服務(wù)器將同時工作,10小時后,10個任務(wù)同時完成。整身來看,還是1小時內(nèi)完成一個任務(wù)。

文件系統(tǒng) & 分布式文件系統(tǒng)

文件系統(tǒng)——是一種存儲和組織計算機(jī)數(shù)據(jù)的方法。

數(shù)據(jù)是以文件的形式存在,提供 Open、Read、Write、Seek、Close 等API 進(jìn)行訪問;

文件以樹形目錄進(jìn)行組織,提供重命名(Rename)操作改變文件或者目錄的位置。

分布式文件系統(tǒng)——允許文件通過網(wǎng)絡(luò)在多臺主機(jī)上分享的文件系統(tǒng),可讓多機(jī)器上的多用戶分享文件和存儲空間。

幾種常見的分布式文件存儲系統(tǒng)有GFS(Google分布式文件系統(tǒng))、HDFS(Hadoop分布式文件系統(tǒng))、TFS、Swift、Ceph等。

圖片

 HDFS系統(tǒng)示意圖


NoSQL(非關(guān)系型數(shù)據(jù)庫)

NoSQL(Not Only SQL),意即"不僅僅是SQL"。NoSQL數(shù)據(jù)庫可同時存儲結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。

相比于關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫提出另一種理念:每一個樣本(元組)根據(jù)需要可以有不同的字段,這樣就不局限于固定的結(jié)構(gòu),調(diào)取數(shù)據(jù)時也更方便??梢詼p少一些時間和空間的開銷。因此為了獲取用戶的不同信息,不需要像關(guān)系型數(shù)據(jù)庫中,對多表進(jìn)行關(guān)聯(lián)查詢。僅需要根據(jù)id取出相應(yīng)的value就可以完成查詢,通過XQuery、SPARQL等查詢語言完成查詢過程。

非關(guān)系型數(shù)據(jù)庫有以下幾種類型:

圖片

大數(shù)據(jù)集的數(shù)據(jù)量巨大,單機(jī)無法存儲與處理如此規(guī)模的數(shù)據(jù)量,只能依靠大規(guī)模集群以進(jìn)行存儲和處理,因此系統(tǒng)需要具備可擴(kuò)展性。

目前主流的大數(shù)據(jù)存儲與計算系統(tǒng)往往采用橫向擴(kuò)展(Scale Out)的方式。因此,對于待存儲處理的海量數(shù)據(jù),需要用過數(shù)據(jù)分片將數(shù)據(jù)進(jìn)行切分,并分配到各服務(wù)器中。

數(shù)據(jù)分布的兩條途徑:復(fù)制 & 分片

分布式NoSQL的兩大特性:復(fù)制和分片。

數(shù)據(jù)分片與數(shù)據(jù)復(fù)制是緊密聯(lián)系的兩個概念。對于海量數(shù)據(jù),可通過數(shù)據(jù)分片實(shí)現(xiàn)系統(tǒng)的水平擴(kuò)展,通過數(shù)據(jù)復(fù)制保證數(shù)據(jù)的高可用性。

 圖片

 數(shù)據(jù)分片與數(shù)據(jù)復(fù)制的關(guān)系

分片(sharding/partition)——將數(shù)據(jù)的各個部分存放在不同的服務(wù)器/節(jié)點(diǎn)中,每個服務(wù)器/節(jié)點(diǎn)負(fù)責(zé)自身數(shù)據(jù)的讀取與寫入操作,以此實(shí)現(xiàn)橫向擴(kuò)展。

復(fù)制(replication)——將同一份數(shù)據(jù)拷貝到多個節(jié)點(diǎn)。分為主從復(fù)制master-slave方式、對等式復(fù)制peer-to-peer。

  • 主從式復(fù)制:master節(jié)點(diǎn)用于存放權(quán)威數(shù)據(jù),通常負(fù)責(zé)數(shù)據(jù)的更新,其余節(jié)點(diǎn)都叫做slave節(jié)點(diǎn),復(fù)制操作就是讓slave節(jié)點(diǎn)的數(shù)據(jù)與master節(jié)點(diǎn)的數(shù)據(jù)同步。適用于讀請求密集的負(fù)載。 
  • 對等式復(fù)制:兩個節(jié)點(diǎn)相互為各自的副本,也同時可以接受寫入請求,丟失其中一個不影響整個數(shù)據(jù)庫的訪問。但同時接受寫入請求,容易出現(xiàn)數(shù)據(jù)(寫入)不一致問題,實(shí)際使用上,通常是只有一個節(jié)點(diǎn)接受寫入請求,另一個master作為stand-by,在對方出現(xiàn)故障的時候自動承接寫操作請求。

分片與復(fù)制可以組合,即同時采用主從復(fù)制與分片、對等復(fù)制與分片。

優(yōu)缺點(diǎn)對比:

分片可以極大地提高讀取性能,但對于要頻繁寫的應(yīng)用,幫助不大。另外,分片對改善故障恢復(fù)能力并沒有幫助,但是它減少了故障范圍,只有訪問這個節(jié)點(diǎn)的那些用戶才會受影響,其余用戶可以正常訪問。雖然數(shù)據(jù)庫缺失了一部分,但是還是其余部分還是可以正常運(yùn)轉(zhuǎn)。

復(fù)制除保證可用性之外,還可增加讀操作的效率。即客戶端可以從多個備份數(shù)據(jù)中選擇物理距離較近的進(jìn)行讀取,這既增加了讀操作的并發(fā)性又可以提高單次讀的讀取效率。

對于分布式數(shù)據(jù)庫系統(tǒng)的設(shè)計過程,需遵循CAP定理:

CAP定理(布魯爾定理)

布式數(shù)據(jù)庫系統(tǒng)不可能同時滿足以下三點(diǎn),最多只能同時滿足兩個:

  • 一致性(Consistency)——所有節(jié)點(diǎn)在同一時間具有相同的數(shù)據(jù);
  • 可用性(Availability)——保證每個請求不管成功或者失敗都有響應(yīng);
  • 分區(qū)容忍(Partition tolerance)——系統(tǒng)中任意信息的丟失或失敗不會影響系統(tǒng)的繼續(xù)運(yùn)作。

因此,當(dāng)代的分布式數(shù)據(jù)存儲服務(wù),均是針對各自服務(wù)的內(nèi)容、性質(zhì)取舍。

而NoSQL數(shù)據(jù)庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三大類。

圖片

關(guān)系型數(shù)據(jù)庫的設(shè)計原則與事務(wù)管理遵循ACID規(guī)則:

ACID

事務(wù)(transaction),具有如下四個特性:

  • A (Atomicity) 原子性——事務(wù)里的所有操作要么全部做完,要么都不做,事務(wù)成功的條件是事務(wù)里的所有操作都成功,只要有一個操作失敗,整個事務(wù)失敗,需要回滾。
  • C (Consistency)一致性——數(shù)據(jù)庫要一直處于一致的狀態(tài),事務(wù)的運(yùn)行不會改變數(shù)據(jù)庫原本的約束。
  • I (Isolation) 獨(dú)立性——并發(fā)的事務(wù)是相互隔離的,一個事務(wù)的執(zhí)行不能被其他事務(wù)干擾。
  • D (Durability) 持久性——是指一旦事務(wù)提交后,它所做的修改將會永久的保存在數(shù)據(jù)庫上,即使系統(tǒng)崩潰也不會丟失。

基于CAP定理演化而來BASE數(shù)據(jù)庫設(shè)計原則:

BASE

包括:Basically Available(基本可用)、Soft state(軟狀態(tài))、Eventually consistent(最終一致性)。

針對數(shù)據(jù)庫系統(tǒng)要求的可用性、一致性,BASE放寬要求,形成基本可用和軟狀態(tài)/柔性事務(wù)。而一致性是最終目的。

大模型訓(xùn)練的數(shù)據(jù)來源

大模型的基礎(chǔ)是大量的數(shù)據(jù)以及算力,下面是一些典型大模型的訓(xùn)練數(shù)據(jù)集大?。ㄒ?GB 為單位)。

圖片

大模型的訓(xùn)練數(shù)據(jù)源主要包含:

  1. 維基百科 維基百科是一個免費(fèi)的多語言協(xié)作在線百科全書,由超過 300,000 名志愿者組成的社區(qū)編寫和維護(hù)。截至 2022 年 4 月,英文版維基百科中有超過 640 萬篇文章,包含超 40 億個詞[5]。一般來說,重點(diǎn)研究實(shí)驗(yàn)室會首先選取它的純英文過濾版作為數(shù)據(jù)集。
  2. 書籍 故事型書籍由小說和非小說兩大類組成,主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力,數(shù)據(jù)集包括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus) 等。
  3. 雜志期刊 預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅實(shí)而嚴(yán)謹(jǐn)?shù)幕A(chǔ),因?yàn)閷W(xué)術(shù)寫作通常來說更有條理、理性和細(xì)致。這類數(shù)據(jù)集包括 ArXiv 和美國國家衛(wèi)生研究院等。
  4. Reddit 鏈接 WebText 是一個大型數(shù)據(jù)集,它的數(shù)據(jù)是從社交媒體平臺 Reddit 所有出站鏈接網(wǎng)絡(luò)中爬取的,每個鏈接至少有三個贊,代表了流行內(nèi)容的風(fēng)向標(biāo),對輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。
  5. Common Crawl
    Common Crawl 是 2008 年至今的一個網(wǎng)站抓取的大型數(shù)據(jù)集,數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取,它的文本來自不同語言、不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會首先選取它的純英文過濾版(C4)作為數(shù)據(jù)集。
  6. 其他數(shù)據(jù)集不同于上述類別,這類數(shù)據(jù)集由 GitHub 等代碼數(shù)據(jù)集、StackExchange 等對話論壇和視頻字幕數(shù)據(jù)集組成。
    很多人認(rèn)為,這個數(shù)據(jù)量也不大啊,也就是幾百GB到TB,根本無法稱之為大量數(shù)據(jù)。其實(shí),以CC數(shù)據(jù)集為例,合計1.4PB,而GPT3用于訓(xùn)練的CC數(shù)據(jù)僅使用了其中的570GB。這中間是因?yàn)閱未斡?xùn)練進(jìn)行了數(shù)據(jù)的預(yù)處理,只提取了自己關(guān)心的部分。

圖片

數(shù)據(jù)爬取和保存通常使用WARC、WAT和WET格式的數(shù)據(jù)存儲。LLaMA的模型使用的是WET格式的數(shù)據(jù)。以Common Crawl為例,每個CC快照的文本大小約300T,而一個WET格式的快照大小約30T。
數(shù)據(jù)去重
用CCNet將這些快照進(jìn)行分片(sharding),將原來的數(shù)據(jù)分成5G一個分片。然后對每個數(shù)據(jù)做預(yù)處理:如小寫化所有數(shù)據(jù)、數(shù)字變成占位符等,然后計算每個段落的hash,再去重。并行處理數(shù)據(jù),提高處理速度,降低數(shù)據(jù)量。
文本語言識別與過濾
識別語言,然后對不同語言的數(shù)據(jù)計算分?jǐn)?shù),最后根據(jù)分?jǐn)?shù)確定是否保留某些語言。在pipeline中執(zhí)行此操作的順序可能會影響語言識別的質(zhì)量。CCNet使用使用n-gram特征的fastText分類器。
質(zhì)量過濾
CCNet中,他們建議使用維基百科在目標(biāo)語言上訓(xùn)練一個簡單的語言模型,然后計算每段的困惑度(perplexity),并使用困惑度分布的來對它們進(jìn)行分段。
進(jìn)一步過濾
為了確定頁面的質(zhì)量。如果這個頁面無法被認(rèn)為是可以作為維基百科引用的,說明頁面本身質(zhì)量可能比較差,所以可以進(jìn)一步丟棄,提高數(shù)據(jù)的質(zhì)量,降低訓(xùn)練成本。經(jīng)過這么一輪操作猛如虎,剩下數(shù)據(jù)就很少了。未來數(shù)據(jù)從單一的文本自然語言走向多模態(tài),相關(guān)的訓(xùn)練數(shù)據(jù)集就會更多了。

責(zé)任編輯:龐桂玉 來源: 數(shù)字化助推器
相關(guān)推薦

2020-06-23 09:55:40

Spring Boo指標(biāo)Java

2016-10-10 14:05:46

存儲

2012-11-08 09:32:24

2023-10-20 16:57:09

2016-02-19 17:54:42

智慧醫(yī)療大數(shù)據(jù)

2013-03-11 09:55:52

大數(shù)據(jù)中數(shù)據(jù)

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲

2013-08-08 10:07:43

大數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)

2017-03-22 20:25:31

大數(shù)據(jù)存儲紫光西部數(shù)據(jù)

2018-12-21 11:01:05

存儲大數(shù)據(jù)RAID

2017-07-03 13:53:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)治理

2013-03-20 11:03:05

大數(shù)據(jù)

2018-03-28 17:16:09

大數(shù)據(jù)

2020-07-14 10:55:28

大數(shù)據(jù)IT技術(shù)

2016-02-29 15:09:54

戴爾云計算

2018-03-20 10:37:33

存儲大數(shù)據(jù)管理

2020-09-24 22:54:46

大數(shù)據(jù)IT技術(shù)

2013-01-16 10:10:26

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號