自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

FriendFeed 如何使用 MySQL 來存儲無模式的數(shù)據

作者：佚名 2015-06-08 13:53:44

數(shù)據庫 MySQL

我們使用MySQL存儲了FriendFeed的所有數(shù)據。數(shù)據庫隨著用戶基數(shù)的增長而增長了很多。現(xiàn)在已經存儲了超過2.5億條記錄與一堆涵蓋了從評論和“喜歡”到好友列表的其他數(shù)據。

背景

我們使用MySQL存儲了FriendFeed的所有數(shù)據。數(shù)據庫隨著用戶基數(shù)的增長而增長了很多?，F(xiàn)在已經存儲了超過2.5億條記錄與一堆涵蓋了從評論和“喜歡”到好友列表的其他數(shù)據。

隨著數(shù)據的增長，我們也曾迭代地解決了隨著如此迅猛的增長而帶來的擴展性問題。我們的嘗試很有代表性，例如使用只讀mysql從節(jié)點和memcache來增加讀取吞吐量，對數(shù)據庫進行分片來提高寫入吞吐量。然而，隨著業(yè)務的增長，添加新功能比擴展既有功能以迎合更多的流量變得更加困難。

特別的，對 schema 做改動或為超過 1000-2000 萬行記錄的數(shù)據庫添加索引會將數(shù)據庫鎖住幾個小時。刪除舊索引也要占用這么多時間，但不刪除它們會影響性能;因為數(shù)據庫要持續(xù)地在每個INSERT上讀寫這些沒用的區(qū)塊，并將重要的區(qū)塊擠出了內存。為避免這些問題需要采取一些復雜的措施（例如在從節(jié)點上設置新的索引，然后將從節(jié)點與主節(jié)點對調），但這些措施會引發(fā)錯誤并且實施起來比較困難，它們阻礙了需要改動 schema/索引才能實現(xiàn)的新功能。由于數(shù)據庫的嚴重分散，MySQL 的關系特性(如join）對我們沒用，所以我們決定脫離 RDBMS。

雖然已有許多用于解決靈活 schema 數(shù)據存儲和運行時構建索引的問題(例如 CouchDB)的項目。但在大站點中卻沒有足夠廣泛地用到來說服人們使用。在我們看到和運行的測試中，這些項目要么不穩(wěn)定，要么缺乏足夠的測試(參見這個有點過時的關于 CouchDB 的文章)。MySQL 不錯，它不會損壞數(shù)據；復制也沒問題，我們已經了解了它的局限。我們喜歡將 MySQL 用于存儲，僅僅是非關系型的存儲。

幾經思量，我們決定在 MySQL 上采用一種無模式的存儲系統(tǒng)，而不是使用一個完全沒接觸過的存儲系統(tǒng)。本文試圖描述這個系統(tǒng)的高級細節(jié)。我們很好奇其他大型網站是如何處理這些問題的，另外也希望我們完成的某些設計會對其他開發(fā)者有所幫助。

綜述

我們在數(shù)據庫中存儲的是無模式的屬性集(例如JSON對象或python字典)。存儲的記錄只需一個名為id的16字節(jié)的UUID屬性。對數(shù)據庫而言實體的其他部分是不可見的。我們可以簡單地存入新屬性來改變schema(可以簡單理解為數(shù)據表中只有兩個字段：id,data;其中data存儲的是實體的屬性集)。

我們通過保存在不同表中的索引來檢索數(shù)據。如果想檢索每個實體中的三個屬性，我們就需要三個數(shù)據表-每個表用于檢索某一特定屬性。如果不想再用某一索引了，我們要在代碼中停止該索引對應表的寫操作，并可選地刪除那個表。如果想添加個新索引，只需要為該索引新建個MySQL表，并啟動一個進程異步地為該表添加索引數(shù)據(不影響運行中的服務)。

最終，雖然我們的數(shù)據表增多了，但添加和刪除索引卻變得簡單了。我們大力改善了添加索引數(shù)據的進程(我們稱之為“清潔工")使其在快速添加索引的同時不會影響站點。我們可以在一天內完成新屬性的保存和索引，并且我們不需要對調主從MySQL數(shù)據庫，也不需要任何其他可怕的操作。

細節(jié)

MySQL 使用表保存我們的實體，一個表就像這樣 :

CREATE TABLE entities ( 
added_id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, 
id BINARY(16) NOT NULL, 
updated TIMESTAMP NOT NULL, 
body MEDIUMBLOB, 
UNIQUE KEY (id), 
KEY (updated) 
) ENGINE=InnoDB;

之所以使用 added_id 個字段是因為 InnoDB 按物理主鍵順序存儲數(shù)據，自增長主鍵確保新實例在磁盤上按順序寫到老實體之后，這樣有助于分區(qū)讀寫（相對老的實體，新實體往往讀操作更頻繁，因為 FriendFeed 的 pages 是按時間逆序排列）。實體本身經 python 字典序列化后使用 zlib 壓縮存儲。

索引單獨存在一張表里，如果要創(chuàng)建索引，我們創(chuàng)建一張新表存儲我們想要索引的數(shù)據分片的所有屬性。例如，一個 FriendFeed 實體通過看上去是這樣的：

{ 
    "id": "71f0c4d2291844cca2df6f486e96e37c", 
    "user_id": "f48b0440ca0c4f66991c4d5f6a078eaf", 
    "feed_id": "f48b0440ca0c4f66991c4d5f6a078eaf", 
    "title": "We just launched a new backend system for FriendFeed!", 
    "link": "http://friendfeed.com/e/71f0c4d2-2918-44cc-a2df-6f486e96e37c", 
    "published": 1235697046, 
    "updated": 1235697046, 
}

我們索引實體的屬性 user_id，這樣我們可以渲染一個頁面，包含一個已提交用戶的所有屬性。我們的索引表看起來是這樣的：

CREATE TABLE index_user_id ( 
user_id BINARY(16) NOT NULL, 
entity_id BINARY(16) NOT NULL UNIQUE, 
PRIMARY KEY (user_id, entity_id) 
) ENGINE=InnoDB;

我們的數(shù)據存儲會自動為你維護索引，所以如果你要在我們存儲上述結構實體的數(shù)據存儲里開啟一個實例，你可以寫一段代碼（用 python）：

user_id_index = friendfeed.datastore.Index( 
table="index_user_id", properties=["user_id"], shard_on="user_id") 
datastore = friendfeed.datastore.DataStore( 
mysql_shards=["127.0.0.1:3306", "127.0.0.1:3307"], 
indexes=[user_id_index]) 
 
new_entity = { 
"id": binascii.a2b_hex("71f0c4d2291844cca2df6f486e96e37c"), 
"user_id": binascii.a2b_hex("f48b0440ca0c4f66991c4d5f6a078eaf"), 
"feed_id": binascii.a2b_hex("f48b0440ca0c4f66991c4d5f6a078eaf"), 
"title": u"We just launched a new backend system for FriendFeed!", 
"link": u"http://friendfeed.com/e/71f0c4d2-2918-44cc-a2df-6f486e96e37c", 
"published": 1235697046, 
"updated": 1235697046, 
} 
datastore.put(new_entity) 
entity = datastore.get(binascii.a2b_hex("71f0c4d2291844cca2df6f486e96e37c")) 
entity = user_id_index.get_all(datastore, user_id=binascii.a2b_hex("f48b0440ca0c4f66991c4d5f6a078eaf"))

上面的 Index 類在所有實體中查找 user_id，自動維護 index_user_id 表的索引。我們的數(shù)據庫是切分的，參數(shù) shard_on 是用來確定索引是存儲在哪個分片上（這種情況下使用 entity["user_id"] % num_shards)。

你可以使用索引實例（見上面的 user_id_index.get_all）查詢一個索引，使用 python 寫的數(shù)據存儲代碼將表 index_user_id 和表 entities 合并。首先在所有數(shù)據庫分片中查詢表 index_user_id 獲取實體 ID 列，然后在 entities 提出數(shù)據。

新建一個索引，比如，在屬性 link 上，我們可以創(chuàng)建一個新表：

CREATE TABLE index_link ( 
link VARCHAR(735) NOT NULL, 
entity_id BINARY(16) NOT NULL UNIQUE, 
PRIMARY KEY (link, entity_id) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

我們可以修改數(shù)據存儲的初始化代碼以包含我們的新索引：

user_id_index = friendfeed.datastore.Index( 
table="index_user_id", properties=["user_id"], shard_on="user_id") 
link_index = friendfeed.datastore.Index( 
table="index_link", properties=["link"], shard_on="link") 
datastore = friendfeed.datastore.DataStore( 
mysql_shards=["127.0.0.1:3306", "127.0.0.1:3307"], 
indexes=[user_id_index, link_index])

我可以異步構建索引（特別是實時傳輸服務）：

./rundatastorecleaner.py --index=index_link

#p#

一致性與原子性

由于采用分區(qū)的數(shù)據庫，實體的索引可能存儲在與實體不同的分區(qū)中，這引起了一致性問題。如果進程在寫入所有索引表前崩潰了會怎樣？

許多有野心的 FriendFeed 工程師傾向于構建一個事務性協(xié)議，但我們希望盡可能地保持系統(tǒng)的簡潔。我們決定放寬限制：

保存在主實體表中的屬性集是規(guī)范完整的
索引不會對真實實體值產生影響

因此，往數(shù)據庫中寫入實體時我們采用如下步驟:

使用 InnoDB 的 ACID 屬性將實體寫入 entities 表。
將索引寫入所有分區(qū)中的索引表。

我們要記住從索引表中取出的數(shù)據可能是不準確的（例如如果寫操作沒有完成步驟2可能會影響舊屬性值）。為確保采用上面的限制能返回正確的實體，我們用索引表來決定要讀取哪些實體，但不要相信索引的完整性，要使用查詢條件對這些實體進行再過濾：

1.根據查詢條件從索引表中取得 entity_id

2.根據 entity_id 從 entities 表中讀取實體

3.根據實體的真實屬性（用 Python）過濾掉不符合查詢條件的實體

為保證索引的持久性和一致性，上文提到的“清潔工”進程要持續(xù)運行，寫入丟失的索引，清理失效的舊索引。它優(yōu)先清理最近更新的實體，所以實際上維護索引的一致性非常快(幾秒鐘).

性能

我們對新系統(tǒng)的主索引進行了優(yōu)化，對結果也很滿意。以下是上個月 FriendFeed 頁面的加載延時統(tǒng)計圖（我們在前幾天啟動了新的后端，你可以根據延時的顯著回落找到那一天）。

特別地，系統(tǒng)的延時現(xiàn)在也很穩(wěn)定（哪怕是在午高峰期間）。如下是過去24小時FriendFeed頁面加載延時圖。

與上周的某天相比較：

系統(tǒng)到目前為止使用起來很方便。我們在部署之后也改動了幾次索引，并且我們也開始將這種模式應用于 MySQL 中那些較大的表，這樣我們在以后可以輕松地改動它們的結構。

原文鏈接：http://www.oschina.net/translate/friendfeed-schemaless-mysql-new

責任編輯：Ophira 來源：開源中國社區(qū)

MySQL 無模式數(shù)據 FriendFeed

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<sub id="v1bkz"></sub>}

<sub id="v1bkz"><p id="v1bkz"></p></sub>

<center id="v1bkz"></center>