自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="rvq3n"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

分布式 PostgreSQL 集群(Citus)官方教程 - 遷移現(xiàn)有應用程序

作者：為少 2022-03-15 19:19:04

數(shù)據(jù)庫 PostgreSQL

在開發(fā)環(huán)境中測試更改后，最后一步是將生產(chǎn)數(shù)據(jù)遷移到 Citus 集群并切換生產(chǎn)應用程序。我們有技術(shù)可以最大限度地減少此步驟的停機時間。

將現(xiàn)有應用程序遷移到 Citus 有時需要調(diào)整 schema 和查詢以獲得最佳性能。 Citus 擴展了 PostgreSQL 的分布式功能，但它不是擴展所有工作負載的直接替代品。高性能 Citus 集群需要考慮數(shù)據(jù)模型、工具和所使用的 SQL 功能的選擇。

第一步是優(yōu)化現(xiàn)有的數(shù)據(jù)庫模式，以便它可以在多臺計算機上高效工作。

確定分布策略

選擇分布鍵(distribution key)

識別表的類型

為遷移準備源表

添加分布鍵

回填新創(chuàng)建的列

接下來，更新應用程序代碼和查詢以處理 schema 更改。

準備申請 Citus

建立開發(fā) Citus 集群

向查詢添加分布鍵

啟用安全連接

檢查跨節(jié)點流量

在開發(fā)環(huán)境中測試更改后，最后一步是將生產(chǎn)數(shù)據(jù)遷移到 Citus 集群并切換生產(chǎn)應用程序。我們有技術(shù)可以最大限度地減少此步驟的停機時間。

遷移生產(chǎn)數(shù)據(jù)

小型數(shù)據(jù)庫遷移

大數(shù)據(jù)庫遷移

確定分布策略

選擇分布鍵

遷移到 Citus 的第一步是確定合適的distribution key 并相應地規(guī)劃表分布。在多租戶應用程序中，這通常是租戶的內(nèi)部標識符。我們通常將其稱為“租戶 ID(tenant ID)”。用例可能會有所不同，因此我們建議您在此步驟中進行徹底檢查。

如需指導，請閱讀以下部分：

確定應用程序類型

https://docs.citusdata.com/en/v10.2/develop/app_type.html#app-type

選擇分布列

https://docs.citusdata.com/en/v10.2/sharding/data_modeling.html#distributed-data-modeling

我們很樂意幫助您檢查您的環(huán)境，以確保選擇了理想的 distribution key。為此，我們通常會檢查 schema 布局、更大的表、長時間運行和/或有問題的查詢、標準用例等。

確定表的類型

一旦確定了 distribution key，請查看 schema 以確定如何處理每個表以及是否需要對表布局進行任何修改。我們通常建議使用電子表格進行跟蹤，并創(chuàng)建了您可以使用的模板。

https://docs.google.com/spreadsheets/d/1jYlc22lHdP91pTrb6s35QfrN9nTE1BkVJnCSZeQ7ZmI/edit

表格通常屬于以下類別之一：

準備分發(fā)。這些表已經(jīng)包含 distribution key，并準備好分發(fā)。
需要回填。這些表可以按所選 key 進行邏輯分布，但不包含直接引用它的列。稍后將修改這些表以添加該列。
參考表。這些表通常很小，不包含 distribution key，通常由分布式表連接，和/或在租戶之間共享。這些表中的每一個的副本將在所有節(jié)點上維護。常見示例包括國家代碼查找、產(chǎn)品類別等。
本地表。這些通常不連接到其他表，并且不包含 distribution key。它們僅在 coordinator 節(jié)點上維護。常見示例包括管理員用戶查找和其他實用程序表。

考慮一個類似于 Etsy 或 Shopify 的示例多租戶應用程序，其中每個租戶都是商店。這是簡化 schema 的一部分：

(帶下劃線的項目是主鍵，斜體項目是外鍵。)

在此示例中，商店是自然租戶。在這種情況下，租戶 ID 是 store_id。在集群中分布表之后，我們希望與同一存儲相關(guān)的行一起駐留在同一節(jié)點上。

為遷移準備源表

一旦確定了所需數(shù)據(jù)庫更改的范圍，下一個主要步驟就是修改應用程序現(xiàn)有數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)。首先，修改需要回填的表，為 distribution key 添加一列。

添加分布鍵

在我們的店面示例中，stores 和 products 表有一個 store_id 并準備好分布。規(guī)范化后，line_items 表缺少商店 ID。如果我們想通過 store_id 分布，表需要這個列。

-- denormalize line_items by including store_id

ALTER TABLE line_items ADD COLUMN store_id uuid;

請務必檢查所有表中的分布列是否具有相同的類型，例如：不要混合 int 和 bigint。列類型必須匹配以確保正確的數(shù)據(jù)托管。

回填新創(chuàng)建的列

更新 schema 后，在添加該列的表中回填 tenant_id 列的缺失值。在我們的示例中，line_items 需要 store_id 的值。

我們通過從帶有訂單的 join 查詢中獲取缺失值來回填表：

UPDATE line_items
   SET store_id = orders.store_id
  FROM line_items
 INNER JOIN orders
 WHERE line_items.order_id = orders.order_id;

一次執(zhí)行整個表可能會導致數(shù)據(jù)庫負載過大并中斷其他查詢。相反，回填可以更慢地完成。一種方法是創(chuàng)建一個一次回填小批量的函數(shù)，然后使用 pg_cron 重復調(diào)用該函數(shù)。

https://github.com/citusdata/pg_cron

-- the function to backfill up to one
-- thousand rows from line_items

CREATE FUNCTION backfill_batch()
RETURNS void LANGUAGE sql AS $$
  WITH batch AS (
    SELECT line_items_id, order_id
      FROM line_items
     WHERE store_id IS NULL
     LIMIT 10000
       FOR UPDATE
      SKIP LOCKED
  )
  UPDATE line_items AS li
     SET store_id = orders.store_id
    FROM batch, orders
   WHERE batch.line_item_id = li.line_item_id
     AND batch.order_id = orders.order_id;
$$;

-- run the function every quarter hour
SELECT cron.schedule('*/15 * * * *', 'SELECT backfill_batch()');

-- ^^ note the return value of cron.schedule

回填完成后，可以禁用 cron job：

-- assuming 42 is the job id returned
-- from cron.schedule

SELECT cron.unschedule(42);

準備申請 Citus

建立開發(fā) Citus 集群

在修改應用程序以使用 Citus 時，您需要一個數(shù)據(jù)庫來進行測試。按照說明設(shè)置您選擇的單節(jié)點 Citus。

https://docs.citusdata.com/en/v10.2/installation/single_node.html#development

接下來從應用程序的原始數(shù)據(jù)庫中轉(zhuǎn)儲 schema 的副本，并在新的開發(fā)數(shù)據(jù)庫中恢復 schema。

# get schema from source db

pg_dump \
   --format=plain \
   --no-owner \
   --schema-only \
   --file=schema.sql \
   --schema=target_schema \
   postgres://user:pass@host:5432/db

# load schema into test db

psql postgres://user:pass@testhost:5432/db -f schema.sql

該 schema 應在您希望分發(fā)的所有表中包含一個分發(fā)鍵(tenant id)。在 pg_dumping schema 之前，請確保您已完成上一節(jié)中的準備源表以進行遷移的步驟。

在鍵中包含分布列

Citus 不能強制唯一性約束，除非唯一索引或主鍵包含分布列。因此，我們必須在示例中修改主鍵和外鍵以包含 store_id。

https://docs.citusdata.com/en/v10.2/reference/common_errors.html#non-distribution-uniqueness

下一節(jié)中列出的一些庫能夠幫助遷移數(shù)據(jù)庫 schema 以將分布列包含在鍵中。然而，下面是一個底層 SQL 命令示例，用于在開發(fā)數(shù)據(jù)庫中組合簡單鍵：

BEGIN;

-- drop simple primary keys (cascades to foreign keys)

ALTER TABLE products   DROP CONSTRAINT products_pkey CASCADE;
ALTER TABLE orders     DROP CONSTRAINT orders_pkey CASCADE;
ALTER TABLE line_items DROP CONSTRAINT line_items_pkey CASCADE;

-- recreate primary keys to include would-be distribution column

ALTER TABLE products   ADD PRIMARY KEY (store_id, product_id);
ALTER TABLE orders     ADD PRIMARY KEY (store_id, order_id);
ALTER TABLE line_items ADD PRIMARY KEY (store_id, line_item_id);

-- recreate foreign keys to include would-be distribution column

ALTER TABLE line_items ADD CONSTRAINT line_items_store_fkey
  FOREIGN KEY (store_id) REFERENCES stores (store_id);
ALTER TABLE line_items ADD CONSTRAINT line_items_product_fkey
  FOREIGN KEY (store_id, product_id) REFERENCES products (store_id, product_id);
ALTER TABLE line_items ADD CONSTRAINT line_items_order_fkey
  FOREIGN KEY (store_id, order_id) REFERENCES orders (store_id, order_id);

COMMIT;

至此完成，上一節(jié)中的 schema 將如下所示：

(帶下劃線的項目是主鍵，斜體項目是外鍵。)

請務必修改數(shù)據(jù)流以向傳入數(shù)據(jù)添加鍵。

向查詢添加分布鍵

一旦 distribution key 出現(xiàn)在所有適當?shù)谋砩?，應用程序就需要將它包含在查詢中。以下步驟應使用在開發(fā)環(huán)境中運行的應用程序副本完成，并針對 Citus 后端進行測試。在應用程序與 Citus 一起工作后，我們將了解如何將生產(chǎn)數(shù)據(jù)從源數(shù)據(jù)庫遷移到真正的 Citus 集群中。

應更新寫入表的應用程序代碼和任何其他攝取進程以包含新列。
在 Citus 上針對修改后的 schema 運行應用程序測試套件是確定哪些代碼區(qū)域需要修改的好方法。
啟用數(shù)據(jù)庫日志記錄是個好主意。這些日志可以幫助發(fā)現(xiàn)多租戶應用程序中的雜散跨分片查詢，這些查詢應轉(zhuǎn)換為每租戶查詢。

支持跨分片查詢，但在多租戶應用程序中，大多數(shù)查詢應針對單個節(jié)點。對于簡單的 select、update 和 delete 查詢，這意味著 where 子句應按 tenant id 進行過濾。Citus 然后可以在單個節(jié)點上有效地運行這些查詢。

許多流行的應用程序框架都有一些幫助程序庫，可以很容易地在查詢中包含租戶 ID：

Ruby on Rails

https://docs.citusdata.com/en/v10.2/develop/migration_mt_ror.html

Django

https://docs.citusdata.com/en/v10.2/develop/migration_mt_django.html

ASP.NET

https://docs.citusdata.com/en/v10.2/develop/migration_mt_asp.html

Java Hibernate

https://www.citusdata.com/blog/2018/02/13/using-hibernate-and-spring-to-build-multitenant-java-apps/

可以先將庫用于數(shù)據(jù)庫寫入(包括數(shù)據(jù)攝取)，然后再用于讀取查詢。例如，activerecord-multi-tenant gem 有一個只修改寫查詢的只寫模式(write-only mode)。

activerecord-multi-tenant

https://github.com/citusdata/activerecord-multi-tenant

write-only mode

https://github.com/citusdata/activerecord-multi-tenant#rolling-out-activerecord-multi-tenant-for-your-application-write-only-mode

其他(SQL原則)

如果您使用與上述不同的 ORM，或者更直接地在 SQL 中執(zhí)行多租戶查詢，請遵循這些一般原則。我們將使用我們之前的電子商務應用程序示例。

假設(shè)我們想要獲取訂單的詳細信息。過濾租戶 ID 的分布式查詢在多租戶應用程序中運行效率最高，因此下面的更改使查詢更快(而兩個查詢返回相同的結(jié)果)：

-- before
SELECT *
  FROM orders
 WHERE order_id = 123;

-- after
SELECT *
  FROM orders
 WHERE order_id = 123
   AND store_id = 42; -- <== added

租戶 id 列不僅對插入語句有益，而且至關(guān)重要。插入必須包含租戶 id 列的值，否則 Citus 將無法將數(shù)據(jù)路由到正確的分片并引發(fā)錯誤。

最后，在 join 表時，請確保也按租戶 ID 進行過濾。例如，這里是如何檢查給定商店已售出多少“很棒的羊毛褲”：

-- One way is to include store_id in the join and also
-- filter by it in one of the queries

SELECT sum(l.quantity)
  FROM line_items l
 INNER JOIN products p
    ON l.product_id = p.product_id
   AND l.store_id = p.store_id
 WHERE p.name='Awesome Wool Pants'
   AND l.store_id='8c69aa0d-3f13-4440-86ca-443566c1fc75'

-- Equivalently you omit store_id from the join condition
-- but filter both tables by it. This may be useful if
-- building the query in an ORM

SELECT sum(l.quantity)
  FROM line_items l
 INNER JOIN products p ON l.product_id = p.product_id
 WHERE p.name='Awesome Wool Pants'
   AND l.store_id='8c69aa0d-3f13-4440-86ca-443566c1fc75'
   AND p.store_id='8c69aa0d-3f13-4440-86ca-443566c1fc75'

啟用安全連接

客戶端應使用 SSL 連接到 Citus 以保護信息并防止中間人攻擊。事實上，Citus Cloud 拒絕未加密的連接。要了解如何建立 SSL 連接，請參閱使用 SSL 連接。

SSL 連接

https://docs.citusdata.com/en/v10.2/cloud/security.html#cloud-ssl

檢查跨節(jié)點流量

對于龐大而復雜的應用程序代碼庫，應用程序生成的某些查詢通常會被忽略，因此不會對它們使用 tenant_id 過濾器。Citus 的并行執(zhí)行器仍然會成功執(zhí)行這些查詢，因此，在測試期間，這些查詢?nèi)匀浑[藏，因為應用程序仍然可以正常工作。但是，如果查詢不包含 tenant_id 過濾器，Citus 的執(zhí)行程序?qū)⒉⑿性L問每個分片，但只有一個會返回數(shù)據(jù)。這會不必要地消耗資源，并且只有在遷移到更高吞吐量的生產(chǎn)環(huán)境時才會出現(xiàn)問題。

為了防止在生產(chǎn)中啟動后才遇到此類問題，可以設(shè)置一個配置值來記錄命中多個分片的查詢。在正確配置和遷移的多租戶應用程序中，每個查詢一次只能命中一個分片。

在測試期間，可以配置以下內(nèi)容：

-- adjust for your own database's name of course

ALTER DATABASE citus SET citus.multi_task_query_log_level = 'error';

如果 Citus 遇到將命中多個分片的查詢，它將出錯。測試期間出錯允許應用程序開發(fā)人員查找和遷移此類查詢。

在生產(chǎn)啟動期間，可以配置相同的設(shè)置來記錄，而不是錯誤輸出：

ALTER DATABASE citus SET citus.multi_task_query_log_level = 'log';

配置參數(shù)部分包含有關(guān)此設(shè)置支持的值的更多信息。

配置參數(shù)部分

https://docs.citusdata.com/en/v10.2/develop/api_guc.html#multi-task-logging

遷移生產(chǎn)數(shù)據(jù)

此時，已更新數(shù)據(jù)庫 schema 和應用程序查詢以與 Citus 一起使用，您已準備好進行最后一步。是時候?qū)?shù)據(jù)遷移到 Citus 集群并將應用程序切換到其新數(shù)據(jù)庫了。

數(shù)據(jù)遷移路徑取決于停機時間要求和數(shù)據(jù)大小，但通常屬于以下兩類之一。

小型數(shù)據(jù)庫遷移
大數(shù)據(jù)庫遷移

小型數(shù)據(jù)庫遷移

對于可以容忍一點停機時間的較小環(huán)境，請使用簡單的 pg_dump/pg_restore 進程。以下是步驟。

從您的開發(fā)數(shù)據(jù)庫中保存數(shù)據(jù)庫結(jié)構(gòu)：

pg_dump \
   --format=plain \
   --no-owner \
   --schema-only \
   --file=schema.sql \
   --schema=target_schema \
   postgres://user:pass@host:5432/db

使用 psql 連接到 Citus 集群并創(chuàng)建 schema：

\i schema.sql

運行您的 create_distributed_table 和 create_reference_table 語句。如果您收到有關(guān)外鍵的錯誤，通常是由于操作順序所致。在分發(fā)表之前刪除外鍵，然后重新添加它們。

將應用程序置于維護模式，并禁用對舊數(shù)據(jù)庫的任何其他寫入。

使用 pg_dump 將原始生產(chǎn)數(shù)據(jù)庫中的數(shù)據(jù)保存到磁盤：

pg_dump \
   --format=custom \
   --no-owner \
   --data-only \
   --file=data.dump \
   --schema=target_schema \
   postgres://user:pass@host:5432/db

使用 pg_restore 導入 Citus：

# remember to use connection details for Citus,
# not the source database
pg_restore  \
   --host=host \
   --dbname=dbname \
   --username=username \
   data.dump

# it'll prompt you for the connection password

測試應用。

運行。

大數(shù)據(jù)庫遷移(Citus Cloud)

較大的環(huán)境可以使用 Citus Warp 進行在線復制。Citus Warp 允許您在更改發(fā)生時將更改從 PostgreSQL 源數(shù)據(jù)庫流式傳輸?shù)? Citus Cloud 集群。就好像應用程序自動寫入兩個數(shù)據(jù)庫而不是一個，除非具有完美的事務邏輯。Citus Warp 可與啟用了 logical_decoding 插件的 Postgres 9.4 及更高版本一起使用(只要您使用的是 9.4 或更高版本，Amazon RDS 就支持此功能)。

對于此過程，我們強烈建議您通過開 ticket、聯(lián)系我們在 Slack 上的解決方案工程師之一或任何適合您的方法來聯(lián)系我們。為了進行 warp，我們通過 VPC 對等或 IP 白名單將 Citus 集群的 coordinator 節(jié)點連接到現(xiàn)有數(shù)據(jù)庫，并開始復制。

以下是開始 Citus Warp 流程之前需要執(zhí)行的步驟：

在目標 Citus 集群上復制 schema 結(jié)構(gòu)
在源數(shù)據(jù)庫中啟用邏輯復制
允許從 Citus coordinator 節(jié)點到源的網(wǎng)絡連接
聯(lián)系我們開始復制

重復 schema

將數(shù)據(jù)遷移到 Citus 的第一步是確保 schema 完全匹配，至少對于您選擇遷移的表而言。一種方法是針對您的開發(fā)數(shù)據(jù)庫(用于本地測試應用程序的 Citus 數(shù)據(jù)庫)運行 pg_dump --schema-only。在 coordinator Citus 節(jié)點上重放輸出。另一種方法是針對目標數(shù)據(jù)庫運行應用程序遷移腳本。

您希望遷移的所有表都必須具有主鍵。相應的目標表也必須具有主鍵，唯一的區(qū)別是這些鍵也允許組合以包含分布列，如識別分布策略中所述。

還要確保在開始復制之前在集群中分布表，這樣數(shù)據(jù)就不必單獨放在 coordinator 節(jié)點上。

啟用邏輯復制

某些托管數(shù)據(jù)庫(例如 Amazon RDS)需要通過更改服務器配置參數(shù)來啟用復制。在 RDS 上，您需要創(chuàng)建一個新參數(shù)組，在其中設(shè)置 rds.logical_replication = 1，然后將參數(shù)組設(shè)為活動參數(shù)組。應用更改需要重新啟動數(shù)據(jù)庫服務器，這可以安排在下一個維護時段。

如果您正在管理自己的 PostgreSQL 安裝，請將這些設(shè)置添加到 postgresql.conf：

wal_level = logical
max_replication_slots = 5 # has to be > 0
max_wal_senders = 5       # has to be > 0

需要重新啟動數(shù)據(jù)庫才能使更改生效。

開放訪問網(wǎng)絡連接

在 Cloud 控制臺中，確定主機名(以 db.citusdata.com 結(jié)尾)。Dig 主機名以找到其 IP 地址：

dig +short <hostname> A

如果您使用的是 RDS，請編輯入站數(shù)據(jù)庫安全組以添加自定義 TCP 規(guī)則：

Protocol

TCP

Port Range

5432

Source

/32

這會將 Citus coordinator 節(jié)點的 IP 地址列入白名單以進行入站連接。連接兩者的另一種方法是在它們的 VPC 之間建立對等互連。如果需要，我們可以幫助進行設(shè)置。

開始復制

通過在 Citus Cloud 控制臺中打開 support ticket 與我們聯(lián)系。云工程師將使用 Citus Warp 連接到您的數(shù)據(jù)庫，以執(zhí)行初始數(shù)據(jù)庫轉(zhuǎn)儲、打開復制槽并開始復制。我們可以在遷移中包含/排除您選擇的表。

在復制的第一階段，如果數(shù)據(jù)庫處于寫入負載下，Postgres 預寫日志 (WAL) 可能會大幅增長。在開始此過程之前，請確保源數(shù)據(jù)庫上有足夠的磁盤空間。我們建議 100GB 可用空間或總磁盤空間的 20%，以較大者為準。一旦初始 dump/restore 完成并開始復制，那么數(shù)據(jù)庫將能夠再次歸檔未使用的 WAL 文件。

隨著 Warp 的進行，請注意源數(shù)據(jù)庫上的磁盤使用情況。如果源和目標之間存在數(shù)據(jù)類型不匹配，或其他意外的 schema 更改，則復制可能會停止。在長時間停頓期間，復制槽可以在源上無限增長，從而導致潛在的崩潰。

由于復制停滯的可能性，我們強烈建議在進行 Citus warp 時盡量減少 schema 更改。如果需要進行侵入式 schema 更改，您將需要停止 warp 并重試。

進行侵入式 schema 更改的步驟：

請求 Citus Cloud 工程師停止 warp。
更改源數(shù)據(jù)庫上的 schema。
更改目標數(shù)據(jù)庫上的 schema。
再次開始 warp。

切換到 Citus 并停止與舊數(shù)據(jù)庫的所有連接

當復制趕上源數(shù)據(jù)庫的當前狀態(tài)時，還有一件事要做。由于復制過程的性質(zhì)，序列值不會在目標數(shù)據(jù)庫上正確更新。為了獲得正確的序列值，例如 id 列，您需要在打開對目標數(shù)據(jù)庫的寫入之前手動調(diào)整序列值。

一旦這一切完成，應用程序就可以連接到新數(shù)據(jù)庫了。我們不建議同時寫入源數(shù)據(jù)庫和目標數(shù)據(jù)庫。

當應用程序切換到新數(shù)據(jù)庫并且源數(shù)據(jù)庫上沒有發(fā)生進一步的更改時，請再次聯(lián)系我們以刪除復制槽。遷移完成。

責任編輯：武曉燕來源：黑客下午茶

分布式 PostgreSQL 集群

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="dt1i8"></cite>

<legend id="dt1i8"><track id="dt1i8"></track></legend>