為海量文檔自建專用“網(wǎng)盤”,試過都說“真香”?
很多人的日常工作中,都會使用在線協(xié)作平臺或云存儲服務(wù)來存儲自己的各類文檔。然而當(dāng)需要通過應(yīng)用程序來處理、存儲和檢索大量文檔數(shù)據(jù)時,這種做法往往會造成不小的挑戰(zhàn)。此時,電子文檔管理系統(tǒng)(Electronic Document Management System,EDMS)就成了一種更好的解決方案,因為它們在設(shè)計上就能以極高的性能和可用性來存儲、索引和檢索不同類型的文檔,甚至能提供可定制的元數(shù)據(jù)和版本控制等功能。
延伸閱讀,了解 Akamai cloud-computing
更多強(qiáng)大工具,選擇Akamai cloud-computing!
目前市面上有很多基于SaaS的EDMS解決方案,但為了完全控制自己的數(shù)據(jù),我們也可以借助開源EDMS軟件部署自己專用的文檔管理系統(tǒng)。本文將介紹如何在Linode平臺上,借助PostgreSQL數(shù)據(jù)庫部署高可用的Mayan EDMS。
EDMS帶來的好處
如果希望使用基于Web應(yīng)用程序的EDMS來存儲和處理海量文檔,并且不希望客戶端安裝任何應(yīng)用程序,那么這種方式將會是一種理想的選擇。這種中心化運行的EDMS能更好地保證:
- 自己數(shù)據(jù)的安全性、隱私性以及完全的控制能力
- 與第三方軟件實現(xiàn)更輕松的集成
- 圍繞業(yè)務(wù)流程打造自動化的文檔工作流
為何使用PostgreSQL?
PostgreSQL是一個強(qiáng)大且開源的對象關(guān)系型數(shù)據(jù)庫管理系統(tǒng),因其可擴(kuò)展性、安全性和性能而廣受贊譽。為了支持應(yīng)用程序的端到端擴(kuò)展,數(shù)據(jù)庫還需要具備高可用性。因此本架構(gòu)包含了專門用于PostgreSQL的數(shù)據(jù)復(fù)制工具。
Mayan EDMS上手
Mayan是一款使用Python開發(fā),基于Web的開源EDMS。按照設(shè)計,Mayan默認(rèn)可在一臺服務(wù)器上安裝和運行,此時應(yīng)用程序和數(shù)據(jù)庫組件可以位于同一臺服務(wù)器或多個Docker容器中。這種配置很適合開發(fā)、測試環(huán)境,但在生產(chǎn)環(huán)境中,我們需要更高可用性,并實現(xiàn)SoC(Separation of Concern,關(guān)注點分離)這種已經(jīng)廣為人知的概念。這是構(gòu)建分層、可擴(kuò)展應(yīng)用程序時很重要的一個最佳實踐。我們的參考架構(gòu)將介紹如何用Mayan實現(xiàn)該目標(biāo)。
1.優(yōu)勢
- 開源,無需購買許可
- 可輕松存儲、查看和檢索文檔的不同版本
- 使用可定制的“用戶定義的元數(shù)據(jù)”對文檔進(jìn)行全文搜索
- 靈活的訪問控制,借此設(shè)計有效的用戶角色和權(quán)限
- 可定制的工作流,通過事件觸發(fā)器保持文檔處于最新狀態(tài)
2.不足
- 對于較小的用例來說略顯復(fù)雜
- 相比其他解決方案,用戶界面不夠直觀
- 光學(xué)字符識別(OCR)功能需要耗費大量CPU資源
應(yīng)用程序參考架構(gòu)
為了在現(xiàn)實用例中充分優(yōu)化Mayan的能力,我們的參考架構(gòu)使用了下列組件:
- NGINX:Web服務(wù)器
- Prometheus和Grafana:監(jiān)控和可觀測性工具
- PostgreSQL:數(shù)據(jù)庫
- Bucardo:PostgreSQL雙向數(shù)據(jù)庫復(fù)制
- Linode Object Storage:兼容S3的高可用存儲服務(wù)
- keepalived:IP故障轉(zhuǎn)移
NodeBalancer可將流量分配給不同的應(yīng)用程序節(jié)點。如果一臺應(yīng)用服務(wù)器停機(jī),負(fù)載均衡服務(wù)即可開始將流量分配到正常運行的節(jié)點。一旦故障節(jié)點恢復(fù)正常,負(fù)載均衡服務(wù)將像故障前那樣分配流量。借此我們可以輕松添加、刪除或更新應(yīng)用程序服務(wù)器,而無需擔(dān)心可能導(dǎo)致停機(jī),并且始終維持與PostgreSQL數(shù)據(jù)庫節(jié)點的連接。
作為該應(yīng)用的“大腦”,Mayan和NGINX被部署在同一臺虛擬機(jī)中,我們可以借助Mayan對s3boto3的支持獲得存儲后端,借此將文檔上傳至Linode可兼容S3的對象存儲服務(wù)中。
如果應(yīng)用程序非常關(guān)鍵,并使用PostgreSQL作為主后端數(shù)據(jù)庫,那么可以加入Bucardo以更好地保障持續(xù)運行時間,并為數(shù)據(jù)庫提供容錯性。
我們還可以借助支持PostgreSQL的托管數(shù)據(jù)庫服務(wù)來獲得高可用性和復(fù)制能力,但是需要注意,大部分DBaaS服務(wù)的重點都是更新PostgreSQL版本并確保數(shù)據(jù)庫集群始終聯(lián)機(jī)和可用。因此實施Bucardo可以讓我們的PostgreSQL數(shù)據(jù)庫在兩個或更多數(shù)據(jù)庫節(jié)點之間進(jìn)行雙向復(fù)制,從而保證數(shù)據(jù)庫的高可用性。
本例中,所有節(jié)點都使用Cloud Firewalls進(jìn)行保護(hù),防范來自公共互聯(lián)網(wǎng)的威脅,這些節(jié)點通過私有VLAN實現(xiàn)內(nèi)部通信。應(yīng)用程序服務(wù)器通過一個共享的浮動VLAN IP地址連接到數(shù)據(jù)庫,并通過Keepalived實現(xiàn)故障轉(zhuǎn)移。
Keepalived(或其他IP故障轉(zhuǎn)移系統(tǒng),如FRRouting (FRR))是在數(shù)據(jù)庫層面上實現(xiàn)的,因此正常運行的數(shù)據(jù)庫節(jié)點將能順利連接至應(yīng)用程序節(jié)點集群中。
為重要文件實現(xiàn)容錯
EDMS通常會充當(dāng)日常工作的中心,其中可能存儲了企業(yè)中最重要的文件。本例介紹的應(yīng)用程序在每個層面上都建立了冗余,不僅可以容錯,也能進(jìn)一步優(yōu)化性能:
- 文檔存儲在Linode的高可用Object Storage服務(wù)中
- 數(shù)據(jù)庫位于單獨的節(jié)點上,不僅可以改善性能,而且有助于防止單點故障
- Bucardo可以在Postgres節(jié)點之間自動執(zhí)行數(shù)據(jù)庫復(fù)制
探索更多技術(shù)內(nèi)容和架構(gòu)
Akamai和Linode的解決方案工程團(tuán)隊會定期分享類似這樣的框架、指南和工具,從而幫助開發(fā)者更輕松地遵循最佳實踐來構(gòu)建應(yīng)用程序的軟件架構(gòu)。
這篇文章的內(nèi)容感覺還行吧?有沒有想要立即在 Linode 平臺上親自嘗試一下?別忘了,現(xiàn)在注冊可以免費獲得價值 100 美元的使用額度,快點自己動手體驗本文介紹的功能和服務(wù)吧↓↓↓
強(qiáng)大開發(fā)工具,Akamai是您的不二之選!
歡迎關(guān)注Akamai ,第一時間了解高可用的MySQL/MariaDB參考架構(gòu),以及豐富的應(yīng)用程序示例