復(fù)雜「場(chǎng)景」數(shù)據(jù)導(dǎo)入導(dǎo)出
一、業(yè)務(wù)背景
最近遇到這樣一個(gè)場(chǎng)景:在業(yè)務(wù)正式開(kāi)始前1-2天,需要導(dǎo)入一批來(lái)自合作渠道的數(shù)據(jù),在業(yè)務(wù)周期結(jié)束后,再將同一批數(shù)據(jù)導(dǎo)出,交付給渠道方;
簡(jiǎn)單理解,就是數(shù)據(jù)的「導(dǎo)入」和「導(dǎo)出」;
但是場(chǎng)景復(fù)雜度的高低與否,與實(shí)現(xiàn)流程和邏輯的復(fù)雜度并無(wú)什么必然聯(lián)系,數(shù)據(jù)在「導(dǎo)入」和「導(dǎo)出」之間,通常還會(huì)橫著復(fù)雜的「業(yè)務(wù)邏輯」;
數(shù)據(jù)如果只是在文件和單表直接來(lái)回?fù)v騰,解決的方案簡(jiǎn)直花里胡哨,然而在應(yīng)用中數(shù)據(jù)導(dǎo)入導(dǎo)出,更多還是要集成業(yè)務(wù)需求,自然也就繞不開(kāi)業(yè)務(wù)的處理邏輯;
二、場(chǎng)景分析
1、文件特征
文件:「Excel」類(lèi)型,并且表頭是固定格式,字段內(nèi)容雖然有要求,但是難免存在細(xì)微的誤差問(wèn)題;
內(nèi)容:條數(shù)「1000」以?xún)?nèi),單條數(shù)據(jù)「150+」個(gè)字段,業(yè)務(wù)結(jié)束后導(dǎo)出,會(huì)添加業(yè)務(wù)結(jié)果和明細(xì)相關(guān)字段,最終在「200」個(gè)字段左右;
2、業(yè)務(wù)特征
文件導(dǎo)入后,數(shù)據(jù)在業(yè)務(wù)之間流轉(zhuǎn)時(shí),需要構(gòu)建相應(yīng)的主體結(jié)構(gòu),比如基礎(chǔ)的「客戶(hù)檔案」,「業(yè)務(wù)檔案」,業(yè)務(wù)處理過(guò)程中會(huì)生成「明細(xì)」,處理完成后會(huì)生成「結(jié)果」;
3、數(shù)據(jù)規(guī)則
【客戶(hù)檔案】
數(shù)據(jù)在入庫(kù)的過(guò)程中,需要校驗(yàn)「客戶(hù)歸屬」問(wèn)題,庫(kù)內(nèi)已有的客戶(hù)基于「跟進(jìn)時(shí)間」執(zhí)行「更新邏輯」,庫(kù)內(nèi)沒(méi)有的客戶(hù)需要「新增」并「分配跟進(jìn)人員」;
【業(yè)務(wù)檔案】
跟隨「客戶(hù)檔案」的邏輯,如果客戶(hù)更新,則「業(yè)務(wù)檔案」更新,如果客戶(hù)不更新,則「業(yè)務(wù)檔案」不更新,如果客戶(hù)新增,則「業(yè)務(wù)檔案」直接新增即可;
【數(shù)據(jù)校驗(yàn)】
客戶(hù)的「基礎(chǔ)檔案」和「業(yè)務(wù)檔案」的入庫(kù)邏輯,完全遵守產(chǎn)品體系現(xiàn)有的限制規(guī)則,在邏輯攔截時(shí)盡量輸出全面的攔截原因,方便商務(wù)人員對(duì)文件數(shù)據(jù)進(jìn)行修改調(diào)整;
三、流程設(shè)計(jì)
1、業(yè)務(wù)流程
業(yè)務(wù)流程從整體上可以拆分四段來(lái)看:動(dòng)作確認(rèn)、動(dòng)作監(jiān)聽(tīng)、數(shù)據(jù)處理、業(yè)務(wù)處理;
【動(dòng)作確認(rèn)】
- 「導(dǎo)入」應(yīng)用前端完成文件上傳OSS的處理,向應(yīng)用后端提交數(shù)據(jù)導(dǎo)入的請(qǐng)求,接收請(qǐng)求后會(huì)異步處理;
- 「異常記錄下載」會(huì)實(shí)時(shí)響應(yīng),功能上看就是一個(gè)單表導(dǎo)出,需要返回業(yè)務(wù)攔截和異常信息;
- 「導(dǎo)出」因?yàn)榻桓稌r(shí)間不確定性,所以由商務(wù)人員手動(dòng)觸發(fā)導(dǎo)出,后端組裝完成后提交OSS文件服務(wù)器,等待下載;
【動(dòng)作監(jiān)聽(tīng)】
- 「導(dǎo)入」和「導(dǎo)出」的動(dòng)作監(jiān)聽(tīng),進(jìn)而觸發(fā)相應(yīng)的流程邏輯;
【數(shù)據(jù)處理】
- 「客戶(hù)檔案」提交給客戶(hù)服務(wù)處理,如果處理失敗,無(wú)法圍繞客戶(hù)構(gòu)建業(yè)務(wù)流,直接中斷全部流程;
- 「業(yè)務(wù)檔案」提交給業(yè)務(wù)服務(wù)處理,這里指業(yè)務(wù)屬性的資料信息,并非場(chǎng)景流程;
【業(yè)務(wù)處理】
- 「數(shù)據(jù)導(dǎo)入」的真正目的,依賴(lài)系統(tǒng)的處理能力,從而實(shí)現(xiàn)相應(yīng)的業(yè)務(wù)流程,在過(guò)程中會(huì)生成關(guān)鍵明細(xì)和結(jié)果數(shù)據(jù);
2、導(dǎo)入流程
- 【1】應(yīng)用后端接收用戶(hù)提交的「導(dǎo)入」請(qǐng)求,動(dòng)作接收成功后立即響應(yīng);
- 【2】完成「導(dǎo)入」記錄的存儲(chǔ)之后,通過(guò)MQ消息隊(duì)列,解耦文件數(shù)據(jù)的處理流程;
- 【3】對(duì)文件進(jìn)行解析,讀取源數(shù)據(jù)并存儲(chǔ)到明細(xì)表;
- 【4】遍歷明細(xì)數(shù)據(jù)分別實(shí)現(xiàn)「客戶(hù)」和「業(yè)務(wù)」的檔案存儲(chǔ),此處會(huì)把失敗原因最大限度回寫(xiě)到明細(xì)記錄中,方便商務(wù)二次導(dǎo)入;
- 【5】完成數(shù)據(jù)入庫(kù)后,更新「導(dǎo)入」動(dòng)作的狀態(tài),最核心的是提供失敗記錄的明細(xì)和下載功能;
3、導(dǎo)出流程
- 【1】應(yīng)用后端接收用戶(hù)提交的「導(dǎo)出」請(qǐng)求,動(dòng)作接收成功后立即響應(yīng),初始狀態(tài)為:「處理中」;
- 【2】完成「導(dǎo)出」記錄的存儲(chǔ)之后,通過(guò)MQ消息隊(duì)列,解耦文件的「創(chuàng)建」和「上傳」流程;
- 【3】文件數(shù)據(jù)分為兩部分,文件原內(nèi)容和業(yè)務(wù)處理結(jié)果,組裝為新的數(shù)據(jù)結(jié)構(gòu);
- 【4】創(chuàng)建新的文件,涉及數(shù)據(jù)表頭的合并,數(shù)據(jù)內(nèi)容的合并,以及「Excel」的格式構(gòu)建,從而完成文件的生成過(guò)程;
- 【5】將生成的文件上傳到文件服務(wù)器,由商務(wù)人員自行下載并導(dǎo)出,然后交付給渠道方;
四、結(jié)構(gòu)設(shè)計(jì)
數(shù)據(jù)導(dǎo)入的表結(jié)構(gòu),是由具體業(yè)務(wù)場(chǎng)景決定的,此處就不做展示了;這里只看一看導(dǎo)入導(dǎo)出的調(diào)度表結(jié)構(gòu),即操作記錄和狀態(tài)以及數(shù)據(jù)明細(xì)的存儲(chǔ);
【動(dòng)作記錄】
存儲(chǔ)「導(dǎo)入」和「導(dǎo)出」的請(qǐng)求記錄,都涉及文件信息的管理,至于「業(yè)務(wù)ID」和「批次ID」是指集成業(yè)務(wù)的處理流程,同時(shí)也可以基于該「ID」限制同批次下的重復(fù)動(dòng)作,降低不必要的資源占用;
【數(shù)據(jù)明細(xì)】
在「導(dǎo)入」的時(shí)候,對(duì)文件數(shù)據(jù)的臨時(shí)記錄表,方便對(duì)數(shù)據(jù)的多次讀取和處理,避免流程中斷導(dǎo)致文件的重復(fù)解析;
在「導(dǎo)出」的時(shí)候,需要依賴(lài)原數(shù)據(jù)的構(gòu)建新的「Excel」文件,在交付渠道方時(shí)保證原內(nèi)容的不變,只新增系統(tǒng)中業(yè)務(wù)的處理明細(xì)和結(jié)果;
五、實(shí)踐總結(jié)
雖然對(duì)于「Excel」或者其他文件的「導(dǎo)入」和「導(dǎo)出」的參考案例很多;
但是在研發(fā)實(shí)踐中,這依舊是一個(gè)不容易實(shí)現(xiàn)的過(guò)程,在數(shù)據(jù)和文件互相搬運(yùn)的過(guò)程中,如何與「業(yè)務(wù)場(chǎng)景」進(jìn)行平穩(wěn)的集成,才是真正的復(fù)雜邏輯;
從開(kāi)始工作直到現(xiàn)在,關(guān)于「導(dǎo)入」和「導(dǎo)出」的實(shí)現(xiàn)方案參考或者落地過(guò)很多個(gè),整體可以從兩個(gè)方向考慮;
【應(yīng)用系統(tǒng)】
通常文件格式是「Excel」、「Word」、「Pdf」等,并且涉及的數(shù)據(jù)體量并不大,采取「異步」的方式解耦即可;
對(duì)于文件的「導(dǎo)入」來(lái)說(shuō),需要重點(diǎn)考慮的邏輯,在于如何與業(yè)務(wù)平穩(wěn)集成,在出現(xiàn)問(wèn)題時(shí),能夠給產(chǎn)品頁(yè)面準(zhǔn)確的信息反饋,從而提高文件的二次處理效率;
對(duì)于數(shù)據(jù)的「導(dǎo)出」來(lái)說(shuō),是一個(gè)「高?!沟牟僮?,通常是不分配大量數(shù)據(jù)的導(dǎo)出「權(quán)限」,如果有需求則要對(duì)數(shù)據(jù)進(jìn)行計(jì)算分「批次」導(dǎo)出;
【數(shù)據(jù)系統(tǒng)】
數(shù)據(jù)體量較大的情況下,不推薦從應(yīng)用系統(tǒng)考慮「優(yōu)化」的策略;
如何確定「數(shù)據(jù)體量較大」的臨界值,需要測(cè)試系統(tǒng)的處理能力,系統(tǒng)業(yè)務(wù)流量高峰時(shí),去「并發(fā)」執(zhí)行導(dǎo)入和導(dǎo)出,從而得出合理的數(shù)值,不過(guò)大部分產(chǎn)品都是限制單文件最大「5000」條;
從分布式架構(gòu)中組裝大量的數(shù)據(jù)并「導(dǎo)出」文件,其資源占用過(guò)高,并非主流的實(shí)踐方案;
當(dāng)下比較常見(jiàn)的方式,直接從「數(shù)據(jù)層面」入手,搭建「?jìng)鬏敗够颉皋D(zhuǎn)換」的通道,以「API」或者「頁(yè)面入口」的方式,觸發(fā)流程即可;
在數(shù)據(jù)體量超過(guò)應(yīng)用系統(tǒng)的處理能力時(shí),會(huì)搭建專(zhuān)用的「數(shù)據(jù)傳輸通道」來(lái)處理;
這種模式在數(shù)據(jù)型業(yè)務(wù)中很常用,可以隔離大量數(shù)據(jù)的「IO流」操作,確保應(yīng)用系統(tǒng)運(yùn)行的安全穩(wěn)定,也可以極大提升數(shù)據(jù)和文件互相搬運(yùn)的處理效率;