?面試題:AI時(shí)代下怎么設(shè)計(jì)一個(gè)數(shù)據(jù)平臺(tái)?
你是一個(gè)程序員,如果最近面試的時(shí)候,面試官問(wèn)你,怎么在AI時(shí)代下設(shè)計(jì)一個(gè)數(shù)據(jù)平臺(tái),你會(huì)怎么回答?
不要懷疑,他只是想在你答不出來(lái)的時(shí)候,將他在騰訊全球數(shù)字生態(tài)大會(huì)上,聽到的 Data Platform 數(shù)據(jù)平臺(tái)解決方案,再講一遍給你聽而已。
我來(lái)?yè)尨鹨幌隆?/p>
構(gòu)建數(shù)據(jù)湖
數(shù)據(jù)平臺(tái),最重要的是數(shù)據(jù)。AI時(shí)代下,視頻,文本,音樂(lè)等一系列文件數(shù)據(jù),都需要在一個(gè)統(tǒng)一的存儲(chǔ)池上存儲(chǔ)和處理,這個(gè)地方就是對(duì)象存儲(chǔ)COS。
對(duì)象存儲(chǔ)可以提供海量結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ),構(gòu)成了龐大的數(shù)據(jù)存儲(chǔ)中心,這就是所謂的數(shù)據(jù)湖。
使用數(shù)據(jù)萬(wàn)象處理數(shù)據(jù)
有了數(shù)據(jù)湖之后,我們需要對(duì)數(shù)據(jù)進(jìn)行批量處理與管理,這部分能力在Data Platform上叫數(shù)據(jù)萬(wàn)象。
它包含Data Engine和MetaInsight雙引擎。
Data Engine提供圖片極智壓縮、圖片數(shù)字水印,視頻邊轉(zhuǎn)邊播等工作流批量處理能力。
處理完成后,在AI大模型能力的加持下,MetaInsight提取文件特征,生成多維云端索引,實(shí)現(xiàn)文搜圖,圖搜圖等一系列跨模態(tài)分析能力。
數(shù)據(jù)加速器 GooseFS
數(shù)據(jù)加速器 GooseFS 能夠大幅提升數(shù)據(jù)訪問(wèn)性能,加速?gòu)拇娴接玫淖詈笠还铩?/p>
當(dāng)業(yè)務(wù)需要從海量數(shù)據(jù)中通過(guò)計(jì)算任務(wù)提取有效信息,訓(xùn)練模型的時(shí)候,使用 GooseFS 可以更高效地訪問(wèn)到目標(biāo)數(shù)據(jù)。GooseFS 可以通過(guò)將數(shù)據(jù)調(diào)度到本地計(jì)算節(jié)點(diǎn),大大提升數(shù)據(jù)讀寫能力,大大縮短大數(shù)據(jù)任務(wù)和模型訓(xùn)練時(shí)間,效率拉滿!
使用日志服務(wù)監(jiān)控?cái)?shù)據(jù)平臺(tái)
怎么監(jiān)控?cái)?shù)據(jù)平臺(tái)的運(yùn)行過(guò)程呢?自然是通過(guò)日志啦,使用日志服務(wù)CLS可以集中采集、監(jiān)控平臺(tái)日志。
CLS還可以使用SQL對(duì)日志進(jìn)行統(tǒng)計(jì)分析,比如COS文件訪問(wèn)分布、模型訓(xùn)練成功率、任務(wù)執(zhí)行耗時(shí)變化等等。最妙的是CLS還可以通過(guò)混元大模型智能生成SQL語(yǔ)句,各種統(tǒng)計(jì)分析So Easy!
以上只是 Data Platform 數(shù)據(jù)平臺(tái)解決方案的一小部分能力。