自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CTO訓(xùn)練營(yíng)郭江亮:百度私有云和開(kāi)放云中的大數(shù)據(jù)平臺(tái)

原創(chuàng)
移動(dòng)開(kāi)發(fā)
由51CTO高招主辦的“CTO訓(xùn)練營(yíng)”活動(dòng)圓滿(mǎn)結(jié)束,來(lái)自百度開(kāi)放云大數(shù)據(jù)平臺(tái)研發(fā)經(jīng)理郭江亮在活動(dòng)現(xiàn)場(chǎng)做了主題為“百度私有云和開(kāi)放云中的大數(shù)據(jù)平臺(tái)”的分享,本文章是針對(duì)演講干貨整理,呈獻(xiàn)給大家。

百度開(kāi)放云大數(shù)據(jù)平臺(tái)研發(fā)經(jīng)理郭江亮在由51CTO高招主辦的“CTO訓(xùn)練營(yíng)第四課百度技術(shù)專(zhuān)場(chǎng)”做了主題為“百度私有云和開(kāi)放云中的大數(shù)據(jù)平臺(tái)”的分享。其內(nèi)容主要介紹百度私有云中的大規(guī)模分布式計(jì)算技術(shù)和百度開(kāi)放云中的大數(shù)據(jù)產(chǎn)品、技術(shù)架構(gòu)以及當(dāng)前百度對(duì)開(kāi)放云+大數(shù)據(jù)+行業(yè)的一些思考。

目前,百度在云計(jì)算和大數(shù)據(jù),金融和醫(yī)療的結(jié)合中均有一些產(chǎn)品思路和經(jīng)驗(yàn)積累。百度的前幾年是做分布式存儲(chǔ),近幾年在做分布式計(jì)算,比較新興的像Hadoop。從14年開(kāi)始,百度推出了在往外孵化出的公有云業(yè)務(wù),是類(lèi)似于阿里云、AWS這樣的企業(yè)級(jí)服務(wù)的開(kāi)放云,公有云是以前百度做內(nèi)部的風(fēng)控架構(gòu)后來(lái)擴(kuò)展做對(duì)外的企業(yè)服務(wù)。

私有云的分布式計(jì)算

私有云分布式計(jì)算技術(shù)棧

在Matrix的資源調(diào)度之上,做分布式計(jì)算。分布式計(jì)算和底層資源相當(dāng)于是適配器,這兩個(gè)結(jié)合起來(lái)和社區(qū)里的對(duì)應(yīng)。往上,是各種計(jì)算引擎,離線(xiàn)計(jì)算還有實(shí)時(shí)的。底層資源的兩個(gè)是實(shí)時(shí)計(jì)算平臺(tái)。中間是DCE,是一個(gè)類(lèi)似于Hadoop的計(jì)算引擎。旁邊有ELF的一個(gè)平臺(tái),最右邊是spark。

百度所有機(jī)器都已經(jīng)資源化,把所有的資源管理起來(lái),然后離線(xiàn),離線(xiàn)是全部已經(jīng)保存下來(lái)?,F(xiàn)在百度在逐步做一些在線(xiàn)的業(yè)務(wù),因?yàn)樵诰€(xiàn)業(yè)務(wù)和離線(xiàn)業(yè)務(wù)還是不一樣的,所以百度的機(jī)房也是在線(xiàn)機(jī)房和離線(xiàn)機(jī)房分開(kāi)的。

為什么以前百度都是自研呢?因?yàn)榘俣葍?nèi)部有一些自己的訴求,同時(shí)也涉及一些其他問(wèn)題。百度本身是一個(gè)做搜索的大數(shù)據(jù)公司,它不僅僅是一個(gè)數(shù)據(jù)公司。其所面臨的數(shù)據(jù)挑戰(zhàn)非常巨大,超過(guò)社區(qū)所面對(duì)的問(wèn)題。所以百度一開(kāi)始也有參考社區(qū)的一些思路,但是后面由于需求量又大又快,社區(qū)的思路完全跟不上,才開(kāi)始走上自研的道路。這個(gè)相當(dāng)于是百度整個(gè)的技術(shù)站。

除了谷歌之外,百度的應(yīng)該是全球***的一個(gè)離線(xiàn)計(jì)算集群了,或者離線(xiàn)計(jì)算平臺(tái)。一開(kāi)始是從Hadoop出來(lái),中間做了很多C++的擴(kuò)展,因?yàn)樗鉀Q很多性能問(wèn)題。

百度離線(xiàn)計(jì)算

  • 為百度提供高吞吐的離線(xiàn)計(jì)算服務(wù)
  • 10W+臺(tái)服務(wù)器, 20+個(gè)集群,單機(jī)群***規(guī)模1.3w臺(tái)
  • 日均吞吐百PB級(jí),日均作業(yè)數(shù)50w+

百度實(shí)時(shí)計(jì)算

  • 為百度提供高時(shí)效性的計(jì)算服務(wù),毫秒級(jí)延遲
  • 集群規(guī)模近1W、應(yīng)用產(chǎn)品線(xiàn)80+
  • 提供通用流式Join解決方案

另一個(gè)思路,搭建這些平臺(tái)還需要相應(yīng)的技術(shù)專(zhuān)家,還需要一些集群資源等網(wǎng)絡(luò),以及成本,成本是比較高昂的。但是如果是不想建的話(huà),可以選擇公有云,比如說(shuō)百度開(kāi)放云。

開(kāi)放云和大數(shù)據(jù)的平臺(tái)

百度開(kāi)放云,可以做數(shù)據(jù)應(yīng)用,支撐R+的用戶(hù)數(shù)據(jù),主要對(duì)象是一些APP,比如說(shuō)手機(jī)百度、百度地圖這些,所有數(shù)據(jù)也是用統(tǒng)一的收集和處理,所以有多個(gè)產(chǎn)品的支撐,有專(zhuān)業(yè)的技術(shù)專(zhuān)家。

百度開(kāi)放云產(chǎn)品概覽

大數(shù)據(jù)處理

如果遇到一個(gè)數(shù)據(jù)需求,會(huì)有完整的流程規(guī)劃,從數(shù)據(jù)的收集到存儲(chǔ),中間可能還有一個(gè)傳輸。從收集、傳輸、存儲(chǔ),一直到數(shù)據(jù)的處理變形,到最終的數(shù)據(jù)分析和應(yīng)用,是一個(gè)完整的流。但是現(xiàn)在的數(shù)據(jù)和之前的不一樣,比如CRM,現(xiàn)在從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),數(shù)據(jù)種類(lèi)越來(lái)越多,對(duì)數(shù)據(jù)的時(shí)效性,都有很高的要求。所以如何能快速的收集,并且能夠快速的傳輸,這個(gè)也是一個(gè)問(wèn)題。

收集,百度面對(duì)原始數(shù)據(jù)種類(lèi)多樣,格式、位置、存儲(chǔ)、時(shí)效性等迥異問(wèn)題,采用的是從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應(yīng)的格式,從而方便做處理。

存儲(chǔ)有多種需求,一些行業(yè)存在特殊需求,比如說(shuō)基因行業(yè)、基因大數(shù)據(jù),做測(cè)序。我們一個(gè)人的基因數(shù)據(jù)要測(cè)的話(huà),要上很多G,量比較大。還有時(shí)效性的要求。像廣電是網(wǎng)絡(luò)的需求,但是廣電又有一些網(wǎng)絡(luò)出來(lái),都是在線(xiàn)的模式。另外還有一個(gè)硬盤(pán)IP,存量數(shù)據(jù)的話(huà),硬盤(pán)就是比較好用的方式,當(dāng)然里面有一些數(shù)據(jù)安全,有一些加密甚至是協(xié)議在里面??赡苁怯脖P(pán)快遞的方式,把存量的數(shù)據(jù)全部放上來(lái)之后,后續(xù)增量的數(shù)據(jù),先慢慢的通過(guò)公網(wǎng)以后,斷電也好,可以慢慢的持續(xù)的上升。這個(gè)是存儲(chǔ)。因?yàn)槭谴髷?shù)據(jù)的處理,所以首先要把它存起來(lái)。收集好的數(shù)據(jù)需要根據(jù)成本、格式、查詢(xún)、業(yè)務(wù)邏輯等需求,存放在合適的存儲(chǔ)中,方便進(jìn)一步分析。

變形,原始數(shù)據(jù)需要變形與增強(qiáng)之后才適合分析。比如網(wǎng)頁(yè)日志中吧IP地址替換成省市、傳感器數(shù)據(jù)的糾錯(cuò)、用戶(hù)行為統(tǒng)計(jì)等等。

分析,通過(guò)整理好得數(shù)據(jù)分析what happened、why did it happen、what is happening和what will happen,多提些這樣的問(wèn)題來(lái)幫助企業(yè)做決策。

百度開(kāi)放云大數(shù)據(jù)堆棧

優(yōu)勢(shì)

依托百度技術(shù)。百度搜索收錄全世界超過(guò)萬(wàn)億網(wǎng)頁(yè)、承載中國(guó)網(wǎng)民每天幾十億次的請(qǐng)求,大數(shù)據(jù)技術(shù)支撐20多個(gè)用戶(hù)過(guò)億產(chǎn)品以及百萬(wàn)企業(yè)客戶(hù),2013年百度建成全球***的Hadoop集群,2014年百度大數(shù)據(jù)處理能力BaiduSort獲得國(guó)際排序大賽冠軍。

開(kāi)源開(kāi)放。提供開(kāi)源產(chǎn)品托管服務(wù)或者接口完全兼容產(chǎn)品,方便互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)平滑遷移,用戶(hù)無(wú)需擔(dān)心被特定平臺(tái)或者技術(shù)綁定。

產(chǎn)品先進(jìn)。強(qiáng)化開(kāi)源產(chǎn)品,讓開(kāi)源產(chǎn)品更穩(wěn)定、更高效、更安全,大大提高成熟度,云端托管服務(wù),讓用戶(hù)聚焦業(yè)務(wù)而不是修復(fù)缺陷和運(yùn)營(yíng),產(chǎn)品在百度內(nèi)部久經(jīng)考驗(yàn),適合企業(yè)部署生產(chǎn)環(huán)境。

BMR

BMR是Hadoop/Spark托管服務(wù),為方便使用MapReduce、Spark、Hbase、Hive、Pig、Kafka等進(jìn)行大數(shù)據(jù)處理,是國(guó)內(nèi)***完全兼容開(kāi)源Hadoop的大數(shù)據(jù)服務(wù)。有著幾分鐘便可創(chuàng)建集群,無(wú)需為節(jié)點(diǎn)分配、部署、優(yōu)化操心;借助豐富的示例和場(chǎng)景教程,能夠快速上手達(dá)成業(yè)務(wù)目標(biāo)。并且適用集群可大可小,支持動(dòng)態(tài)伸縮,能夠有效避免資源浪費(fèi);支持計(jì)算與存儲(chǔ)分離,集群可以處理存放在BOS云存儲(chǔ)服務(wù)上。完全兼容開(kāi)源社區(qū)版本的Hadoop/Spark,客戶(hù)可以使用開(kāi)源標(biāo)準(zhǔn)API邊寫(xiě)作業(yè),無(wú)需任何修改便可以遷移上云端。集群內(nèi)的Hadoop、Spark、Hbase等關(guān)鍵組件都支持高可用特性,確保服務(wù)可用性。

適用的業(yè)務(wù)場(chǎng)景有日志分析、數(shù)據(jù)整理、實(shí)時(shí)流處理。

Palo

PB級(jí)聯(lián)機(jī)分析處理(OLAP)引擎,集穩(wěn)定、高效、低成本等優(yōu)勢(shì)的在線(xiàn)報(bào)表和多維分析服務(wù)。業(yè)界領(lǐng)先的MPP查詢(xún)引擎、列式存儲(chǔ)、智能索引、向量執(zhí)行;高度兼容SQL標(biāo)準(zhǔn),并提供庫(kù)內(nèi)分析、窗口函數(shù)等高級(jí)分析功能。數(shù)據(jù)、元數(shù)據(jù)多副本存儲(chǔ),宕機(jī)期間不影響查詢(xún)服務(wù),機(jī)器故障副本自動(dòng)遷移。無(wú)須停服務(wù)即可建立物化視圖、更改表結(jié)構(gòu);支持靈活高效的數(shù)據(jù)恢復(fù)??梢暬汗芾恚憬莸臄?shù)據(jù)導(dǎo)入;支持標(biāo)準(zhǔn)的SQL操作。

適用的業(yè)務(wù)場(chǎng)景有聯(lián)機(jī)分析、多維分析、在線(xiàn)報(bào)表。

BML

針對(duì)海量數(shù)據(jù)提供的云端托管的分布式機(jī)器學(xué)習(xí)平臺(tái),助力客戶(hù)輕松使用最前沿的機(jī)器學(xué)習(xí)技術(shù)獲得大數(shù)據(jù)預(yù)測(cè)分析能力。基于百度內(nèi)部積累多年的(包括深度學(xué)習(xí))機(jī)器學(xué)習(xí)算法庫(kù),國(guó)內(nèi)***個(gè)機(jī)器學(xué)習(xí)服務(wù)。大同特征功能、模型訓(xùn)練、模型評(píng)估和預(yù)測(cè)服務(wù)全流程,拖拽式操作。分布式、全內(nèi)存集群提供強(qiáng)大的計(jì)算能力,海量數(shù)據(jù)也可以輕松處理。搭載多個(gè)分類(lèi)、聚類(lèi)、回歸、主圖模型、推薦和深度學(xué)習(xí)算法。提供數(shù)字廣告營(yíng)銷(xiāo)、推薦系統(tǒng)、文本分析、故障檢測(cè)等多個(gè)完善的解決方案,能夠使用戶(hù)快速的把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到業(yè)務(wù)系統(tǒng)中。

適用的業(yè)務(wù)場(chǎng)景有數(shù)字廣告營(yíng)銷(xiāo)、商品和商家推薦、主題和摘要提取。

現(xiàn)在很多創(chuàng)業(yè)公司做公有云大數(shù)據(jù)平臺(tái)是比較困難的,因?yàn)楣性扑且粋€(gè)數(shù)據(jù)和應(yīng)用的結(jié)合體,服務(wù)器成本、網(wǎng)絡(luò)成本等等,技術(shù)上比較困難,基本上會(huì)屬于***批。當(dāng)然體制內(nèi)的,比如政企的會(huì)有一套自己的公有云并不用BAT的。BAT體量的公司來(lái)做公有云,或者公有云大數(shù)據(jù)方面,他們成本是所有的數(shù)據(jù)。數(shù)據(jù)將來(lái)可能會(huì)越來(lái)越成為一個(gè)資產(chǎn),也可以說(shuō)數(shù)據(jù)的作用會(huì)越來(lái)越大。每個(gè)人可能有每個(gè)人的數(shù)據(jù),每家小飯館,或者小公司都有自己的數(shù)據(jù),客戶(hù)數(shù)據(jù),營(yíng)運(yùn)數(shù)據(jù),都可以作為交換發(fā)揮價(jià)值。

郭江亮認(rèn)為,公有云大數(shù)據(jù)平臺(tái)有很多潛在機(jī)會(huì),目前百度數(shù)據(jù)、公有云也在做,但是因?yàn)榘俣仁且粋€(gè)信息的集成的集市,所以在應(yīng)用這方面還有所欠缺。

 

責(zé)任編輯:陳琳 來(lái)源: 51cto
相關(guān)推薦

2016-05-14 20:54:34

CTO訓(xùn)練營(yíng)大數(shù)據(jù)百度開(kāi)放云

2016-05-25 16:57:23

百度大數(shù)據(jù)

2018-03-13 14:38:11

百度AIpaddlepaddl深度學(xué)習(xí)

2011-12-08 15:31:24

百度開(kāi)放平臺(tái)

2016-05-24 10:50:49

2016-08-30 18:14:43

管理51CTO技術(shù)

2016-08-05 20:21:51

CTO導(dǎo)師技術(shù)

2016-08-05 18:53:25

CTO導(dǎo)師技術(shù)

2016-01-05 13:44:39

2014-04-24 16:48:18

大數(shù)據(jù)引擎百度大腦百度

2016-10-17 13:50:31

2015-03-24 13:00:47

大數(shù)據(jù)政府大數(shù)據(jù)百度大數(shù)據(jù)

2011-12-12 14:01:52

百度開(kāi)放平臺(tái)

2013-11-08 13:26:57

百度LBS開(kāi)放平臺(tái)

2013-11-22 15:17:44

百度輕應(yīng)用開(kāi)發(fā)者

2016-04-27 10:42:44

宜人貸CTO段念

2016-09-13 19:21:07

CTO管理技術(shù)

2016-02-29 14:48:38

51CTO高招

2013-06-27 10:23:30

百度云百度開(kāi)放云

2011-09-06 16:33:35

百度世界2011
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)