自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【專訪】顏世光:百度通過分布式集群實現(xiàn)萬億量級計算

云計算 分布式
記者在WOT2016大數(shù)據峰會前采訪了百度網頁搜索基礎架構團隊技術負責人顏世光,他是WOT2016大數(shù)據峰會上的發(fā)言嘉賓之一,與我們共同分享了關于海量計算以及搜索引擎的最新技術。

WOT2016大數(shù)據峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數(shù)十位大數(shù)據領域一線專家、數(shù)據技術先行者將齊聚現(xiàn)場,在圍繞機器學習、實時計算、系統(tǒng)架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數(shù)據領域***實踐和最熱門的行業(yè)應用。

記者在會前采訪了百度網頁搜索基礎架構團隊技術負責人顏世光,他是WOT2016大數(shù)據峰會上的發(fā)言嘉賓之一,與我們共同分享了關于海量計算以及搜索引擎的***技術。

[[176064]]

顏世光于2011年加入百度,早期從事Spider系統(tǒng)架構相關研發(fā),期間主持了百度第三代Spider系統(tǒng)的設計與實現(xiàn)。當前主要研究方向為大規(guī)模分布式系統(tǒng),是百度海量數(shù)據庫Tera、百度文件系統(tǒng)BFS和集群操作系統(tǒng)Galaxy的主要作者。他熱衷開源,先后推動了百度多個重量級系統(tǒng)對外開源。以下是采訪實錄。

1. 作為國內***的搜索平臺,您認為百度面臨的***挑戰(zhàn)是什么?目前是如何解決的?

百度面臨的挑戰(zhàn)有很多,我僅能談下在網頁搜索技術上面臨的, 當前比較大的挑戰(zhàn)是覆蓋率和時效性。覆蓋率可以認為是百度能檢索到到的網頁范圍,越大越好。

時效性通俗講是指互聯(lián)網上產生一個新網頁到百度能檢索到它這段時間的延遲,越短越好;這兩個挑戰(zhàn),一個要求處理的數(shù)據盡量多,另一個要求處理得盡量快,在表面看是沖突的。我們當前解決的方式是增量流式處理,不同于普通的流式處理技術,搜索引擎處理每一篇網頁,網頁的內容正確與否,網頁權值(PageRank)大小,不只取決于它本身,而是要依賴互聯(lián)網全局信息。

所以增量處理的核心是一個能存儲互聯(lián)網上所有網頁、超鏈信息,并可以實時讀寫的數(shù)據庫。這個數(shù)據庫背后是百度文件系統(tǒng)、集群調度系統(tǒng)等一系列基礎設施。

2. 在分布式技術出現(xiàn)之前,百度搜索依靠什么來進行計算?

在當前這套增量處理技術出來之前,百度主要依賴MapReduce和Spark做數(shù)據處理。兩者都是批量計算的思想,所以延遲比較高。Spark能做到10分鐘級,但能處理的數(shù)據量有限。對于依賴海量全局信息的計算只能用MapReduce進行,延遲達到周級。

MapReduce的局限還體現(xiàn)在擴展性上,如果處理100億網頁,需要1000臺機器,那處理1萬億網頁就得10萬臺,這幾乎是不可承受的成本。

所以在此之前,無論是處理數(shù)據還是能處理的數(shù)據量,都受到了很大限制。

3.在萬億量級計算方面,百度有何經驗與大家分享?

萬億量級的計算核心挑戰(zhàn)在系統(tǒng)的擴展性和負載均衡。承載萬億量級的數(shù)據,無論是數(shù)據庫、調度系統(tǒng)還是底層的分布式文件系統(tǒng),都需要能高效地擴展到萬臺規(guī)模的集群,這里的主要考慮是無單點設計的同時又要保證一致性,最終多數(shù)系統(tǒng)選擇了分布式的Master集群來管理元數(shù)據,用戶數(shù)據與計算由對等的slave節(jié)點承載的方案。

針對負載均衡問題,我們會小心的處理局部的熱點問題,因為一個區(qū)間熱點可能拖慢整個計算任務。在系統(tǒng)的設計中,特別是數(shù)據庫系統(tǒng)的設計中,做到快速的熱點拆分和跨機器遷移。

多方面的考慮和折衷,具體的內容會在這次大會的演講中和大家分享。

4.對于當前熱門的開源技術您怎么看?

顏世光表示他在百度主要做開源項目,當前工作核心是百度開源基礎架構(分布式存儲、集群管理、網絡通信框架),這是百度自主研發(fā)的,與hadoop生態(tài)對應的一套大數(shù)據處理平臺。

百度文件系統(tǒng)BFS對應hadoop的HDFS,海量數(shù)據庫Tera對應hadoop的HBase,分布式協(xié)調服務Nexus對應Zookeeper,集群調度系統(tǒng)Galaxy對應Yarn,計算框架shuttle對應MapReduce。

【51CTO原創(chuàng)稿件,轉載請注明原文作者和出處為51CTO.com】

責任編輯:趙寧寧 來源: WOT
相關推薦

2016-11-08 21:18:22

百度

2011-08-12 10:58:51

Hadoop

2023-02-22 14:04:54

2011-11-03 10:07:09

ASP.NET

2021-07-14 07:17:37

Springboot分布式UIDGenerato

2019-10-29 14:22:44

阿里云云計算認證測試

2011-12-13 15:17:42

云計算微軟百度

2023-06-20 17:53:53

2024-11-14 11:56:45

2024-03-01 09:53:34

2010-05-11 17:48:38

百度百科世博模塊

2017-09-01 05:35:58

分布式計算存儲

2015-06-17 14:10:34

Redis分布式系統(tǒng)協(xié)調

2010-06-03 19:46:44

Hadoop

2011-03-23 17:28:03

2020-04-22 12:06:08

百度網盤資源

2009-08-21 10:33:52

2010-08-30 10:48:10

百度框計算云計算

2012-03-01 15:06:58

2019-11-21 10:56:24

開源技術 趨勢
點贊
收藏

51CTO技術棧公眾號