自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

錢嶺:大數(shù)據(jù)研發(fā)歷程的回顧和思考

大數(shù)據(jù)
2016年12月8-10日,由中國計算機學會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中國科學院計算技術(shù)研究所、中科天璣數(shù)據(jù)科技股份有限公司與CSDN共同協(xié)辦,以“聚焦行業(yè)最佳實踐,數(shù)據(jù)與應用的深度融合”為主題的2016中國大數(shù)據(jù)技術(shù)大會在北京新云南皇冠假日酒店隆重舉辦。

2016年12月8-10日,由中國計算機學會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中國科學院計算技術(shù)研究所、中科天璣數(shù)據(jù)科技股份有限公司與CSDN共同協(xié)辦,以“聚焦行業(yè)最佳實踐,數(shù)據(jù)與應用的深度融合”為主題的2016中國大數(shù)據(jù)技術(shù)大會在北京新云南皇冠假日酒店隆重舉辦。

[[178656]]
中國移動蘇州研發(fā)中心大數(shù)據(jù)部總經(jīng)理,高級工程師 錢嶺

中國移動蘇州研發(fā)中心大數(shù)據(jù)部總經(jīng)理,高級工程師錢嶺在主題演講《大數(shù)據(jù)研發(fā)歷程的回顧和思考》中分享了一個大數(shù)據(jù)實踐者所走過的歷程,主要包括三方面內(nèi)容,(1)對大數(shù)據(jù)理解的變化;(2)大數(shù)據(jù)實踐歷程回顧;(3)大數(shù)據(jù)發(fā)展方向思考。

一路走來,中國移動蘇州研發(fā)中心對大數(shù)據(jù)理解在不斷深化。2007年,將大數(shù)據(jù)稱為大規(guī)模并行計算、云計算。2010年之后,大數(shù)據(jù)被按照3V~7V來定義。3V,即規(guī)模大(Volume)、種類繁多(Variety)、處理速度要求高(Velocity)。而到了2014年前后,開始跳出技術(shù)的視角來審視大數(shù)據(jù)。除了繼續(xù)關(guān)注技術(shù)外,開始關(guān)注大數(shù)據(jù)源、大數(shù)據(jù)工程師/科學家、大數(shù)據(jù)服務、大數(shù)據(jù)“眾包”、大數(shù)據(jù)咨詢。2016年,則開始以數(shù)據(jù)為中心來審視大數(shù)據(jù),并將數(shù)據(jù)形象比喻為管道中的水,其匯聚到數(shù)據(jù)工廠,自動可視化,展示用戶希望的信息,告訴用戶潛在的規(guī)律,甚至智能地完成工作,這也中國移動蘇州研發(fā)中心大數(shù)據(jù)平臺正在做的工作。至此,中國移動蘇州研發(fā)中心對大數(shù)據(jù)有了更全面的認識,用一個公式表示便是:大數(shù)據(jù) = 業(yè)務 + 數(shù)據(jù) + 平臺 + 算法,所有大數(shù)據(jù)工作也將基于這四個方面展開。

伴隨著對大數(shù)據(jù)理解的不斷深入,對大數(shù)據(jù)的實踐也在不斷前行。2007年,從學習Hadoop入手,進入大數(shù)據(jù)領(lǐng)域;2008年,深度改造開源軟件,目標是商用產(chǎn)品;2009年,跟隨開源社區(qū)的發(fā)布,但是依然深度定制;2010年,以大云1.0為起點,正式開展商用部署;2011~2013年,每年發(fā)布新版本,并增加新“產(chǎn)品”;2014年,重新規(guī)劃大數(shù)據(jù)產(chǎn)品體系,引入管理平臺。而這個過程,也走了很多彎路,大多是因為開源社區(qū)、自主研發(fā)兩大技術(shù)路線及技術(shù)驅(qū)動、需求驅(qū)動兩大研發(fā)方向的選擇偏差導致的。當前主要選擇了基于開源,技術(shù)驅(qū)動的研發(fā)方式。

以下為演講實錄

各位嘉賓上午好!我來這里也不是一次兩次了。剛才兩位嘉賓也介紹了一些比較嚴肅的課題,這些課題可能涉及到精準醫(yī)學,也涉及到天氣預報或者自然災害的防治,這些問題我想現(xiàn)在可能不一定很好的解決方案,但根據(jù)技術(shù)的發(fā)展和這個業(yè)務的進步,一定會找到一個很好的方案的。正如我們自己是怎么樣通過這九年以來一點點什么也不會,到能做很多的事情。

我今天的匯報分三部分,一是對大數(shù)據(jù)理解的變化,為什么講這個呢?因為這個會直接影響后面的研發(fā)方向、工具選擇或者研發(fā)的思路。二是講一下到底踩過什么樣的坑,取得什么樣的經(jīng)驗。后面是什么樣的思考和想法。

對大數(shù)據(jù)理解的變化

這件事,我們開展得很早。2007年初的時候開始關(guān)注云計算,但那個時候我們并沒有叫大數(shù)據(jù),那時候也沒有這個詞。那時候稱為大規(guī)模并行計算或者云計算,因為主要的研究對象是跟Hadoop相關(guān)的事情,Hadoop本身是云計算的技術(shù),并沒有用虛擬化技術(shù),而是用隊列和槽位作為邏輯資源來調(diào)度任務。那個時候用13臺計算機來進行排序或計數(shù),那時候成立了一個小的團隊,他們開始閱讀Hadoop整個系統(tǒng)的源代碼,那時候版本是0.16版本。

就這么過了好多年,Hadoop是研究實驗為主,2008年之后發(fā)現(xiàn)大數(shù)據(jù)慢慢成型了,但還是以云計算的名義發(fā)展,2010年之后提出三維、四維。我們自己做這個事的時候,考慮了為什么要做這個研究?因為很難說服我們公司里面的直達部門,他們覺得IOE架構(gòu)也挺好的,但有兩件事做不了,一是大數(shù)據(jù)實時處理計算,那時候云計算雖然不太多,但公認的是數(shù)據(jù)庫做不了。第二,非結(jié)構(gòu)化數(shù)據(jù)的管理,但后來做了很多的擴展就可以支持了。2013年對大數(shù)據(jù)的理解也是一塌糊涂,每個人都在做,但都不知道為什么要做大數(shù)據(jù),那個時候本質(zhì)上都在做云計算,其實沒有人考慮行業(yè)應用的這些問題。

2014年前后我們也開始考慮這個問題,什么是大數(shù)據(jù),開始跳出技術(shù)的視野,因為以前總是集中在Hadoop這個領(lǐng)域,或者流計算,數(shù)據(jù)挖掘,始終認識上是片面的。后來我們從數(shù)據(jù)源、大數(shù)據(jù)技術(shù)和人這幾個維度關(guān)注大數(shù)據(jù)到底是什么。數(shù)據(jù)源就是數(shù)據(jù)的來源,技術(shù)我們也做了很多年,人就是大數(shù)據(jù)科學家。當時有一些企業(yè)把大數(shù)據(jù)科學家定義為CIO、CEO,此類評級的角色能做很多的事情,能決定企業(yè)的發(fā)展方向,現(xiàn)在看來也都是泡沫。

錢嶺:大數(shù)據(jù)研發(fā)歷程的回顧和思考

在大數(shù)據(jù)技術(shù)與數(shù)據(jù)源的交界處(見上圖),如果一個企業(yè)擁有數(shù)據(jù)源也有大數(shù)據(jù)技術(shù),可以做大數(shù)據(jù)服務,把數(shù)據(jù)加工一下作為產(chǎn)品賣出去。第二是人和大數(shù)據(jù)源,可以做大數(shù)據(jù)眾包,像一些圖片、視頻、語音識別,都是用大數(shù)據(jù)眾包來潛移默化地影響這些產(chǎn)品。如果有大數(shù)據(jù)技術(shù)和人,可以做咨詢相關(guān)的工作。

這里有三個誤區(qū)吧,第一個誤區(qū)是對V的過于強調(diào),大家總是關(guān)注數(shù)據(jù)量大,快速,樣子很多也不準確,忽略了高性價比的系統(tǒng)。所以那個時候有一個情況,有點什么小需求很可能就要建一個很大的數(shù)據(jù)中心集群來滿足數(shù)據(jù)的采集,然后把它做成報告。我算了一下這個報告一年二三十萬,可投個集群一兩千萬的系統(tǒng)設備,當時并沒有人考慮這個性價比,所以為了滿足獨立的應用目標,我們做了點狀應用。帶來問題是投入比較大,數(shù)據(jù)不能共享,資源不能共享,造成成本的經(jīng)濟效益都比較差,沒法長期的做一件事。在開始泡沫期鼓吹,到真正用的時候用不上?;旌喜渴穑覀兒罄m(xù)產(chǎn)品的設計或者業(yè)務的發(fā)展也是以混合部署作為最基本的基線做的。

第二個誤區(qū)是數(shù)據(jù)和應用是緊密結(jié)合的,這也是我們在找業(yè)務的時候發(fā)現(xiàn)的重要問題,往往在比較長的時間里,因為大數(shù)據(jù)充滿了神秘感,誰也不知道能干什么事,一想大數(shù)據(jù)很大,反正也不知道怎么用。問題是數(shù)據(jù)的需求到數(shù)據(jù)的挖掘周期特別長,像移動做秋季營銷,學生入學需要做營銷,如果這個營銷兩個月前提出需求來,看后端能不能配合,就開始取數(shù)據(jù)。往往營銷活動都結(jié)束了,數(shù)據(jù)還沒弄完了,這種情況會造成很大的影響。這樣沒有一個簡單的工具層面的東西,或者平臺層面的東西,能滿足一線用戶的需求,我們認識這個響應速度非常慢,也是一個非常重要的問題。

這一塊其實人家定義都很清楚,只是我們理論不夠深,是說要有一些創(chuàng)新方法來解決問題,什么是創(chuàng)新的?還是觀察一下成功案例。在成功案例里,最終是為最終用戶提供了簡單易用的自助數(shù)據(jù)分析工具,我們是給用戶提供開發(fā)平臺,而不是給開發(fā)人員使用的。

第三個誤區(qū),很多人誤以為Hadoop軟件免費了,再也不用操心了,其實不是,還需要很多的優(yōu)化。我們很多的傳統(tǒng)行業(yè)都是廠家干活兒的,他不關(guān)注系統(tǒng)優(yōu)化,你給我多少錢就走了,就缺乏這個持續(xù)優(yōu)化,確實大數(shù)據(jù)特別是開源產(chǎn)品,如果缺少這個,那業(yè)務無法持續(xù)發(fā)展。我們做過一個實際比較,優(yōu)化前是什么效果,總說需要優(yōu)化,還有一些眼邊的數(shù)據(jù),全部抓過來,為什么不精簡呢?造成系統(tǒng)覆蓋很高,需要擴容,全是假象。這給我們另外一個啟示,這個東西很多實驗表明需要自己干,而是說移動自己的人,比如用戶自己需要有這個能力,他去做一些優(yōu)化、判斷,這樣能解決很多的問題。

這三個誤區(qū)進一步的思考,我們到2016年的時候開始做新的思考。大數(shù)據(jù)到底是什么東西,如果不清楚的話我們也很難推廣我們的技術(shù),也不好定位。一是中國移動的大連接戰(zhàn)略,這個戰(zhàn)略是今年才提出來的,主要目標是不斷拓展連接的廣度和深度,做大連接的規(guī)模,做強連接的應用數(shù)量。計劃是到2020年的連接數(shù)量要超過2015年一倍的水平,那也就意味著連接數(shù)量快到頭了,那就需要考慮到車的身上,豬、牛、羊的身上,可能不會打電話,但是需要連接,這個連接對移動來說需要做營運,但對做大數(shù)據(jù)的人來說就是大數(shù)據(jù)。任正非也提出來,假設數(shù)據(jù)量的流量會變粗,變的像太平洋一樣粗,如果真的這樣的話,華為就押對這個寶了。連接,一個是終端的問題,第二個管道的問題,西安提出“云管端”,我們可以預測電信行業(yè)、通信領(lǐng)域,包括其它也差不多,在這種強烈的需求驅(qū)動下,會把數(shù)據(jù)量越做越大,大到什么程度?我們認為如果超過一定程度以后,你去分析的數(shù)據(jù)或者尋找數(shù)據(jù)的難度越來越大,什么是大數(shù)據(jù)平臺?什么是大數(shù)據(jù)中心?大數(shù)據(jù)中心我們認為就像一朵云似的,數(shù)據(jù)就像管道上的水,匯聚到工廠,自動可視化展現(xiàn)用戶需要的訊息,告訴用戶潛在規(guī)律,甚至智能化的完工作。

對于可視化這部分,現(xiàn)在我們的理解是讓業(yè)務人員去做可視化報告,工具過于復雜根本不切實際。展現(xiàn)用戶需要的數(shù)據(jù),你不去做挖掘至少去做統(tǒng)計分析,把信息呈現(xiàn)給用戶。告訴用戶潛在規(guī)律,這個規(guī)律你需要做數(shù)據(jù)挖掘,是數(shù)據(jù)信息向知識性發(fā)展,這里面數(shù)據(jù)挖掘算法我們做了很多,但發(fā)現(xiàn)用戶不太會用,這又回到前面誤區(qū)二了。最后是智能化工作,這樣對大數(shù)據(jù)就慢慢清楚了,把這個再細化一下變成四個東西。

大數(shù)據(jù)是什么?大數(shù)據(jù)是業(yè)務+數(shù)據(jù)+平臺+算法。

業(yè)務:內(nèi)部有BOM、采購、內(nèi)審、信安、人力、財務、基建。外部有金融、政務、互聯(lián)網(wǎng)、旅游、交通。

數(shù)據(jù):內(nèi)部有互聯(lián)網(wǎng)、政府、交通、政務、電信、聯(lián)通。外部有BOM、視頻、音頻、尤其DPI數(shù)據(jù)。

算法:結(jié)構(gòu)化數(shù)據(jù)——三大類挖掘算法機器學習;非結(jié)構(gòu)化數(shù)據(jù)——NLP;多媒體數(shù)據(jù):深度學習。

平臺:大數(shù)據(jù)平臺,架構(gòu)——兩域四層,采集、計算、存儲、能力開放、供給、管理、運維、安全。來源——開源、自研、商業(yè)軟件。

大數(shù)據(jù)就是業(yè)務+數(shù)據(jù)+平臺+算法,在這之后的事情所有的開發(fā)工作或者研究工作都會基于這個思維開展。

大數(shù)據(jù)實踐歷程回顧

2007年我們從學習Hadoop入手。我們用的是0.16版本,后半年0.17點版本出現(xiàn)的時候,Hadoop已挺爛了,現(xiàn)在看來誰敢用它做商業(yè)版的話,這是吃了熊心豹子膽的。第一,成熟性比較低,第二,資源隔離也比較差,但是解決了可擴展問題,后續(xù)開展了大量的實驗室測試工作256~1024節(jié)點,獲得大量經(jīng)驗。

當時規(guī)劃的幾項工作都轉(zhuǎn)了后續(xù)產(chǎn)品,但是并不那么一帆風順,其中大規(guī)模計算管理系統(tǒng)孵化成為云計算集群管理系統(tǒng),成為通用的系統(tǒng)。大數(shù)據(jù)平臺Hadoop、搜索引擎SE、大規(guī)模計算管理。

2008年,深度改造開源軟件,目標是商用產(chǎn)品。Hadoop-NN HA、HBase-Master HA,SQL over HBase數(shù)據(jù)挖掘算法并行化等特征性在2008年都是大大超前于社區(qū)的,進而形成了自己的發(fā)行版和相關(guān)產(chǎn)品。

2009年,跟隨開源社區(qū)的發(fā)布,但是依然深度定制。隨著社區(qū)的成熟,Hive等新開源軟件的出現(xiàn),調(diào)整技術(shù)路線繼續(xù)研發(fā)大云SQL Over Hadoop、Parallel Data Mining、Search Engine,內(nèi)部發(fā)布0.5版本,并且在上腔、江蘇等省公司開展實驗試點。效果優(yōu)于傳統(tǒng)的IOE系統(tǒng)。

2010年:以大云1.0為起點,正式開展商用部署。經(jīng)濟試點,定義了四項大數(shù)據(jù)產(chǎn)品(并未將Hadoop看作獨立產(chǎn)品),可以開展點狀大數(shù)據(jù)應用,Huge Table在中國移動第一朵云,“WAP彩信雙業(yè)務云”獲得商用,承載WAP和彩信系統(tǒng)生成的日志數(shù)據(jù),用于后端查詢分析。

2011~2013年:每年發(fā)布新版本,增加新產(chǎn)品。陸續(xù)引入了圖計算、大數(shù)據(jù)平、NoSQL數(shù)據(jù)庫,內(nèi)容分析和知識庫等五項產(chǎn)品/原型,并將Hadoop作為獨立產(chǎn)品,與若干單位合作Hadoop開源社區(qū),支撐盤古搜索上線,在福建、遼寧等省公司獲得點狀應用,一直到大云2.5版本。

2014年,重新規(guī)劃大數(shù)據(jù)產(chǎn)品規(guī)劃體系,引入管理平臺。孵化成立蘇州研發(fā)中心,重新定制跟隨開源社區(qū)的技術(shù)路線,規(guī)劃兩域四層的產(chǎn)品體系,針對性開展研發(fā),啟動大數(shù)據(jù)管理中心(BC-BDOC)產(chǎn)品,整合現(xiàn)有各種點狀應用,并提供更多的能力開發(fā)能力,同時開展圍繞數(shù)據(jù)的開發(fā)。

這些年我們也走了很多彎路,主要有幾個方面引起的,一是技術(shù)路線選擇上出現(xiàn)了偏差(是開源還是自主研發(fā)),我堅信一點,這一走過的坑在人工智能和區(qū)塊鏈一樣會出現(xiàn),只不過是深淺的問題。在技術(shù)路線上的選擇,最終建議跟隨開源社區(qū)的方案來做這個事情,所以我們也看到很多的缺點,第一,跟隨開源社區(qū),投入少,啟用快,只要一個小組研究它的代碼就好了,很快就可以把這個系統(tǒng)全整明白了,具有很快的交付能力。出現(xiàn)問題的話,因為它開源也可以獨立解決,如果實在搞不定也可以找社區(qū)解決。缺點,開源軟件很大的問題是質(zhì)量良莠不齊,要做很大的測量工作。還有一個問題,掌控需求和研發(fā)計劃能力非常弱,雖然社區(qū)里有一個里程碑,但里面是這些開源企業(yè)自己開戶需求的里程碑,并不是我的客戶的需求里程碑,研發(fā)計劃也是照它的來的,所以有時候不得不用其他的需求解決這個問題。接口上也有很大的問題。

自主研發(fā)優(yōu)點是容易控制節(jié)奏、需求,但缺點是投入很大,啟動也很慢,至少做半年到一年才可以做出一個好的東西來,還有相關(guān)的配套等一些東西。

技術(shù)驅(qū)動就是解決某一個問題的,很容易立項,但那個跟其他產(chǎn)品界限也非常清楚。缺點可能不是業(yè)務需求,不能落地。所以我們早期是自主研發(fā)驅(qū)動的,后期是業(yè)務驅(qū)動來孵化這個產(chǎn)品。

大數(shù)據(jù)發(fā)展方向思考

最后講一下思考吧,有的未必是很成熟的思考。第一是商業(yè)模式的思考,講了半天大數(shù)據(jù)怎么掙錢,我們發(fā)現(xiàn)大數(shù)據(jù)的商業(yè)模式逐步清晰,一般在生態(tài)圈里為了擴展自己數(shù)據(jù)的維度,提升價值,一個單位通常既是生產(chǎn)者也是消費者。所以我們現(xiàn)在也開始跟一些有優(yōu)質(zhì)數(shù)據(jù)的客戶開始交流,看看能不能交換數(shù)據(jù)或者采購數(shù)據(jù),來彌補我們數(shù)據(jù)的不足。這樣的話就會在六種商業(yè)鏈之外形成很多復雜的商業(yè)模式組合,一開始是工具和服務提供商,運營在線大數(shù)據(jù)工具服務,提供API或者DAAS服務,運營免費大數(shù)據(jù)服務+后向廣告,運營收費大數(shù)據(jù)服務,像輿情分析;運營大數(shù)據(jù)交易市場。

下面是我們對大數(shù)據(jù)系統(tǒng)的演進歷程的判斷。

  • (1)數(shù)據(jù):種類不斷增加,集群數(shù)據(jù)接口大幅度增加,希望最終形成多數(shù)據(jù)管理、上下游關(guān)系;
  • (2)集群功能不斷增強,最終會從點狀應用整合為統(tǒng)一大數(shù)據(jù)平臺,從離線轉(zhuǎn)向?qū)崟r;
  • (3)數(shù)據(jù)規(guī)模不斷增加,集群擴容能力不足,最終形成多集群統(tǒng)一管理的架構(gòu)。

我們對大數(shù)據(jù)產(chǎn)品體系和解決方案總攬,目標是構(gòu)建健壯、可擴展、開放的,功能豐富的大數(shù)據(jù)平臺,基于開源、MPP等軟件,面向公司內(nèi)外提供DaaS、PaaS和SaaS服務。

說一些相當重要,但是不太成熟的大數(shù)據(jù)技術(shù)舉例。

數(shù)據(jù)安全:大數(shù)據(jù)安全需要哪些特征,如何與大數(shù)據(jù)整合在一起,如何提高效率,如何解決真實的業(yè)務需求。

人工智能,人工智能算法目前應用領(lǐng)域還集中在互聯(lián)網(wǎng)領(lǐng)域,點狀系統(tǒng),成本也較高,如何形成統(tǒng)一的大數(shù)據(jù)能力,和與海量數(shù)據(jù)結(jié)合,如何為業(yè)務服務。

可視化:如何在現(xiàn)有圖表呈現(xiàn)之上,藝術(shù)設計之下的空間中尋找合適的可視化技術(shù),便于算法結(jié)果的呈現(xiàn)。

很高興和大家一起關(guān)注大數(shù)據(jù)過山車的起起伏伏,謝謝大家。

責任編輯:未麗燕 來源: CSDN大數(shù)據(jù)
相關(guān)推薦

2013-09-11 14:00:16

Windows 8.1

2010-01-07 09:14:27

2022-07-28 09:39:26

研發(fā)效能業(yè)務

2022-12-05 11:29:14

2016-08-31 01:30:18

大數(shù)據(jù)市場大數(shù)據(jù)應用

2015-08-04 13:14:20

賺錢虧錢大數(shù)據(jù)

2017-10-23 12:19:38

2016-05-31 15:23:52

2009-06-25 13:03:14

Eclipse年度版

2009-11-05 14:01:57

網(wǎng)管軟件

2017-07-19 11:04:40

大數(shù)據(jù)大數(shù)據(jù)應用方向

2014-02-21 10:10:28

物聯(lián)網(wǎng)大數(shù)據(jù)

2012-09-29 11:25:52

Windows Ser研發(fā)云操作系統(tǒng)

2017-07-11 09:35:10

大數(shù)據(jù)linuxjava

2021-08-10 08:43:50

大數(shù)據(jù)經(jīng)濟互聯(lián)網(wǎng)

2010-09-06 09:53:52

數(shù)據(jù)中心

2010-12-13 13:43:02

綜合布線

2024-01-04 07:40:52

2013-06-25 11:14:03

大數(shù)據(jù)

2014-07-29 10:38:25

大數(shù)據(jù)Hadoop
點贊
收藏

51CTO技術(shù)棧公眾號