開源社區(qū)不反哺很危險
大數(shù)據(jù)時代,英特爾同樣“Inside”,而且,意味著更多X86架構(gòu)產(chǎn)品的使用。
不止于此,英特爾在2013年初也推出了自己的Hadoop發(fā)行版。今年3月,英特爾又以7.4億美元入股Hadoop生態(tài)系統(tǒng)中大名鼎鼎的Cloudera公司,占股18%。
“目前,英特爾和Cloudera各自的Hadoop發(fā)行版已經(jīng)實(shí)現(xiàn)了結(jié)合。”8月27日,英特爾行業(yè)合作與解決方案部中國區(qū)總經(jīng)理凌琦在接受21世紀(jì)經(jīng)濟(jì)報道記者專訪時表示。
凌琦說,目前大數(shù)據(jù)還處在比較初級的階段,還有很長的路要走,但他毫不懷疑未來大數(shù)據(jù)是一座金礦,“很興奮,就像上世紀(jì)90年代剛接觸PC時那種感覺”。
同時,凌琦強(qiáng)調(diào),Hadoop開源社區(qū)有公認(rèn)的反哺機(jī)制,一些廠商如果將其封閉起來,不僅違背了這個開源社區(qū)的機(jī)制,未來可能脫離主流面臨落伍的風(fēng)險,“而這將帶來客戶遷移風(fēng)險”。
大數(shù)據(jù)需要靜下來
《21世紀(jì)》:你怎么理解大數(shù)據(jù),現(xiàn)在會不會炒得太熱?
凌琦:數(shù)據(jù)一直存在,不過數(shù)據(jù)類型、規(guī)模的不同,以及從中挖掘出價值的可能性,帶來了大數(shù)據(jù)的概念。今天的很多數(shù)據(jù)獲取是先不結(jié)構(gòu)化,因?yàn)榻Y(jié)構(gòu)化的過程中,很多價值丟失了。當(dāng)然這并不意味著排斥結(jié)構(gòu)化數(shù)據(jù)。
現(xiàn)階段,大數(shù)據(jù)蘊(yùn)含的價值和潛力還沒有完全發(fā)揮出來,這類似于互聯(lián)網(wǎng),剛誕生時上面的應(yīng)用也很少,但未來充滿無限想象。從這一點(diǎn)來看,熱一點(diǎn)無可厚非。
從概念的角度來看,現(xiàn)在大家都接受了大數(shù)據(jù)是個重要事情的判斷,再炒還有多大意義呢?無非就是讓大家對它重視起來,僅此而已。
當(dāng)然,很多人在講大數(shù)據(jù),但沒有講到大數(shù)據(jù)具體能夠做些什么東西,還沒有做到對大數(shù)據(jù)的應(yīng)用場景、應(yīng)用模式的深度挖掘和使用。比如說,大數(shù)據(jù)對于金融行業(yè)的反欺詐、電信行業(yè)的詳單分析、內(nèi)部經(jīng)營分析、精準(zhǔn)營銷等都是很典型的應(yīng)用,但其實(shí)還沒有被充分利用。
所以概念吹得再大也沒多大意思,最重要的事情是,從應(yīng)用的角度來說,有需要靜下來做深入細(xì)致工作。
《21世紀(jì)》:應(yīng)用存在瓶頸嗎?或者說應(yīng)該如何突破?
凌琦:這實(shí)際上是生態(tài)環(huán)境的問題,需要應(yīng)用開發(fā)廠商和用戶共同坐下來商討,了解應(yīng)用的需求,和它應(yīng)用的模式、未來的應(yīng)用方向以及希望能夠解決的事情。
這個過程中并沒有統(tǒng)一的做法。石油公司哪些應(yīng)用能夠適應(yīng)你,保險公司是怎么樣的,交通運(yùn)輸業(yè)是怎么樣的,零售業(yè)是怎么樣的,都不一樣。
從企業(yè)內(nèi)部來說,各個環(huán)節(jié)也要開放自己的思想,業(yè)務(wù)的人要看到應(yīng)用的可能性,應(yīng)用的人要了解業(yè)務(wù)。
作為從業(yè)人員,則要做更多的市場教育和培訓(xùn)的工作。否則你光炒一個概念,炒完了又怎么樣呢。要做扎實(shí)的工作,要做培訓(xùn)、教育,以及一些好的應(yīng)用推廣。
需要指出的是,大數(shù)據(jù)的發(fā)展也需要一個過程,從我個人的感受來看,其實(shí)發(fā)展速度非???。兩年前參加行業(yè)交流的時候,大家還是在談概念和憧憬,現(xiàn)在大家已經(jīng)聚焦到怎么從中挖掘價值,談具體的應(yīng)用方式了。
“說IOE不行了,有失偏頗”
《21世紀(jì)》:大數(shù)據(jù)對企業(yè)的IT采購和預(yù)算支出會帶來什么影響?我們知道,今年有個非常熱的詞叫“去IOE”。
凌琦:與分布式的大數(shù)據(jù)技術(shù)相比,集中式的存儲、計算和關(guān)系型數(shù)據(jù)庫,適應(yīng)了當(dāng)時有限數(shù)據(jù)的應(yīng)用場景,他們之間的協(xié)作也是有效的,到今天來說也還是有效的。
說IOE不行了,有失偏頗,大家還是認(rèn)可它在解決當(dāng)時問題上的價值。但計算不能停留在此,它是適應(yīng)過去以內(nèi)部數(shù)據(jù)為主導(dǎo)的IT架構(gòu),現(xiàn)在很多數(shù)據(jù)獲取已經(jīng)超越了企業(yè)內(nèi)部的范疇,原來的體系和架構(gòu)并不足夠。
這是技術(shù)架構(gòu)層面。如果把這個熱詞與具體的企業(yè)聯(lián)系起來,又是另外一回事。外部市場環(huán)境會推動企業(yè)內(nèi)部的變化,雖然革自己的命很難,但大公司難免都 要經(jīng)過這樣的跨越。拿英特爾來說,我們早期是做Memory(內(nèi)存),當(dāng)后來日本廠商進(jìn)來,在工藝、成本、效率上沒有了優(yōu)勢,這塊業(yè)務(wù)的利潤受到影響很 大,后來轉(zhuǎn)型到做微處理器。
我認(rèn)為,對于大數(shù)據(jù)下的新架構(gòu)來說,***,成本比以前相對更低;第二,未來的可能性更高。
《21世紀(jì)》:企業(yè)應(yīng)該如何選擇大數(shù)據(jù)平臺的商業(yè)版本?
凌琦:這個跟企業(yè)的業(yè)務(wù)有關(guān)。對于一般的傳統(tǒng)企業(yè)來說,他們希望有一個比較標(biāo)準(zhǔn)化的平臺,能夠利用平臺的商業(yè)版本,快速地實(shí)施、***化他們在IT的投入產(chǎn)出,實(shí)現(xiàn)它的商業(yè)目標(biāo)。
互聯(lián)網(wǎng)公司會針對整個系統(tǒng)的優(yōu)化做很多的工作。所以很少看到互聯(lián)網(wǎng)公司用一個純粹的商業(yè)版本,大多數(shù)是用開源的東西自己加以二次開發(fā);而傳統(tǒng)企業(yè)更多是希望用已經(jīng)成熟的版本。
《21世紀(jì)》:為什么有這種區(qū)別?
凌琦:所有的商業(yè)客戶其實(shí)都有一個特點(diǎn):他們更多地是考慮成本和收益之比。成本高但收益更高,那就是可以做的事情;成本低收益更低,那就是不能干的事情。
互聯(lián)網(wǎng)企業(yè)用分布式的存儲和Hadoop類似的開源解決方案,加上二次開發(fā)之后,所能夠解決的問題,能給它的業(yè)務(wù)模式帶來基本的支撐。以前一般的互 聯(lián)網(wǎng)公司可能就幾百臺、幾千臺服務(wù)器,但現(xiàn)在已經(jīng)是幾十萬臺上百萬臺服務(wù)器的規(guī)模了,如果用以前的架構(gòu)的話,那成本可能會很高。而現(xiàn)在用類似Hadoop的分布式存儲、數(shù)據(jù)平臺,可以降低成本。
當(dāng)然,從解決問題的層面來說,成本不能說是絕對低的,而是相對比較低。除了使用成本,還有二次開發(fā)和維護(hù)的成本。
對于傳統(tǒng)企業(yè)來說,則是一個循序漸進(jìn)的過程。比如互聯(lián)網(wǎng)金融,互聯(lián)網(wǎng)企業(yè)了解用戶的行為比銀行所了解的行為可能更多,銀行搜集的更多是交易信息。如 果銀行希望能夠擴(kuò)展客戶并且接觸到更多的客戶,甚至能夠和互聯(lián)網(wǎng)企業(yè)結(jié)合起來,對于客戶的行為信息搜集,進(jìn)而針對用戶進(jìn)行營銷。在這個時候,銀行想到擴(kuò)展 了,那它就需要有這一類的大數(shù)據(jù)分析的體系架構(gòu)來支撐它。
《21世紀(jì)》:你把企業(yè)分為互聯(lián)網(wǎng)企業(yè)和傳統(tǒng)企業(yè),那您覺得比如說電信、金融這些都是大公司,他們是適合自己開發(fā)還是選一個標(biāo)準(zhǔn)的版本?
凌琦:我不認(rèn)為傳統(tǒng)企業(yè)自己開發(fā)是一條合理的道路,畢竟這些企業(yè)有其自身的主營業(yè)務(wù),比如石油企業(yè)是做石油開采、精煉,IT是支撐這些企業(yè)的工具, 因此,使用商業(yè)化版本的東西更加合適。對于互聯(lián)網(wǎng)公司來說,整個IT架構(gòu)幾乎就是它的生命線和生產(chǎn)機(jī)器了,所以說還是會有點(diǎn)不一樣。
對于傳統(tǒng)企業(yè)來說,Hadoop是個標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施,從基礎(chǔ)的架構(gòu)上來說是開放的,能夠使它在不同的技術(shù)之間,在不同的廠商之間,未來能夠有靈活的選擇余地。不是說我用了以后就被鎖住了,我就只能用你這一家的。
當(dāng)然,在基礎(chǔ)架構(gòu)上面的應(yīng)用層,應(yīng)該是每一家都有自己的優(yōu)勢,或者說可以通過自己的開發(fā)來達(dá)到,比如說,有些銀行可能更加注重于個人的存貸業(yè)務(wù),有 些銀行可能更注重于企業(yè)的信貸業(yè)務(wù),還有銀行可能更注重國際貿(mào)易,這個可能就跟它上面的應(yīng)用有關(guān)了。在這種情況下,需要有一個穩(wěn)定的技術(shù)架構(gòu),在此基礎(chǔ)上 的應(yīng)用是可以自己操作的部分。
開源社區(qū)需要反哺機(jī)制
《21世紀(jì)》:從供應(yīng)側(cè)來看,大數(shù)據(jù)的解決方案足夠理想嗎?企業(yè)是不是還要在基礎(chǔ)的層面進(jìn)行定制化的開發(fā)?
凌琦:現(xiàn)在的狀態(tài)是像Hadoop這類的基礎(chǔ)平臺,基本上是通過開源的社區(qū),某一些廠商通過開源社區(qū)所做的東西進(jìn)行優(yōu)化之后,形成一個穩(wěn)定的版本。
開源社區(qū)通常是誰都可以貢獻(xiàn)的,貢獻(xiàn)了之后形成一個主流,也有許多分支。***的做法是什么?是跟著主流走,因?yàn)榭梢员WC你以后的系統(tǒng),在不同的廠商 當(dāng)中可以互相之間挑選、切換而不會被鎖定,同時也為未來的技術(shù)做準(zhǔn)備。比如說一些分支可能未來變成主流當(dāng)中的一個部分,你就有機(jī)會了。
所以你要看哪些廠商在Hadoop的開源社區(qū)里面貢獻(xiàn)更多,這意味著其整個技術(shù)能力和對未來主流的影響力會更大。隨著時間的推移,有一些技術(shù)沒有辦 法成為主流,那么以后技術(shù)的升級可能會使非主流技術(shù)不兼容的狀況發(fā)生,可能形成孤島,從而使得企業(yè)的技術(shù)選擇對于未來升級造成了很大的障礙和升級成本。
因此,主要是往主流的方向走。哪些是主流的廠商?你主要看這些廠商里面有多少對于開源社區(qū)的貢獻(xiàn),這種貢獻(xiàn)是不是***會變成它開源社區(qū)主干的東西,如果是,這些廠商是會有更大的前途。
《21世紀(jì)》:現(xiàn)在誰的貢獻(xiàn)***?
凌琦:開源社區(qū)誰都可以貢獻(xiàn),但是***開源社區(qū)仍然是有一條主線,這條主線是由誰來做的呢?是由主要貢獻(xiàn)者。
比如Cloudera,這家公司大概只有700人,里面大概有100多個人是開源社區(qū)主要代碼的貢獻(xiàn)者,這個是一股很大的力量,意味著它所做的東西很大程度上會被開源社區(qū)所吸收,成為主流。
《21世紀(jì)》:會不會也有一些企業(yè)沒有進(jìn)行反哺,逐漸形成自己一套專有的版本?
凌琦:從開放社區(qū)的精神來說,大家從開放社區(qū)里面拿東西進(jìn)行改進(jìn),那也有責(zé)任把改進(jìn)的東西回饋給開放社區(qū)。這里面有一定的規(guī)則,有責(zé)任要反哺給這個社區(qū)。
對于大公司來說,本身這么做或許問題還不大,因?yàn)楣倔w量大,可以自己開發(fā)自己走。但是對于一些商業(yè)版本的開發(fā)者來說,這么做其實(shí)是件很危險的事 情,因?yàn)楹苡锌赡苣愕目蛻粢虼硕撾x主流,比如帶來無法遷移數(shù)據(jù)等風(fēng)險。這個層面上就不僅僅是道義的問題。所以大多數(shù)傳統(tǒng)開發(fā)廠商通常不會這么干。