七牛許式偉:數(shù)據(jù)重構(gòu)未來(lái)
原創(chuàng)大家都認(rèn)識(shí)到了數(shù)據(jù)的價(jià)值,但是如何利用好數(shù)據(jù)、什么是數(shù)據(jù)利用的有效手段?8月29日,七牛在上海舉辦D·Future數(shù)據(jù)時(shí)代峰會(huì),在會(huì)上對(duì)這些問(wèn)題從產(chǎn)業(yè)和技術(shù)的角度展開(kāi)了分析。
七牛CEO許式偉表示,互聯(lián)網(wǎng)的前面十幾年很精彩,而如今互聯(lián)網(wǎng)不僅僅是一個(gè)產(chǎn)業(yè),已經(jīng)變成了新興的生產(chǎn)力,和所有的實(shí)體經(jīng)濟(jì)和各行各業(yè)都息息相關(guān)?;ヂ?lián)網(wǎng)被認(rèn)為是一個(gè)行業(yè)時(shí),他只影響了一小部分人;而如今,幾乎每一個(gè)人都已經(jīng)聯(lián)網(wǎng),它對(duì)我們影響是巨大的。所以我們要抓住機(jī)會(huì),不要被浪潮拍死在岸上?;ヂ?lián)網(wǎng)的世界,我們正在用一個(gè)詞來(lái)涵蓋它,那就是數(shù)據(jù)。那么,數(shù)據(jù)如何重構(gòu)未來(lái)?
許式偉在他的主題演講“數(shù)據(jù)重構(gòu)未來(lái)”中做了如下分享:
基于互聯(lián)網(wǎng)的業(yè)務(wù)的不同層次
首先我們來(lái)看一看業(yè)務(wù)本身:互聯(lián)網(wǎng)化最基礎(chǔ)的一個(gè)層面的訴求,就是業(yè)務(wù)要上網(wǎng)。如果我們想象一下,或者我們對(duì)比一下傳統(tǒng)的商業(yè)和新興的商業(yè)形態(tài),它***的一個(gè)不同是什么?或者我們用一個(gè)詞去概括舊的商業(yè)形態(tài)是什么東西。我想到的一個(gè)詞就是一手交錢(qián)一手交貨,這就是舊的商業(yè)形態(tài)最基本的商業(yè)特色。但是互聯(lián)網(wǎng)改變了這一切,互聯(lián)網(wǎng)讓遠(yuǎn)程交易成為了可能。但是遠(yuǎn)程產(chǎn)生一個(gè)服務(wù),這個(gè)影響是非常巨大的。因?yàn)槲覀兊臉I(yè)務(wù)的場(chǎng)景比以前開(kāi)闊很多,我們以前也許只能影響我們周?chē)浅R恍∪喝?,或者最多我的公司做大了之后,我在不同的地方開(kāi)不同的分部,但是你影響的人群仍然只是你公司能到達(dá)的范疇。但是互聯(lián)網(wǎng)改變了這一切,它讓商業(yè)可以讓你人不用過(guò)去,和世界某一角落的人就可以做生意,這個(gè)影響非常巨大。我們來(lái)看如何達(dá)到的,其實(shí)我們分析一下商業(yè)在互聯(lián)網(wǎng)上之后,業(yè)務(wù)有什么樣的特征,我概括了一個(gè)詞,非結(jié)構(gòu)化數(shù)據(jù)是人的自然溝通的方式。所以在上網(wǎng)之后,我們發(fā)現(xiàn)大量的數(shù)據(jù)被映射,或者被影像到現(xiàn)實(shí)生活當(dāng)中,這也是數(shù)據(jù)化生活洪流的根本化的原因。我們要表達(dá)我們的意愿,就是非結(jié)構(gòu)化數(shù)據(jù),什么叫非結(jié)構(gòu)化數(shù)據(jù)呢?就是自然表達(dá)的語(yǔ)言的文本,以及圖片、音頻、視頻等等這些媒介,都是非結(jié)構(gòu)化數(shù)據(jù)。那么這些數(shù)據(jù)天然是人非常容易理解的。但是其實(shí)計(jì)算機(jī)很難理解。剛剛我講了,計(jì)算機(jī)有非常強(qiáng)大的邏輯能力,但是計(jì)算機(jī)在語(yǔ)意的理解上是非常原始的,可能連三歲嬰兒的水平都達(dá)不到。在這樣的情況下人怎么樣溝通呢?就是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)就是傳遞人的意愿。比如我拿起電話說(shuō)幾段語(yǔ)音,告訴我的客戶或者是告訴我想要交易的人,告訴他我想要表達(dá)的東西?;蛘呤峭ㄟ^(guò)圖片,表達(dá)你的商品,你的商品長(zhǎng)什么樣,你的商品怎么使用的。所以我們可以看到非結(jié)構(gòu)化數(shù)據(jù)自然而然會(huì)成為交互的一個(gè)中介。而這個(gè)也是原子世界映射到比特世界一個(gè)根本原因,因?yàn)闃I(yè)務(wù)要上網(wǎng)。
第二個(gè)層次,當(dāng)業(yè)務(wù)上網(wǎng)之后,我們會(huì)發(fā)現(xiàn),舊的商業(yè)過(guò)程當(dāng)中我們也會(huì)談運(yùn)營(yíng)。但是舊的商業(yè)過(guò)程當(dāng)中,我們?nèi)绾芜\(yùn)營(yíng),大部分的企業(yè)就是做調(diào)查問(wèn)卷,我們會(huì)找一些樣本的客戶去問(wèn)他們,你對(duì)我們的服務(wù)有什么樣的看法,你希望我們做什么樣的一個(gè)新的服務(wù)來(lái)去為你提供,但是今天我們會(huì)發(fā)現(xiàn),其實(shí)有了互聯(lián)網(wǎng),有了計(jì)算機(jī)之后,這一切也發(fā)生了變化,首先業(yè)務(wù)上網(wǎng)之后,天然你可以記錄每一次的交易過(guò)程,可以把所有用戶的行為都能夠記錄下來(lái),所以今天我們會(huì)發(fā)現(xiàn),運(yùn)營(yíng)的基因的分析的背景,不是取樣數(shù)據(jù),而是全量的用戶的行為記錄。所以我們每天都在產(chǎn)生,對(duì)于任何一個(gè)互聯(lián)網(wǎng)公司來(lái)說(shuō),每天都在產(chǎn)生上千萬(wàn)上億的調(diào)查問(wèn)卷。而這些調(diào)查問(wèn)卷,如何去對(duì)你的商業(yè)去進(jìn)行改進(jìn),這個(gè)是一個(gè)非常重要的課題。也是我們今天為什么會(huì)談大數(shù)據(jù),會(huì)談精益的運(yùn)營(yíng)的原因。#p#
數(shù)據(jù)爆炸 如何挖掘信息是重要課題
現(xiàn)在世界上正以每三年翻一番的數(shù)據(jù)的增長(zhǎng)速度,而這其中95%以上,都是非結(jié)構(gòu)化數(shù)據(jù),而且這個(gè)95%的比例還在不斷的提升,而不是下降。也就是說(shuō)我們會(huì)有越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù)在其中。所以這個(gè)數(shù)據(jù)的存儲(chǔ)量是非常非常驚人的,如此驚人的數(shù)據(jù),應(yīng)該如何存儲(chǔ),如何讓它不丟失,如何進(jìn)行分析和挖掘,這其實(shí)是個(gè)很重要的課題。剛才我也講了,非結(jié)構(gòu)化數(shù)據(jù),其實(shí)今天主要的用途是用來(lái)做交互,但是我們剛才也講了,今天計(jì)算機(jī)對(duì)于語(yǔ)意的理解是非常原始的,可能連三歲小孩都不如。所以在交互上,我們發(fā)現(xiàn)它仍然有非常巨大的提升空間。我們有自然語(yǔ)言,NLP什么的,技術(shù)數(shù)據(jù)來(lái)講,這樣的一些技術(shù),但是它今天仍然很原始。我們也會(huì)知道有語(yǔ)音的識(shí)別,有視頻或者圖片里面對(duì)于場(chǎng)景對(duì)于動(dòng)作的識(shí)別等等,但是這些新的分析方法都還非常的早期,我們把這些新的分析方法,如果能夠往前走的話,那么我們可以想象,其實(shí)這個(gè)數(shù)據(jù)時(shí)代會(huì)有更大的想象空間在里面。正因?yàn)槲覀兊姆治瞿芰€很原始,所以今天幾乎所有的非結(jié)構(gòu)化數(shù)據(jù)都沒(méi)有二次分析。所謂的二次分析,就是我們除了直接的業(yè)務(wù)交易過(guò)程,比如說(shuō)我想表達(dá)我的一個(gè)意愿。但是二次分析是可能的。因?yàn)橛脩裘恳淮螠贤?,每一次交互過(guò)程當(dāng)中,沉淀了大量的信息,這些信息如何挖掘,也是很重要的課題。
用戶日志是更高含金量的金礦
接下來(lái)談一談?dòng)脩粜袨榈挠涗?,我認(rèn)為這個(gè)是遠(yuǎn)未充分挖掘的金礦。因?yàn)榻裉旌芏嗥髽I(yè)沒(méi)有用戶行為記錄。因?yàn)樗麄兇蟛糠謽I(yè)務(wù)連商網(wǎng)還沒(méi)有。所以他們今天想得更多的是讓我的業(yè)務(wù)上網(wǎng)。但是其實(shí)哪怕是互聯(lián)網(wǎng)公司,今天日志的處理能力,或者是我今天能處理多少的數(shù)據(jù)量,以及我的分析方法,能產(chǎn)生對(duì)于我經(jīng)營(yíng)有效的指導(dǎo)數(shù)據(jù),這方面的能力還是很不足。大部分的公司停留在比如說(shuō)日活躍用戶的分析等等基礎(chǔ)的過(guò)程。第三點(diǎn)是絕大部分企業(yè)日志會(huì)定期的刪除,因?yàn)樗麄儾荒芾斫庥没罘治鲋筮€能干什么。因?yàn)槿罩臼怯?jì)算機(jī)生成的,所以它天然可以很容易被計(jì)算機(jī)所去理解,這個(gè)理解是全面的,不會(huì)損失什么信息。所以日志本身是一個(gè)更高含金量的金礦,但是大部分的企業(yè)其實(shí)并沒(méi)有意識(shí)到這一點(diǎn)。所以今天日志的使用量,我認(rèn)為遠(yuǎn)遠(yuǎn)處于一個(gè)非常原生的一個(gè)狀態(tài)。#p#
七牛營(yíng)造數(shù)據(jù)生態(tài)
那么今天談這些對(duì)于我們來(lái)說(shuō)有什么樣的意義呢?這個(gè)就涉及到七牛對(duì)于自己的定位。如果用一句話來(lái)描述七牛對(duì)于自己的定位,我們會(huì)這么解釋。七牛是最開(kāi)放最完備的數(shù)據(jù)服務(wù)供應(yīng)商,最開(kāi)放的含義是什么呢?我們希望不是七牛把所有的數(shù)據(jù)服務(wù)給提供了,我們希望搭建一個(gè)平臺(tái),能讓所有對(duì)于數(shù)據(jù),因?yàn)槲覀儎倓偡治隽朔墙Y(jié)構(gòu)化數(shù)據(jù),分析了日志相關(guān)的一些挑戰(zhàn),這些挑戰(zhàn)絕對(duì)不是七牛一家公司所能解決的,我們希望有志于去提升這個(gè)數(shù)據(jù)的應(yīng)用價(jià)值的企業(yè),都能夠和七牛一起,共同開(kāi)拓這個(gè)世界,而不是七牛單獨(dú)一家去做這樣的事情。
最完備的含義是,我們希望能夠分析這一些數(shù)據(jù)的使用場(chǎng)景,去觸及它的方方面面,去構(gòu)建一個(gè)最完整的基礎(chǔ)戰(zhàn),七牛完整的構(gòu)建一個(gè)商業(yè)。這個(gè)是七牛對(duì)于一個(gè)數(shù)據(jù)服務(wù)商的一個(gè)定位。
今天七牛做了一些什么,大家都知道七?,F(xiàn)在叫七牛云存儲(chǔ),所以七牛如何定義云存儲(chǔ),其實(shí)七牛之前已經(jīng)有很多的云存儲(chǔ)的供應(yīng)商,最典型的是亞馬遜。但是七牛,我們認(rèn)為我們重新定義了云存儲(chǔ)這樣一個(gè)概念,為什么呢?因?yàn)樵贏W上的S3,我們認(rèn)為它是一個(gè)零件,什么零件呢?就是云主機(jī)的復(fù)數(shù)品。因?yàn)镾3主要的能力是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的能力,它可以放東西,可以取東西。但是七牛認(rèn)為云存儲(chǔ)不應(yīng)該僅僅局限于我是一個(gè)數(shù)據(jù)的存儲(chǔ)的空間。首先它是一個(gè)數(shù)據(jù)存儲(chǔ)的空間,所以我們有數(shù)據(jù)存儲(chǔ)這樣一個(gè)基礎(chǔ)服務(wù)。這個(gè)基礎(chǔ)服務(wù),它的核心價(jià)值很簡(jiǎn)單,就是可靠,然后便宜。然后高可用,這個(gè)是它最基礎(chǔ)的幾個(gè)能力,第二個(gè)能力是什么呢?第二個(gè)能力是加速。七??赡苁?**個(gè)提出存儲(chǔ)加速和數(shù)據(jù)處理這樣三個(gè)詞來(lái)描述云存儲(chǔ)這樣一個(gè)服務(wù)的一個(gè)公司。當(dāng)然后面我們看到業(yè)界也逐漸的大家認(rèn)同了這樣一個(gè)模式,所以我們看到,幾乎所有的云存儲(chǔ)都在往這個(gè)方向在走。
那么加速是什么呢?七牛的加速,我們是用一個(gè)相對(duì)比較獨(dú)特的方式,因?yàn)榇蠹衣?tīng)到加速這個(gè)詞,都會(huì)想到CDN,而CDN是存在了十幾年的一個(gè)服務(wù)形態(tài)。七牛的加速到底和他們有什么不同呢?這個(gè)跟七牛的做事方式很有關(guān)系。我們認(rèn)為不差一個(gè)新增的CDN公司。所以七牛從加速角度來(lái)講,我們定位成我們是CDN融合的公司。我們希望協(xié)助客戶管理CDN,讓這些CDN融合在一起,能夠提供更高品質(zhì)的,或者是更高可用性。因?yàn)槿魏我患褻DN,很可能會(huì)出現(xiàn)區(qū)域性的故障,這樣的情況下,我們可以協(xié)助自動(dòng)的去解決。然后有一些CDN可能在比如在上??煲稽c(diǎn),有的CDN在廣州快一點(diǎn),我們可以融合,可以形成更高速的訪問(wèn)。第三個(gè)層次是數(shù)據(jù)處理,數(shù)據(jù)處理這個(gè)詞比較抽象,我們?nèi)绻フ归_(kāi)來(lái)講,它的就呼應(yīng)我剛才講的那個(gè)非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)里面最重要的一點(diǎn),就是我們對(duì)于非結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的理解其實(shí)是非常原始的階段,所以七牛成為一個(gè)真正的開(kāi)放的云存儲(chǔ),最重要的點(diǎn)在于我們的數(shù)據(jù)處理是開(kāi)放式的平臺(tái),我們知道七牛最近接入了非常多的數(shù)據(jù)處理的服務(wù),比如說(shuō)圖片的建網(wǎng),比如我們正在接入的人臉識(shí)別等等。數(shù)據(jù)處理的業(yè)務(wù)是做不完的。七牛最開(kāi)始提供的一些基礎(chǔ)的數(shù)據(jù)處理,比如音視頻的打碼、打水印等等。這個(gè)是個(gè)開(kāi)放的平臺(tái),待會(huì)我們的團(tuán)隊(duì)會(huì)講,這個(gè)我不講了。
還有什么呢?還有一點(diǎn)就是直播!因?yàn)橐曨l或者是音頻,它是一個(gè)非常特殊的介質(zhì),因?yàn)樗幸粋€(gè)值,就是在線溝通的需求,這是傳統(tǒng)的存儲(chǔ)所沒(méi)有的。當(dāng)然因?yàn)橐曨l和音頻它本身有流媒體的屬性,所以它天然有點(diǎn)播的需求。七牛的霹靂云可以把直播和點(diǎn)播融合的平臺(tái)。我們可以在霹靂云上完成用戶的溝通,以及事后的點(diǎn)播,以及不同的網(wǎng)絡(luò)下不同碼率的轉(zhuǎn)換。
今天七牛的注冊(cè)企業(yè)有28萬(wàn),我們直接覆蓋網(wǎng)民每月月活有3.7億,我們的平臺(tái)上產(chǎn)生了1600萬(wàn)億的文件,每天我們有750億的請(qǐng)求。我們數(shù)據(jù)處理,數(shù)據(jù)處理本身可以被加速的,也就是同一個(gè)文件,哪怕它多次訪問(wèn),它只會(huì)處理一次,所以它的量會(huì)相對(duì)少一點(diǎn)。今天七牛的平臺(tái)上每天有12億的數(shù)據(jù)的處理量??偨Y(jié)一下七牛干了什么,我們認(rèn)為我們重新定義了云存儲(chǔ),重新定義如何服務(wù)商業(yè)。很多人會(huì)問(wèn)七牛未來(lái)會(huì)做一些什么,七牛到底會(huì)往什么方向發(fā)展。我們七牛首先,我認(rèn)為在這個(gè)時(shí)代,要符合這個(gè)時(shí)代的主題思想,就是創(chuàng)新和創(chuàng)造,今天和數(shù)據(jù)相關(guān)的幾個(gè)詞有云計(jì)算,有大數(shù)據(jù)。這些詞七牛是如何看待的,如何重新定義這些詞。我覺(jué)得2016年可以期待,這就是我今天的演講內(nèi)容,謝謝大家。