盤點:大數(shù)據(jù)公司的四種數(shù)據(jù)獲取方法
對于所有號稱涉足大數(shù)據(jù)的互聯(lián)網(wǎng)公司而言,可以從兩方面判斷其前景與價值,其一是否有穩(wěn)定的數(shù)據(jù)源,其二是否有持續(xù)的變現(xiàn)能力,其中包含數(shù)據(jù)理解運用的經(jīng)驗積累。涉及大數(shù)據(jù)的公司發(fā)展在互聯(lián)網(wǎng)時代如雨后春筍,除了巨頭百度騰訊阿里巴巴外,還有一些成立時間不算久但底蘊(yùn)深厚的公司。如國云數(shù)據(jù)、帆軟等。不過不管公司多大,獲取數(shù)據(jù)都是非常重要的基礎(chǔ)。
就數(shù)據(jù)獲取而言,大的互聯(lián)網(wǎng)企業(yè)由于自身用戶規(guī)模龐大,把自身用戶的電商交易、社交、搜索等數(shù)據(jù)充分挖掘,已經(jīng)擁有穩(wěn)定安全的數(shù)據(jù)資源。那么對于其它大數(shù)據(jù)公司而言,目前大概有四類數(shù)據(jù)獲取方法:
***、利用廣告聯(lián)盟的競價交易平臺。比如你從廣告聯(lián)盟上購買某搜索公司廣告位1萬次展示,那么基本上搜索公司會給你10萬次機(jī)會讓你選取,每次機(jī)會實際上包含對客戶的畫像描述。如果你購買的量比較大,積累下來也能有一定的互聯(lián)網(wǎng)用戶數(shù)據(jù)資料,可能不是實時更新的資料。這也是為什么用戶的搜索關(guān)鍵詞通常與其它網(wǎng)站廣告位的推薦內(nèi)容緊密相關(guān),實質(zhì)上是搜索公司通過廣告聯(lián)盟方式,間接把用戶搜索畫像數(shù)據(jù)公開了。
第二、利用用戶Cookie數(shù)據(jù)。Cookie就是服務(wù)器暫時存放在用戶的電腦里的資料(.txt格式的文本文件),好讓服務(wù)器用來辨認(rèn)計算機(jī)?;ヂ?lián)網(wǎng)網(wǎng)站可以利用cookie跟蹤統(tǒng)計用戶訪問該網(wǎng)站的習(xí)慣,比如什么時間訪問,訪問了哪些頁面,在每個網(wǎng)頁的停留時間等。也就是說合法的方式某網(wǎng)站只能查看與該網(wǎng)站相關(guān)的Cookie信息,只有非法方式或者瀏覽器廠家有可能獲取客戶所有的Cookie數(shù)據(jù)。真正的大型網(wǎng)站有自己的數(shù)據(jù)處理方式,并不依賴Cookie,Cookie的真正價值應(yīng)該是在沒有登錄的情況下,也能識別客戶身份,是什么時候曾經(jīng)訪問過什么內(nèi)容的老用戶,而不是簡單的游客。
第三、利用APP聯(lián)盟。APP是獲取用戶移動端數(shù)據(jù)的一種有效手段,在APP中預(yù)埋SDK插件,用戶使用APP內(nèi)容時就能及時將信息匯總給指定服務(wù)器,實際上用戶沒有訪問時,APP也能獲知用戶終端的相關(guān)信息,包括安裝了多少個應(yīng)用,什么樣的應(yīng)用。單個APP用戶規(guī)模有限,數(shù)據(jù)量有限,但如某數(shù)據(jù)公司將自身SDK內(nèi)置到數(shù)萬數(shù)十萬APP中,獲取的用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會達(dá)到數(shù)億的量級。
第四、與擁有穩(wěn)定數(shù)據(jù)源公司進(jìn)行戰(zhàn)略合作。上述三種方式獲取的數(shù)據(jù)均存在完整性、連續(xù)性的缺陷,數(shù)據(jù)價值有限。BAT巨頭自身價值鏈較為健全,數(shù)據(jù)變現(xiàn)通道較為完備,不會輕易輸出數(shù)據(jù)與第三方合作(獲取除外)。政府機(jī)構(gòu)的數(shù)據(jù)要么全部免費,要么屬于機(jī)密,所以不會有商業(yè)性質(zhì)的合作。擁有完整的互聯(lián)網(wǎng)(含移動互聯(lián)網(wǎng))的通道數(shù)據(jù)資源,同時變現(xiàn)手段及能力欠缺的運營商,自然成為大數(shù)據(jù)合作的***目標(biāo)。