曾經(jīng)很多人說“大數(shù)據(jù)就是未來”,這句話錯了嗎?
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
“大數(shù)據(jù)”對我的吸引力已經(jīng)大不如前了。
回想當年,在我剛開始攻讀數(shù)據(jù)科學碩士學位的天真歲月里,任何與大數(shù)據(jù)相關(guān)的主題都會讓我興奮不已。我試圖挖掘每一組數(shù)據(jù)中屬于3V的一部分。我想要從無窮的數(shù)據(jù)流中提煉出可分析的數(shù)據(jù),然后建模、可視化、進行數(shù)據(jù)轉(zhuǎn)換。
然而如今,每每看到“大數(shù)據(jù)”這個詞,總會不自覺地讓我揚起眉毛,內(nèi)心不斷地猜想接下來又會出現(xiàn)哪個同樣“流行”又“模糊”的科技熱詞呢?
究竟是我變了,還是大數(shù)據(jù)變了?
流行詞與現(xiàn)實
最近,我對流行詞變得十分敏感。它們被高估了,實際上不具有任何意義。“讓大數(shù)據(jù)為數(shù)字化時代帶來創(chuàng)新”,這句話看上去很酷,但它的意義又是什么呢?現(xiàn)實可能停留在Excel電子表格、令人沮喪且緩慢的計算中。
大數(shù)據(jù)之所以令人感到興奮,是因為它代表了一種巨大的財富(“它將是一種巨大的財富”,聽起來耳熟嗎?),你可以在其中搜索、查找并使用對你有價值的任何東西。
我最初對于大數(shù)據(jù)的看法是,“在所有這些數(shù)據(jù)中,肯定有什么東西是我們絕對想知道的”?;蛟S這是對的,但要從大量數(shù)據(jù)中找到那些有價值的東西,我們要付出什么代價呢?
沒有正確的基礎(chǔ)架構(gòu),大數(shù)據(jù)將毫無用處
處理大量數(shù)據(jù)需要計算能力,存儲能力、以及數(shù)據(jù)傳輸?shù)饶芰?。同時,還會遇到各種意想不到的瓶頸。
隨著云平臺的發(fā)展,計算能力變得更加便宜和易于使用,但云存儲也在指數(shù)級增長,云計算的日常使用甚至本地服務器的維護都是一筆不小的開銷。
這也就是本世紀關(guān)于數(shù)據(jù)的比較大的教訓:有時候,對某些人而言像黃金一樣的數(shù)據(jù),于另一些人而言就是浪費整個存儲空間的垃圾。
很多公司都是先花錢挖掘數(shù)據(jù),然后再回過頭來看哪些數(shù)據(jù)是真的有用的。費用卻已經(jīng)花掉了,但有沒有用可不一定。
那如果我們在收集數(shù)據(jù)之前就優(yōu)先確定數(shù)據(jù)是否有用,結(jié)果會怎么樣呢?
不是所有數(shù)據(jù)都是有趣的數(shù)據(jù)
數(shù)據(jù)科學界有句話叫“無用輸入再無效輸出”。在實際應用中,有很多數(shù)據(jù)實際上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我們花費了大量精力、時間和金錢卻只能在龐大的數(shù)據(jù)集中找到少量信息。根據(jù)Forrester的報告,企業(yè)內(nèi)至少60%的數(shù)據(jù)仍未使用。
如果將這些未使用數(shù)據(jù)的存儲成本投資在實際需要的數(shù)據(jù)的正確基礎(chǔ)架構(gòu)中,會怎么樣呢?
數(shù)據(jù)越多越好嗎?
“向AI投入盡可能多的數(shù)據(jù)”的時代已經(jīng)結(jié)束了。人們已經(jīng)意識到,不是每一個數(shù)據(jù)特性都是有用的,有些甚至可能有害,數(shù)據(jù)的質(zhì)量往往比數(shù)量更加重要。
我們更希望數(shù)據(jù)能夠以可靠、一致的方式來呈現(xiàn)我們關(guān)心的事情。通過了解數(shù)據(jù)的質(zhì)量,也會更好地將我們領(lǐng)入一個可解釋的、負責任的和安全的關(guān)于AI的研究探索階段。
這是(大型)實施和(大型)搭建更好的基礎(chǔ)架構(gòu)的時代
我們已經(jīng)獲得了數(shù)據(jù),現(xiàn)在需要做的是搭建更完善的基礎(chǔ)架構(gòu),從而更安全地使用、共享、分析數(shù)據(jù),并且能夠更加精準地區(qū)分無用數(shù)據(jù)和有價值的信息。
我們還需要確保數(shù)據(jù)和人工智能的質(zhì)量和可靠性,確保全世界都可以使用它們并理解其中涵義。盡管有些人很難理解這一點,但數(shù)據(jù)不在于龐大,而在于可靠。
盡管聽上去沒有其他口號那樣有煽動力,但是我還是要講:大數(shù)據(jù)已死,可靠的數(shù)據(jù)萬歲!