大數(shù)據(jù)到底怎么影響我們的生活
信息大爆炸的今天,不討論大數(shù)據(jù)這個(gè)話題似乎就是跟不上時(shí)代。從醫(yī)藥到教育,再到其他各個(gè)領(lǐng)域,大數(shù)據(jù)充斥著現(xiàn)代社會(huì)的每個(gè)角落。而我們最關(guān)心的還是大數(shù)據(jù)最終將以什么樣的形式,怎么樣影響甚至改變我們的生活。來聽聽四位專家告訴你大數(shù)據(jù)到底有多少可能。
丹·瓦格納 Dan Wagner
Civis Analytics 的創(chuàng)始人兼首席執(zhí)行官
你曾經(jīng)說過,希望用大數(shù)據(jù)解決全球最大的問題。你最想解決的問題是什么?
我們主要關(guān)注兩個(gè)領(lǐng)域:教育和健康。在教育領(lǐng)域,我們專注于利用個(gè)人層面的數(shù)據(jù),幫助客戶發(fā)現(xiàn)那些申請(qǐng)和注冊的大學(xué)低于其潛能的低收入學(xué)生,并幫助這些機(jī)構(gòu)找到適當(dāng)?shù)姆椒?,讓這些孩子進(jìn)入與其潛能相匹配的大學(xué)。
保險(xiǎn)投保也是我們的目標(biāo)之一,尤其是在《平價(jià)醫(yī)保法案》剛開始施行的頭幾個(gè)月。我們主要致力于與多家機(jī)構(gòu)合作,幫助它們找到?jīng)]有醫(yī)療保險(xiǎn)的民眾,并讓他們加入到醫(yī)保計(jì)劃中來。這是一項(xiàng)非常艱巨的工作,因?yàn)闆]有現(xiàn)成的無保險(xiǎn)人員名冊。你只能通過統(tǒng)計(jì)推斷來完成這項(xiàng)工作。
最值得關(guān)注的問題之一是,保險(xiǎn)如何從團(tuán)體保險(xiǎn)向個(gè)人保險(xiǎn)發(fā)展,以及保險(xiǎn)公司如何學(xué)會(huì)管理這一風(fēng)險(xiǎn)。我們正同幾家機(jī)構(gòu)合作,利用數(shù)據(jù)提前發(fā)現(xiàn)諸如心血管疾病等個(gè)體風(fēng)險(xiǎn),提前了解病人面臨的風(fēng)險(xiǎn)。
一旦發(fā)現(xiàn)有風(fēng)險(xiǎn),你會(huì)增加投保人的保費(fèi)嗎?
你不能這么做。你只能根據(jù)諸如年齡等一系列精簡變量來確定保單價(jià)值。因此,你不能根據(jù)上述風(fēng)險(xiǎn)來定價(jià),但你需要管理這一風(fēng)險(xiǎn)。
你同奧巴馬競選團(tuán)隊(duì)合作時(shí),大數(shù)據(jù)發(fā)揮了怎樣的作用?
我們帶來的最顯著改變是在媒體方面。具體來說,就是利用尼爾森收視率來追蹤競選廣告的投放和效果。透過收視率數(shù)據(jù),你就好像看到了一張人口統(tǒng)計(jì)表,能從中了解到觀眾群的構(gòu)成,例如是西班牙裔,還是女性。
我的做法是,根據(jù)我們計(jì)算得出的個(gè)人可說服得分來定義我們的觀眾。我們將這些數(shù)據(jù)與機(jī)頂盒數(shù)據(jù)相匹配。由此就能找到每一美元廣告投放能帶來最高可說服觀眾密度的電視欄目。有了這些數(shù)據(jù),我們基本就能根據(jù)一個(gè)單一的標(biāo)準(zhǔn)來決定廣告投放的優(yōu)先順序。這與人口統(tǒng)計(jì)學(xué)沒有任何關(guān)系。只需明確哪些是我們在個(gè)人層面上確定的、要特別針對(duì)的觀眾群。這是一項(xiàng)非常艱巨的工作,但從文化角度來看,這種方法很適合我們的競選團(tuán)隊(duì),因?yàn)?,奧巴馬競選的典型特征是,選民搖擺不定。
我們應(yīng)當(dāng)如何解決數(shù)據(jù)分析中的安全問題?
你必須非常重視這個(gè)問題。很多這類機(jī)構(gòu)在收集信息,但我認(rèn)為,其中很多機(jī)構(gòu)都沒有意識(shí)到什么是最高標(biāo)準(zhǔn)的數(shù)據(jù)安全操作。我們的很多工作都是在亞馬遜云服務(wù)平臺(tái)上完成的,這比你內(nèi)部可能開發(fā)的東西要好得多,因?yàn)槟憧梢岳脕嗰R遜提供的很多網(wǎng)絡(luò)協(xié)議。亞馬遜的云計(jì)算服務(wù)算是該領(lǐng)域最好的。
大數(shù)據(jù)熱潮中,我們可能犯的最大錯(cuò)誤,或可能忽視的最重要問題是什么?
大數(shù)據(jù)熱潮最令人遺憾的一點(diǎn)是,人們只考慮其過程,而沒有考慮結(jié)果。有些時(shí)候,這股熱潮有些盲目,在某種意義上,它只是將對(duì)數(shù)據(jù)計(jì)算能力增長的信念孤立地看作是一種解決問題的手段。你將如何運(yùn)用這些未來真的能改善人們生活的數(shù)據(jù)?這是個(gè)大問題。
在日常生活中,你是如何應(yīng)對(duì)信息過載問題的?
作為一個(gè)在互聯(lián)網(wǎng)相關(guān)公司工作的人,我有很多時(shí)間是在網(wǎng)上。但我盡量縮短通過各類電子設(shè)備進(jìn)行溝通的時(shí)間,并努力確保自己閱讀大量書籍。
埃里克·謝德特 Eric Schadt
伊坎基因組織學(xué)和多尺度生物學(xué)研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何證明超級(jí)計(jì)算在醫(yī)學(xué)研究中能發(fā)揮重要作用?
主要通過兩種途徑。一是管理當(dāng)下醫(yī)學(xué)領(lǐng)域產(chǎn)生的諸如 DNA 測序等海量數(shù)據(jù)。舉例來說,一位癌癥病人的全基因組序列會(huì)產(chǎn)生萬億字節(jié)之多的數(shù)據(jù)。想象一下,如果要為數(shù)十萬人做基因測序,就會(huì)產(chǎn)生千萬億,甚至百億億字節(jié)量級(jí)的數(shù)據(jù)。要對(duì)這些數(shù)據(jù)進(jìn)行管理并加以處理,使之轉(zhuǎn)化為能被醫(yī)界人員所用的信息,就需要超級(jí)計(jì)算設(shè)備和相關(guān)的專業(yè)知識(shí)。
另一個(gè)途徑是,利用需要超級(jí)計(jì)算在短時(shí)間內(nèi)完成的非常復(fù)雜的數(shù)學(xué)算法,根據(jù)已經(jīng)存在的疾病亞型,以及治療該疾病亞型可能的最佳方法建立一個(gè)疾病預(yù)測模型。
這使醫(yī)生在治療中的作用以及病人與醫(yī)生間的數(shù)據(jù)關(guān)系發(fā)生了怎樣的變化?
發(fā)生了根本性的變化。與我們現(xiàn)有方法的不同之處在于,我們更深入地研究個(gè)體,而非一個(gè)群體。就拿糖尿病來說,目前可能有 100 種不同的糖尿病亞型,而且你和你的鄰居得這種病的原因也各不相同。你可能是因胰腺β細(xì)胞功能受損所致;或者你肌肉中的攝取受體不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治療方法。
醫(yī)生看到的只是晚期癥狀,但現(xiàn)在透過各類分辨率更高的科技產(chǎn)品他們能看到導(dǎo)致下游結(jié)果的上游病因。最近醫(yī)生們才看到了這些病因。其中涉及數(shù)百萬個(gè)變量,這是人腦無法理解的。
您剛才說到的都是數(shù)學(xué)幫助克服人腦缺陷的方面,這些數(shù)學(xué)計(jì)算程序有哪些缺陷需要人腦的幫助?
我們所做的工作是用一種需要人腦參與的方式來呈現(xiàn)信息,這是一種很棒的模式識(shí)別機(jī)器。目前在很大程度上人與機(jī)器是合作伙伴關(guān)系。也許 10 年、20 年以后,諸如 Watson 等計(jì)算機(jī)將變得非常強(qiáng)大,人的干預(yù)會(huì)大大降低。但目前還做不到。
很多組織收集的醫(yī)學(xué)數(shù)據(jù)只供己用,我們應(yīng)該對(duì)此感到擔(dān)憂嗎?
如果我們真的希望對(duì)人類健康產(chǎn)生影響,這些數(shù)據(jù)和模型必須對(duì)所有人進(jìn)行開放。
物理研究領(lǐng)域就有這樣的先例,強(qiáng)子對(duì)撞機(jī)試驗(yàn)的全部數(shù)據(jù)都是對(duì)公眾開放的。當(dāng)然,存在如何保護(hù)個(gè)人隱私的問題。
可以通過技術(shù)解決隱私保護(hù)問題嗎?
我們當(dāng)然可以保護(hù)并存儲(chǔ)數(shù)據(jù),保護(hù)計(jì)算機(jī)環(huán)境的安全,并采取眾多安全協(xié)議來確保數(shù)據(jù)不會(huì)陷入危險(xiǎn)。但有一點(diǎn)我們很清楚,任何形式的高維數(shù)據(jù)都無法真正做到匿名。就像照片一樣。你不能指望你的外貌也有隱私,因?yàn)槿巳硕寄芸吹侥愕哪?,你不能將它藏起來。我認(rèn)為 DNA 以及諸如分子尺寸等其他數(shù)據(jù)最終也將歸入同樣的范疇,原因很簡單,當(dāng)技術(shù)足夠成熟的時(shí)候,基因測序會(huì)像照相一樣簡單、便宜。
在日常生活中,你是如何應(yīng)對(duì)信息過載問題的?
不能陷在大數(shù)據(jù)中。我會(huì)去玩單板滑雪、騎摩托車,或是做一些能幫助你放松,無需太動(dòng)腦筋的活動(dòng)。
安德烈斯·維根 Andreas Weigend
獨(dú)立顧問,亞馬遜公司前任首席科學(xué)家
你曾經(jīng)將大數(shù)據(jù)比作原油。
如果你在后院發(fā)現(xiàn)了原油,你的這個(gè)發(fā)現(xiàn)可能用處不大,因?yàn)槟阈枰獙⒃途珶捄蟛拍芄┤藗兪褂谩T紨?shù)據(jù)也像原油一樣,不是拿來就可使用。亞馬遜和谷歌就是從事數(shù)據(jù)精煉提取的公司。當(dāng)然,據(jù)我所知,原油和數(shù)據(jù)兩者之間最大的區(qū)別是,數(shù)據(jù)一時(shí)半會(huì)兒不會(huì)被用光。而至于價(jià)格,信息產(chǎn)品和石油產(chǎn)品之間的關(guān)系也非常有意思。
原油的大部分好處被你所描述的精煉公司而不是被其用戶獲得。我們怎樣才能保證每個(gè)人都能從大數(shù)據(jù)中獲益?
我認(rèn)為,在蘋果公司的應(yīng)用商店發(fā)生的一切將會(huì)在數(shù)據(jù)經(jīng)濟(jì)領(lǐng)域再次上演,會(huì)有公司以這些數(shù)據(jù)為“原材料”推出服務(wù)。如果成立一個(gè)應(yīng)用商店,而另一家公司使用數(shù)據(jù)向消費(fèi)者提供應(yīng)用并與數(shù)據(jù)公司共享收入,價(jià)值由此產(chǎn)生。
大約 10 年前,你曾擔(dān)任亞馬遜首席科學(xué)家。目前,世界是否已經(jīng)完全變樣了?
10 年前,我們已經(jīng)注意到行業(yè)的重點(diǎn)正由算法(意味著你可以從自己所有的數(shù)據(jù)中獲得任何東西)向僅僅需要獲得更多的原始數(shù)據(jù)這一方向轉(zhuǎn)移。所以說,現(xiàn)在的情況與當(dāng)年完全不同,不過,我們?nèi)匀挥蓄愃频南敕?。貝索斯還是貝索斯。
你認(rèn)為哪些行業(yè)守著最豐富的數(shù)據(jù)金礦卻未找到利用金礦創(chuàng)造價(jià)值的方法?
中國有一家公司名叫騰訊,他們推出的微信完全顛覆了中國人的溝通方式。與之相對(duì)應(yīng)的另一家公司是中國電商公司阿里巴巴,該公司了解客戶對(duì)哪些商品感興趣,他們在搜索什么商品,以及他們最終買了哪些商品。阿里還清楚客戶是否退貨和有無付款問題等。
這兩家公司均擁有 10 億客戶。它們了解客戶的所有溝通習(xí)慣或所有財(cái)務(wù)交易情況,所以,它們確實(shí)大有可為。當(dāng)然,這也取決于你對(duì)哪些行業(yè)感興趣。不過,真正的潛力是這兩方面數(shù)據(jù)的交叉整合。比如,在需要做出信貸決定時(shí),你可以從騰訊了解很多信息。因?yàn)?,了解到你是否曾?jīng)和妓女鬼混或與拉皮條的家伙有過來往,也能多多少少地了解你將來償還貸款的傾向。
在日常生活中,你是如何應(yīng)對(duì)信息過載這一問題的?
我們必須形成一個(gè)認(rèn)知習(xí)慣,認(rèn)識(shí)到人們是會(huì)錯(cuò)過一些信息的。如果有人錯(cuò)過了你的一封電子郵件,請(qǐng)不要生氣。請(qǐng)通過另一個(gè)渠道與他們聯(lián)絡(luò)。
威廉·庫科爾斯基 William Cukierski
Kaggle 公司的數(shù)據(jù)科學(xué)家
效果最好的競賽有哪些?
我最看好的一場競賽叫“找鯨大賽”。競賽中要尋找的鯨是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強(qiáng)大的網(wǎng)絡(luò),不間斷地記錄鯨發(fā)出的聲音,他們也擁有自己的算法,且效果非常好。他們說:“要不我們把這些數(shù)據(jù)交給 Kaggle,看 Kaggle 有沒有更好的解決方案。”他們最后實(shí)現(xiàn)了非凡的成果。目前,這些強(qiáng)大的網(wǎng)絡(luò)能夠以接近 99% 的準(zhǔn)確率來偵測出鯨的聲音。我認(rèn)為,如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相干且在萬里之遙的一項(xiàng)工作,并為我們的日常生活帶來巨大好處,這將是一項(xiàng)多么了不起的事情!
你們還在設(shè)法利用數(shù)據(jù)分析來進(jìn)行癌癥研究。Kaggle 是否組織過很多醫(yī)療相關(guān)領(lǐng)域的競賽?
Kaggle 尚未在醫(yī)療領(lǐng)域涉足過多,主要原因是涉及泄露患者信息這個(gè)問題。另一個(gè)難題是擁有這些數(shù)據(jù)的個(gè)人和機(jī)構(gòu)把數(shù)據(jù)囤積了起來,不愿分享。
制藥公司擁有制藥試驗(yàn)的數(shù)據(jù),它們把這些數(shù)據(jù)壓在了箱底。人們?yōu)榱藬?shù)據(jù)分享作了一些初步努力,也承諾在這方面展開合作,但結(jié)果還是各自都想保留自己手中的數(shù)據(jù)。從某種程度上說,主要還是擔(dān)心隱私保護(hù)問題。你可能不會(huì)愿意把別人的基因組公開發(fā)布,然后大家都看出來這是家住主干道 232 號(hào)的薩利·斯密斯(Sally Smith)的基因組。不過,與此同時(shí),這些擔(dān)心也有些過度。對(duì)于這種問題,人們好像都在玩花招,說什么除非把數(shù)據(jù)直接交給你,不然你怎么能夠遠(yuǎn)距離地利用數(shù)據(jù)解決問題呢?如果能消除這些顧慮,你就可以取得一些實(shí)質(zhì)性的進(jìn)展。
你們公司在舉辦人人都可以參與的競賽,而有些占有數(shù)據(jù)的機(jī)構(gòu)卻牢牢抓著數(shù)據(jù)不放手。這是否是一個(gè)矛盾?
我在日常工作中面臨的最大挑戰(zhàn)之一是說服人們分享數(shù)據(jù),并令其確信這么做不會(huì)威脅到其機(jī)構(gòu)的生存。
經(jīng)常情況下,不是說你占有了數(shù)據(jù),數(shù)據(jù)就成為與生俱來的無價(jià)之寶,數(shù)據(jù)是需要挖掘和分析的。如果我們從一個(gè)機(jī)構(gòu)拿到了一組數(shù)據(jù),并將其公開,問題的解決方式是公開的,這不會(huì)產(chǎn)生什么問題,因?yàn)闆]有其他人有相同的數(shù)據(jù),也沒有人會(huì)再去獲得并利用這些數(shù)據(jù)。
你認(rèn)為,關(guān)于大數(shù)據(jù)的各種說法和觀點(diǎn),哪方面的失控最嚴(yán)重?
我必須糾正一下你的問題,應(yīng)該是哪些方面沒有失控。在與人們談?wù)摯髷?shù)據(jù)時(shí),很難避免失控這個(gè)問題,也很難避免其老板的介入,同樣難以獲得老板支持地說“好吧,我們也做大數(shù)據(jù)吧”。我認(rèn)為,人們在數(shù)據(jù)量方面有些失控。所以,經(jīng)常有人會(huì)說,“我們有 10 億兆的數(shù)據(jù),我們有百萬兆的數(shù)據(jù)。”許多問題可以在更小的數(shù)據(jù)規(guī)模上得到解決。比如,用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機(jī)來發(fā)現(xiàn)輸送帶上變質(zhì)的利馬豆。你可以想象,如果你能夠發(fā)現(xiàn)一粒棕色利馬豆,你就可以發(fā)現(xiàn)所有的棕色利馬豆,而不需天文級(jí)別的數(shù)據(jù)來解決這一問題。我認(rèn)為,95% 的問題適用于這個(gè)模型。剩余 5% 的問題的算法需要大量的數(shù)據(jù),提供的數(shù)據(jù)越多,其方案的效果就越好。Netflix 向用戶推薦電影就是最好的例證。