自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

四類應(yīng)用告訴你大數(shù)據(jù)到底能干嘛?

大數(shù)據(jù)
本文介紹了四類大數(shù)據(jù)思維應(yīng)用在商業(yè)上的成功案例。大數(shù)據(jù)能夠解決人工智能問題、動態(tài)調(diào)整我們做事情的策略,利用大數(shù)據(jù)進(jìn)行精準(zhǔn)服務(wù)和發(fā)現(xiàn)不知道的規(guī)律。

 我們今天常常講到大數(shù)據(jù)思維,很多人就會想到大型互聯(lián)網(wǎng)公司使用用戶的數(shù)據(jù)做很多事情,既有好的事情,比如今日頭條給大家推送有用的資訊,也有壞的事情,比如一些電商公司利用個(gè)人信息進(jìn)行價(jià)格歧視,甚至一些公司出賣大家的隱私。

關(guān)于大數(shù)據(jù)思維的一些例子,在當(dāng)下最常見,也是最成功的有四類應(yīng)用。

[[359013]]

第一類,解決人工智能問題。
世界上利用大數(shù)據(jù)解決的第一個(gè)智能型的問題是語音識別,接下來是機(jī)器翻譯。語音識別的歷史正好和電子計(jì)算機(jī)一樣長,可以追溯到1946年。但是一直做得非常不成功。

到了60年代末,計(jì)算機(jī)已經(jīng)進(jìn)入到第三代了(基于集成電路的),語音識別才只能做到識別十個(gè)數(shù)字加上幾十個(gè)單詞,而且錯(cuò)誤率高達(dá)30%。這樣水平的系統(tǒng)是不可用的,因?yàn)槿绻渴畟€(gè)詞就錯(cuò)三個(gè),你就無法復(fù)原原來的意思了。

因此,在60年代初,就有人認(rèn)為語音識別和治愈癌癥、登月、水變油一樣,近乎不可能。到了70年代,康奈爾大學(xué)著名的信息論專家賈里尼克來到IBM,負(fù)責(zé)該公司的語音識別項(xiàng)目。賈里尼克是一位天才,他從博士畢業(yè)到成為講席教授,教科書的作者,也就是十年時(shí)間。

在賈里尼克之前,人們覺得識別語音是一個(gè)智力活動,比如我們聽到一串語音信號,腦子會把它們先變成音節(jié),然后組成字和詞,再聯(lián)系上下文理解它們的意思,最后排除同音字的歧義性,得到它的意思。

為了做這件事,科學(xué)家們就試圖讓計(jì)算機(jī)學(xué)會構(gòu)詞法,能夠分析語法,理解語義。但這件事證明是不可行的。賈里尼克在到IBM之前并沒有做過語音識別,他也不懂得傳統(tǒng)的人工智能。

事實(shí)上,直到死他都不認(rèn)為他是人工智能專家。由于不受到傳統(tǒng)的人工智能思想的約束,他得以用信息論的思維方式來看待語音識別問題。他認(rèn)為語音識別是一個(gè)通信問題。

[[359014]]

賈里尼克是這樣考慮問題的。當(dāng)說話人講話時(shí),他是用語言和文字將他的想法編碼,這就變成了一個(gè)信息論的問題。語言和文字無論是通過空氣傳播,還是電話線傳播,都是一個(gè)信息傳播問題,在通信中有一套對應(yīng)的信道編碼理論。在聽話人,也就是接收方那里,他再做解碼的工作,把空氣中的聲波變回到語言文字,再通過對語言文字的解碼,得到含義。

于是,賈里尼克就用通信的編解碼模型,以及有噪音的信道傳輸模型,構(gòu)建了語音識別的模型。但是這些模型里面有很多參數(shù)需要計(jì)算出來,這就要用到大量的數(shù)據(jù),于是,賈里尼克就把上述問題又變成了數(shù)據(jù)處理的問題了。

在這樣的思想指導(dǎo)下,賈里尼克裁掉了IBM全部的語言學(xué)家,并且對各種仿生學(xué),比如研究人耳蝸的模型完全不感興趣,他只注重收集數(shù)據(jù),訓(xùn)練各種統(tǒng)計(jì)模型。

那么這樣能否解決語音識別問題呢?在一開始,學(xué)術(shù)界確實(shí)有人懷疑,不過賈里尼克很快用結(jié)果回答了大家。

在短短幾年時(shí)間里,他的團(tuán)隊(duì)(都是數(shù)學(xué)家和數(shù)學(xué)很好的理論物理學(xué)家)就將語音識別的規(guī)模擴(kuò)大到22000詞,錯(cuò)誤率降低到10%左右。這是一個(gè)質(zhì)的飛躍,從此數(shù)據(jù)驅(qū)動的方法在人工智能領(lǐng)域站住了腳。

賈里尼克思想的本質(zhì),是利用數(shù)據(jù)(信息)消除不確定性,這就是香農(nóng)信息論的本質(zhì),也是大數(shù)據(jù)思維的科學(xué)基礎(chǔ)。這就是第一類應(yīng)用,把人工智能問題變成數(shù)據(jù)問題帶給我們的啟示。

[[359015]]

第二類應(yīng)用,利用大數(shù)據(jù)進(jìn)行精準(zhǔn)服務(wù)。
我們不妨用一個(gè)例子來說明。

如果我們想知道搜索“邁克爾·喬丹”的網(wǎng)頁結(jié)果,我們可以把包含著兩個(gè)關(guān)鍵詞的網(wǎng)頁先找到,然后根據(jù)相關(guān)性和網(wǎng)頁質(zhì)量排序。

但是,在美國有很多“邁克爾·喬丹”,到底用戶找的是誰呢?有人可能會說,當(dāng)然是那個(gè)籃球球星了,其實(shí)美國還有一個(gè)非常有名的“邁克爾·喬丹”,他是當(dāng)今世界上最著名的人工智能專家之一,美國三院院士(科學(xué)院、工程院和文理學(xué)院)。

很多年前在Google,研究者想了不少辦法來解決這個(gè)問題,比如有人提出是否在10條結(jié)果中放5條籃球球星的,5條教授的。但是這種想法很快被大家否決了,因?yàn)闊o論是找籃球球星的人,還是找學(xué)者的,都會認(rèn)為你的搜索做得不夠好。

對這個(gè)問題唯一好的解決辦法就是理解用戶的意圖,進(jìn)行個(gè)性化服務(wù)。但是這樣一來就需要非常非常多的數(shù)據(jù),因?yàn)橹翱梢詫λ械娜诉M(jìn)行統(tǒng)計(jì),看看大家最希望得到的搜索結(jié)果是什么。

但是,如果對每一個(gè)人進(jìn)行統(tǒng)計(jì),數(shù)據(jù)量就不夠了,因?yàn)橐粋€(gè)人搜索的數(shù)量再多,也無法和所有人相比。一旦數(shù)據(jù)量不夠,統(tǒng)計(jì)就變得毫無意義。

[[359016]]

因此,這一方面需要盡可能多地收集數(shù)據(jù),另一方面則需要對行為習(xí)慣和偏好類似的人進(jìn)行聚類。

今天,微軟的搜索效果沒有Google的好,不是技術(shù)不行,而是數(shù)據(jù)量不夠。對于那些常見的搜索,大家其實(shí)水平差不多,微軟差就差在了那些很少見到的長尾搜索關(guān)鍵詞上。

但是不管怎樣,這兩家公司已經(jīng)從重視方法研究,轉(zhuǎn)為重視信息收集和處理了。這是透視大數(shù)據(jù)思維的第二類應(yīng)用,利用大數(shù)據(jù)進(jìn)行精準(zhǔn)服務(wù),得出的一個(gè)趨勢。

第三類應(yīng)用,動態(tài)調(diào)整我們做事情的策略。
當(dāng)今,容易一勞永逸解決的那些問題大多數(shù)已經(jīng)被解決了,留給我們的是不確定性的問題,因此我們做事情的策略也就要變化了。

早期的滴滴公司并不是一個(gè)技術(shù)水平很高的公司,雖然他們在公開場合并不承認(rèn)這一點(diǎn),很多行業(yè)里的人將它作為這方面的反面典型。但是為什么這樣一家很多人看不上的公司,能夠做大做強(qiáng)呢?除了運(yùn)營得好之外,正確的指導(dǎo)思想和做事原則起到了關(guān)鍵性的作用。

其實(shí),滴滴公司遠(yuǎn)不是第一家網(wǎng)約車公司,之前一些公司,過分強(qiáng)調(diào)司機(jī)和乘客之間的固定,比如A乘客坐B司機(jī)的車子比較滿意,他下次依然希望提前預(yù)訂B司機(jī)的服務(wù)。這件事在優(yōu)步和滴滴都是不允許的,但是一些網(wǎng)約車公司是允許的。這兩種做法有什么差別呢?

[[359017]]

雖然沒有人都能舉出各自的利弊,但是,對于一個(gè)不斷變化的打車人群分布和車輛分布,利用數(shù)據(jù)做動態(tài)調(diào)整是效率最高的策略。當(dāng)然,如果你沒有足夠多的數(shù)據(jù),一共只有200輛車,5000個(gè)人的數(shù)據(jù),你是做不到這一點(diǎn)的。

反過來,如果有了足夠多的數(shù)據(jù),是否在理論上有保障,只要調(diào)整的次數(shù)足夠多,就能收到最佳匹配呢?答案是肯定的。

第四類應(yīng)用,利用大數(shù)據(jù)發(fā)現(xiàn)不知道的規(guī)律。
如今研制一款新藥需要20年時(shí)間,20億美元的投入,這是驚人的投入。能否減少這方面的研發(fā)成本,縮短研發(fā)周期呢?

如果按照過去的做法工作,即使再努力,能提升的空間也有限。后來大家換了一個(gè)思路想問題,那就是讓處方藥和各種疾病重新匹配。

比如斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn),過去一種治療心臟病的藥治療胃病效果很好,于是他們直接進(jìn)入小白鼠試驗(yàn),然后進(jìn)入了臨床試驗(yàn)。由于這種藥的毒性已經(jīng)試驗(yàn)過了,因此臨床試驗(yàn)的周期短了很多。這樣,找到一種新的治療方法平均只需要3年時(shí)間,投資1億美元。

當(dāng)然,找到藥和病的配對,本身是一個(gè)大數(shù)據(jù)問題。這種做事的方法能夠成立,背后是有信息論理論依據(jù)的,即所謂的互信息理論。

[[359018]]

最后,小結(jié)一下,今天給舉了四類大數(shù)據(jù)思維應(yīng)用在商業(yè)上的成功案例:

  • 第一類是解決人工智能問題,是利用數(shù)據(jù)(信息)消除不確定性,這是香農(nóng)信息論的本質(zhì),也是大數(shù)據(jù)思維的科學(xué)基礎(chǔ)。
  • 第二類是利用大數(shù)據(jù)進(jìn)行精準(zhǔn)服務(wù),從中你可以看出一個(gè)商業(yè)趨勢:公司從重研究方法到重?cái)?shù)據(jù)收集的轉(zhuǎn)變。
  • 第三類是動態(tài)調(diào)整做事策略,足夠多的數(shù)據(jù)可以幫助我們動態(tài)匹配最佳結(jié)果。
  • 最后一類是利用大數(shù)據(jù)發(fā)現(xiàn)未知規(guī)律,這背后涉及互信息的理論,也是信息論的重點(diǎn)內(nèi)容。

這四類大數(shù)據(jù)應(yīng)用,都在傳達(dá)一個(gè)信息,那就是大數(shù)據(jù)的關(guān)鍵是思維方式的變化。。

責(zé)任編輯:梁菲 來源: JA熱視角
相關(guān)推薦

2019-05-07 19:23:46

大數(shù)據(jù)漫威人物

2011-03-25 16:15:42

SQL Server

2010-04-20 16:15:12

負(fù)載均衡方式

2010-09-07 14:49:36

2021-07-26 11:02:29

鄭州暴雨河南

2021-04-15 09:37:05

大數(shù)據(jù)Maven

2015-10-28 15:04:51

大數(shù)據(jù)教育

2010-09-17 09:28:19

Java API

2022-02-23 20:53:54

數(shù)據(jù)清洗模型

2019-01-29 11:08:48

NginxApacheHTTP協(xié)議

2022-01-07 17:28:07

操作系統(tǒng)IO 內(nèi)存

2018-01-31 22:31:49

大數(shù)據(jù)程序員編程

2012-10-17 10:09:14

大數(shù)據(jù)大數(shù)據(jù)管理數(shù)據(jù)挖掘

2013-08-22 10:56:34

大數(shù)據(jù)

2021-01-27 14:10:08

大數(shù)據(jù)年貨網(wǎng)購

2012-01-11 13:36:20

移動設(shè)備安全風(fēng)險(xiǎn)CIO

2010-07-28 17:07:39

ADSL故障

2010-04-20 17:12:57

服務(wù)器負(fù)載均衡

2021-08-02 14:27:18

大數(shù)據(jù)殺熟人工智能網(wǎng)絡(luò)投訴

2018-01-04 13:29:13

租房租房網(wǎng)站安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號