自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動(dòng)洞察:大數(shù)據(jù)的下一個(gè)重大轉(zhuǎn)折

大數(shù)據(jù)
我堅(jiān)持認(rèn)為具有洞察力的應(yīng)用是幫助企業(yè)高效探究大數(shù)據(jù)的關(guān)鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發(fā)該應(yīng)用的重要性,有兩件事是很重要的,一是了解大數(shù)據(jù)大體上發(fā)生了什么,二是評(píng)估我們使用商業(yè)智能系統(tǒng)的經(jīng)驗(yàn)如何促進(jìn)我們思考這個(gè)應(yīng)用。

為了跟隨大數(shù)據(jù)的發(fā)展以及提高我們對(duì)信息的使用,我們需要具有洞察力的應(yīng)用,可以在連接洞察與操作的時(shí)候快速且低廉地提取相關(guān)性。

我堅(jiān)持認(rèn)為具有洞察力的應(yīng)用是幫助企業(yè)高效探究大數(shù)據(jù)的關(guān)鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發(fā)該應(yīng)用的重要性,有兩件事是很重要的,一是了解大數(shù)據(jù)大體上發(fā)生了什么,二是評(píng)估我們使用商業(yè)智能系統(tǒng)的經(jīng)驗(yàn)如何促進(jìn)我們思考這個(gè)應(yīng)用。

因?yàn)槲艺J(rèn)為具有洞察力的應(yīng)用是大數(shù)據(jù)的下一個(gè)變化(可以看看最近IBM沃森平臺(tái)使用的一些應(yīng)用),我會(huì)發(fā)表系列博客進(jìn)一步探究這個(gè)問題。在第一篇博客里,我將通過我的觀察展示25年來數(shù)據(jù)分析是怎樣發(fā)展的,特別是到了大數(shù)據(jù)階段,發(fā)展具有洞察力的應(yīng)用是必須的。第二篇,我會(huì)更加詳細(xì)的描述這些應(yīng)用,并給出早期的一些例子。第三篇和最后一篇,我會(huì)討論投資者對(duì)這些應(yīng)用的興趣,還有講下我最近對(duì)相關(guān)創(chuàng)新企業(yè)的投資。在這些文章中,我作為兩家分析應(yīng)用創(chuàng)新企業(yè)的創(chuàng)辦人,我將提到我如何將過去30年的工作經(jīng)驗(yàn)和15年風(fēng)險(xiǎn)投資經(jīng)驗(yàn)運(yùn)用到這些企業(yè)中。

數(shù)據(jù)分析25年來的發(fā)展

數(shù)據(jù)量在過去25年一直在增長,用于決策的數(shù)據(jù)完整性促進(jìn)了兩個(gè)步驟的行程,即創(chuàng)建數(shù)據(jù)倉庫和了解數(shù)據(jù)倉庫的容量。

數(shù)據(jù)倉庫及其他特殊變形–企業(yè)數(shù)據(jù)倉庫,數(shù)據(jù)集市等等-,是精選數(shù)據(jù)的基礎(chǔ)。

數(shù)據(jù)可能來自單獨(dú)的數(shù)據(jù)源(如:一個(gè)CRM應(yīng)用的數(shù)據(jù)庫)或者由許多數(shù)據(jù)源整合而來(如:一個(gè)CRM應(yīng)用的數(shù)據(jù)庫整合,數(shù)據(jù)庫內(nèi)含有CRM數(shù)據(jù)庫里的每位客戶的社交媒體互動(dòng))。

數(shù)據(jù)可能是結(jié)構(gòu)化的(如:描述客戶支付金額的數(shù)據(jù)),也可能是非結(jié)構(gòu)化的(如:自由文本里客戶與工作人員的互動(dòng)備注),也可能是半結(jié)構(gòu)化的(如:網(wǎng)絡(luò)路由器生成的日志文件數(shù)據(jù))。被捕捉到的精選數(shù)據(jù)都是已經(jīng)自動(dòng)被清洗干凈,被標(biāo)簽和分析好了的,減少了人們的人工思考的時(shí)間。

這些年,隨著開源軟件,云計(jì)算和商用服務(wù)器硬件的使用,我們減少了數(shù)據(jù)倉庫的費(fèi)用,也提高了我們管理更多不同高速產(chǎn)生的數(shù)據(jù)的能力。我們的收支狀態(tài)已經(jīng)發(fā)生改變,從為數(shù)據(jù)倉庫花費(fèi)幾千萬美元,轉(zhuǎn)變?yōu)樽畲蟮墓静㈤_始盈利,如金融服務(wù)組織花旗銀行Citibank和大型零售商沃爾瑪Walmart,從倉庫到中小型企業(yè)皆可支付的狀態(tài)。最近,低成本服務(wù)提供商,如亞馬遜 Redshift, 谷歌 BigQuery以及微軟Auzre,已經(jīng)將數(shù)據(jù)倉庫轉(zhuǎn)移到云。最終,數(shù)據(jù)倉庫能被大眾公司接受。

隨著數(shù)據(jù)倉管的增加,數(shù)據(jù)報(bào)告的發(fā)表形式從打印到數(shù)字化。

數(shù)據(jù)完整性的第二步包括通過數(shù)據(jù)分析,理解數(shù)據(jù)倉庫的內(nèi)容。在商業(yè)環(huán)境中,通常是通過報(bào)告和相關(guān)聯(lián)的可視化實(shí)現(xiàn)數(shù)據(jù)的完整性,有時(shí)也使用更多定制的可視化和機(jī)器學(xué)習(xí)算法,比如人造神經(jīng)網(wǎng)絡(luò)。(機(jī)器學(xué)習(xí)不是新的內(nèi)容,但是大家認(rèn)為,它從數(shù)據(jù)倉庫出現(xiàn)就一直被使用,作為數(shù)據(jù)儲(chǔ)存和管理的工具。)

隨著數(shù)據(jù)倉庫被不同行業(yè)的大量企業(yè)采用,我們看到了報(bào)告形式的轉(zhuǎn)變,它是可以被創(chuàng)造的,媒體可以提供分析學(xué)者和決策者報(bào)告,或者員工自己準(zhǔn)備這些報(bào)告。早期(80年代晚期,90年代初期),商業(yè)智能報(bào)告是由指定的IT職員負(fù)責(zé)的,在報(bào)告中對(duì)數(shù)據(jù)倉庫的必要查詢是有相關(guān)標(biāo)準(zhǔn)和主題的。這些報(bào)告通過電腦用紙保存(如:報(bào)告可以被修改,但是只能由那位負(fù)責(zé)該報(bào)告的職員完成)和展示。后來,報(bào)告仍然可以保存,同時(shí)這些報(bào)告可通過指定的報(bào)告項(xiàng)目展示在PC上,再后來,Web瀏覽器可運(yùn)行在不同的設(shè)備上,包括智能手機(jī)和平板,所以報(bào)告也能在這些設(shè)備上展示。這些年來,創(chuàng)建查詢和撰寫報(bào)告的任務(wù)已經(jīng)從IT員工轉(zhuǎn)移到企業(yè)用戶。但是,當(dāng)這些查詢和相關(guān)報(bào)告可以更快的生成,更加靈活和廣泛的使用時(shí),這些報(bào)告的主要使用者-企業(yè)分析師-他們?nèi)匀辉诓粩嗟?,嘗試在報(bào)告中得出信息的最簡單的模式。更重要是,這些用戶在嘗試基于這些信息采取相應(yīng)的操作(圖1)。

 

圖1:復(fù)雜的數(shù)據(jù)模型和可視化的一些例子,圖片授權(quán)自Evangelos Simoudis

隨著更多的數(shù)據(jù)生成,我們已經(jīng)可以更好更有效的管理它的費(fèi)用,但是要想對(duì)數(shù)據(jù)進(jìn)項(xiàng)有效分析,仍然不是件容易的事。

受網(wǎng)絡(luò)全球廣泛使用,以及網(wǎng)絡(luò)支付的連接,還有如物聯(lián)網(wǎng)等新領(lǐng)域得出大量我們從未見過的數(shù)據(jù)的驅(qū)使,發(fā)現(xiàn)我們的周圍充斥著數(shù)據(jù)??鞌?shù)據(jù)和慢數(shù)據(jù),簡單數(shù)據(jù)和復(fù)雜數(shù)據(jù),以及全部一起出現(xiàn)的前所未有的海量數(shù)據(jù)。數(shù)據(jù)量可以有多大?

 

圖表2:展示了生成非結(jié)構(gòu)化數(shù)據(jù)從2005年到預(yù)計(jì)2020年的增長情況,圖表授權(quán)來自互聯(lián)網(wǎng)數(shù)據(jù)中心IDC,圖表未經(jīng)許可,不可使用。

在過去10年,數(shù)據(jù)變得更大,同時(shí)企業(yè)IT戰(zhàn)略的核心實(shí)現(xiàn)了“事半功倍”。企業(yè)現(xiàn)在面臨著數(shù)據(jù)倉庫系統(tǒng)的兩個(gè)難題。第一,有些系統(tǒng)不能有效管理捕捉到的大數(shù)據(jù),導(dǎo)致不能有效使用那些應(yīng)用。第二,費(fèi)用高的離譜,對(duì)于系統(tǒng)而言可能會(huì)成為數(shù)據(jù)管理的挑戰(zhàn)。

關(guān)于這些問題,出現(xiàn)了部分解決方案,是由科技巨頭公司(如谷歌,雅虎等)開發(fā)的數(shù)據(jù)管理軟件,去得到新的數(shù)據(jù)生成,如Hadoop。一開始,這個(gè)軟件是運(yùn)行在商用服務(wù)器硬件,它是快速開源的,因此可以幫助一些企業(yè)用低廉的成本解決一些大數(shù)據(jù)的問題。比如像Cloudera, Hortonworks和一些其他提供開源軟件服務(wù)的公司已經(jīng)成為大數(shù)據(jù)非結(jié)構(gòu)化領(lǐng)域的主要成員。我之所以說只是出現(xiàn)了部分解決方案,是因?yàn)?,在管理?shù)據(jù)的時(shí)候,一些系統(tǒng)不具備解決復(fù)雜性問題的功能,專屬的數(shù)據(jù)倉庫管理系統(tǒng)只有一些企業(yè)擁有。這些新的系統(tǒng)擅長建立數(shù)據(jù)湖,通過低成本選擇的方式替代和擴(kuò)展數(shù)據(jù)倉庫,它是適應(yīng)大數(shù)據(jù)環(huán)境的設(shè)施。

雖然我們提高了有效管理數(shù)據(jù)費(fèi)用的能力,但是我們分析數(shù)據(jù)的能力和費(fèi)用沒有改善。

雖然大眾媒體都宣布來自數(shù)據(jù)的洞察力將是“新石油”(“黃金”),但是市場研究公司互聯(lián)網(wǎng)數(shù)據(jù)中心IDC則預(yù)測到了2020年,只有一小部分?jǐn)?shù)據(jù)可以被收集和分析。我們需要分析更多捕捉到的數(shù)據(jù)和提取其中包含的信息。

我們在努力提高分析數(shù)據(jù)的能力,但是面臨數(shù)據(jù)專業(yè)人員的短缺。

為了收集和分析更多的數(shù)據(jù),包括報(bào)告里面的數(shù)據(jù),我們開始通過機(jī)器學(xué)習(xí)和其他基于AI的數(shù)據(jù)分析技術(shù),來廣泛地使用自動(dòng)信息提取方法。但是這些方法只能由數(shù)據(jù)科學(xué)家使用,這是一種新的職業(yè)。雖然我們看到一大批數(shù)據(jù)科學(xué)家的涌現(xiàn),但是我們需要更多。目前無法做到培養(yǎng)出滿足需求數(shù)量的數(shù)據(jù)科學(xué)家,以及提供我們生成足夠的數(shù)據(jù)。McKinsey預(yù)計(jì)到了2018年,美國將將面臨人才短缺,大概缺14到19萬名掌握深入分析技巧,能夠從收集的數(shù)據(jù)里提取洞察的專業(yè)人才。

我們也面領(lǐng)著人才短缺,缺少大概15萬名經(jīng)理人,他們掌握著必要的定量技能,能基于數(shù)據(jù)科學(xué)家的大數(shù)據(jù)分析結(jié)果做出重要的商業(yè)決策。

機(jī)器學(xué)習(xí)提升了我們找到數(shù)據(jù)相關(guān)性的能力,恰好節(jié)省了決策時(shí)間,增加了數(shù)據(jù)效率。

商業(yè)智能作為一個(gè)領(lǐng)域已經(jīng)發(fā)展了40年。統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)科技則使用了更久。這段時(shí)期,我們已經(jīng)提高了確認(rèn)數(shù)據(jù)集相關(guān)性的能力,這恰好減少了用在決策上的時(shí)間和增加了數(shù)據(jù)的效率。比如,公司的財(cái)務(wù)官需要一個(gè)月才能做出財(cái)務(wù)預(yù)測,然而一個(gè)自動(dòng)線上廣告平臺(tái)只需要10毫秒就能決定將他們的數(shù)字廣告投放給哪一位客戶(圖3)。還有,當(dāng)財(cái)務(wù)官在根據(jù)幾兆數(shù)據(jù)做出決策時(shí),線上廣告系統(tǒng)已經(jīng)在利用TB級(jí)數(shù)據(jù)在工作,大部分?jǐn)?shù)據(jù)是實(shí)時(shí)生成的。

 

圖3:圖表顯示不同行業(yè)做出決策的平均時(shí)間。圖表授權(quán)來自Evangelos Simoudis.

在某些應(yīng)用領(lǐng)域,簡單的確認(rèn)數(shù)據(jù)集之間的關(guān)聯(lián)性就足以做出決策。這其中又有一些領(lǐng)域可以實(shí)現(xiàn)高回報(bào),這通常會(huì)讓他們決定是否需要數(shù)據(jù)科學(xué)家或者其他特定專業(yè)人才,從現(xiàn)有數(shù)據(jù)中提取信息。計(jì)算機(jī)安全威脅檢測和信用卡盜刷偵測領(lǐng)域就是其中兩個(gè)。在這些領(lǐng)域里,作出決策的時(shí)間非常短,“錯(cuò)誤”決策的成本(通常是保密的),但是至少一開始不是很高。而減少處理環(huán)節(jié)就跟安全侵入一樣是詐騙行為(如:信用卡持卡人遇到了麻煩,那么系統(tǒng)管理者就應(yīng)該要進(jìn)行網(wǎng)絡(luò)取證)。但是,在一個(gè)已經(jīng)建立好的行為模式里發(fā)現(xiàn)異常現(xiàn)象失敗,造成的成本可能更高。

為了跟隨大數(shù)據(jù)的發(fā)展以及提高我們對(duì)數(shù)據(jù)的使用,我們需要能夠快速且廉價(jià)的提取相關(guān)性的應(yīng)用,將洞察與操作聯(lián)系起來。

預(yù)計(jì)將短缺大量掌握定量技能的數(shù)據(jù)科學(xué)家和商業(yè)用戶,我們渴望能繼續(xù)探究大量已經(jīng)收集和管理起來的數(shù)據(jù),我們會(huì)開發(fā)更好的分析應(yīng)用,能生成洞察力和聯(lián)系操作。這些應(yīng)用,我稱它們?yōu)榫哂卸床炝Φ膽?yīng)用,遠(yuǎn)不止從數(shù)據(jù)里提取相關(guān)性那么簡單。

就數(shù)據(jù)的完整性方面我們已經(jīng)取得了不錯(cuò)的成績。一方面我們減少了管理大數(shù)據(jù)的費(fèi)用,另一方面,我們提高了分析和提取關(guān)鍵信息的能力。但是,大數(shù)據(jù)的增長量太大了,以至于沒辦法跟得上大數(shù)據(jù)快速靈活的查詢和報(bào)告。通過使用具有洞察力的應(yīng)用,能低成本且快速地創(chuàng)造具有操作性的洞察。我將會(huì)在下一篇報(bào)道中更深入的探討這個(gè)問題。

作者簡介: Evangelos Simoudis是富有經(jīng)驗(yàn)的風(fēng)險(xiǎn)投資專家以及全球企業(yè)的高級(jí)顧問。他的投資事業(yè)開始于15年前,先后在安佰深集團(tuán)和Trident Capital。如今,Evangelos主要是投資初期和成長期階段的企業(yè),這些企業(yè)主要是來自數(shù)據(jù)和分析領(lǐng)域,提供軟件即服務(wù)的應(yīng)用(Saas應(yīng)用),具有流動(dòng)性。他是企業(yè)創(chuàng)新,大數(shù)據(jù),云計(jì)算以及數(shù)字市場平臺(tái)公認(rèn)的思想領(lǐng)導(dǎo)者,他也是這些方面的積極發(fā)言人和貢獻(xiàn)者。

責(zé)任編輯:Ophira 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-06-13 14:39:21

阿里云侵權(quán)云服務(wù)器

2015-10-19 10:11:00

2014-06-16 09:11:29

快數(shù)據(jù)大數(shù)據(jù)

2014-08-15 10:34:42

快數(shù)據(jù)大數(shù)據(jù)

2015-09-14 13:57:22

大數(shù)據(jù)科技革命

2015-07-28 11:22:30

大數(shù)據(jù)浪潮

2014-03-24 17:31:21

2020-12-23 13:08:05

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2021-03-03 11:06:07

云軟件

2018-11-19 13:00:56

公安大數(shù)據(jù)數(shù)據(jù)分析安全

2024-04-11 11:26:11

邊緣計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)分析

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2020-12-01 16:31:05

大數(shù)據(jù)5G云計(jì)算

2024-05-15 10:38:55

OpenAIGPT-4oIlya

2014-12-08 10:06:50

Hadoop大數(shù)據(jù)

2011-12-20 20:44:36

移動(dòng)應(yīng)用

2021-05-26 16:18:01

5G5G網(wǎng)絡(luò)5G+

2022-02-28 00:14:30

人工智能數(shù)據(jù)機(jī)器學(xué)習(xí)

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺(tái)IT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)