數(shù)據(jù)科學(xué)、機器學(xué)習(xí)與AI:如何協(xié)同工作
現(xiàn)在企業(yè)都擁有海量數(shù)據(jù)。就在十年前,千兆字節(jié)的數(shù)據(jù)似乎還很龐大。而如今,有些大型企業(yè)已經(jīng)在管理澤字節(jié)數(shù)據(jù)。為了讓你了解這種數(shù)據(jù)規(guī)模,我們打個比方,如果你的筆記本電腦或臺式機裝有1 TB硬盤驅(qū)動器,則澤字節(jié)相當(dāng)于10億個這樣的硬盤驅(qū)動器。
企業(yè)如何從如此多的數(shù)據(jù)中挖掘商業(yè)價值呢?他們需要能夠分析這些數(shù)據(jù),這就像在大海撈針。而這正是數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI發(fā)揮作用的地方,但你并不需要澤字節(jié)規(guī)模的數(shù)據(jù)來使這三項技術(shù)具有相關(guān)性。
對于各種行業(yè)中各種類型和規(guī)模的企業(yè),這三項技術(shù)都是關(guān)鍵技術(shù)主題。但是,對于數(shù)據(jù)科學(xué)、機器學(xué)習(xí)、人工智能以及它們各自涉及的內(nèi)容,人們?nèi)匀唤?jīng)常感到困惑。你需要了解這些變革性概念的性質(zhì)和目的,以幫助你學(xué)習(xí)如何最好地利用它們以滿足緊迫的業(yè)務(wù)需求。
下面讓我們看看這些技術(shù),了解它們之間的差異以及如何讓它們協(xié)同工作。
數(shù)據(jù)科學(xué)
雖然從數(shù)據(jù)出現(xiàn)以來,數(shù)據(jù)就是計算的核心,但在數(shù)據(jù)出現(xiàn)的幾十年后,才出現(xiàn)專門處理數(shù)據(jù)分析的單獨領(lǐng)域。數(shù)據(jù)科學(xué)專注于統(tǒng)計方法、科學(xué)方法和高級分析技術(shù)–而不是數(shù)據(jù)管理的技術(shù)方面,這些技術(shù)將數(shù)據(jù)視為離散資源,而不管其存儲或操作方式如何。
在其核心,數(shù)據(jù)科學(xué)旨在從數(shù)據(jù)中提取有用的見解,基于企業(yè)高管和其他潛在用戶的特定要求。客戶想要購買什么?企業(yè)的特定產(chǎn)品或在某個地理區(qū)域的情況如何?COVID-19疫情是否正在縮減或增加資源?這些是可以通過數(shù)據(jù)科學(xué)回答的問題,其中利用數(shù)學(xué)、統(tǒng)計和數(shù)據(jù)分析。
傳統(tǒng)上來看,企業(yè)依靠商業(yè)智能系統(tǒng)從不斷增長的數(shù)據(jù)池中獲得見解。但是,BI系統(tǒng)部分依靠人類來發(fā)現(xiàn)電子表格、儀表板、圖表或圖形中的趨勢。他們也受到大數(shù)據(jù)4個屬性的挑戰(zhàn):數(shù)量、速度、多樣性和準(zhǔn)確性。隨著企業(yè)存儲越來越多的數(shù)據(jù),以更快的速度從各種各樣的數(shù)據(jù)源中收集數(shù)據(jù),以不同的格式和不同的數(shù)據(jù)質(zhì)量級別,BI的常規(guī)數(shù)據(jù)倉庫和業(yè)務(wù)分析方法已經(jīng)不夠用。
相比之下,亞馬遜、谷歌、Netflix和Spotify等領(lǐng)先公司的經(jīng)驗表明,應(yīng)用數(shù)據(jù)科學(xué)的基本方面可以幫助發(fā)現(xiàn)更深刻的見解,從而提供比商業(yè)競爭對手更大的競爭優(yōu)勢。他們和其他組織(銀行和保險公司、零售商、制造商等)都在利用數(shù)據(jù)科學(xué)來發(fā)現(xiàn)數(shù)據(jù)集的模式、識別潛在的異常交易、發(fā)現(xiàn)錯失客戶的機會,并創(chuàng)建未來行為和事件的預(yù)測模型。
同樣,醫(yī)療保健提供者依靠數(shù)據(jù)科學(xué)來幫助診斷醫(yī)療狀況,并改善患者護理,而政府機構(gòu)則將其用于提早通知可能危及生命的情況,以及確保關(guān)鍵系統(tǒng)和基礎(chǔ)設(shè)施的安全性等。
數(shù)據(jù)科學(xué)工作主要由數(shù)據(jù)科學(xué)家完成。盡管對其工作描述尚未達成共識,但下面是有效的數(shù)據(jù)科學(xué)家必須具備的最低技能:
- 完全掌握統(tǒng)計數(shù)據(jù)和概率;
- 了解用于分析數(shù)據(jù)的各種算法方法;
- 懂得使用各種工具、技術(shù)來探究大型數(shù)據(jù)集以獲得所需分析結(jié)果;
- 數(shù)據(jù)可視化功能,可提供對所生成見解的可視性。
作為數(shù)據(jù)科學(xué)團隊的一部分,數(shù)據(jù)科學(xué)家經(jīng)常與數(shù)據(jù)工程師合作,以從多個源系統(tǒng)中收集和整理數(shù)據(jù);數(shù)據(jù)科學(xué)家還需要與業(yè)務(wù)分析師合作,以了解不斷發(fā)展的業(yè)務(wù)需求,以及數(shù)據(jù)分析師,以了解不斷變化的數(shù)據(jù)集特性,還有開發(fā)人員–他們可以幫助將由數(shù)據(jù)科學(xué)應(yīng)用程序生成的分析模型投入生產(chǎn)環(huán)境。
現(xiàn)在企業(yè)越來越多地要求這些模型做更多的事情,而不僅僅是提供對當(dāng)前數(shù)據(jù)狀態(tài)的見解的快照。數(shù)據(jù)科學(xué)家可以訓(xùn)練算法來學(xué)習(xí)樣本數(shù)據(jù)的模式、相關(guān)性和其他特征,然后分析他們從未見過的完整數(shù)據(jù)集。通過這種方式,數(shù)據(jù)科學(xué)推動人工智能的發(fā)展,特別是通過使用機器學(xué)習(xí)來支持AI的目標(biāo)。
機器學(xué)習(xí)
智能的標(biāo)志之一是從經(jīng)驗中學(xué)習(xí)的能力。如果機器可以識別數(shù)據(jù)中的模式,則它們可以使用這些模式來對新數(shù)據(jù)生成見解或預(yù)測。這是機器學(xué)習(xí)背后的基本概念。
機器學(xué)習(xí)依賴于算法,這些算法可以將從良好數(shù)據(jù)示例中學(xué)習(xí)編碼為模型。這些模型可用于廣泛的應(yīng)用程序,例如將數(shù)據(jù)分類(“此圖像是貓嗎?”),根據(jù)給定的先前識別模式預(yù)測某些數(shù)據(jù)的值(“此交易是欺詐的概率是多少? ?”),以及標(biāo)識數(shù)據(jù)集中的組(“我還可以向購買該產(chǎn)品的人推薦其他哪些產(chǎn)品?”)。
機器學(xué)習(xí)的核心概念體現(xiàn)在分類、回歸和聚類中?,F(xiàn)在已經(jīng)創(chuàng)建各種各樣的機器學(xué)習(xí)算法,可跨不同的數(shù)據(jù)集執(zhí)行任務(wù)。可用的算法包括決策樹、支持向量機、K均值聚類、K最近鄰、樸素貝葉斯分類器、隨機森林、高斯混合模型、線性回歸、邏輯回歸、主成分分析等。數(shù)據(jù)科學(xué)家通常會構(gòu)建和運行算法;現(xiàn)在,有些數(shù)據(jù)科學(xué)團隊還包括機器學(xué)習(xí)工程師,他們可以幫助編碼和部署結(jié)果模型。
機器學(xué)習(xí)過程涉及不同類型的學(xué)習(xí),其中數(shù)據(jù)科學(xué)家和分析師的指導(dǎo)水平各不相同。主要的替代方法是:
- 有監(jiān)督學(xué)習(xí),從人為標(biāo)記的培訓(xùn)數(shù)據(jù)開始,幫助指導(dǎo)算法學(xué)習(xí)什么;
- 無監(jiān)督學(xué)習(xí),在這種方法中,算法使用未標(biāo)記的訓(xùn)練數(shù)據(jù)自行發(fā)現(xiàn)信息;
- 強化學(xué)習(xí),它使算法可以通過反復(fù)試驗來學(xué)習(xí)初始指令,并受到數(shù)據(jù)科學(xué)家的持續(xù)監(jiān)督。
現(xiàn)在沒有哪種算法方法能像人工神經(jīng)網(wǎng)絡(luò)那樣讓人感到興奮和充滿希望。就像生物系統(tǒng)一樣,神經(jīng)網(wǎng)絡(luò)包含神經(jīng)元,這些神經(jīng)元可以獲取輸入數(shù)據(jù),對輸入施加權(quán)重和偏差調(diào)整,然后將結(jié)果輸出饋送到其他神經(jīng)元。通過這些神經(jīng)元之間一系列復(fù)雜的互連和相互作用,隨著時間的推移,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)如何調(diào)整權(quán)重和偏差,以提供所需結(jié)果。
在1950年代還是感知器算法中的單層神經(jīng)元,現(xiàn)在已經(jīng)發(fā)展成為一種更為復(fù)雜的方法,稱為深度學(xué)習(xí),該方法使用多層來產(chǎn)生細微而復(fù)雜的結(jié)果。這些多層神經(jīng)網(wǎng)絡(luò)已經(jīng)顯示出強大功能,可從大型數(shù)據(jù)集中學(xué)習(xí)并支持面部識別、多語言對話系統(tǒng)、自動駕駛汽車和高級預(yù)測分析等。
在數(shù)據(jù)密集型公司(例如Google、Netflix、亞馬遜、微軟和IBM)的大力推動下,曾經(jīng)看起來像是一種假設(shè)的研究迅速成為可能現(xiàn)實,并在2000年代初開始發(fā)展。大數(shù)據(jù)的可用性、數(shù)據(jù)科學(xué)的能力和機器學(xué)習(xí)的力量,不僅為面臨挑戰(zhàn)的當(dāng)今企業(yè)提供了答案,而且還可以幫助克服長期挑戰(zhàn),使AI照進現(xiàn)實。
人工智能
人工智能是比計算本身更古老的想法:是否有可能創(chuàng)造出具有人類認知能力的機器?人工智能的想法最早出現(xiàn)在在20世紀(jì)中葉,長期以來,這個想法激勵著學(xué)者、研究人員和科幻小說作家。在1950年,計算機先驅(qū)和著名的代碼破解者Alan Turing提出機器智能的基本測試,該測試被稱為圖靈測試。人工智能一詞是在1956年在達特茅斯舉行的AI會議上提出。
AI仍然是一個夢想,幾十年前很多人所設(shè)想人工智能仍然沒有實現(xiàn)。具有完全認知和智力能力的機器的概念被稱為人工智能(AGI)或通用AI。目前還沒有人建立這樣的系統(tǒng),如果可行的話,AGI的開發(fā)可能還需要數(shù)十年的時間。
但是,我們已經(jīng)能夠解決弱AI任務(wù)。我的研究公司Cognilytica已經(jīng)定義七種AI模式,這些模式專注于感知、預(yù)測或規(guī)劃的特定需求。
例如,它們包括訓(xùn)練機器:
- 準(zhǔn)確識別圖像、對象和非結(jié)構(gòu)化數(shù)據(jù)中的其他元素;
- 與人類進行有意義的對話互動; 使用生成的見解來推動預(yù)測分析系統(tǒng);
- 發(fā)現(xiàn)大數(shù)據(jù)集中的模式和異常; 為超個性化用途創(chuàng)建個人的詳細配置文件;
- 支持自治系統(tǒng)–在很少人或沒有人參與的情況下;
- 解決情景模擬和其他具有挑戰(zhàn)的目標(biāo)驅(qū)動型問題。
這些用例都提供重要功能和價值,盡管沒有解決AGI的總體目標(biāo)。機器學(xué)習(xí)的發(fā)展直接帶來這些弱AI應(yīng)用程序的發(fā)展。而且由于數(shù)據(jù)科學(xué)使機器學(xué)習(xí)變得切實可行,因此它也使機器學(xué)習(xí)成為現(xiàn)實。
數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI之間的差異
盡管數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI很相似,并可在分析應(yīng)用程序和其他用例中互相支持,但它們的概念、目標(biāo)和方法卻有很大不同。為了進一步區(qū)分它們,請考慮下列關(guān)鍵屬性。
數(shù)據(jù)科學(xué):
- 專注于從海量數(shù)據(jù)中提取有效信息,以幫助決策和計劃;
- 通過描述性、預(yù)測性和規(guī)范性分析應(yīng)用程序,適用于廣泛的業(yè)務(wù)問題;
- 可處理小規(guī)模數(shù)據(jù)到非常大的數(shù)據(jù)集;
- 使用統(tǒng)計、數(shù)學(xué)、數(shù)據(jù)整理、大數(shù)據(jù)分析、機器學(xué)習(xí)和其他各種方法來回答分析問題。
機器學(xué)習(xí):
- 專注于為算法和系統(tǒng)提供方法,以從數(shù)據(jù)經(jīng)驗中學(xué)習(xí)并利用該經(jīng)驗隨著時間的推移而改進;
- 通過檢查數(shù)據(jù)集而不是顯式編程來學(xué)習(xí),利用數(shù)據(jù)科學(xué)方法、技術(shù)和工具;
- 可以通過有監(jiān)督、無監(jiān)督或強化學(xué)習(xí)方法來完成;
- 支持人工智能用例,尤其是處理特定任務(wù)的弱AI應(yīng)用程序。
人工智能:
- 專注于賦予機器類似于人類的認知和智力能力;
- 包含智能概念的集合,包括感知、規(guī)劃和預(yù)測元素;
- 能夠在特定任務(wù)和工作流程中增強或代替人類;
- 當(dāng)前還沒有解決人類智能的關(guān)鍵方面,例如常識理解、將知識從一種環(huán)境應(yīng)用到另一種環(huán)境、適應(yīng)變化并展示感知力和意識。
數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI如何結(jié)合
數(shù)據(jù)科學(xué)本身的力量很巨大,當(dāng)與機器學(xué)習(xí)相結(jié)合,可提供更大的潛在價值,從不斷增長的數(shù)據(jù)池中獲得洞察力。當(dāng)這二者結(jié)合使用時,還可以驅(qū)動各種弱AI應(yīng)用程序,并最終可能解決通用AI的挑戰(zhàn)。
更具體地說,下面是企業(yè)如何結(jié)合數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI以產(chǎn)生有效效果的示例:
- 預(yù)測性分析應(yīng)用程序,可基于對不斷變化數(shù)據(jù)集的分析,預(yù)測客戶行為、業(yè)務(wù)趨勢和事件;
- AI會話系統(tǒng),可與客戶、用戶、患者和其他個人進行高度交互的通信;
- 由機器學(xué)習(xí)和AI驅(qū)動的異常檢測系統(tǒng),可響應(yīng)不斷發(fā)展的威脅并增強自適應(yīng)網(wǎng)絡(luò)安全和欺詐檢測系統(tǒng);
- 超個性化系統(tǒng),可實現(xiàn)有針對性的廣告、產(chǎn)品推薦、財務(wù)指導(dǎo)和醫(yī)療保健,以及其他針對客戶的個性化產(chǎn)品。
數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和AI是獨立的概念,它們各自提供強大的功能,而這三者相結(jié)合正在改變我們管理企業(yè)和業(yè)務(wù)運營的方式-以及我們?nèi)绾紊?、工作以及與周圍世界交互。