改進(jìn)機(jī)器學(xué)習(xí):知識(shí)圖譜如何為數(shù)據(jù)賦予更深層的意義?
譯文編譯 | 布加迪
編輯 | 薛彥澤
【51CTO.com快譯】許多企業(yè)在部署機(jī)器學(xué)習(xí)系統(tǒng)時(shí),采用了過(guò)時(shí)的數(shù)據(jù)管理方法,這就會(huì)導(dǎo)致兩個(gè)負(fù)面影響:一是過(guò)時(shí)的數(shù)據(jù)復(fù)制方法會(huì)延遲最終的洞察結(jié)果,二是造成數(shù)據(jù)缺乏統(tǒng)一性、語(yǔ)境化。
過(guò)度的數(shù)據(jù)復(fù)制和由此產(chǎn)生的“二階效應(yīng)”正在給大多數(shù)組織的數(shù)據(jù)科學(xué)家造成巨大的低效和浪費(fèi)。據(jù)IDC公司聲稱,去年生成了超過(guò)60ZB的數(shù)據(jù),預(yù)計(jì)年復(fù)合增長(zhǎng)率將達(dá)到23%,并將一直持續(xù)到2025年。更糟糕的是,獨(dú)特?cái)?shù)據(jù)與復(fù)制數(shù)據(jù)之比為1:10,這意味著大多數(shù)組織的數(shù)據(jù)管理方法基于拷貝數(shù)據(jù)。
公司在創(chuàng)建機(jī)器學(xué)習(xí)模型時(shí),通常通過(guò)從不同數(shù)據(jù)源復(fù)制相關(guān)數(shù)據(jù)來(lái)劃分這些數(shù)據(jù)。模型通常拿其中20%的數(shù)據(jù)進(jìn)行訓(xùn)練,其余80%的數(shù)據(jù)保留用于測(cè)試。數(shù)據(jù)清理、特征工程和模型評(píng)估這些工作需要六個(gè)月或更久,這會(huì)使數(shù)據(jù)在此過(guò)程中變得過(guò)時(shí),同時(shí)推遲獲得洞察的時(shí)間,并影響數(shù)據(jù)結(jié)果。
傳統(tǒng)、過(guò)時(shí)的數(shù)據(jù)管理方法的第二個(gè)影響是洞察質(zhì)量下降。這種影響不僅歸因于使用陳舊數(shù)據(jù)構(gòu)建模型,還歸因于關(guān)系意識(shí)不足、垂直數(shù)據(jù)孤島斷開、上下文信息不足以及關(guān)系數(shù)據(jù)管理技術(shù)在模式(schema)上的限制。
用現(xiàn)代數(shù)據(jù)結(jié)構(gòu)正確實(shí)施知識(shí)圖可以糾正這些數(shù)據(jù)管理問(wèn)題,同時(shí)增加機(jī)器學(xué)習(xí)的價(jià)值。在知識(shí)圖助力的數(shù)據(jù)結(jié)構(gòu)中部署數(shù)據(jù)虛擬化使數(shù)據(jù)科學(xué)家能夠?qū)C(jī)器學(xué)習(xí)引入到數(shù)據(jù),避免了浪費(fèi)時(shí)間和資源。
此外,圖模型固有的靈活性及其利用相互關(guān)系的能力使得組織為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)變得極其容易,因?yàn)樗鼈兲峁┝烁倪M(jìn)的特征工程、根本原因分析和圖分析等功能。隨著數(shù)據(jù)管理和人工智能趨于融合,這項(xiàng)功能還幫助知識(shí)圖轉(zhuǎn)而成為未來(lái)20年主要數(shù)據(jù)管理結(jié)構(gòu)的關(guān)鍵。簡(jiǎn)而言之,知識(shí)圖對(duì)AI的幫助將如同AI對(duì)知識(shí)圖的幫助一樣大。
數(shù)據(jù)科學(xué)家需要戰(zhàn)略數(shù)據(jù)管理
越來(lái)越多的數(shù)據(jù)組織在處理長(zhǎng)期的機(jī)器學(xué)習(xí)部署。數(shù)據(jù)孤島或數(shù)據(jù)湖中不同的數(shù)據(jù)格式、模式和術(shù)語(yǔ)會(huì)延遲需要這些訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)計(jì)劃。缺乏上下文和語(yǔ)義注釋使得組織難以理解數(shù)據(jù)的含義及特定模型的用途。即使數(shù)據(jù)有充足的上下文,這些信息也很少能持久,因此組織必須重新開始后續(xù)項(xiàng)目??焖僖苿?dòng)的數(shù)據(jù)(比如物聯(lián)網(wǎng)設(shè)備收集的信息)使復(fù)制這些不同數(shù)據(jù)時(shí)所需的數(shù)月培訓(xùn)變得更加困難。組織被迫通過(guò)再次復(fù)制新數(shù)據(jù)來(lái)應(yīng)對(duì)這一障礙,重新啟動(dòng)這個(gè)損害模型功能的耗時(shí)過(guò)程。
一種推薦方法是在數(shù)據(jù)結(jié)構(gòu)層訓(xùn)練模型,而不是將數(shù)據(jù)復(fù)制到孤島中。組織無(wú)需移動(dòng)數(shù)據(jù),即可輕松創(chuàng)建訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。比如說(shuō),組織甚至可以指定一個(gè)隨機(jī)的20% 的數(shù)據(jù)樣本,使用查詢通過(guò)這種基于知識(shí)圖的數(shù)據(jù)虛擬化方法提取特征并提供訓(xùn)練數(shù)據(jù)集。這種方法闡明了數(shù)據(jù)管理和機(jī)器學(xué)習(xí)之間的聯(lián)系,以加快獲得洞察力,另一個(gè)好處是使用更新穎的數(shù)據(jù)訓(xùn)練模型。
獲得高質(zhì)量的機(jī)器學(xué)習(xí)洞察力
與關(guān)系或其他方法相比,知識(shí)圖譜為理解企業(yè)數(shù)據(jù)提供了更豐富、更扎實(shí)的基礎(chǔ)。它們提供節(jié)點(diǎn)邊緣之間的上下文理解和關(guān)系檢測(cè),這是圖存儲(chǔ)數(shù)據(jù)的方式。語(yǔ)義圖數(shù)據(jù)模型顯著增強(qiáng)了該功能,這種模型將針對(duì)特定公司的術(shù)語(yǔ)標(biāo)準(zhǔn)化為一組分層的詞匯表或分類法。因此,數(shù)據(jù)科學(xué)家天生就能理解數(shù)據(jù)的含義以及與任何用例(比如機(jī)器學(xué)習(xí))的關(guān)系。語(yǔ)義圖數(shù)據(jù)模型還在模式層面對(duì)齊數(shù)據(jù),提供有關(guān)概念或業(yè)務(wù)類別的智能推斷,并在提供企業(yè)數(shù)據(jù)完整視圖的同時(shí)避免術(shù)語(yǔ)或同義詞存在的傳統(tǒng)問(wèn)題。
這些特征對(duì)此至關(guān)重要:縮短為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)所需的時(shí)間,同時(shí)從可用數(shù)據(jù)中生成高度細(xì)微的、語(yǔ)境化的洞察力。這種方法的另一個(gè)好處是針對(duì)圖的算法與機(jī)器學(xué)習(xí)密切相關(guān)。它們?cè)试S數(shù)據(jù)科學(xué)家充分利用與聚類、降維、主成分分析(PCA)和無(wú)監(jiān)督學(xué)習(xí)相關(guān)的特定技術(shù),這些技術(shù)非常適合為機(jī)器學(xué)習(xí)準(zhǔn)備好圖格式的訓(xùn)練數(shù)據(jù)。這些技術(shù)及其他技術(shù)(如圖嵌入)可以加快特征生成過(guò)程,或?yàn)閿?shù)據(jù)準(zhǔn)備提供影響分析。
融合數(shù)據(jù)管理和知識(shí)管理
知識(shí)圖譜對(duì)機(jī)器學(xué)習(xí)的總體效用證明了數(shù)據(jù)管理和知識(shí)管理具有相輔相成的性質(zhì)。引用廣受贊譽(yù)的谷歌研究教授Peter Norvig的話來(lái)說(shuō),有了足夠的數(shù)據(jù),人們就不需要花哨的算法。也就是說(shuō),在知識(shí)圖譜和數(shù)據(jù)虛擬化支持的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)中融合數(shù)據(jù)管理和知識(shí)管理提供了更豐富、更高質(zhì)量的數(shù)據(jù),從而使組織能夠在沒(méi)有完美算法的情況下優(yōu)化機(jī)器學(xué)習(xí)。
比如說(shuō),如果擁有關(guān)于客戶購(gòu)買習(xí)慣的足夠數(shù)據(jù),組織就不需要花哨的算法來(lái)預(yù)測(cè)哪些客戶會(huì)對(duì)新產(chǎn)品感興趣。數(shù)據(jù)管理和知識(shí)管理的融合為組織提供了增強(qiáng)的智能算法及模型,進(jìn)而為決策提供了有力的信息依據(jù),從而最大限度地發(fā)揮AI的優(yōu)勢(shì)。
原文標(biāo)題:Improving Machine Learning: How Knowledge Graphs Bring Deeper Meaning to Data,作者:Kendall Clark
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】