我被“非結(jié)構(gòu)化數(shù)據(jù)包圍了”,請(qǐng)求支援!
阿里妹導(dǎo)讀:非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容占據(jù)了當(dāng)前數(shù)據(jù)海洋的80%。換句話來(lái)說(shuō),就是我們都被“非結(jié)構(gòu)化數(shù)據(jù)”包圍了。由于非結(jié)構(gòu)化數(shù)據(jù)的信息量和信息的重要程度很難被界定,因此對(duì)非結(jié)構(gòu)化數(shù)據(jù)的使用成為了難點(diǎn)。如果說(shuō)結(jié)構(gòu)化數(shù)據(jù)用詳實(shí)的方式記錄了企業(yè)的生產(chǎn)交易活動(dòng),那么非結(jié)構(gòu)化數(shù)據(jù)則是掌握企業(yè)命脈的關(guān)鍵內(nèi)容,所反映的信息蘊(yùn)含著諸多企業(yè)效益提高的機(jī)會(huì)。而對(duì)大部分組織而言,掌握先進(jìn)的非結(jié)構(gòu)化數(shù)據(jù)分析能力仍是從“大數(shù)據(jù)”中獲得價(jià)值的重大挑戰(zhàn)。
當(dāng)前,數(shù)據(jù)技術(shù)及產(chǎn)品部對(duì)結(jié)構(gòu)化數(shù)據(jù)處理和應(yīng)用已經(jīng)具備了成熟的技術(shù)以及產(chǎn)品方案。為了應(yīng)對(duì)日益增長(zhǎng)的非結(jié)構(gòu)化數(shù)據(jù)訴求,非結(jié)構(gòu)化數(shù)據(jù)體系通過(guò)覆蓋非結(jié)構(gòu)化數(shù)據(jù)規(guī)范、數(shù)據(jù)設(shè)計(jì)、算法能力、服務(wù)能力等來(lái)解決這一問(wèn)題,該體系是對(duì)OneData體系的非結(jié)構(gòu)化數(shù)據(jù)的補(bǔ)充和完善。已經(jīng)賦能了集團(tuán)內(nèi)很多業(yè)務(wù)取得了非常好的效果,而這只是剛剛開(kāi)始。
非結(jié)構(gòu)化數(shù)據(jù)概述
“非結(jié)構(gòu)化數(shù)據(jù)”是什么?相較于記錄了生產(chǎn)、業(yè)務(wù)、交易和客戶信息等的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化的信息涵蓋了更為廣泛的內(nèi)容。非結(jié)構(gòu)化數(shù)據(jù)指的是:數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報(bào)表、圖像和音頻/視頻信息等。
相對(duì)于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)具有以下特點(diǎn):數(shù)據(jù)存儲(chǔ)占比高、數(shù)據(jù)格式多樣、結(jié)構(gòu)不標(biāo)準(zhǔn)且復(fù)雜、信息量豐富、處理門檻高。
當(dāng)前行業(yè)公認(rèn):非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80%以上。結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設(shè)計(jì)文檔、日志文件、機(jī)器數(shù)據(jù)等。
非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)。 下面對(duì)比一下結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別:
結(jié)構(gòu)化數(shù)據(jù),是指由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。
結(jié)構(gòu)化數(shù)據(jù)格式形式如圖下:
非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。
非結(jié)構(gòu)化數(shù)據(jù)-圖片格式如下圖所示:
非結(jié)構(gòu)化數(shù)據(jù)包含的信息量豐富。非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)最大的區(qū)別在于蘊(yùn)含信息量非常豐富,同樣以圖片為例,請(qǐng)看下圖:
你看到了多少信息?不妨我們一起看一看:
- 人物:女人,短發(fā),佩戴項(xiàng)鏈,做了美甲,......
- 衣服:女裝,黑色T恤,長(zhǎng)袖,低領(lǐng),白色褲子,薄款,緊身
- 文字:秋定制,流金詩(shī)意,2折包郵,custom
這是一些顯性信息,可以看出一張圖片里面的顯性信息就已經(jīng)很多了,當(dāng)然還有很多隱形信息。比如:
- 衣服材質(zhì):純棉
- 特點(diǎn):時(shí)尚的版型,貼身,顯身材......
由此可以看出非結(jié)構(gòu)化數(shù)據(jù)隱含的信息量非常豐富。 非結(jié)構(gòu)化數(shù)據(jù)一般不能直接使用,需要通過(guò)算法等手段進(jìn)行處理。但因非結(jié)構(gòu)化數(shù)據(jù)本身的特點(diǎn),處理難度大。比如:對(duì)評(píng)論文本信息的情感分析。為了實(shí)現(xiàn)情感分析,需要使用算法進(jìn)行復(fù)雜的處理,通過(guò)大量的數(shù)據(jù)訓(xùn)練才能完成。以商品評(píng)論數(shù)據(jù)來(lái)看,對(duì)于結(jié)構(gòu)化的評(píng)論如下表:
可以直觀看出用戶感情是負(fù)向的。
同一個(gè)買家的非結(jié)構(gòu)化評(píng)論:我在這家買了,缺少螺絲,商品還有劃痕直接不管。
根據(jù)以上的評(píng)論內(nèi)容,如果要確定買家的情感,就沒(méi)那么簡(jiǎn)單了。需要使用NLP算法,并經(jīng)過(guò)算法效果評(píng)估等一系列過(guò)程。
因此,當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)的處理門檻還是很高,處理難度還比較大。
非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值及應(yīng)用
非結(jié)構(gòu)化數(shù)據(jù)因其包含豐富的內(nèi)容、多樣化的形態(tài)以及廣闊的想象空間,必將引爆將來(lái)的市場(chǎng),無(wú)論是娛樂(lè)、教育、醫(yī)療、生活等,都將產(chǎn)生更豐富的非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景、使用更智能的數(shù)據(jù)處理方式。接下來(lái),我們就針對(duì)當(dāng)前的一些場(chǎng)景簡(jiǎn)單了解一下非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值。
ImageNet:改變AI和世界的圖片[1]
2006 年,李飛飛開(kāi)始反復(fù)思考一個(gè)問(wèn)題。
當(dāng)時(shí)的李飛飛才剛剛在伊利諾伊大學(xué)香檳分校(UIUC)任教,她看到整個(gè)學(xué)界和工業(yè)界普遍流行一種想法,都在致力于打造更好的算法,認(rèn)為更好的算法將帶來(lái)更好的決策,不論數(shù)據(jù)如何。
但李飛飛意識(shí)到了這樣做的局限——即使是最好的算法,如果沒(méi)有好的、能夠反映真實(shí)世界的訓(xùn)練數(shù)據(jù),也沒(méi)辦法用。
李飛飛的解決方案是:構(gòu)建一個(gè)更好的數(shù)據(jù)集。
“我們要詳細(xì)描繪出整個(gè)世界的物體。”李飛飛說(shuō)。由此生成的數(shù)據(jù)集名叫 ImageNet。
相關(guān)論文發(fā)表于 2009 年,最初作為一篇研究海報(bào)在邁阿密海灘會(huì)議中心的角落展示出來(lái)。但沒(méi)過(guò)多久,這個(gè)數(shù)據(jù)集就迅速發(fā)展成為一項(xiàng)年度競(jìng)賽,衡量哪些算法可以以最低的錯(cuò)誤率識(shí)別數(shù)據(jù)集圖像中的物體。許多人都認(rèn)為 ImageNet 競(jìng)賽是如今席卷全球 AI 浪潮的催化劑。
盡管經(jīng)歷了很多艱辛,但是最終 ImageNet改變了人們認(rèn)識(shí)數(shù)據(jù)和算法的方式。“ImageNet 思維所帶來(lái)的范式轉(zhuǎn)變是,盡管很多人都在注意模型,但我們要關(guān)心數(shù)據(jù),”李飛飛說(shuō):“數(shù)據(jù)將重新定義我們對(duì)模型的看法。”
自 2010 年以來(lái),谷歌、微軟和 CIFAR 推出了其他一些數(shù)據(jù)集,因?yàn)槭聦?shí)表明深度學(xué)習(xí)需要像ImageNet 這樣的大數(shù)據(jù)。
“圖片,很多很多的圖片”,作為非結(jié)構(gòu)化數(shù)據(jù)的一種,ImageNet向我們展示了圖片的巨大威力,而我們相信,這只是剛剛開(kāi)始。
店小蜜:智能客服的養(yǎng)成之道[2]
2016年3月,一個(gè)名叫“我的小蜜”的人工智能客服就出現(xiàn)在了手機(jī)淘寶和手機(jī)天貓的APP中,它可以說(shuō)是店小蜜的前身,當(dāng)時(shí),它的主要工作是擔(dān)當(dāng)平臺(tái)客服,為用戶解決催發(fā)貨、退貨退款、投訴和售后保障等問(wèn)題。“我們開(kāi)發(fā)‘我的小蜜’,是為了讓用戶能以最快的方式找到解決問(wèn)題的途徑。” 小蜜的產(chǎn)品經(jīng)理南山回憶起團(tuán)隊(duì)初創(chuàng)時(shí)的往事,這樣說(shuō)道。
整個(gè)淘寶天貓電商平臺(tái)的用戶有好幾億,如果讓每個(gè)用戶都能用快速客服通道來(lái)聯(lián)系客服,顯然會(huì)對(duì)淘寶客服團(tuán)隊(duì)造成巨大壓力。怎么辦呢?人力不能解決的問(wèn)題,就靠技術(shù)來(lái)解決??头藛T忙不過(guò)來(lái),就請(qǐng)智能客服來(lái)幫忙。阿里每天大量的真實(shí)交易互動(dòng),讓用戶的問(wèn)題都以數(shù)據(jù)的形式沉淀下來(lái)。通過(guò)這些數(shù)據(jù),開(kāi)發(fā)團(tuán)隊(duì)可以得知哪些問(wèn)題最高頻。而這些數(shù)據(jù)也讓小蜜不斷地進(jìn)行強(qiáng)化學(xué)習(xí),變得越來(lái)越“聰明”,應(yīng)答準(zhǔn)確度越來(lái)越高。
客服系統(tǒng)產(chǎn)生的文本、語(yǔ)音成了豐富的寶藏,通過(guò)對(duì)這些文本、語(yǔ)音的智能化處理,店小蜜逐漸成為了“最懂電商的客服機(jī)器人”。
“知識(shí),各行各業(yè)的知識(shí)”,店小蜜的成功從一個(gè)角度證明了對(duì)文本、語(yǔ)音的運(yùn)用,可以釋放出來(lái)的巨大能力。我們相信,這只是剛剛開(kāi)始。
智能安保:智能化辦案[3]
2018年11月5日到10日,首屆中國(guó)國(guó)際進(jìn)口博覽會(huì)在上海成功舉辦。本次進(jìn)博會(huì)有一個(gè)大的亮點(diǎn):智能安保。
在本次安?;顒?dòng)中,上海公安局“智慧公安”產(chǎn)品“智能警務(wù)中臺(tái)”成功亮相,通過(guò)對(duì)轄區(qū)1.5萬(wàn)攝像頭的全量接入,實(shí)時(shí)解析,實(shí)現(xiàn)民警的智能化辦案。基于全網(wǎng)全視頻數(shù)據(jù)結(jié)構(gòu)化的提取,實(shí)現(xiàn)人、車多維特征布控,觸網(wǎng)自動(dòng)告警,融合視頻結(jié)構(gòu)化信息、MAC、IMEI、RFID等進(jìn)行多維研判,對(duì)目標(biāo)嫌疑人進(jìn)行行為軌跡跟蹤。
“視頻,流動(dòng)的視頻”,首屆中國(guó)國(guó)際進(jìn)口博覽會(huì)上智能安保的成功應(yīng)用,使我們相信了對(duì)視頻監(jiān)控智能化處理的巨大。我們?nèi)匀幌嘈?,這只是剛剛開(kāi)始。
狂奔的應(yīng)用:被“慣壞”的應(yīng)用
隨著網(wǎng)絡(luò)的加速和人工智能的興起,仿佛一夜之間信息流、短視頻、網(wǎng)紅直播這些新的娛樂(lè)方式涌現(xiàn)在人們面前,躁動(dòng)的人們攪動(dòng)著躁動(dòng)的市場(chǎng),躁動(dòng)的市場(chǎng)攪動(dòng)著躁動(dòng)的應(yīng)用。頭條、抖音、斗魚、小紅書、淘寶直播等等新的娛樂(lè)或電商模式噴薄而出,網(wǎng)紅經(jīng)濟(jì)、內(nèi)容電商、信息流等新興的詞匯也如雨后春筍般涌現(xiàn)出來(lái)。正如蘋果廣告Think different里面描述的那樣:“你可以贊美他們,引用他們,反對(duì)他們,質(zhì)疑他們,頌揚(yáng)或是詆毀他們,但唯獨(dú)不能漠視他們。”也許你跟我一樣,對(duì)某些產(chǎn)品不以為然甚至嗤之以鼻,但是新的娛樂(lè)形態(tài)畢竟擋無(wú)可擋,每個(gè)人都不能置身事外。
仔細(xì)分析,其實(shí)不難發(fā)現(xiàn),當(dāng)我們經(jīng)歷了互聯(lián)網(wǎng)時(shí)代的洗禮,對(duì)信息的渴望被極大的喚起,常規(guī)的結(jié)構(gòu)化數(shù)據(jù)交互已經(jīng)不能滿足人們的欲望,而伴隨著技術(shù)成熟而來(lái)的非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、語(yǔ)音,正式登上舞臺(tái),催生著一個(gè)接一個(gè)的應(yīng)用一路狂奔。
非結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題和挑戰(zhàn)
非結(jié)構(gòu)化數(shù)據(jù)雖然具有很大的價(jià)值,但是當(dāng)前對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理和管理卻存在很多問(wèn)題和挑戰(zhàn),下面結(jié)合我們的理解對(duì)這些問(wèn)題和挑戰(zhàn)進(jìn)行一個(gè)初步整理。
實(shí)體和關(guān)系分離
非結(jié)構(gòu)化數(shù)據(jù)因?yàn)槠渥陨聿痪哂幸?guī)整的形式,因此不能像結(jié)構(gòu)化數(shù)據(jù)一樣按照二維表的形式存儲(chǔ)。因此其實(shí)體和關(guān)系是分離的。
舉個(gè)簡(jiǎn)單例子:對(duì)于淘寶商品的圖片,其商品的信息是通過(guò)二維表的形式存儲(chǔ)的,但是主圖的圖片卻存在在OSS中,需要通過(guò)cdn映射才能訪問(wèn)圖片內(nèi)容。
這種情況出現(xiàn)在大部分的非結(jié)構(gòu)化數(shù)據(jù)的身上,實(shí)體和關(guān)系的分離,造成了場(chǎng)景分析的困難。如果我們單獨(dú)看一張圖片(可參考圖:圖片蘊(yùn)含的信息),其蘊(yùn)含的豐富的信息如果全部靠算法去處理,不僅耗費(fèi)巨大的資源,而且無(wú)法追溯其來(lái)源、曝光、使用場(chǎng)景等,會(huì)造成大量精準(zhǔn)信息的缺失。如果我們從結(jié)構(gòu)化數(shù)據(jù)去看,卻無(wú)法直接使用圖片本身所包含的信息(圖片的特點(diǎn)、圖片包含的文字、圖片包含的促銷信息)等。實(shí)體和關(guān)系的分離,造成了非結(jié)構(gòu)化數(shù)據(jù)使用的困難,降低了數(shù)據(jù)的完整性。
數(shù)據(jù)分散,未形成合力
無(wú)論是從ImageNet的例子還是從集團(tuán)數(shù)據(jù)的角度去看,當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)普遍存在數(shù)據(jù)分散的現(xiàn)象。而實(shí)際的生活中,數(shù)據(jù)不應(yīng)該是分散的,而應(yīng)該形成聯(lián)動(dòng),更充分的發(fā)揮價(jià)值,便利我們的生活。
處理復(fù)雜,開(kāi)發(fā)門檻高
現(xiàn)在對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理,離不開(kāi)算法,依托于集團(tuán)人工智能實(shí)驗(yàn)室、各個(gè)部門的算法團(tuán)隊(duì),集團(tuán)內(nèi)智能化場(chǎng)景遍地開(kāi)花,欣欣向榮。
但是,這并沒(méi)有解決非結(jié)構(gòu)化數(shù)據(jù)處理復(fù)雜,開(kāi)發(fā)門檻高的問(wèn)題。算法的高門檻和業(yè)務(wù)的高要求,制約了非結(jié)構(gòu)化數(shù)據(jù)能力的釋放。
隨著5G時(shí)代的到來(lái),各種新的應(yīng)用產(chǎn)生的巨量非結(jié)構(gòu)化數(shù)據(jù),僅僅依托人工的合作形態(tài),恐怕不足以很好的實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的使用。工具化、平臺(tái)化、規(guī)?;瘜?huì)成為將來(lái)的重點(diǎn)。
非結(jié)構(gòu)化數(shù)據(jù)的思考
經(jīng)過(guò)前文的描述和分析,我們對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了深入的思考。
構(gòu)建完整的非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)意義重大
“單絲不成線,孤木不成林”,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)意義重大。當(dāng)我們將分散的非結(jié)構(gòu)化數(shù)據(jù)匯集在一起,會(huì)形成完整的用戶、商品、內(nèi)容、品牌等的數(shù)據(jù)集,會(huì)形成完整的資產(chǎn)視圖和商業(yè)視圖。數(shù)據(jù)匯集后,各個(gè)BU看數(shù)據(jù)的視角不再是孤立的,不再是受限的。從廣度上來(lái)講,能夠從整個(gè)集團(tuán)甚至整個(gè)市場(chǎng)的層面去查看業(yè)務(wù)的全貌;從深度上來(lái)講,能夠深入行業(yè),形成行業(yè)專業(yè)化的知識(shí),將業(yè)務(wù)深耕進(jìn)去。
集成通用及專用的算法能力至關(guān)重要
當(dāng)非結(jié)構(gòu)化數(shù)據(jù)遇到MIT、PAI等集團(tuán)強(qiáng)大算法平臺(tái)或工具后,將會(huì)充分降低算法的使用門檻,充分發(fā)揮數(shù)據(jù)的價(jià)值。屆時(shí),80%的非結(jié)構(gòu)化數(shù)據(jù)不再是放在倉(cāng)庫(kù)中積灰的礦石,而是可以被加工成閃閃發(fā)光的金子;算法不再是針對(duì)具體業(yè)務(wù)去賦能的途徑,而是可以被規(guī)模化使用的利器。
提供標(biāo)準(zhǔn)化、快速的非結(jié)構(gòu)化數(shù)據(jù)服務(wù)前景可觀
當(dāng)前無(wú)論是AWS、Azure還是阿里云,對(duì)于非結(jié)構(gòu)化處理主要提供工具、算法,并沒(méi)有針對(duì)數(shù)據(jù)本身提供解決方案,不同的行業(yè)數(shù)據(jù)應(yīng)該如何組織、如何訓(xùn)練、如何形成行業(yè)知識(shí)庫(kù)。所謂,提供了“器”,卻沒(méi)有提供“術(shù)”。而市場(chǎng)上很多數(shù)據(jù)公司,則專注于某個(gè)領(lǐng)域的數(shù)據(jù),如公安、電商、咨詢等行業(yè),提供行業(yè)性的解決方案,并且取得了可觀的成果。如果我們能夠與業(yè)務(wù)深度結(jié)合,提供標(biāo)準(zhǔn)化、快速的非結(jié)構(gòu)化服務(wù),前景將會(huì)非??捎^,小到BU,大到集團(tuán)乃至外部市場(chǎng),具備極大的想象空間。
非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值還遠(yuǎn)未充分挖掘,未來(lái):廣闊天地,大有可為。
非結(jié)構(gòu)化數(shù)據(jù)作為一種數(shù)據(jù)量大、類型豐富、與人工智能可以深度結(jié)合的數(shù)據(jù)類型,將會(huì)發(fā)揮越來(lái)越大的價(jià)值。然而如何管理、使用、快速價(jià)值化非結(jié)構(gòu)化數(shù)據(jù),當(dāng)前并沒(méi)有很好的解決方案,我們團(tuán)隊(duì)在綜合分析市場(chǎng)上的產(chǎn)品和深度思考后結(jié)合DT強(qiáng)大的數(shù)據(jù)能力,提出了“非結(jié)構(gòu)化數(shù)據(jù)體系”的設(shè)想和解決方案。