我被“非結構化數(shù)據(jù)包圍了”,請求支援!
非結構化數(shù)據(jù)的內容占據(jù)了當前數(shù)據(jù)海洋的80%。換句話來說,就是我們都被“非結構化數(shù)據(jù)”包圍了。由于非結構化數(shù)據(jù)的信息量和信息的重要程度很難被界定,因此對非結構化數(shù)據(jù)的使用成為了難點。如果說結構化數(shù)據(jù)用詳實的方式記錄了企業(yè)的生產(chǎn)交易活動,那么非結構化數(shù)據(jù)則是掌握企業(yè)命脈的關鍵內容,所反映的信息蘊含著諸多企業(yè)效益提高的機會。而對大部分組織而言,掌握先進的非結構化數(shù)據(jù)分析能力仍是從“大數(shù)據(jù)”中獲得價值的重大挑戰(zhàn)。
當前,數(shù)據(jù)技術及產(chǎn)品部對結構化數(shù)據(jù)處理和應用已經(jīng)具備了成熟的技術以及產(chǎn)品方案。為了應對日益增長的非結構化數(shù)據(jù)訴求,非結構化數(shù)據(jù)體系通過覆蓋非結構化數(shù)據(jù)規(guī)范、數(shù)據(jù)設計、算法能力、服務能力等來解決這一問題,該體系是對OneData體系的非結構化數(shù)據(jù)的補充和完善。已經(jīng)賦能了集團內很多業(yè)務取得了非常好的效果,而這只是剛剛開始。
非結構化數(shù)據(jù)概述
“非結構化數(shù)據(jù)”是什么?相較于記錄了生產(chǎn)、業(yè)務、交易和客戶信息等的結構化數(shù)據(jù),非結構化的信息涵蓋了更為廣泛的內容。非結構化數(shù)據(jù)指的是:數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報表、圖像和音頻/視頻信息等。
相對于結構化數(shù)據(jù),非結構化數(shù)據(jù)具有以下特點:數(shù)據(jù)存儲占比高、數(shù)據(jù)格式多樣、結構不標準且復雜、信息量豐富、處理門檻高。
當前行業(yè)公認:非結構化數(shù)據(jù)占數(shù)據(jù)總量的80%以上。結構化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結構化和半結構化數(shù)據(jù),非結構化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日志文件、機器數(shù)據(jù)等。
圖:非結構化數(shù)據(jù)的占比圖 圖片來源:《大數(shù)據(jù)分析行業(yè)網(wǎng)》
非結構化數(shù)據(jù)沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)。 下面對比一下結構化數(shù)據(jù)和非結構化數(shù)據(jù)的區(qū)別:
結構化數(shù)據(jù),是指由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型數(shù)據(jù)庫進行存儲和管理。
結構化數(shù)據(jù)格式形式如圖下:
圖:結構化數(shù)據(jù)
非結構化數(shù)據(jù),是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。
非結構化數(shù)據(jù)-圖片格式如下圖所示:
圖:非結構化數(shù)據(jù) 圖片來源:《數(shù)字時代》
非結構化數(shù)據(jù)包含的信息量豐富。非結構化數(shù)據(jù)與結構化數(shù)據(jù)最大的區(qū)別在于蘊含信息量非常豐富,同樣以圖片為例,請看下圖:
圖:圖片蘊含的信息 圖片來源:淘寶
你看到了多少信息?不妨我們一起看一看:
- 人物:女人,短發(fā),佩戴項鏈,做了美甲,......
- 衣服:女裝,黑色T恤,長袖,低領,白色褲子,薄款,緊身
- 文字:秋定制,流金詩意,2折包郵,custom
這是一些顯性信息,可以看出一張圖片里面的顯性信息就已經(jīng)很多了,當然還有很多隱形信息。比如:
1.衣服材質:純棉2.特點:時尚的版型,貼身,顯身材......
由此可以看出非結構化數(shù)據(jù)隱含的信息量非常豐富。 非結構化數(shù)據(jù)一般不能直接使用,需要通過算法等手段進行處理。但因非結構化數(shù)據(jù)本身的特點,處理難度大。比如:對評論文本信息的情感分析。為了實現(xiàn)情感分析,需要使用算法進行復雜的處理,通過大量的數(shù)據(jù)訓練才能完成。以商品評論數(shù)據(jù)來看,對于結構化的評論如下表:
結構化評論數(shù)據(jù)
可以直觀看出用戶感情是負向的。
同一個買家的非結構化評論:我在這家買了,缺少螺絲,商品還有劃痕直接不管。
根據(jù)以上的評論內容,如果要確定買家的情感,就沒那么簡單了。需要使用NLP算法,并經(jīng)過算法效果評估等一系列過程。
因此,當前非結構化數(shù)據(jù)的處理門檻還是很高,處理難度還比較大。
非結構化數(shù)據(jù)的價值及應用
非結構化數(shù)據(jù)因其包含豐富的內容、多樣化的形態(tài)以及廣闊的想象空間,必將引爆將來的市場,無論是娛樂、教育、醫(yī)療、生活等,都將產(chǎn)生更豐富的非結構化數(shù)據(jù)場景、使用更智能的數(shù)據(jù)處理方式。接下來,我們就針對當前的一些場景簡單了解一下非結構化數(shù)據(jù)的價值。
ImageNet:改變AI和世界的圖片[1]
2006 年,李飛飛開始反復思考一個問題。
當時的李飛飛才剛剛在伊利諾伊大學香檳分校(UIUC)任教,她看到整個學界和工業(yè)界普遍流行一種想法,都在致力于打造更好的算法,認為更好的算法將帶來更好的決策,不論數(shù)據(jù)如何。
但李飛飛意識到了這樣做的局限——即使是最好的算法,如果沒有好的、能夠反映真實世界的訓練數(shù)據(jù),也沒辦法用。
李飛飛的解決方案是:構建一個更好的數(shù)據(jù)集。
“我們要詳細描繪出整個世界的物體。”李飛飛說。由此生成的數(shù)據(jù)集名叫 ImageNet。
相關論文發(fā)表于 2009 年,最初作為一篇研究海報在邁阿密海灘會議中心的角落展示出來。但沒過多久,這個數(shù)據(jù)集就迅速發(fā)展成為一項年度競賽,衡量哪些算法可以以最低的錯誤率識別數(shù)據(jù)集圖像中的物體。許多人都認為 ImageNet 競賽是如今席卷全球 AI 浪潮的催化劑。
盡管經(jīng)歷了很多艱辛,但是最終 ImageNet改變了人們認識數(shù)據(jù)和算法的方式。“ImageNet 思維所帶來的范式轉變是,盡管很多人都在注意模型,但我們要關心數(shù)據(jù),”李飛飛說:“數(shù)據(jù)將重新定義我們對模型的看法。”
自 2010 年以來,谷歌、微軟和 CIFAR 推出了其他一些數(shù)據(jù)集,因為事實表明深度學習需要像ImageNet 這樣的大數(shù)據(jù)。
“圖片,很多很多的圖片”,作為非結構化數(shù)據(jù)的一種,ImageNet向我們展示了圖片的巨大威力,而我們相信,這只是剛剛開始。
圖: ImageNet 圖片來源:《數(shù)據(jù)科學淺談》
店小蜜:智能客服的養(yǎng)成之道[2]
2016年3月,一個名叫“我的小蜜”的人工智能客服就出現(xiàn)在了手機淘寶和手機天貓的APP中,它可以說是店小蜜的前身,當時,它的主要工作是擔當平臺客服,為用戶解決催發(fā)貨、退貨退款、投訴和售后保障等問題。“我們開發(fā)‘我的小蜜’,是為了讓用戶能以最快的方式找到解決問題的途徑。” 小蜜的產(chǎn)品經(jīng)理南山回憶起團隊初創(chuàng)時的往事,這樣說道。
整個淘寶天貓電商平臺的用戶有好幾億,如果讓每個用戶都能用快速客服通道來聯(lián)系客服,顯然會對淘寶客服團隊造成巨大壓力。怎么辦呢?人力不能解決的問題,就靠技術來解決??头藛T忙不過來,就請智能客服來幫忙。阿里每天大量的真實交易互動,讓用戶的問題都以數(shù)據(jù)的形式沉淀下來。通過這些數(shù)據(jù),開發(fā)團隊可以得知哪些問題最高頻。而這些數(shù)據(jù)也讓小蜜不斷地進行強化學習,變得越來越“聰明”,應答準確度越來越高。
客服系統(tǒng)產(chǎn)生的文本、語音成了豐富的寶藏,通過對這些文本、語音的智能化處理,店小蜜逐漸成為了“最懂電商的客服機器人”。
“知識,各行各業(yè)的知識”,店小蜜的成功從一個角度證明了對文本、語音的運用,可以釋放出來的巨大能力。我們相信,這只是剛剛開始。
圖:客服機器人 圖片來源:浙江在線-錢江晚報
智能安保:智能化辦案[3]
2018年11月5日到10日,首屆中國國際進口博覽會在上海成功舉辦。本次進博會有一個大的亮點:智能安保。
在本次安?;顒又校虾9簿?ldquo;智慧公安”產(chǎn)品“智能警務中臺”成功亮相,通過對轄區(qū)1.5萬攝像頭的全量接入,實時解析,實現(xiàn)民警的智能化辦案?;谌W(wǎng)全視頻數(shù)據(jù)結構化的提取,實現(xiàn)人、車多維特征布控,觸網(wǎng)自動告警,融合視頻結構化信息、MAC、IMEI、RFID等進行多維研判,對目標嫌疑人進行行為軌跡跟蹤。
圖:首屆中國國際進口博覽會 圖片來源:環(huán)球網(wǎng)
“視頻,流動的視頻”,首屆中國國際進口博覽會上智能安保的成功應用,使我們相信了對視頻監(jiān)控智能化處理的巨大。我們仍然相信,這只是剛剛開始。
狂奔的應用:被“慣壞”的應用
隨著網(wǎng)絡的加速和人工智能的興起,仿佛一夜之間信息流、短視頻、網(wǎng)紅直播這些新的娛樂方式涌現(xiàn)在人們面前,躁動的人們攪動著躁動的市場,躁動的市場攪動著躁動的應用。頭條、抖音、斗魚、小紅書、淘寶直播等等新的娛樂或電商模式噴薄而出,網(wǎng)紅經(jīng)濟、內容電商、信息流等新興的詞匯也如雨后春筍般涌現(xiàn)出來。正如蘋果廣告Think different里面描述的那樣:“你可以贊美他們,引用他們,反對他們,質疑他們,頌揚或是詆毀他們,但唯獨不能漠視他們。”也許你跟我一樣,對某些產(chǎn)品不以為然甚至嗤之以鼻,但是新的娛樂形態(tài)畢竟擋無可擋,每個人都不能置身事外。
仔細分析,其實不難發(fā)現(xiàn),當我們經(jīng)歷了互聯(lián)網(wǎng)時代的洗禮,對信息的渴望被極大的喚起,常規(guī)的結構化數(shù)據(jù)交互已經(jīng)不能滿足人們的欲望,而伴隨著技術成熟而來的非結構化數(shù)據(jù):圖片、視頻、語音,正式登上舞臺,催生著一個接一個的應用一路狂奔。
圖:狂奔的應用 圖片來源:百度百科
非結構化數(shù)據(jù)的問題和挑戰(zhàn)
非結構化數(shù)據(jù)雖然具有很大的價值,但是當前對非結構化數(shù)據(jù)的處理和管理卻存在很多問題和挑戰(zhàn),下面結合我們的理解對這些問題和挑戰(zhàn)進行一個初步整理。
實體和關系分離
非結構化數(shù)據(jù)因為其自身不具有規(guī)整的形式,因此不能像結構化數(shù)據(jù)一樣按照二維表的形式存儲。因此其實體和關系是分離的。
舉個簡單例子:對于淘寶商品的圖片,其商品的信息是通過二維表的形式存儲的,但是主圖的圖片卻存在在OSS中,需要通過cdn映射才能訪問圖片內容。
這種情況出現(xiàn)在大部分的非結構化數(shù)據(jù)的身上,實體和關系的分離,造成了場景分析的困難。如果我們單獨看一張圖片(可參考圖:圖片蘊含的信息),其蘊含的豐富的信息如果全部靠算法去處理,不僅耗費巨大的資源,而且無法追溯其來源、曝光、使用場景等,會造成大量精準信息的缺失。如果我們從結構化數(shù)據(jù)去看,卻無法直接使用圖片本身所包含的信息(圖片的特點、圖片包含的文字、圖片包含的促銷信息)等。實體和關系的分離,造成了非結構化數(shù)據(jù)使用的困難,降低了數(shù)據(jù)的完整性。
數(shù)據(jù)分散,未形成合力
無論是從ImageNet的例子還是從集團數(shù)據(jù)的角度去看,當前非結構化數(shù)據(jù)普遍存在數(shù)據(jù)分散的現(xiàn)象。而實際的生活中,數(shù)據(jù)不應該是分散的,而應該形成聯(lián)動,更充分的發(fā)揮價值,便利我們的生活。
處理復雜,開發(fā)門檻高
現(xiàn)在對于非結構化數(shù)據(jù)的處理,離不開算法,依托于集團人工智能實驗室、各個部門的算法團隊,集團內智能化場景遍地開花,欣欣向榮。
但是,這并沒有解決非結構化數(shù)據(jù)處理復雜,開發(fā)門檻高的問題。算法的高門檻和業(yè)務的高要求,制約了非結構化數(shù)據(jù)能力的釋放。
隨著5G時代的到來,各種新的應用產(chǎn)生的巨量非結構化數(shù)據(jù),僅僅依托人工的合作形態(tài),恐怕不足以很好的實現(xiàn)非結構化數(shù)據(jù)的使用。工具化、平臺化、規(guī)模化將會成為將來的重點。
非結構化數(shù)據(jù)的思考
經(jīng)過前文的描述和分析,我們對非結構化數(shù)據(jù)進行了深入的思考。
構建完整的非結構化數(shù)據(jù)資產(chǎn)意義重大
“單絲不成線,孤木不成林”,構建非結構化數(shù)據(jù)資產(chǎn)意義重大。當我們將分散的非結構化數(shù)據(jù)匯集在一起,會形成完整的用戶、商品、內容、品牌等的數(shù)據(jù)集,會形成完整的資產(chǎn)視圖和商業(yè)視圖。數(shù)據(jù)匯集后,各個BU看數(shù)據(jù)的視角不再是孤立的,不再是受限的。從廣度上來講,能夠從整個集團甚至整個市場的層面去查看業(yè)務的全貌;從深度上來講,能夠深入行業(yè),形成行業(yè)專業(yè)化的知識,將業(yè)務深耕進去。
集成通用及專用的算法能力至關重要
當非結構化數(shù)據(jù)遇到MIT、PAI等集團強大算法平臺或工具后,將會充分降低算法的使用門檻,充分發(fā)揮數(shù)據(jù)的價值。屆時,80%的非結構化數(shù)據(jù)不再是放在倉庫中積灰的礦石,而是可以被加工成閃閃發(fā)光的金子;算法不再是針對具體業(yè)務去賦能的途徑,而是可以被規(guī)?;褂玫睦鳌?/p>
提供標準化、快速的非結構化數(shù)據(jù)服務前景可觀
當前無論是AWS、Azure還是阿里云,對于非結構化處理主要提供工具、算法,并沒有針對數(shù)據(jù)本身提供解決方案,不同的行業(yè)數(shù)據(jù)應該如何組織、如何訓練、如何形成行業(yè)知識庫。所謂,提供了“器”,卻沒有提供“術”。而市場上很多數(shù)據(jù)公司,則專注于某個領域的數(shù)據(jù),如公安、電商、咨詢等行業(yè),提供行業(yè)性的解決方案,并且取得了可觀的成果。如果我們能夠與業(yè)務深度結合,提供標準化、快速的非結構化服務,前景將會非??捎^,小到BU,大到集團乃至外部市場,具備極大的想象空間。
非結構化數(shù)據(jù)的價值還遠未充分挖掘,未來:廣闊天地,大有可為。
非結構化數(shù)據(jù)作為一種數(shù)據(jù)量大、類型豐富、與人工智能可以深度結合的數(shù)據(jù)類型,將會發(fā)揮越來越大的價值。然而如何管理、使用、快速價值化非結構化數(shù)據(jù),當前并沒有很好的解決方案,我們團隊在綜合分析市場上的產(chǎn)品和深度思考后結合DT強大的數(shù)據(jù)能力,提出了“非結構化數(shù)據(jù)體系”的設想和解決方案。
參考資料:
[1]ImageNet:改變AI和世界的圖片
https://www.sohu.com/a/160316515_680198
[2]店小蜜:智能客服的養(yǎng)成之道
http://www.sohu.com/a/131845725_635114
[3]智能安保:智能化辦案
https://baijiahao.baidu.com/s?id=1616255897334017138&wfr=spider&for=pc
【本文為51CTO專欄作者“阿里巴巴官方技術”原創(chuàng)稿件,轉載請聯(lián)系原作者】