自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我被“非結構化數(shù)據(jù)包圍了”,請求支援!

企業(yè)動態(tài)
非結構化數(shù)據(jù)的內容占據(jù)了當前數(shù)據(jù)海洋的80%。換句話來說,就是我們都被“非結構化數(shù)據(jù)”包圍了。由于非結構化數(shù)據(jù)的信息量和信息的重要程度很難被界定,因此對非結構化數(shù)據(jù)的使用成為了難點。

[[276277]]

非結構化數(shù)據(jù)的內容占據(jù)了當前數(shù)據(jù)海洋的80%。換句話來說,就是我們都被“非結構化數(shù)據(jù)”包圍了。由于非結構化數(shù)據(jù)的信息量和信息的重要程度很難被界定,因此對非結構化數(shù)據(jù)的使用成為了難點。如果說結構化數(shù)據(jù)用詳實的方式記錄了企業(yè)的生產(chǎn)交易活動,那么非結構化數(shù)據(jù)則是掌握企業(yè)命脈的關鍵內容,所反映的信息蘊含著諸多企業(yè)效益提高的機會。而對大部分組織而言,掌握先進的非結構化數(shù)據(jù)分析能力仍是從“大數(shù)據(jù)”中獲得價值的重大挑戰(zhàn)。

當前,數(shù)據(jù)技術及產(chǎn)品部對結構化數(shù)據(jù)處理和應用已經(jīng)具備了成熟的技術以及產(chǎn)品方案。為了應對日益增長的非結構化數(shù)據(jù)訴求,非結構化數(shù)據(jù)體系通過覆蓋非結構化數(shù)據(jù)規(guī)范、數(shù)據(jù)設計、算法能力、服務能力等來解決這一問題,該體系是對OneData體系的非結構化數(shù)據(jù)的補充和完善。已經(jīng)賦能了集團內很多業(yè)務取得了非常好的效果,而這只是剛剛開始。

非結構化數(shù)據(jù)概述

“非結構化數(shù)據(jù)”是什么?相較于記錄了生產(chǎn)、業(yè)務、交易和客戶信息等的結構化數(shù)據(jù),非結構化的信息涵蓋了更為廣泛的內容。非結構化數(shù)據(jù)指的是:數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報表、圖像和音頻/視頻信息等。

相對于結構化數(shù)據(jù),非結構化數(shù)據(jù)具有以下特點:數(shù)據(jù)存儲占比高、數(shù)據(jù)格式多樣、結構不標準且復雜、信息量豐富、處理門檻高。

當前行業(yè)公認:非結構化數(shù)據(jù)占數(shù)據(jù)總量的80%以上。結構化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結構化和半結構化數(shù)據(jù),非結構化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日志文件、機器數(shù)據(jù)等。

 

圖:非結構化數(shù)據(jù)的占比圖 圖片來源:《大數(shù)據(jù)分析行業(yè)網(wǎng)》

非結構化數(shù)據(jù)沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)。 下面對比一下結構化數(shù)據(jù)和非結構化數(shù)據(jù)的區(qū)別:

結構化數(shù)據(jù),是指由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型數(shù)據(jù)庫進行存儲和管理。

結構化數(shù)據(jù)格式形式如圖下:

 

圖:結構化數(shù)據(jù)

非結構化數(shù)據(jù),是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。

非結構化數(shù)據(jù)-圖片格式如下圖所示:

 

圖:非結構化數(shù)據(jù) 圖片來源:《數(shù)字時代》

非結構化數(shù)據(jù)包含的信息量豐富。非結構化數(shù)據(jù)與結構化數(shù)據(jù)最大的區(qū)別在于蘊含信息量非常豐富,同樣以圖片為例,請看下圖:

[[276279]]

 

圖:圖片蘊含的信息 圖片來源:淘寶

你看到了多少信息?不妨我們一起看一看:

  1. 人物:女人,短發(fā),佩戴項鏈,做了美甲,......
  2. 衣服:女裝,黑色T恤,長袖,低領,白色褲子,薄款,緊身
  3. 文字:秋定制,流金詩意,2折包郵,custom

這是一些顯性信息,可以看出一張圖片里面的顯性信息就已經(jīng)很多了,當然還有很多隱形信息。比如:

1.衣服材質:純棉2.特點:時尚的版型,貼身,顯身材......

由此可以看出非結構化數(shù)據(jù)隱含的信息量非常豐富。 非結構化數(shù)據(jù)一般不能直接使用,需要通過算法等手段進行處理。但因非結構化數(shù)據(jù)本身的特點,處理難度大。比如:對評論文本信息的情感分析。為了實現(xiàn)情感分析,需要使用算法進行復雜的處理,通過大量的數(shù)據(jù)訓練才能完成。以商品評論數(shù)據(jù)來看,對于結構化的評論如下表:

 

結構化評論數(shù)據(jù)

可以直觀看出用戶感情是負向的。

同一個買家的非結構化評論:我在這家買了,缺少螺絲,商品還有劃痕直接不管。

根據(jù)以上的評論內容,如果要確定買家的情感,就沒那么簡單了。需要使用NLP算法,并經(jīng)過算法效果評估等一系列過程。

因此,當前非結構化數(shù)據(jù)的處理門檻還是很高,處理難度還比較大。

非結構化數(shù)據(jù)的價值及應用

非結構化數(shù)據(jù)因其包含豐富的內容、多樣化的形態(tài)以及廣闊的想象空間,必將引爆將來的市場,無論是娛樂、教育、醫(yī)療、生活等,都將產(chǎn)生更豐富的非結構化數(shù)據(jù)場景、使用更智能的數(shù)據(jù)處理方式。接下來,我們就針對當前的一些場景簡單了解一下非結構化數(shù)據(jù)的價值。

ImageNet:改變AI和世界的圖片[1]

2006 年,李飛飛開始反復思考一個問題。

當時的李飛飛才剛剛在伊利諾伊大學香檳分校(UIUC)任教,她看到整個學界和工業(yè)界普遍流行一種想法,都在致力于打造更好的算法,認為更好的算法將帶來更好的決策,不論數(shù)據(jù)如何。

但李飛飛意識到了這樣做的局限——即使是最好的算法,如果沒有好的、能夠反映真實世界的訓練數(shù)據(jù),也沒辦法用。

李飛飛的解決方案是:構建一個更好的數(shù)據(jù)集。

“我們要詳細描繪出整個世界的物體。”李飛飛說。由此生成的數(shù)據(jù)集名叫 ImageNet。

相關論文發(fā)表于 2009 年,最初作為一篇研究海報在邁阿密海灘會議中心的角落展示出來。但沒過多久,這個數(shù)據(jù)集就迅速發(fā)展成為一項年度競賽,衡量哪些算法可以以最低的錯誤率識別數(shù)據(jù)集圖像中的物體。許多人都認為 ImageNet 競賽是如今席卷全球 AI 浪潮的催化劑。

盡管經(jīng)歷了很多艱辛,但是最終 ImageNet改變了人們認識數(shù)據(jù)和算法的方式。“ImageNet 思維所帶來的范式轉變是,盡管很多人都在注意模型,但我們要關心數(shù)據(jù),”李飛飛說:“數(shù)據(jù)將重新定義我們對模型的看法。”

自 2010 年以來,谷歌、微軟和 CIFAR 推出了其他一些數(shù)據(jù)集,因為事實表明深度學習需要像ImageNet 這樣的大數(shù)據(jù)。

“圖片,很多很多的圖片”,作為非結構化數(shù)據(jù)的一種,ImageNet向我們展示了圖片的巨大威力,而我們相信,這只是剛剛開始。

[[276281]]

 

圖: ImageNet 圖片來源:《數(shù)據(jù)科學淺談》

店小蜜:智能客服的養(yǎng)成之道[2]

2016年3月,一個名叫“我的小蜜”的人工智能客服就出現(xiàn)在了手機淘寶和手機天貓的APP中,它可以說是店小蜜的前身,當時,它的主要工作是擔當平臺客服,為用戶解決催發(fā)貨、退貨退款、投訴和售后保障等問題。“我們開發(fā)‘我的小蜜’,是為了讓用戶能以最快的方式找到解決問題的途徑。” 小蜜的產(chǎn)品經(jīng)理南山回憶起團隊初創(chuàng)時的往事,這樣說道。

整個淘寶天貓電商平臺的用戶有好幾億,如果讓每個用戶都能用快速客服通道來聯(lián)系客服,顯然會對淘寶客服團隊造成巨大壓力。怎么辦呢?人力不能解決的問題,就靠技術來解決??头藛T忙不過來,就請智能客服來幫忙。阿里每天大量的真實交易互動,讓用戶的問題都以數(shù)據(jù)的形式沉淀下來。通過這些數(shù)據(jù),開發(fā)團隊可以得知哪些問題最高頻。而這些數(shù)據(jù)也讓小蜜不斷地進行強化學習,變得越來越“聰明”,應答準確度越來越高。

客服系統(tǒng)產(chǎn)生的文本、語音成了豐富的寶藏,通過對這些文本、語音的智能化處理,店小蜜逐漸成為了“最懂電商的客服機器人”。

“知識,各行各業(yè)的知識”,店小蜜的成功從一個角度證明了對文本、語音的運用,可以釋放出來的巨大能力。我們相信,這只是剛剛開始。

 

圖:客服機器人 圖片來源:浙江在線-錢江晚報

智能安保:智能化辦案[3]

2018年11月5日到10日,首屆中國國際進口博覽會在上海成功舉辦。本次進博會有一個大的亮點:智能安保。

在本次安?;顒又校虾9簿?ldquo;智慧公安”產(chǎn)品“智能警務中臺”成功亮相,通過對轄區(qū)1.5萬攝像頭的全量接入,實時解析,實現(xiàn)民警的智能化辦案?;谌W(wǎng)全視頻數(shù)據(jù)結構化的提取,實現(xiàn)人、車多維特征布控,觸網(wǎng)自動告警,融合視頻結構化信息、MAC、IMEI、RFID等進行多維研判,對目標嫌疑人進行行為軌跡跟蹤。

 

圖:首屆中國國際進口博覽會 圖片來源:環(huán)球網(wǎng)

“視頻,流動的視頻”,首屆中國國際進口博覽會上智能安保的成功應用,使我們相信了對視頻監(jiān)控智能化處理的巨大。我們仍然相信,這只是剛剛開始。

狂奔的應用:被“慣壞”的應用

隨著網(wǎng)絡的加速和人工智能的興起,仿佛一夜之間信息流、短視頻、網(wǎng)紅直播這些新的娛樂方式涌現(xiàn)在人們面前,躁動的人們攪動著躁動的市場,躁動的市場攪動著躁動的應用。頭條、抖音、斗魚、小紅書、淘寶直播等等新的娛樂或電商模式噴薄而出,網(wǎng)紅經(jīng)濟、內容電商、信息流等新興的詞匯也如雨后春筍般涌現(xiàn)出來。正如蘋果廣告Think different里面描述的那樣:“你可以贊美他們,引用他們,反對他們,質疑他們,頌揚或是詆毀他們,但唯獨不能漠視他們。”也許你跟我一樣,對某些產(chǎn)品不以為然甚至嗤之以鼻,但是新的娛樂形態(tài)畢竟擋無可擋,每個人都不能置身事外。

仔細分析,其實不難發(fā)現(xiàn),當我們經(jīng)歷了互聯(lián)網(wǎng)時代的洗禮,對信息的渴望被極大的喚起,常規(guī)的結構化數(shù)據(jù)交互已經(jīng)不能滿足人們的欲望,而伴隨著技術成熟而來的非結構化數(shù)據(jù):圖片、視頻、語音,正式登上舞臺,催生著一個接一個的應用一路狂奔。

[[276282]]

 

圖:狂奔的應用 圖片來源:百度百科

非結構化數(shù)據(jù)的問題和挑戰(zhàn)

非結構化數(shù)據(jù)雖然具有很大的價值,但是當前對非結構化數(shù)據(jù)的處理和管理卻存在很多問題和挑戰(zhàn),下面結合我們的理解對這些問題和挑戰(zhàn)進行一個初步整理。

實體和關系分離

非結構化數(shù)據(jù)因為其自身不具有規(guī)整的形式,因此不能像結構化數(shù)據(jù)一樣按照二維表的形式存儲。因此其實體和關系是分離的。

舉個簡單例子:對于淘寶商品的圖片,其商品的信息是通過二維表的形式存儲的,但是主圖的圖片卻存在在OSS中,需要通過cdn映射才能訪問圖片內容。

這種情況出現(xiàn)在大部分的非結構化數(shù)據(jù)的身上,實體和關系的分離,造成了場景分析的困難。如果我們單獨看一張圖片(可參考圖:圖片蘊含的信息),其蘊含的豐富的信息如果全部靠算法去處理,不僅耗費巨大的資源,而且無法追溯其來源、曝光、使用場景等,會造成大量精準信息的缺失。如果我們從結構化數(shù)據(jù)去看,卻無法直接使用圖片本身所包含的信息(圖片的特點、圖片包含的文字、圖片包含的促銷信息)等。實體和關系的分離,造成了非結構化數(shù)據(jù)使用的困難,降低了數(shù)據(jù)的完整性。

數(shù)據(jù)分散,未形成合力

無論是從ImageNet的例子還是從集團數(shù)據(jù)的角度去看,當前非結構化數(shù)據(jù)普遍存在數(shù)據(jù)分散的現(xiàn)象。而實際的生活中,數(shù)據(jù)不應該是分散的,而應該形成聯(lián)動,更充分的發(fā)揮價值,便利我們的生活。

處理復雜,開發(fā)門檻高

現(xiàn)在對于非結構化數(shù)據(jù)的處理,離不開算法,依托于集團人工智能實驗室、各個部門的算法團隊,集團內智能化場景遍地開花,欣欣向榮。

但是,這并沒有解決非結構化數(shù)據(jù)處理復雜,開發(fā)門檻高的問題。算法的高門檻和業(yè)務的高要求,制約了非結構化數(shù)據(jù)能力的釋放。

隨著5G時代的到來,各種新的應用產(chǎn)生的巨量非結構化數(shù)據(jù),僅僅依托人工的合作形態(tài),恐怕不足以很好的實現(xiàn)非結構化數(shù)據(jù)的使用。工具化、平臺化、規(guī)模化將會成為將來的重點。

非結構化數(shù)據(jù)的思考

經(jīng)過前文的描述和分析,我們對非結構化數(shù)據(jù)進行了深入的思考。

構建完整的非結構化數(shù)據(jù)資產(chǎn)意義重大

“單絲不成線,孤木不成林”,構建非結構化數(shù)據(jù)資產(chǎn)意義重大。當我們將分散的非結構化數(shù)據(jù)匯集在一起,會形成完整的用戶、商品、內容、品牌等的數(shù)據(jù)集,會形成完整的資產(chǎn)視圖和商業(yè)視圖。數(shù)據(jù)匯集后,各個BU看數(shù)據(jù)的視角不再是孤立的,不再是受限的。從廣度上來講,能夠從整個集團甚至整個市場的層面去查看業(yè)務的全貌;從深度上來講,能夠深入行業(yè),形成行業(yè)專業(yè)化的知識,將業(yè)務深耕進去。

集成通用及專用的算法能力至關重要

當非結構化數(shù)據(jù)遇到MIT、PAI等集團強大算法平臺或工具后,將會充分降低算法的使用門檻,充分發(fā)揮數(shù)據(jù)的價值。屆時,80%的非結構化數(shù)據(jù)不再是放在倉庫中積灰的礦石,而是可以被加工成閃閃發(fā)光的金子;算法不再是針對具體業(yè)務去賦能的途徑,而是可以被規(guī)?;褂玫睦鳌?/p>

提供標準化、快速的非結構化數(shù)據(jù)服務前景可觀

當前無論是AWS、Azure還是阿里云,對于非結構化處理主要提供工具、算法,并沒有針對數(shù)據(jù)本身提供解決方案,不同的行業(yè)數(shù)據(jù)應該如何組織、如何訓練、如何形成行業(yè)知識庫。所謂,提供了“器”,卻沒有提供“術”。而市場上很多數(shù)據(jù)公司,則專注于某個領域的數(shù)據(jù),如公安、電商、咨詢等行業(yè),提供行業(yè)性的解決方案,并且取得了可觀的成果。如果我們能夠與業(yè)務深度結合,提供標準化、快速的非結構化服務,前景將會非??捎^,小到BU,大到集團乃至外部市場,具備極大的想象空間。

非結構化數(shù)據(jù)的價值還遠未充分挖掘,未來:廣闊天地,大有可為。

非結構化數(shù)據(jù)作為一種數(shù)據(jù)量大、類型豐富、與人工智能可以深度結合的數(shù)據(jù)類型,將會發(fā)揮越來越大的價值。然而如何管理、使用、快速價值化非結構化數(shù)據(jù),當前并沒有很好的解決方案,我們團隊在綜合分析市場上的產(chǎn)品和深度思考后結合DT強大的數(shù)據(jù)能力,提出了“非結構化數(shù)據(jù)體系”的設想和解決方案。

參考資料:

[1]ImageNet:改變AI和世界的圖片

https://www.sohu.com/a/160316515_680198

[2]店小蜜:智能客服的養(yǎng)成之道

http://www.sohu.com/a/131845725_635114

[3]智能安保:智能化辦案

https://baijiahao.baidu.com/s?id=1616255897334017138&wfr=spider&for=pc

 【本文為51CTO專欄作者“阿里巴巴官方技術”原創(chuàng)稿件,轉載請聯(lián)系原作者】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2019-09-10 10:19:50

非結構化數(shù)據(jù)數(shù)據(jù)智能

2018-04-03 14:00:03

結構化數(shù)據(jù)非結構化數(shù)據(jù)數(shù)據(jù)庫

2021-12-12 08:37:18

結構化數(shù)據(jù)非結構化數(shù)據(jù)數(shù)據(jù)

2024-05-27 00:32:45

2014-02-09 09:53:05

2019-07-13 15:00:17

結構化SQLNOSQL數(shù)據(jù)庫

2017-11-16 05:22:34

非結構化數(shù)據(jù)分析數(shù)據(jù)

2018-05-14 12:30:49

數(shù)據(jù)備份非結構

2009-02-16 15:41:04

非結構化數(shù)據(jù)SQL Server SQL Server

2019-10-18 13:07:14

PB數(shù)據(jù)非結構化數(shù)據(jù)數(shù)據(jù)集

2024-05-10 12:52:01

2022-01-14 12:56:38

非結構化數(shù)據(jù)數(shù)據(jù)管理IT領導者

2019-09-25 08:35:21

非結構化數(shù)據(jù)人工智能數(shù)據(jù)科學

2023-09-12 07:01:33

非結構化數(shù)據(jù)商業(yè)智能

2024-01-09 08:48:52

非結構化數(shù)據(jù)分析

2011-05-25 15:16:55

非結構化數(shù)據(jù)庫異構數(shù)據(jù)庫

2023-01-06 08:00:00

關系數(shù)據(jù)庫數(shù)據(jù)庫機器學習

2019-12-09 15:47:14

數(shù)據(jù)存儲非結構

2023-11-29 17:08:29

非結構化數(shù)據(jù)數(shù)據(jù)分析
點贊
收藏

51CTO技術棧公眾號