自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

終于有人把數(shù)據(jù)、信息、知識(shí)講明白了

大數(shù)據(jù) 數(shù)據(jù)分析
我們把關(guān)于信息處理的理論稱(chēng)為信息論,它是20世紀(jì)40年代從通信實(shí)踐中發(fā)展并總結(jié)出來(lái)的一門(mén)學(xué)科,專(zhuān)門(mén)研究有關(guān)信息處理和可靠傳輸?shù)囊话阋?guī)律。這一理論對(duì)計(jì)算機(jī)技術(shù)的發(fā)展具有重要意義。為了更好地闡述這一理論,讓我們先來(lái)討論幾個(gè)大家耳熟能詳?shù)脑~:數(shù)據(jù)、信息、知識(shí)。

01 數(shù)據(jù)是一組有意義的符號(hào)

數(shù)據(jù)無(wú)處不在,只是它們沒(méi)有實(shí)體。

過(guò)去,人們習(xí)慣把數(shù)字的組合稱(chēng)為數(shù)據(jù)。但在今天,這樣的理解顯然不夠全面。那么是否可以把數(shù)字、字符、字母的集合稱(chēng)為數(shù)據(jù)?也不準(zhǔn)確。

在今天“大數(shù)據(jù)”的語(yǔ)境中,數(shù)據(jù)是可以被記錄和識(shí)別的一組有意義的符號(hào),一般可通過(guò)原始的觀察或度量得到。數(shù)據(jù)是對(duì)客觀事物的邏輯歸納,可以用來(lái)表示一個(gè)事實(shí)、一種狀態(tài)、一個(gè)實(shí)體的特征,或一個(gè)觀察的結(jié)果,有些是用于描述某個(gè)對(duì)象的事實(shí)性數(shù)據(jù),有些則是通過(guò)觀察、分析、歸納得到的總結(jié)性數(shù)據(jù)。

數(shù)據(jù)可以是連續(xù)的,比如無(wú)線(xiàn)電通信時(shí)在空氣中傳輸?shù)碾姶挪?,它們是模擬數(shù)據(jù);數(shù)據(jù)也可以是離散的,比如在計(jì)算機(jī)中存儲(chǔ)的文檔和照片,它們是數(shù)字?jǐn)?shù)據(jù)。

承載數(shù)據(jù)的形式有很多,不僅包括文字、數(shù)字、符號(hào)、圖像、語(yǔ)音、視頻,也可以是對(duì)某個(gè)事物的屬性、數(shù)量、位置、關(guān)系的抽象表示。大氣的溫濕度、汽車(chē)的行駛路線(xiàn)、學(xué)生的檔案記錄、商務(wù)的合同,這些都是數(shù)據(jù)。

我們平時(shí)用電子設(shè)備看新聞、拍照片、買(mǎi)東西、打游戲,本質(zhì)上都是在和數(shù)據(jù)打交道。在計(jì)算機(jī)中,它們是一連串包含有0和1的二進(jìn)制數(shù)的組合。

02 信息是用來(lái)消除不確定性的

現(xiàn)在我們來(lái)明確一下什么是數(shù)據(jù),什么是信息。當(dāng)人們?cè)谘芯考坠俏臅r(shí),上面記錄的符號(hào)僅僅是一些數(shù)據(jù)。要讀懂這些數(shù)據(jù),就必須了解數(shù)據(jù)背后要表達(dá)的含義。一旦對(duì)數(shù)據(jù)做出解釋?zhuān)覀兙湍艿玫郊坠俏纳系男畔ⅰ?

數(shù)據(jù)與信息既有聯(lián)系,又有區(qū)別。數(shù)據(jù)是信息的載體,信息則需要依托數(shù)據(jù)來(lái)表達(dá)。它們是形與質(zhì)的關(guān)系,兩者密不可分。

信息由數(shù)據(jù)加工得來(lái),它可以由數(shù)字和文字表達(dá),也可以表現(xiàn)為其他具有意義的符號(hào),其承載形式不重要,重要的是信息能讓我們了解一些事情、鑒別一些真?zhèn)巍⒆糇C一些觀點(diǎn)。也就是說(shuō),盡管數(shù)據(jù)存在的形式多種多樣,但我們真正想要獲得的是信息。

“信息”作為科學(xué)術(shù)語(yǔ)最早出現(xiàn)在哈特萊1928年撰寫(xiě)的論文《信息傳輸》中,在該論文中他首次提出了將信息定量化處理的設(shè)想。1948年,信息論創(chuàng)始人、美國(guó)數(shù)學(xué)家香農(nóng)發(fā)表了一篇有著深遠(yuǎn)影響的論文—《關(guān)于通信的數(shù)學(xué)原理》,他明確指出了“信息是用來(lái)消除隨機(jī)不確定性的東西”。

在香農(nóng)看來(lái),一旦我們想要對(duì)信息進(jìn)行量化和比較,我們就不要去關(guān)注這些信息到底承載了什么內(nèi)容,而是要看這條信息出現(xiàn)后,是否改變了某些不確定性事件的概率。今天這一定義已經(jīng)被看作是對(duì)“信息”的經(jīng)典定義,在各種場(chǎng)合不斷被人引用。

無(wú)論是數(shù)字、字符或它們的組合,如果我們無(wú)法解讀,就不能稱(chēng)其為信息。有一個(gè)重要的判斷標(biāo)準(zhǔn)是,看它是否承載了有用的內(nèi)容。無(wú)論是石頭上刻的畫(huà)、紙上寫(xiě)的字、墻上的涂鴉還是電腦中的文件,只要它們能表達(dá)確切的含義,就能認(rèn)為是信息。

一串11位數(shù)字的號(hào)碼,如果它是隨機(jī)數(shù)字,則談不上是信息。如果我告訴你,這串?dāng)?shù)字是我的手機(jī)號(hào),它就消除了不確定性,它便是一種信息。信息是把人們不清楚的給說(shuō)清楚的那些內(nèi)容,如果已經(jīng)知道了,就不能算作新的信息。

舉例來(lái)說(shuō),今天任何一個(gè)小學(xué)生都知道地球是圓的,地球自轉(zhuǎn)產(chǎn)生了白天和黑夜。這在今天看來(lái)是一個(gè)基本常識(shí),但我們的祖先并不知道。如果我們把發(fā)明文字作為人類(lèi)文明的起點(diǎn),那么大約經(jīng)過(guò)5000多年,也就是直到15世紀(jì),人們才開(kāi)始接受地球是一個(gè)大圓球的觀點(diǎn)。

雖然“地球”對(duì)于今天的小學(xué)生來(lái)說(shuō)不算是新的信息,但是對(duì)于古人來(lái)說(shuō),它不僅是信息,而且信息量巨大。

你或許已經(jīng)發(fā)現(xiàn)了,信息會(huì)因場(chǎng)景而定,因每個(gè)人的主觀認(rèn)識(shí)而定。同一條信息,對(duì)一些人是有用的,對(duì)另一些人或許就沒(méi)用了。

03 知識(shí)是對(duì)信息的總結(jié)和提煉

隨意給出3個(gè)數(shù)字:68、21、192。這3個(gè)數(shù)字僅僅是數(shù)據(jù)?,F(xiàn)在給它們加上一些說(shuō)明,比如:衣服的價(jià)格是68元,今天的氣溫是21攝氏度,小明爸爸的體重是192斤。這些數(shù)據(jù)有了明確表達(dá)的含義,它們就是信息。

不僅如此,我們還能基于這些信息給出一些判斷:衣服不是很貴,天氣有點(diǎn)涼爽,男人該去減肥了。做出這些判斷,需要依賴(lài)我們平時(shí)生活中積累的經(jīng)驗(yàn)和常識(shí),即知識(shí)。

知識(shí)是對(duì)信息的提煉和概括,它是高度概括的信息。如果說(shuō)信息可以解答一些簡(jiǎn)單的問(wèn)題,比如“誰(shuí)”“在哪里”“做什么”,那么知識(shí)可以回答一些更具深刻認(rèn)知的問(wèn)題,比如“怎樣”“為何”。

日常生活中最基本的知識(shí)是常識(shí)。比如明火不能碰、熱油不能遇水、人有生老病死、月有陰晴圓缺,它們大部分來(lái)自生活,是大家認(rèn)為都該懂得、不言自明的知識(shí)。今天很多約定俗成的常識(shí),是由我們的祖輩口口相傳、代代相承而來(lái)。人并不是天生就有常識(shí),知道火為何物、火可傷人、火可熟食。很多道理都是從生活實(shí)踐中總結(jié)而來(lái)的。

現(xiàn)如今,對(duì)于人工智能來(lái)說(shuō),要解決的核心問(wèn)題是讓計(jì)算機(jī)具有常識(shí)。很多常識(shí)背后有著復(fù)雜的知識(shí)體系,機(jī)器必須真正“理解”知識(shí),而不是“記憶”它們。

舉例來(lái)說(shuō),計(jì)算機(jī)或許能通過(guò)數(shù)據(jù)樣本學(xué)習(xí),知道人類(lèi)有頭、手、腳等身體部位,但它很難理解既然這些部位都長(zhǎng)在人體上,為何只有頭上有眼睛,手和腳上卻沒(méi)有?又比如,計(jì)算機(jī)學(xué)會(huì)并知道了“人有2只眼睛”,但它無(wú)法判斷這個(gè)世界上是否存在“有1只眼睛的人”和“有3只眼睛的人”。

如今的人工智能只能從數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)之間的聯(lián)系,它還不能很好地處理有關(guān)常識(shí)的問(wèn)題,這方面人們還有很長(zhǎng)的研究之路要走。

以上討論的“知識(shí)”,指的都是人腦中的知識(shí)。它和計(jì)算機(jī)要處理的“知識(shí)”是不同的。從本質(zhì)上講,計(jì)算機(jī)只是模仿人類(lèi)的知識(shí),它們并沒(méi)有真正掌握這些“知識(shí)”。計(jì)算機(jī)只是通過(guò)一些特定方法把人類(lèi)知識(shí)表達(dá)出來(lái)。而這個(gè)特定方法是基于圖技術(shù)。

圖是一種表示知識(shí)的工具,是描述知識(shí)的狀態(tài)、關(guān)系、路徑距離等相關(guān)要素的最自然的數(shù)學(xué)表達(dá)。它擅長(zhǎng)存儲(chǔ)和處理復(fù)雜的網(wǎng)狀關(guān)系,所以在知識(shí)圖譜、社交網(wǎng)絡(luò)、用戶(hù)關(guān)系分析等領(lǐng)域有著廣泛的應(yīng)用。

近年來(lái),基于圖技術(shù)的知識(shí)圖譜是十分熱門(mén)的研究領(lǐng)域。比如大眾熟知的維基百科就是一個(gè)知識(shí)圖譜應(yīng)用。知識(shí)圖譜可以用來(lái)描述各種實(shí)體以及它們之間的關(guān)系。它是一個(gè)龐大的圖形網(wǎng)絡(luò)知識(shí)庫(kù)。在這個(gè)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)是一個(gè)實(shí)體,比如人名、地名、事件、活動(dòng),任意兩個(gè)節(jié)點(diǎn)之間的邊表示它們之間存在關(guān)系,如圖3-1所示。

▲圖3-1 基于圖形結(jié)構(gòu)的知識(shí)圖譜示意圖

知識(shí)圖譜的基本組成是“實(shí)體–關(guān)系–實(shí)體”的三元組,它不僅能把與關(guān)鍵詞有關(guān)的知識(shí)系統(tǒng)化地展示給用戶(hù),也可以基于知識(shí)進(jìn)行推演。比方說(shuō),從〈東方明珠,坐落在,浦東〉和〈浦東,屬于,上?!颠@兩個(gè)組合,就能推測(cè)得到〈東方明珠,位于,上?!?。

知識(shí)圖譜還會(huì)不斷更新迭代,用戶(hù)搜索的次數(shù)越多,范圍越廣,這個(gè)知識(shí)庫(kù)就能獲取越多的信息和內(nèi)容。

知識(shí)并不是與生俱來(lái)的,獲取知識(shí)通常有兩種途徑。

途徑一是親身體驗(yàn)。比如,剛出生的嬰兒什么都不懂,將一杯熱水放到他面前,他會(huì)想要去拿杯子,結(jié)果喝水被燙到了。第二次他再看到杯子,有了上次被燙的經(jīng)驗(yàn),他會(huì)觀察杯口是否冒煙,摸摸杯子的溫度,再?zèng)Q定是否拿杯子喝水。在這個(gè)過(guò)程中,嬰兒通過(guò)自己的親身體驗(yàn),逐漸掌握了有關(guān)“熱水”的知識(shí)。

南宋理學(xué)家、思想家朱熹曾說(shuō):“所謂致知在格物者,言欲致吾之知,在即物而窮其理也?!彼磉_(dá)的意思是,獲得知識(shí)的途徑在于認(rèn)識(shí)世間萬(wàn)物,并徹底研究它們的原理。就是說(shuō),要親身體驗(yàn)這個(gè)世界來(lái)獲得寶貴的知識(shí)。每個(gè)人有不同的人生和經(jīng)歷,這些會(huì)成為我們獨(dú)有的知識(shí)。

親身體驗(yàn)得來(lái)的知識(shí)是最真實(shí)的,所以它通常比較準(zhǔn)確。不過(guò),這樣獲取知識(shí)的時(shí)間周期長(zhǎng),效率也比較低。

途徑二是通過(guò)別人教授。比如通過(guò)父母、老師、書(shū)本、網(wǎng)絡(luò)學(xué)習(xí)得來(lái),但老師教的、書(shū)上印的可能出錯(cuò),這樣得來(lái)的知識(shí)未必準(zhǔn)確。不過(guò),它仍然是獲取知識(shí)最主要的形式,畢竟我們沒(méi)有那么多時(shí)間和精力,凡事都親身經(jīng)歷一遍。站在前人和巨人的肩膀上,不斷學(xué)習(xí)新的知識(shí),是人類(lèi)科技進(jìn)步的根本原因。

有趣的是,在互聯(lián)網(wǎng)時(shí)代,任何人都能隨時(shí)隨地找到自己想要的信息,但我們的知識(shí)總量并不會(huì)立刻增加。學(xué)習(xí)是一種過(guò)程,需要時(shí)間積累,欲速則不達(dá)。

比如很多人都聽(tīng)過(guò)“區(qū)塊鏈”,但大部分人并不清楚它是什么。有人認(rèn)為它是錢(qián),也有人認(rèn)為它是一種身份認(rèn)證技術(shù)。但這些理解都不準(zhǔn)確。很多人只是從網(wǎng)上找到了關(guān)于區(qū)塊鏈的信息,并沒(méi)有真正得到關(guān)于它的知識(shí)。從某種意義上講,互聯(lián)網(wǎng)雖然提高了人們找到碎片信息的效率,但降低了人們掌握完整知識(shí)的能力。

當(dāng)然,互聯(lián)網(wǎng)對(duì)整個(gè)社會(huì)來(lái)說(shuō)仍然利大于弊,它讓全世界的知識(shí)能夠快速傳遞和共享。每個(gè)人都可以在網(wǎng)絡(luò)上自由地發(fā)表觀點(diǎn),這些內(nèi)容也被其他人搜索、閱讀、討論。一個(gè)小學(xué)生能從互聯(lián)網(wǎng)上學(xué)到知識(shí),并在課堂上指出老師的錯(cuò)誤,在家里糾正父母的觀念。這讓過(guò)去作為權(quán)威的老師和父母受到了挑戰(zhàn),這在以前是不可想象的。

最后,讓我們做個(gè)簡(jiǎn)答的總結(jié)——數(shù)據(jù)、信息、知識(shí)三者密不可分。

  • 數(shù)據(jù)是一組有意義的符號(hào),它是信息的載體,是知識(shí)的來(lái)源;
  • 信息賦予了數(shù)據(jù)含義,信息消除了不確定性;
  • 知識(shí)從實(shí)踐、經(jīng)驗(yàn)中得到,它由數(shù)據(jù)記錄,從信息中提煉。

關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見(jiàn)解,專(zhuān)注于智能運(yùn)維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。

責(zé)任編輯:龐桂玉 來(lái)源: 大數(shù)據(jù)DT
相關(guān)推薦

2022-08-15 20:49:16

知識(shí)圖譜網(wǎng)絡(luò)大數(shù)據(jù)

2021-02-21 21:25:43

知識(shí)圖譜

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開(kāi)發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2021-12-07 18:24:26

數(shù)據(jù)安全

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2022-05-09 20:23:51

數(shù)據(jù)采集

2020-10-29 06:09:37

數(shù)據(jù)中臺(tái)數(shù)據(jù)大數(shù)據(jù)

2021-03-25 11:24:25

爬蟲(chóng)技術(shù)開(kāi)發(fā)

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2020-11-03 07:04:39

云計(jì)算公有云私有云

2021-10-12 18:31:40

流量運(yùn)營(yíng)前端
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)