2009年互聯(lián)網(wǎng)5大趨勢(shì)之結(jié)構(gòu)化的數(shù)據(jù)
結(jié)構(gòu)化的數(shù)據(jù)可以說(shuō)比較適合Web開發(fā)中的數(shù)據(jù)傳輸,未結(jié)構(gòu)化的信息將會(huì)讓路于結(jié)構(gòu)化的數(shù)據(jù),為更智能的計(jì)算鋪路。這也是今后互聯(lián)網(wǎng)發(fā)展的趨勢(shì)。
1、結(jié)構(gòu)化的數(shù)據(jù)Structured Data
***個(gè)主要的趨勢(shì)是結(jié)構(gòu)化的數(shù)據(jù),這個(gè)概念在以往有關(guān)語(yǔ)義網(wǎng)(Semantic Web)的一些演講中,曾被引用過(guò),但顯而易見,到現(xiàn)在為止,結(jié)構(gòu)化的數(shù)據(jù)比語(yǔ)義網(wǎng)的發(fā)展趨勢(shì)更加明顯。本文會(huì)分析結(jié)構(gòu)化的數(shù)據(jù)在今年的發(fā)展,并且有三個(gè)產(chǎn)品供參考:OpenCalais, Google, Wolfram Alpha。
不是文檔集,而是數(shù)據(jù)網(wǎng)
Tim Berners-Lee(譯者注:萬(wàn)維網(wǎng)(WWW)的***,為互聯(lián)網(wǎng)的迅速、大規(guī)模發(fā)展奠定了非常非常重要的技術(shù)基礎(chǔ))在二月份曾說(shuō)我們現(xiàn)在身處一個(gè)數(shù)據(jù)網(wǎng),而不是一個(gè)文檔集,Tim Berners-Lee領(lǐng)導(dǎo)的組織W3C,已經(jīng)大力推動(dòng)了兩個(gè)關(guān)鍵行動(dòng)來(lái)建立這個(gè)數(shù)據(jù)網(wǎng):語(yǔ)義網(wǎng)(Semantic Web)和最近提到的數(shù)據(jù)鏈(Linked Data)。
在過(guò)去的幾年里,我們已經(jīng)看到了有很多其他方式來(lái)建立結(jié)構(gòu)化的數(shù)據(jù),目前***的例子是Twitter,因?yàn)?Twitter 90%的訪問(wèn),都是由第三方程序?qū)ζ銩PI的使用貢獻(xiàn)的(譯者注:我一開始很難理解Twitter為什么會(huì)是結(jié)構(gòu)化的數(shù)據(jù)的***實(shí)例,因?yàn)門witter里面?zhèn)鞑サ男畔⒔y(tǒng)統(tǒng)是非結(jié)構(gòu)化的。但經(jīng)過(guò)仔細(xì)思考,發(fā)現(xiàn)Twitter其實(shí)成功創(chuàng)造了一種使用短信息來(lái)更新狀態(tài)的通訊方式,對(duì)于內(nèi)容更新、狀態(tài)更新類的數(shù)據(jù)來(lái)說(shuō),這的確是結(jié)構(gòu)化的,更重要的是,使用范圍之廣,已形成事實(shí)的標(biāo)準(zhǔn))。
數(shù)據(jù)網(wǎng)的基本概念仍然與由Alex Iskold在2007年3月提到的相同:“未結(jié)構(gòu)化的信息將會(huì)讓路于結(jié)構(gòu)化的數(shù)據(jù),為更智能的計(jì)算鋪路”。
譯者注:來(lái)自不同網(wǎng)站的非結(jié)構(gòu)化信息,通過(guò)各個(gè)公司/組織提供的API,成為了結(jié)構(gòu)化的數(shù)據(jù)
實(shí)例1:OpenCalais
***個(gè)實(shí)例產(chǎn)品OpenCalais,很可能是目前***的有關(guān)數(shù)據(jù)鏈的產(chǎn)品,這是湯姆森路透(Thomson Reuters)于2008年2月發(fā)布的一個(gè)API。簡(jiǎn)單地講,OpenCalais可以將非結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)化為具有語(yǔ)義標(biāo)記的數(shù)據(jù),它可以將數(shù)據(jù)按照人物、地點(diǎn)、公司等分組組織。通過(guò)這種方式,第三方的程序或網(wǎng)站可以利用這些數(shù)據(jù)生成許多有趣的新應(yīng)用——這正是數(shù)據(jù)鏈的基本定義。
關(guān)于數(shù)據(jù)鏈的更完整定義,參見Alexander Korth在2009年4月從技術(shù)角度的介紹:數(shù)據(jù)網(wǎng),創(chuàng)建可供機(jī)器閱讀的信息 (The Web of Data: Creating Machine-Accessible Information),本文作者同樣在2009年5月撰文:“Linked Data is Blooming: Why You Should Care”,介紹了數(shù)據(jù)鏈的背景與好處。
譯者注:非結(jié)構(gòu)的文檔(文本/HTML),經(jīng)過(guò)OpenCalais的解析,成為了人物、公司、地點(diǎn)、事件等結(jié)構(gòu)化的數(shù)據(jù)
實(shí)例2:Google Rich Snippets
今年5月,Google將結(jié)構(gòu)化的數(shù)據(jù)添加到了它的核心搜索中,作為一個(gè)名為“Rich snippets”的特性出現(xiàn)。這個(gè)特性的本質(zhì)是通過(guò) microformats 或 RDFa 等開放的結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),從網(wǎng)頁(yè)中提取并展現(xiàn)有價(jià)值的信息(譯者注:百度最近提的框計(jì)算概念,其實(shí)類似于數(shù)據(jù)鏈,即用戶搜索到的不僅僅是網(wǎng)頁(yè),還有有價(jià)值的數(shù)據(jù),比如搜索股票代碼,出現(xiàn)的是該股票的實(shí)時(shí)行情,而不是包含該股票代碼的網(wǎng)頁(yè)鏈接)。在5月份發(fā)布這個(gè)特性的時(shí)候,Google邀請(qǐng)了內(nèi)容發(fā)布者來(lái)標(biāo)記他們的HTML,盡管要想這種標(biāo)記廣泛使用需要一定的時(shí)間,但事實(shí)上如果有Google這樣的大公司的推動(dòng),正顯示了結(jié)構(gòu)化的數(shù)據(jù)于互聯(lián)網(wǎng)越來(lái)越大的重要性。
譯者注:一個(gè)英文例子,搜索結(jié)果直接包含被搜索商品的評(píng)論、價(jià)格范圍
譯者注:一個(gè)中文例子:結(jié)果直接包含被搜索到網(wǎng)站的Alexa排名數(shù)據(jù)
其他大公司同樣***了這個(gè)方向,比如雅虎。
實(shí)例3:Wolfram Alpha
從 Wolfram Alpha 5月份的隆重推出到現(xiàn)在,作者一直在密切關(guān)注這個(gè)非常創(chuàng)新的產(chǎn)品。這個(gè)一個(gè)自描述的“可計(jì)算知識(shí)引擎 computational knowledge engine”,在一些預(yù)測(cè)中,它甚至被稱為Google克星。雖然這有些夸張,但它的確有不少可能的應(yīng)用。
Wolfram Alpha有個(gè)類似搜索引擎的界面,可以由用戶輸入自然語(yǔ)言。但它的主要部分是估算用戶的行為,來(lái)顯示合適的數(shù)據(jù),這個(gè)產(chǎn)品是以使用與計(jì)算數(shù)據(jù)為前提的。如果Web2.0是產(chǎn)生數(shù)據(jù)(或者用戶產(chǎn)生內(nèi)容),那么下一代的互聯(lián)網(wǎng)就是如何使用這些數(shù)據(jù)了。
總結(jié)
通過(guò)以上三個(gè)例子我們可以看到結(jié)構(gòu)化的數(shù)據(jù)正快速地成為當(dāng)今互聯(lián)網(wǎng)的一個(gè)特性。像湯姆森路透(Thomson Reuters)與Google這樣的公司正逐步實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化,而更多像Wolfram Alpha這樣的產(chǎn)品正在利用結(jié)構(gòu)化的數(shù)據(jù)實(shí)現(xiàn)我們今天根本無(wú)法想象的功能。
譯者注
為了方便理解,根據(jù)我的個(gè)人看法,這里解釋一下文檔、數(shù)據(jù)、結(jié)構(gòu)化等詞,如有謬誤,歡迎指正:
文檔:亦內(nèi)容,可供閱讀,傳播。如:某產(chǎn)品的某個(gè)評(píng)論;某應(yīng)聘人員的簡(jiǎn)歷。
數(shù)據(jù):與內(nèi)容相同的是可以閱讀,傳播;勝于內(nèi)容的是有明確分類,可供分析。如某個(gè)產(chǎn)品的評(píng)論分?jǐn)?shù);某應(yīng)聘人員簡(jiǎn)歷中的年齡,專業(yè)、工作年限。
結(jié)構(gòu)化:數(shù)據(jù)結(jié)構(gòu)化以后,會(huì)更易于分析,查找,抽象。如:某產(chǎn)品有幾條評(píng)論,分?jǐn)?shù)各是多少(可算出平均分,從而推斷口碑***的產(chǎn)品是哪個(gè));應(yīng)聘的所有人員的年齡分布、專業(yè)分布、工作年限分布。
另,我理解知識(shí)生產(chǎn)的過(guò)程如下:
信息(消息,新聞) 提取 數(shù)據(jù) 轉(zhuǎn)化。分析 結(jié)構(gòu)化數(shù)據(jù) 抽象 知識(shí)
所以,有了結(jié)構(gòu)化的數(shù)據(jù)以后,離知識(shí)就只差一步了,所以不難想象,未來(lái)的互聯(lián)網(wǎng)是可以自動(dòng)生產(chǎn)知識(shí)的。
原文標(biāo)題:2009年互聯(lián)網(wǎng)5大趨勢(shì)之一:結(jié)構(gòu)化的數(shù)據(jù)
鏈接:http://www.cnblogs.com/zhubo/archive/2009/09/14/top_5_web_trends_of_2009_structured_data.html
【編輯推薦】