自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

網(wǎng)絡(luò)爬蟲的前生今世

系統(tǒng) 其他OS
網(wǎng)絡(luò)檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。最初的檢索功能通過索引站的方式實(shí)現(xiàn),而有了網(wǎng)絡(luò)機(jī)器人,即網(wǎng)絡(luò)爬蟲這個(gè)技術(shù)之后,搜索引擎的時(shí)代便開始一發(fā)不可收拾了。

在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。

現(xiàn)代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學(xué)學(xué)生Alan Emtage發(fā)明的Archie。雖然當(dāng)時(shí)World Wide Web還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的FTP主機(jī)中,查詢起來非常不便,因此Alan Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個(gè)與之非常相似的搜索工具,不過此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁。

當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”(Computer Robot)是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。世界上***個(gè)用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。與Wanderer相對應(yīng),Martin Koster于1993年10月創(chuàng)建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“機(jī)器人”程序,而是靠網(wǎng)站主動提交信息來建立自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo。

隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最負(fù)盛名。

然而JumpStation和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而RBSE是***個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當(dāng)時(shí)Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(yuǎn)(Gerry Yang)共同創(chuàng)辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風(fēng)頭正勁的Google,其數(shù)據(jù)庫中存放的網(wǎng)頁已達(dá)30億之巨?。?1CTO編輯注:當(dāng)然,現(xiàn)在已遠(yuǎn)不止這個(gè)數(shù)量級)

隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己單打獨(dú)斗已無法適應(yīng)目前的市場狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。象國外的Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務(wù)。國內(nèi)的百度也屬于這一類(注),搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說,它們是搜索引擎的搜索引擎。

責(zé)任編輯:yangsai 來源: 網(wǎng)絡(luò)轉(zhuǎn)載
相關(guān)推薦

2016-11-24 22:30:17

DeepLink移動App開發(fā)

2010-08-27 14:04:47

2025-03-05 11:03:36

2018-03-05 11:29:17

云計(jì)算云服務(wù)服務(wù)器

2015-03-09 15:26:36

2018-05-31 12:12:12

頁面可視化工具

2019-01-04 10:41:07

系統(tǒng)內(nèi)存SRAM

2018-09-26 16:04:04

NVMe主機(jī)控制器

2019-08-15 10:56:10

WebServletSpring mvc

2018-02-23 14:30:13

2011-03-09 10:07:56

網(wǎng)絡(luò)爬蟲Java

2018-10-18 10:52:35

路由器無線路由器wifi

2018-05-14 15:27:06

Python網(wǎng)絡(luò)爬蟲爬蟲架構(gòu)

2012-05-10 13:42:26

Java網(wǎng)絡(luò)爬蟲

2011-08-17 11:04:17

摩托羅拉Linux手機(jī)

2022-10-12 09:40:51

開源代碼

2023-06-01 13:15:23

2024-03-08 12:17:39

網(wǎng)絡(luò)爬蟲Python開發(fā)

2018-01-30 18:15:12

Python網(wǎng)絡(luò)爬蟲gevent

2022-09-20 07:02:20

網(wǎng)絡(luò)爬蟲反爬蟲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號