一文看完網(wǎng)絡(luò)爬蟲(chóng)發(fā)展史
著名調(diào)查機(jī)構(gòu)Aberdeen Group曾經(jīng)做過(guò)一次調(diào)查,結(jié)果令人乍舌。
整個(gè)互聯(lián)網(wǎng),網(wǎng)絡(luò)爬蟲(chóng)產(chǎn)生的流量占比高達(dá)37.2%!
換句話(huà)說(shuō),每100個(gè)互聯(lián)網(wǎng)用戶(hù)中,只有63個(gè)是實(shí)實(shí)在在的人類(lèi),剩下的流量都是機(jī)器人刷出來(lái)的。
有一種說(shuō)法更可怕,未來(lái)互聯(lián)網(wǎng)50%以上的流量將是機(jī)器人制造出來(lái)的。
在現(xiàn)實(shí)世界,人類(lèi)還在為人工智能威脅而煩惱,但在虛擬世界,機(jī)器人所制造的流量,已經(jīng)可以和人類(lèi)平分秋色,甚至超過(guò)人類(lèi)。
每時(shí)每刻,爬蟲(chóng)們都在模仿人類(lèi)的上網(wǎng)行為,去各種網(wǎng)站上溜達(dá),點(diǎn)點(diǎn)按鈕,查查數(shù)據(jù),或者把看到的信息背回來(lái),他們永遠(yuǎn)不知道疲倦,循環(huán)往復(fù)。
你一定見(jiàn)過(guò)驗(yàn)證碼嗎,它可能長(zhǎng)這樣:
也可能這樣:
或者是這樣子:
無(wú)論它長(zhǎng)什么樣子,驗(yàn)證碼只有一個(gè)目的,識(shí)別真實(shí)的人類(lèi)用戶(hù)。
打開(kāi)百度搜索,搜點(diǎn)什么資料,解決點(diǎn)什么問(wèn)題。無(wú)意中,你也成為眾多爬蟲(chóng)使用者中的一員。
爬蟲(chóng),已經(jīng)遍布在互聯(lián)網(wǎng)的每一個(gè)角落,影響著每一個(gè)人。
但是,你了解爬蟲(chóng)的前世今生嗎?
善良的一面
1994年,在卡內(nèi)基梅隆大學(xué)參加“信息媒體數(shù)字圖書(shū)館”項(xiàng)目研究的小馬,為了解決這一項(xiàng)目的一些困難,用3頁(yè)的代碼量,開(kāi)發(fā)了一個(gè)名為L(zhǎng)ycos的搜索引擎。
Lycos是Lycosidae(一種善于捕捉獵物的狼蛛)的縮寫(xiě)。
這個(gè)簡(jiǎn)陋的搜索引擎,讓小馬看到其背后巨大的商機(jī),于是不久后,Lycos公司正式成立。
短短兩年時(shí)間,Lycos便成功上市,成為有史以來(lái)上市最快的公司。根據(jù)Nielsen/NetRatings調(diào)查統(tǒng)計(jì)機(jī)構(gòu)數(shù)據(jù),2002年10月份,Lycos的訪(fǎng)問(wèn)量高達(dá)3700萬(wàn),成為全世界訪(fǎng)問(wèn)量排名第5的網(wǎng)站。
然而,搜索引擎這塊大蛋糕,終究逃不過(guò)群狼競(jìng)食的命運(yùn)。
1995年,也就是在Lycos誕生一年后,斯坦福大學(xué)的兩個(gè)計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生小拉和小謝,開(kāi)始研究一個(gè)叫BackRub的計(jì)算機(jī)程序。
這個(gè)程序是利用反向鏈接分析來(lái)跟蹤和記錄Internet上的數(shù)據(jù)的搜索引擎。
他們立志開(kāi)發(fā)一款強(qiáng)大的搜索引擎,供全世界各地的人們使用,更加方便地從互聯(lián)網(wǎng)上獲取信息。
1998年,小拉和小謝拿出自己的全部家當(dāng),再加上母校和舍友的一點(diǎn)資金支持,成立一家名為Google的公司。
因?yàn)闆](méi)有充足的資金保障,他們不得不購(gòu)買(mǎi)二手的計(jì)算機(jī)零件,在一個(gè)車(chē)庫(kù)中辦公。
艱難的創(chuàng)業(yè)環(huán)境,使小拉和小謝一度想賣(mài)掉Google,他們邀請(qǐng)了雅虎、Excite以及其他幾家硅谷公司,希望他們把Google買(mǎi)了,只可惜當(dāng)初這些公司只愿意出100萬(wàn)美元的價(jià)格,與他們倆的心理預(yù)期嚴(yán)重不符,這件事只得作罷。
幾乎同一時(shí)間,在地球的另一頭,有一個(gè)年輕的小伙子小馬,開(kāi)發(fā)了一款名為QQ的聊天軟件,也想把它賣(mài)出去,也沒(méi)有成功。
歷史總是驚人的相似。
誰(shuí)也沒(méi)想到,這兩家名不見(jiàn)經(jīng)傳的小公司,會(huì)成為互聯(lián)網(wǎng)超級(jí)巨頭。
世界的另一頭,在美國(guó)呆了8年的小李,看到國(guó)內(nèi)互聯(lián)網(wǎng)環(huán)境已經(jīng)成熟,他立即起身回國(guó)創(chuàng)業(yè),創(chuàng)辦一家名為百度的公司。
至此,谷歌、雅虎、百度三分天下的局面逐漸形成。
上古時(shí)代,那時(shí)的互聯(lián)網(wǎng),還是一片賢者云集的凈土,為了尊重網(wǎng)站的權(quán)利,各大搜索引擎通過(guò)郵件形式討論定下了一個(gè)君子協(xié)議——robots.txt。
只要在你的網(wǎng)站根目錄上放上一個(gè)robots文件,告訴搜索引擎哪些內(nèi)容不能抓取,網(wǎng)絡(luò)爬蟲(chóng)就會(huì)遵守約定,不抓取這些內(nèi)容。
邪惡的一面
隨著互聯(lián)網(wǎng)的發(fā)展, 信息量快速發(fā)展,整個(gè)網(wǎng)絡(luò)世界,充滿(mǎn)著許多很有價(jià)值的信息,商品信息、機(jī)票信息、個(gè)人隱私數(shù)據(jù)滿(mǎn)天飛。
一些不法分子從中看到了巨大的利益。
在利益的誘惑下,這些人開(kāi)始違反爬蟲(chóng)協(xié)議,編寫(xiě)爬蟲(chóng)程序,惡意爬取目標(biāo)網(wǎng)站的內(nèi)容。
歷史上第一件關(guān)于爬蟲(chóng)的官司出現(xiàn)在2000年,eBay將一家聚合價(jià)格信息的網(wǎng)站告上法庭。
eBay認(rèn)為自己已經(jīng)使用robot協(xié)議,明確告訴哪些信息不能抓取,哪些信息可以抓取,但這家公司違反了協(xié)議,非法抓取商品價(jià)格等信息。
但被告認(rèn)為,eBay上的用戶(hù)數(shù)據(jù)、以及用戶(hù)上傳的商品信息,應(yīng)屬于用戶(hù)集體所有,并不屬于eBay,robot協(xié)議無(wú)效。
最終,法院判決eBay勝訴。
這個(gè)案件開(kāi)啟了爬蟲(chóng)協(xié)議作為主要參考證據(jù)的先河。
如今,爬蟲(chóng)技術(shù)發(fā)展迅速,已經(jīng)出現(xiàn)通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)等類(lèi)型。抓取目標(biāo)的方式也很多,例如基于目標(biāo)網(wǎng)頁(yè)特征、基于目標(biāo)數(shù)據(jù)模式、基于領(lǐng)域概念等。
爬蟲(chóng)技術(shù),無(wú)論善意還是惡意,都將常伴在互聯(lián)網(wǎng)的身邊,影響網(wǎng)民的分分秒秒。