自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文看完網(wǎng)絡(luò)爬蟲(chóng)發(fā)展史

網(wǎng)絡(luò)
著名調(diào)查機(jī)構(gòu)Aberdeen Group曾經(jīng)做過(guò)一次調(diào)查,結(jié)果令人乍舌。整個(gè)互聯(lián)網(wǎng),網(wǎng)絡(luò)爬蟲(chóng)產(chǎn)生的流量占比高達(dá)37.2%!

[[415987]]

著名調(diào)查機(jī)構(gòu)Aberdeen Group曾經(jīng)做過(guò)一次調(diào)查,結(jié)果令人乍舌。

整個(gè)互聯(lián)網(wǎng),網(wǎng)絡(luò)爬蟲(chóng)產(chǎn)生的流量占比高達(dá)37.2%!

換句話(huà)說(shuō),每100個(gè)互聯(lián)網(wǎng)用戶(hù)中,只有63個(gè)是實(shí)實(shí)在在的人類(lèi),剩下的流量都是機(jī)器人刷出來(lái)的。

有一種說(shuō)法更可怕,未來(lái)互聯(lián)網(wǎng)50%以上的流量將是機(jī)器人制造出來(lái)的。

在現(xiàn)實(shí)世界,人類(lèi)還在為人工智能威脅而煩惱,但在虛擬世界,機(jī)器人所制造的流量,已經(jīng)可以和人類(lèi)平分秋色,甚至超過(guò)人類(lèi)。

每時(shí)每刻,爬蟲(chóng)們都在模仿人類(lèi)的上網(wǎng)行為,去各種網(wǎng)站上溜達(dá),點(diǎn)點(diǎn)按鈕,查查數(shù)據(jù),或者把看到的信息背回來(lái),他們永遠(yuǎn)不知道疲倦,循環(huán)往復(fù)。

你一定見(jiàn)過(guò)驗(yàn)證碼嗎,它可能長(zhǎng)這樣:

也可能這樣:

或者是這樣子:

無(wú)論它長(zhǎng)什么樣子,驗(yàn)證碼只有一個(gè)目的,識(shí)別真實(shí)的人類(lèi)用戶(hù)。

打開(kāi)百度搜索,搜點(diǎn)什么資料,解決點(diǎn)什么問(wèn)題。無(wú)意中,你也成為眾多爬蟲(chóng)使用者中的一員。

爬蟲(chóng),已經(jīng)遍布在互聯(lián)網(wǎng)的每一個(gè)角落,影響著每一個(gè)人。

但是,你了解爬蟲(chóng)的前世今生嗎?

善良的一面

1994年,在卡內(nèi)基梅隆大學(xué)參加“信息媒體數(shù)字圖書(shū)館”項(xiàng)目研究的小馬,為了解決這一項(xiàng)目的一些困難,用3頁(yè)的代碼量,開(kāi)發(fā)了一個(gè)名為L(zhǎng)ycos的搜索引擎。

Lycos是Lycosidae(一種善于捕捉獵物的狼蛛)的縮寫(xiě)。

這個(gè)簡(jiǎn)陋的搜索引擎,讓小馬看到其背后巨大的商機(jī),于是不久后,Lycos公司正式成立。

[[415990]]

短短兩年時(shí)間,Lycos便成功上市,成為有史以來(lái)上市最快的公司。根據(jù)Nielsen/NetRatings調(diào)查統(tǒng)計(jì)機(jī)構(gòu)數(shù)據(jù),2002年10月份,Lycos的訪(fǎng)問(wèn)量高達(dá)3700萬(wàn),成為全世界訪(fǎng)問(wèn)量排名第5的網(wǎng)站。

然而,搜索引擎這塊大蛋糕,終究逃不過(guò)群狼競(jìng)食的命運(yùn)。

1995年,也就是在Lycos誕生一年后,斯坦福大學(xué)的兩個(gè)計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生小拉和小謝,開(kāi)始研究一個(gè)叫BackRub的計(jì)算機(jī)程序。

[[415991]]

這個(gè)程序是利用反向鏈接分析來(lái)跟蹤和記錄Internet上的數(shù)據(jù)的搜索引擎。

他們立志開(kāi)發(fā)一款強(qiáng)大的搜索引擎,供全世界各地的人們使用,更加方便地從互聯(lián)網(wǎng)上獲取信息。

1998年,小拉和小謝拿出自己的全部家當(dāng),再加上母校和舍友的一點(diǎn)資金支持,成立一家名為Google的公司。

因?yàn)闆](méi)有充足的資金保障,他們不得不購(gòu)買(mǎi)二手的計(jì)算機(jī)零件,在一個(gè)車(chē)庫(kù)中辦公。

艱難的創(chuàng)業(yè)環(huán)境,使小拉和小謝一度想賣(mài)掉Google,他們邀請(qǐng)了雅虎、Excite以及其他幾家硅谷公司,希望他們把Google買(mǎi)了,只可惜當(dāng)初這些公司只愿意出100萬(wàn)美元的價(jià)格,與他們倆的心理預(yù)期嚴(yán)重不符,這件事只得作罷。

幾乎同一時(shí)間,在地球的另一頭,有一個(gè)年輕的小伙子小馬,開(kāi)發(fā)了一款名為QQ的聊天軟件,也想把它賣(mài)出去,也沒(méi)有成功。

[[415993]]

歷史總是驚人的相似。

誰(shuí)也沒(méi)想到,這兩家名不見(jiàn)經(jīng)傳的小公司,會(huì)成為互聯(lián)網(wǎng)超級(jí)巨頭。

世界的另一頭,在美國(guó)呆了8年的小李,看到國(guó)內(nèi)互聯(lián)網(wǎng)環(huán)境已經(jīng)成熟,他立即起身回國(guó)創(chuàng)業(yè),創(chuàng)辦一家名為百度的公司。

[[415994]]

至此,谷歌、雅虎、百度三分天下的局面逐漸形成。

上古時(shí)代,那時(shí)的互聯(lián)網(wǎng),還是一片賢者云集的凈土,為了尊重網(wǎng)站的權(quán)利,各大搜索引擎通過(guò)郵件形式討論定下了一個(gè)君子協(xié)議——robots.txt。

只要在你的網(wǎng)站根目錄上放上一個(gè)robots文件,告訴搜索引擎哪些內(nèi)容不能抓取,網(wǎng)絡(luò)爬蟲(chóng)就會(huì)遵守約定,不抓取這些內(nèi)容。

邪惡的一面

隨著互聯(lián)網(wǎng)的發(fā)展, 信息量快速發(fā)展,整個(gè)網(wǎng)絡(luò)世界,充滿(mǎn)著許多很有價(jià)值的信息,商品信息、機(jī)票信息、個(gè)人隱私數(shù)據(jù)滿(mǎn)天飛。

一些不法分子從中看到了巨大的利益。

在利益的誘惑下,這些人開(kāi)始違反爬蟲(chóng)協(xié)議,編寫(xiě)爬蟲(chóng)程序,惡意爬取目標(biāo)網(wǎng)站的內(nèi)容。

歷史上第一件關(guān)于爬蟲(chóng)的官司出現(xiàn)在2000年,eBay將一家聚合價(jià)格信息的網(wǎng)站告上法庭。

[[415995]]

eBay認(rèn)為自己已經(jīng)使用robot協(xié)議,明確告訴哪些信息不能抓取,哪些信息可以抓取,但這家公司違反了協(xié)議,非法抓取商品價(jià)格等信息。

但被告認(rèn)為,eBay上的用戶(hù)數(shù)據(jù)、以及用戶(hù)上傳的商品信息,應(yīng)屬于用戶(hù)集體所有,并不屬于eBay,robot協(xié)議無(wú)效。

最終,法院判決eBay勝訴。

這個(gè)案件開(kāi)啟了爬蟲(chóng)協(xié)議作為主要參考證據(jù)的先河。

如今,爬蟲(chóng)技術(shù)發(fā)展迅速,已經(jīng)出現(xiàn)通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)等類(lèi)型。抓取目標(biāo)的方式也很多,例如基于目標(biāo)網(wǎng)頁(yè)特征、基于目標(biāo)數(shù)據(jù)模式、基于領(lǐng)域概念等。

爬蟲(chóng)技術(shù),無(wú)論善意還是惡意,都將常伴在互聯(lián)網(wǎng)的身邊,影響網(wǎng)民的分分秒秒。

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2024-11-26 18:05:02

2022-10-08 00:21:55

內(nèi)存芯片RAM

2016-08-18 00:21:12

網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)絡(luò)

2021-08-06 09:36:00

TCPIP網(wǎng)絡(luò)協(xié)議

2016-10-10 22:11:02

2010-11-01 00:40:39

Unix發(fā)展史

2010-02-05 15:46:41

IBM Power

2012-08-14 09:22:33

域名發(fā)展史

2009-03-10 16:46:56

2009-11-10 13:38:12

Visual Stud

2019-02-25 22:46:39

2021-10-20 05:55:22

即時(shí)通訊IM網(wǎng)絡(luò)

2010-08-31 15:44:17

CSS

2010-05-26 09:15:39

HTML

2021-03-10 18:46:26

HTTPHTTP 協(xié)議網(wǎng)絡(luò)技術(shù)

2011-12-28 09:56:49

開(kāi)源軟件發(fā)展

2010-01-11 11:14:18

網(wǎng)絡(luò)交換機(jī)技術(shù)

2019-06-27 15:42:14

瀏覽器ChromeEdge瀏覽器

2010-02-06 16:11:33

Frame Layou

2012-05-16 10:34:49

UbuntuLinux
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)