網(wǎng)絡爬蟲是啥玩意兒?有什么用呢?
在這個用數(shù)據(jù)說話的時代,數(shù)據(jù)是一件極其重要的事情,怎樣才能抓取到完整以及全面的數(shù)據(jù)呢?這并不是一件容易的事情。
如果想要做好大數(shù)據(jù)的分析,單單依靠一己之力或者是周邊的數(shù)據(jù)是遠遠不夠的,還需要借助“神秘的外部力量”。
這個時候,互聯(lián)網(wǎng)上的資源就非常關(guān)鍵了,從網(wǎng)絡上爬取數(shù)據(jù)資源,就成為了至關(guān)重要的一個環(huán)節(jié)。
那到底什么是網(wǎng)絡爬蟲呢?
網(wǎng)絡爬蟲也叫網(wǎng)絡蜘蛛,即Web Spider,名字非常形象。
如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Web Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,一直循環(huán)下去,直到把整個網(wǎng)站所有的網(wǎng)頁都抓取完為止。
如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡蜘蛛可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
光是聽起來就很有意思,那利用這等技術(shù)能做些什么好玩的事兒呢?
小編隨意選取了部分知友的回答,大家感受下~~
@冰藍
之前在北京買房,誰想房價開始瘋長,鏈家的房價等數(shù)據(jù)分析只給了一小部分,遠遠不能滿足自己的需求。于是晚上花了幾個小時的時間寫了個爬蟲,爬下了北京所有的小區(qū)信息及北京所有小區(qū)的所有歷史成交記錄。
@陳樂群
上次發(fā)現(xiàn)Android QQ和iOS QQ可以顯示網(wǎng)絡狀態(tài)(2G/WiFi)之后,突然想到,這樣子好像可以監(jiān)視某人的出行和作息規(guī)律。簡單的來說,在家里或者工作的地方,一般是有WiFi的,然后出門了,WiFi就斷掉了。如果監(jiān)測頻率足夠頻繁,那么結(jié)合一定的推理,可以大致推測出一個人的行動。如果長期監(jiān)視,那么可以大致推出一個人的作息時間。
@柳易寒
我用爬蟲爬了我愛白菜網(wǎng)、超值分享匯、發(fā)現(xiàn)值得買、惠惠購物、今日聚超值、留住你、買手黨、沒得比、慢慢買、牛雜網(wǎng)、買個便宜貨、什么值得買、天上掉餡餅、一分網(wǎng)、折800值得買、值值值等網(wǎng)站的折扣信息。
這些網(wǎng)站都是提供的一些及時的、性價比較高的商品,很多時候要一個一個網(wǎng)站的看(重度用戶),很容易就會錯過一些很劃算的商品。
@蘿莉控夫斯基
我的愛人是某網(wǎng)絡公司的銷售,需要收集各種企業(yè)信息然后打電話聯(lián)系。于是乎利用采集腳本抓一坨一坨的資料給她用,而她的同事天天自己搜資料整理到半夜。
看完技術(shù)流網(wǎng)友的評論發(fā)現(xiàn),網(wǎng)絡爬蟲似乎試一把雙刃劍,既可以方便人們抓取數(shù)據(jù),節(jié)省大量的時間與精力,但同時也會帶來負面的影響,嚴重的甚至有可能犯罪哦!
不管是做什么事,一定要把握好尺度,因為技術(shù)是無罪的,人們可以用它的方便造福自己,利用不當?shù)脑?,會毀了自己?/p>
生活和工作中,大家應該要適當?shù)谋3种斏?,對于一些游走在法律邊緣的事情,請保持距離。
在這里,小編溫馨提示大家,技術(shù)是個好東西,可是要用到正道上哦~~