是誰(shuí)搶走了你的低價(jià)機(jī)票?
2017年末,元旦、春節(jié)假期即將來(lái)臨,出行需求隨之增大,不論你是旅游,還是回家,買(mǎi)票都是不可避免的一部分。其中,低價(jià)機(jī)票尤其受旅客青睞,但不少人都有這樣的苦惱:低價(jià)機(jī)票總是買(mǎi)不到,真的只是網(wǎng)速原因嗎?今天安仔來(lái)為你答疑解惑,其實(shí),和你搶票的,是網(wǎng)絡(luò)爬蟲(chóng)!
據(jù)媒體報(bào)道,近日,“機(jī)票代理”行業(yè)中,不少公司正利用爬蟲(chóng)技術(shù)搶占航企官網(wǎng)放出的低價(jià)票,利用航企允許的賬期反復(fù)訂票、退訂,直至將票加價(jià)賣(mài)出,全程操作中爬蟲(chóng)可替代95%的人工操作量。據(jù)業(yè)內(nèi)人士估計(jì),80%以上的低價(jià)機(jī)票是被票務(wù)公司的爬蟲(chóng)搶走的。
一、爬蟲(chóng)為訂票網(wǎng)站產(chǎn)生90%虛假流量
什么是爬蟲(chóng)?網(wǎng)絡(luò)爬蟲(chóng)又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,是一種按照一定的規(guī)則,自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本。百度、搜狗等搜索引擎,依靠巨大的爬蟲(chóng)集群每天抓取數(shù)百億網(wǎng)頁(yè)。
目前爬蟲(chóng)被廣泛用于互聯(lián)網(wǎng)金融、電商、社交等領(lǐng)域;在機(jī)票領(lǐng)域,爬蟲(chóng)可以抓取機(jī)票價(jià)格,發(fā)現(xiàn)超值機(jī)票后,爬蟲(chóng)還可以模擬真人用戶(hù)搶先預(yù)訂。
攜程的反爬蟲(chóng)專(zhuān)家在技術(shù)分享中舉例:某網(wǎng)站的一個(gè)頁(yè)面,每分鐘的瀏覽量是1.2萬(wàn),真實(shí)用戶(hù)只有500個(gè),爬蟲(chóng)流量比例是95.8%。業(yè)內(nèi)人士表示,爬蟲(chóng)所帶來(lái)的虛假流量占訂票網(wǎng)站總流量的50%,高峰期可達(dá)到90%以上。
二、利益鏈:低價(jià)機(jī)票去哪了?
爬蟲(chóng)利用買(mǎi)來(lái)的身份信息或虛假客戶(hù)信息訂票,之后,黃牛再將搶來(lái)的票高價(jià)賣(mài)出,黃金周、春節(jié)長(zhǎng)假一張票甚至?xí)觾r(jià)1000元。
為了應(yīng)對(duì)這種虛假搶票、占座的情況,有些航空公司不得不采取潛規(guī)則:每架飛機(jī)要多賣(mài)5%至10%的票,這被稱(chēng)之為“超售”,這給真實(shí)用戶(hù)帶來(lái)了問(wèn)題,有的用戶(hù)會(huì)因?yàn)?ldquo;超售”嚴(yán)重?zé)o法登機(jī)。
三、”反爬蟲(chóng)“之戰(zhàn)打響
網(wǎng)絡(luò)爬蟲(chóng)被用來(lái)?yè)屍?,不僅侵犯了人們的權(quán)益、影響人們的日常出行,航空公司也將蒙受損失。影響爬蟲(chóng)生存時(shí)間的關(guān)鍵在于,在訪(fǎng)問(wèn)網(wǎng)頁(yè)爬取數(shù)據(jù)的過(guò)程中,要盡量模擬真實(shí)用戶(hù)的行為,使服務(wù)端無(wú)法分辨是爬蟲(chóng)還是用戶(hù);如何進(jìn)行“反爬蟲(chóng)”? ISEC實(shí)驗(yàn)室專(zhuān)家來(lái)支招 :
1. 根據(jù)訪(fǎng)問(wèn)數(shù)量來(lái)“反爬蟲(chóng)”。爬蟲(chóng)的訪(fǎng)問(wèn)總數(shù)遠(yuǎn)高于人類(lèi),且訪(fǎng)問(wèn)數(shù)量隨時(shí)間增長(zhǎng)而表現(xiàn)出一定的線(xiàn)性增長(zhǎng)規(guī)律,但大部分的真實(shí)用戶(hù)不會(huì)長(zhǎng)時(shí)間持續(xù)訪(fǎng)問(wèn)同一個(gè)網(wǎng)站。
2. 在網(wǎng)站設(shè)置偽造的釣魚(yú)鏈接。正常情況下真實(shí)用戶(hù)不會(huì)訪(fǎng)問(wèn)這些鏈接,一旦被訪(fǎng)問(wèn),則存在爬蟲(chóng)的可能性就比較高。
3. 進(jìn)行IP地址的分析統(tǒng)計(jì)。絕大部分爬蟲(chóng)為了長(zhǎng)時(shí)間爬取數(shù)據(jù),不會(huì)選擇在個(gè)人電腦上運(yùn)行,一般放到云服務(wù)器或者VPS。“反爬蟲(chóng)”可根據(jù)來(lái)訪(fǎng)的IP進(jìn)行風(fēng)險(xiǎn)屬性的細(xì)分,對(duì)IP地址進(jìn)行標(biāo)記;例如對(duì)單個(gè)IP訪(fǎng)問(wèn)設(shè)置一個(gè)閾值,如果在一定時(shí)間超過(guò)閾值,則進(jìn)行封鎖或禁用;需要注意的是,但該舉措容易誤傷真實(shí)用戶(hù)。
4. 驗(yàn)證碼校驗(yàn)是反爬蟲(chóng)的一個(gè)重要環(huán)節(jié)。爬蟲(chóng)是按照預(yù)先設(shè)定好的流程,是無(wú)法變通的;而驗(yàn)證碼需要基于人的主觀性去判斷,如若在驗(yàn)證過(guò)程中加入隨機(jī)性,爬蟲(chóng)繞過(guò)驗(yàn)證的過(guò)程就相對(duì)復(fù)雜。行為驗(yàn)證碼是當(dāng)下流行的一種驗(yàn)證碼,采用了多種圖像技術(shù),能有效防止OCR的識(shí)別,防止暴力破解。如12306,就是采用點(diǎn)觸式行為驗(yàn)證碼。
有效反擊“機(jī)票代理”公司的爬蟲(chóng)戰(zhàn)術(shù),除技術(shù)手段外,航空公司可從內(nèi)部完善各項(xiàng)管理制度,勿給爬蟲(chóng)留下可乘之機(jī)。
此外,旅客盡可能選擇航空公司的官方網(wǎng)站購(gòu)買(mǎi)飛機(jī)票,避免通過(guò)微信朋友圈等渠道購(gòu)買(mǎi)低價(jià)票而上當(dāng)受騙。
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在提供高效搜索的同時(shí),也帶來(lái)了安全挑戰(zhàn),相信在相關(guān)技術(shù)、法律制度的不斷發(fā)展完善下,在各相關(guān)職能部門(mén)的共同努力下,購(gòu)票機(jī)制將日益完善、旅客的合法權(quán)益將得到更好的保障。