手把手教你 JS 逆向搞定字體反爬并獲取某招聘網(wǎng)站信息

作者：Python進(jìn)階者 2021-11-25 08:11:47

aHR0cHM6Ly93d3cuc2hpeGlzZW5nLmNvbS8= 出于安全原因，我們把網(wǎng)址通過base64編碼了，大家可以通過base64解碼把網(wǎng)址獲取下來(lái)。

[[436608]]

今日網(wǎng)站

小編已加密：aHR0cHM6Ly93d3cuc2hpeGlzZW5nLmNvbS8= 出于安全原因，我們把網(wǎng)址通過base64編碼了，大家可以通過base64解碼把網(wǎng)址獲取下來(lái)。

字體反爬

字體反爬：一種常見的反爬技術(shù)，是網(wǎng)頁(yè)與前端字體文件配合完成的反爬策略，最早使用字體反爬技術(shù)的有58同城、汽車之家等等，現(xiàn)在很多主流的網(wǎng)站或APP也使用字體反爬技術(shù)為自身的網(wǎng)站或APP增加一種反爬措施。

字體反爬原理：通過自定義的字體來(lái)替換頁(yè)面中某些數(shù)據(jù)，當(dāng)我們不使用正確的解碼方式就無(wú)法獲取正確的數(shù)據(jù)內(nèi)容。

在HTML中通過@font-face來(lái)使用自定義字體，如下圖所示：

其語(yǔ)法格式為：

@font-face{ 
 
font-family:"名字"; 
 
src:url('字體文件鏈接'); 
 
url('字體文件鏈接')format('文件類型') 
 
}

字體文件一般是ttf類型、eot類型、woff類型，woff類型的文件運(yùn)用比較廣泛，所以大家一般碰到的都是woff類型的文件。

以woff類型文件為例，其內(nèi)容是怎樣的呢，又是以什么編碼方式使得數(shù)據(jù)與代碼一一對(duì)應(yīng)的呢?

我們以某招聘網(wǎng)站的字體文件為例，進(jìn)入百度字體編譯器并打開字體文件，如下圖所示：

隨機(jī)打開一個(gè)字體，如下圖所示：

可以發(fā)現(xiàn)字體6放在一個(gè)平面坐標(biāo)里面，根據(jù)平面坐標(biāo)的每個(gè)點(diǎn)來(lái)得出字體6的編碼，這里就不解釋如何得出字體6的編碼了。

如何解決字體反爬呢?

首先映射關(guān)系可以看作為字典，大致有兩種常用的方法：

第一種：手動(dòng)把一組編碼和字符的對(duì)應(yīng)關(guān)系提取出來(lái)并用字典的形式展示，代碼如下所示：

replace_dict={ 
    '0xf7ce':'1', 
    '0xf324':'2', 
    '0xf23e':'3', 
    ....... 
    '0xfe43':'n'， 
} 
for key in replace_dict: 
    數(shù)據(jù)=數(shù)據(jù).replace(key,replace_dict[key])

數(shù)據(jù)=數(shù)據(jù).replace(key,replace_dict[key])

首先定義字體與其對(duì)應(yīng)的代碼一一對(duì)應(yīng)的字典，再通過for循環(huán)把數(shù)據(jù)一一替換。

注意：這種方法主要適用于字體映射少的數(shù)據(jù)。

第二種：首先下載網(wǎng)站的字體文件，再把字體文件轉(zhuǎn)換為XML文件，找到里面的字體映射關(guān)系的代碼，通過decode函數(shù)解碼，然后將解碼的代碼組合成一個(gè)字典，再根據(jù)字典內(nèi)容將數(shù)據(jù)一一替換，由于代碼比較長(zhǎng)，這里就不寫示例代碼了，待會(huì)在實(shí)戰(zhàn)演練中會(huì)展示這種方法的代碼。

好了，字體反爬就簡(jiǎn)單講到這里，接下來(lái)我們正式爬取某招聘網(wǎng)站。

實(shí)戰(zhàn)演練

自定義字體文件查找

首先進(jìn)入某招聘網(wǎng)并打開開發(fā)者模式，如下圖所示：

這里我們看到代碼中只有生字不能正常函數(shù)，而是用來(lái)代碼來(lái)替代，初步判定為使用了自定義的字體文件，這時(shí)就要找到字體文件了，那么字體文件在哪里找呢，首先打開開發(fā)者模式，并點(diǎn)擊Network選項(xiàng)，如下圖所示：

一般情況下，字體文件放在Font選卡中，我們發(fā)現(xiàn)這里一共有5個(gè)條目，那么哪個(gè)是自定義字體文件的條目呢，當(dāng)我們每次點(diǎn)擊下一頁(yè)的時(shí)候，自定義字體文件就會(huì)執(zhí)行一次，這時(shí)我們只需要點(diǎn)擊網(wǎng)頁(yè)中的下一頁(yè)即可，如下圖所示：

可以看到多了一個(gè)以file開頭的條目，這時(shí)可以初步判定該文件為自定義字體文件，現(xiàn)在我們把它下載下來(lái)，下載方式很簡(jiǎn)單，只需要把file開頭的條目的URL復(fù)制并在網(wǎng)頁(yè)上打開即可，下載下來(lái)后在百度字體編譯器打開，如下圖所示：

這時(shí)發(fā)現(xiàn)打開不了，是不是找錯(cuò)了字體文件，網(wǎng)站提示說(shuō)不支持這種文件類型，那么我們把下載的文件后綴改為.woff在打開試試，如下圖所示：

這時(shí)就成功打開了。

字體映射關(guān)系

找到自定義字體文件了，那么我們?cè)撛趺蠢媚?這時(shí)我們先自定義方法get_fontfile()來(lái)處理自定義字體文件，然后在通過兩步來(lái)把字體文件中的映射關(guān)系通過字典的方式展示出來(lái)。

字體文件下載與轉(zhuǎn)換;

字體映射關(guān)系解碼。

字體文件下載與轉(zhuǎn)換

首先自定義字體文件更新頻率是很高的，這時(shí)我們可以實(shí)時(shí)獲取網(wǎng)頁(yè)的自定義字體文件來(lái)防止利用了之前的自定義字體文件從而導(dǎo)致獲取數(shù)據(jù)不準(zhǔn)確。首先觀察自定義字體文件的url鏈接：

https://www.xxxxxx.com/interns/iconfonts/file?rand=0.2254193167485603 
 
https://www.xxxxxx.com/interns/iconfonts/file?rand=0.4313944100724574 
 
https://www.xxxxxx.com/interns/iconfonts/file?rand=0.3615862774301839

可以發(fā)現(xiàn)自定義字體文件的URL只有rand這個(gè)參數(shù)發(fā)生變化，而且是隨機(jī)的十六位小于1的浮點(diǎn)數(shù)，那么我們只需要構(gòu)造rand參數(shù)即可，主要代碼如下所示：

def get_fontfile(): 
    rand=round(random.uniform(0,1),17) 
    url=f'https://www.xxxxxx.com/interns/iconfonts/file?rand={rand}' 
    response=requests.get(url,headers=headers).content 
    with open('file.woff','wb')as f: 
        f.write(response) 
    font = TTFont('file.woff') 
    font.saveXML('file.xml')

首先通過random.uniform()方法來(lái)控制隨機(jī)數(shù)的大小，再通過round()方法控制隨機(jī)數(shù)的位數(shù)，這樣就可以得到rand的值，再通過.content把URL響應(yīng)內(nèi)容轉(zhuǎn)換為二進(jìn)制并寫入file.woff文件中，在通過TTFont()方法獲取文件內(nèi)容，通過saveXML方法把內(nèi)容保存為xml文件。xml文件內(nèi)容如下圖所示：

字體解碼及展現(xiàn)

該字體.xml文件一共有4589行那么多，哪個(gè)部分才是字體映射關(guān)系的代碼部分呢?

首先我們看回在百度字體編碼器的內(nèi)容，如下圖所示：

漢字人對(duì)應(yīng)的代碼為f0e2，那么我們就在字體.xml文件中查詢?nèi)说拇a，如下圖所示：

可以發(fā)現(xiàn)一共有4個(gè)結(jié)果，但仔細(xì)觀察每個(gè)結(jié)果都相同，這時(shí)我們可以根據(jù)它們代碼規(guī)律來(lái)獲取映射關(guān)系，再通過解碼來(lái)獲取對(duì)應(yīng)的數(shù)據(jù)值，最后以字典的形式展示，主要代碼如下所示：

with open('file.xml') as f: 
    xml = f.read() 
keys = re.findall('<map code="(0x.*?)" name="uni.*?"/>', xml) 
values = re.findall('<map code="0x.*?" name="uni(.*?)"/>', xml) 
for i in range(len(values)): 
    if len(values[i]) < 4: 
        values[i] = ('\\u00' + values[i]).encode('utf-8').decode('unicode_escape') 
    else: 
        values[i] = ('\\u' + values[i]).encode('utf-8').decode('unicode_escape') 
word_dict = dict(zip(keys, values))

首先讀取file.xml文件內(nèi)容，找出把代碼中的code、name的值并分別設(shè)置為keys鍵，values值，再通過for循環(huán)把values的值解碼為我們想要的數(shù)據(jù)，最后通過zip()方法合并為一個(gè)元組并通過dict()方法轉(zhuǎn)換為字典數(shù)據(jù)，運(yùn)行結(jié)果如圖所示：

獲取招聘數(shù)據(jù)

在上一步中，我們成功把字體映射關(guān)系轉(zhuǎn)換為字典數(shù)據(jù)了，接下來(lái)開始發(fā)出網(wǎng)絡(luò)請(qǐng)求來(lái)獲取數(shù)據(jù)，主要代碼如下所示：

def get_data(dict,url): 
    response=requests.get(url,headers=headers).text.replace('&#','0') 
    for key in dict: 
        response=response.replace(key,dict[key]) 
    XPATH=parsel.Selector(response) 
    datas=XPATH.xpath('//*[@id="__layout"]/div/div[2]/div[2]/div[1]/div[1]/div[1]/div') 
    for i in datas: 
        data={ 
            'workname':i.xpath('./div[1]/div[1]/p[1]/a/text()').extract_first(), 
            'link':i.xpath('./div[1]/div[1]/p[1]/a/@href').extract_first(), 
            'salary':i.xpath('./div[1]/div[1]/p[1]/span/text()').extract_first(), 
            'place':i.xpath('./div[1]/div[1]/p[2]/span[1]/text()').extract_first(), 
            'work_time':i.xpath('./div[1]/div[1]/p[2]/span[3]/text()').extract_first()+i.xpath('./div[1]/div[1]/p[2]/span[5]/text()').extract_first(), 
            'company_name':i.xpath('./div[1]/div[2]/p[1]/a/text()').extract_first(), 
            'Field_scale':i.xpath('./div[1]/div[2]/p[2]/span[1]/text()').extract_first()+i.xpath('./div[1]/div[2]/p[2]/span[3]/text()').extract_first(), 
            'advantage': ','.join(i.xpath('./div[2]/div[1]/span/text()').extract()), 
            'welfare':','.join(i.xpath('./div[2]/div[2]/span/text()').extract()) 
        } 
        saving_data(list(data.values()))

首先自定義方法get_data()并接收字體映射關(guān)系的字典數(shù)據(jù)，再通過for循環(huán)將字典內(nèi)容與數(shù)據(jù)一一替換，最后通過xpath()來(lái)提取我們想要的數(shù)據(jù)，最后把數(shù)據(jù)傳入我們自定義方法saving_data()中。

保存數(shù)據(jù)

數(shù)據(jù)已經(jīng)獲取下來(lái)了，接下來(lái)將保存數(shù)據(jù)，主要代碼如下所示：

def saving_data(data): 
    db = pymysql.connect(host=host, user=user, password=passwd, port=port, db='recruit') 
    cursor = db.cursor() 
    sql = 'insert into recruit_data(work_name, link, salary, place, work_time,company_name,Field_scale,advantage,welfare) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)' 
    try: 
        cursor.execute(sql,data) 
        db.commit() 
    except: 
        db.rollback() 
    db.close()

啟動(dòng)程序

好了，程序已經(jīng)寫得差不多了，接下來(lái)將編寫代碼運(yùn)行程序，主要代碼如下所示：

if __name__ == '__main__': 
    create_db() 
    get_fontfile() 
    for i in range(1,3): 
        url=f'https://www.xxxxxx.com/interns?page={i}&type=intern&salary=-0&city=%E5%85%A8%E5%9B%BD' 
        get_data(get_dict(),url)