用Python模擬網(wǎng)站中對JavaScript加密需要的兩種方法
如果你在做網(wǎng)絡爬蟲時,你是否覺得自己的“蟲”不如別人的?如果你想了解別人的網(wǎng)絡爬蟲到底是怎樣運行以及如何對其進行加密,下面的文章就是介紹如何在python中模擬相關網(wǎng)站的JavaScript加密的實際步驟等相關內(nèi)容的介紹。
在做網(wǎng)絡爬蟲中很多人都會遇到,做得比較好的一些企業(yè)級網(wǎng)站,對于登陸或者其他操作都會對用戶的輸入做一些加密處理后再post到服務器上去,而加密這部分幾乎都是通過JavaScript來完成的,所以要做爬蟲,需要模擬 這些加密的處理。
我比較喜歡Python來做爬蟲,urllib/urllib2庫用起來真的是很方便,所以很多時候遇到需要在python中來模擬網(wǎng)站的JavaScript加密過程。暫時總結(jié)起來有兩種方法:
***種是改寫JavaScript的代碼
這沒什么好說的,不過只適用于比較小而且不復雜的JavaScript代碼片段。比如人人網(wǎng)上發(fā)站內(nèi)信的頁面有這樣的一個隱藏post數(shù)據(jù):
- <input type="hidden" name="biz" value=0 id="xn_biz"/>
在頁面上biz的值為0,但是post的時候就會變成類似于941_683291223928232的字串,仔細看一下頁面的源代碼,就會發(fā)現(xiàn)這段驗證的加密字串是通過一段JavaScript的代碼生成的:
- <script>var mREOQQ=’A`ZDu^`’;var VKMHX=’^&+*L/~’;var
uCHKAU=0;var rTIU;var wCJS=”;var yAYH=Math.floor
(VKMHX.length/2);while(uCHKAU<mREOQQ.length)
{rTIU=mREOQQ.charCodeAt(uCHKAU++);var aYDG=VKMHX.
charCodeAt(rTIU%VKMHX.length);aYDG=String.
fromCharCode(aYDG);if(aYDG==’L')aYDG=’<<’
;if(aYDG==’~')wCJS+=~rTIU*(-1);else{wCJS+=Math.
floor(eval(rTIU+aYDG+yAYH));}}var ab=941;
ab+="_";ab+=wCJS; document.getElementById("xn_biz")
.value=ab;</script>
這其實類似一段小型的驗證加密,它先隨機生產(chǎn)一段字串,復制給隨機產(chǎn)生的一個變量名,再隨機生成一段運算符,復制給另一個隨機生成的變量名,然后對這兩個變量進行一系列操作和運算,生成一個類似于941_683291223928232的字串。每次刷新頁面這段代碼中產(chǎn)生的字串和變量名都是不一樣的,但是仔細研究這段代碼,算法都是相同的,只要得到字串和運算符串,就可以生成這串驗證密鑰了。
所以將這段代碼簡單的改寫成python代碼,問題得到解決,在python模擬網(wǎng)站的JavaScript加密過程下面代碼中code就是提取出來的上述JavaScript代碼中的mREOQQ,operator代表VKMHX,而xn則代表ab的初始值,***得到的xn_biz就是我們最終需要的驗證密鑰了。
- def __genBizCode(code, operator, xn):
- rXHU = unicode( code )
- yAMKEN = operator
- VCHEN, yEEJ, eLKKIH = (0, 0, ”);
- KFNQH = int( len(yAMKEN)/2 );
- while VCHEN < len(rXHU):
- yEEJ = ord(rXHU[VCHEN])
- VCHEN += 1
- index = yEEJ % len(yAMKEN)
- dDWE = ord( yAMKEN[index] )
- dDWE = chr(dDWE)
- if dDWE==’L':
- dDWE = ‘<<’
- if dDWE==’~':
- eLKKIH += str( ~yEEJ*(-1) )
- else:
- reg = ‘%d%s%d’ % ( yEEJ, dDWE, KFNQH)
- eLKKIH += str( int( eval(reg) ) )
- xnxn_biz = xn + ‘_’
- xn_biz += eLKKIH
- return xn_biz
這種方法沒有依賴性,但是使用的范圍較窄,一是要求算法簡單才能改寫,二是要求算法固定,如果每次刷新頁面算法都不一樣,這種方法就不使用了。下面會談到一種通用性的方法。
第二種是在python中運行js代碼由于QZone和QQ校友登陸的時候,post的密碼都進行了加密,搜索了一下,發(fā)現(xiàn)很多人都研究過這個東東。騰訊將用戶的密碼和驗證碼一起,通過一些js代碼進行加密,生成一個32為的密鑰最終post到服務器上。
對于這個加密算法,網(wǎng)上大部分流傳的說法是,先將用戶密碼進行3次md5的加密,轉(zhuǎn)成大寫的32位字符串,再將驗證轉(zhuǎn)換成大寫,與前面的32位md5大寫字符串相加,得到一個36位的字符串,***對這個36位的字串進行md5加密并轉(zhuǎn)換成大寫字串,得到最終post的密鑰。
網(wǎng)上很多人說用標準的md5加密,但是我用python的hashlib里的md5進行上述的加密,得到的結(jié)果卻與標準結(jié)果不同,于是只能尋求其他辦法。后來在Google的時候搜到了在python中利用windows的插件Windows ScriptControl運行其他腳本語言的方法,不僅適用js,還可以運行vbs等。
首先需要安裝Windows ScriptControl插件,可以去微軟的官網(wǎng)上下載。其次還需要安裝python的win32庫,然后就可以簡單的如下執(zhí)行:
- import win32com.client
- def readJsFile(filename):
- fp = file( filename, ‘r’ )
- lines = ”
- for line in fp:
- lines += line
- return lines
- def driveJsCode(code, func, paras=None):
- js = win32com.client.Dispatch
(’MSScriptControl.ScriptControl’)- js.Language = ‘JavaScript’
- js.AllowUI = False
- js.AddCode( code )
- if paras:
- return js.Run(func, paras[0], paras[1])
- else:
- return js.Run(func)
- if __name__ == ‘__main__’:
- code = readJsFile( ‘comm.js’ )
- p = driveJsCode
( code, ‘myPreProcess’, [password, verfcode] )- print ‘The decoded code is %s’ % p
這種方法通用性強,而且即使服務器改變算法,依然可以得到正確的加密驗證碼。以上的相關內(nèi)容就是對Python模擬網(wǎng)頁的javascript加密驗證處理的相關內(nèi)容的介紹。
【編輯推薦】