Python模擬網(wǎng)頁中javascript加密與驗(yàn)證的相關(guān)處理
在做網(wǎng)絡(luò)爬蟲的過程中你是否一些在這方面做的很好的網(wǎng)站,你向知道他是通過哪些相關(guān)的操作做出這么好的網(wǎng)站,以下就是文章的相關(guān)內(nèi)容的具體介紹,希望你瀏覽完下面的內(nèi)容會有所收獲。Python模擬網(wǎng)頁的javascript加密驗(yàn)證處理
在做網(wǎng)絡(luò)爬蟲中很多人都會遇到,做得比較好的一些企業(yè)級網(wǎng)站,對于登陸或者其他操作都會對用戶的輸入做一些加密處理后再post到服務(wù)器上去,而加密這部分幾乎都是通過JavaScript來完成的,所以要做爬蟲,需要模擬 這些加密的處理。
我比較喜歡Python來做爬蟲,urllib/urllib2庫用起來真的是很方便,所以很多時(shí)候遇到需要在python中來模擬網(wǎng)站的JavaScript加密過程。暫時(shí)總結(jié)起來有兩種方法:
***種是改寫JavaScript的代碼。這沒什么好說的,不過只適用于比較小而且不復(fù)雜的JavaScript代碼片段。比如人人網(wǎng)上發(fā)站內(nèi)信的頁面有這樣的一個隱藏post數(shù)據(jù):
- <input type="hidden" name="biz" value=0 id="xn_biz"/>
在頁面上biz的值為0,但是post的時(shí)候就會變成類似于941_683291223928232的字串,仔細(xì)看一下頁面的源代碼,就會發(fā)現(xiàn)這段驗(yàn)證的加密字串是通過一段JavaScript的代碼生成的:這其實(shí)類似一段小型的驗(yàn)證加密,Python模擬網(wǎng)頁的javascript加密驗(yàn)證處理 ,它先隨機(jī)生產(chǎn)一段字
- <script>var mREOQQ=’A`ZDu^`’;var VKMHX=’
^&+*L/~’;var uCHKAU=0;var rTIU;var wCJS=”;var
yAYH=Math.floor(VKMHX.length/2);while
(uCHKAU<mREOQQ.length){rTIU=mREOQQ.
charCodeAt(uCHKAU++);var aYDG=VKMHX.
charCodeAt(rTIU%VKMHX.length);aYDG=String.
fromCharCode(aYDG);if(aYDG==’L')aYDG=’<<’
;if(aYDG==’~')wCJS+=~rTIU*(-1);else{wCJS+=Math.
floor(eval(rTIU+aYDG+yAYH));}}var ab=941;ab+="_";
ab+=wCJS; document.getElementById("xn_biz")
.value=ab;</script>
串,復(fù)制給隨機(jī)產(chǎn)生的一個變量名,再隨機(jī)生成一段運(yùn)算符,復(fù)制給另一個隨機(jī)生成的變量名,然后對這兩個變量進(jìn)行一系列操作和運(yùn)算,生成一個類似于941_683291223928232的字串。每次刷新頁面這段代碼中產(chǎn)生的字串和變量名都是不一樣的,但是仔細(xì)研究這段代碼,算法都是相同的,只要得到字串和運(yùn)算符串,就可以生成這串驗(yàn)證密鑰了。
所以將這段代碼簡單的改寫成python代碼,問題得到解決,下面代碼中code就是提取出來的上述JavaScript代碼中的mREOQQ,operator代表VKMHX,而xn則代表ab的初始值,***得到的xn_biz就是我們最終需要的驗(yàn)證密鑰了。以上的文章就是對Python模擬網(wǎng)頁的實(shí)際應(yīng)用的相關(guān)介紹。
【編輯推薦】