Python網(wǎng)絡(luò)爬蟲之?dāng)?shù)美滑塊的加密及軌跡-動態(tài)JS參數(shù)分析
數(shù)美滑塊
數(shù)美滑塊的加密及軌跡等應(yīng)該是入門級別的吧,用他們的教程和話來說 就一個(gè)des 然后識別缺口位置可以用cv2或者ddddoc 軌跡也可以隨便模擬一個(gè),這些簡單的教程 在csdn已經(jīng)有一大把可以搜到的,但是卻很少人告訴你,它的js好像是一周更新一次,更新之后post的參數(shù)key和des的key會變,混淆的js結(jié)構(gòu)也會變,現(xiàn)在我準(zhǔn)備說的就是分析動態(tài)的參數(shù)和des加密的key值。
滑塊預(yù)覽圖如下圖所示:
滑塊預(yù)覽圖
抓包
進(jìn)入正題 首先看這個(gè)接口 /ca/v1/conf 返回域名和js地址 包含版本號:
{
code: 1100
detail: {css: "/pr/auto-build/v1.0.3-151/style.min.css",…}
css: "/pr/auto-build/v1.0.3-151/style.min.css"
domains: ["castatic.fengkongcloud.cn", "castatic.fengkongcloud.com", "castatic-a.fengkongcloud.com",…]
0: "castatic.fengkongcloud.cn"
1: "castatic.fengkongcloud.com"
2: "castatic-a.fengkongcloud.com"
3: "castatic2.fengkongcloud.com"
js: "/pr/auto-build/v1.0.3-151/captcha-sdk.min.js"
message: "success"
requestId: "88aac752cd02b26a54e13b5c577652cc"
riskLevel: "PASS"
score: 0
}
得到j(luò)s地址 這個(gè)js就是滑塊用的。
再看提交滑塊時(shí)的參數(shù):
一大堆的參數(shù),除了sdkver,organization,rid,act.os,rversion,ostype,callback以外,另外的11個(gè)名字不固定 值也會更新,所以需要在上面的js里搞出來(我用的正則匹配)大佬們都用ast的 可是我不會啊,難頂。
下圖是我之前小記的大概位置:
先全局搜個(gè)參數(shù)名 定位到這邊,下個(gè)斷點(diǎn) 隨便滑滑塊,斷下來找參數(shù)。
已經(jīng)很明顯的 11個(gè)參數(shù)有8個(gè)就在這里能用。
看代碼分析 后面這一段 有的是_0x27c7fb(0x46e) 這種函數(shù)傳參(16進(jìn)制)得到des的key值 也有的是直接就是明文des的key值,所以我們還要得到_0x27c7fb解密的函數(shù)。
- 獲得解密函數(shù);
整個(gè)js可以看為兩個(gè)部分,第一部分就是寫一個(gè)解密函數(shù) 你傳一個(gè)整數(shù)過來 減一個(gè)整數(shù) 再把結(jié)果給大數(shù)組當(dāng)下標(biāo)返回一個(gè)字符串,上面那些要解密的都調(diào)用這個(gè)函數(shù)就行。不要漏了后面的代碼_0x2abc是返回大數(shù)組 然后匿名函數(shù)1是對大數(shù)組做偏移處理,匿名函數(shù)2也就是第二部分好像是webpack導(dǎo)出的 不用管他 它只是讓我們用來匹配東西的。
main_reCom = re.compile(',function\(\)\{function(.+)\]\)')
# 匹配到匿名函數(shù)2 并且正則替換掉 剩下的就是解密數(shù)組了
main_array_dec = re.sub(main_reCom, "", content)
js = execjs.compile(main_array_dec)
# get_array_functionName = re.search('function (_0x\d\w+)\(\)', main_array_dec).group(1)
get_arrayValue_FcuntionName = re.search('function (_0x\d\w+)\(_\d\w+,', main_array_dec).group(1)
print("通過傳參獲得數(shù)組返回值的函數(shù)名叫:", get_arrayValue_FcuntionName)
這樣把解密函數(shù)的js和函數(shù)名都獲取到了,那下一步就匹配參數(shù)了。
- 這里的全部["2位數(shù)的參數(shù)"]=(.....,"key"|函數(shù)(16進(jìn)制)) 匹配下來;
正則代碼1:
all_args_rule: str = '\[\'(\w{2})\'\]=this.*?,(_0x[\d\w]{6}\((0x[\d\w]{3})\)\)|\'([\d\w]{8})\')'
all_args = re.findall(all_args_rule, content)
匹配19個(gè),就上面那些圖中可見的都匹配下來了,自己再根據(jù)slide是那些參數(shù)去保存。
- 找另外的3個(gè)動態(tài)參數(shù) 搜名字;
- 正則代碼2:
# 獲取checkapi的另外3個(gè)參數(shù) 及要解的des密鑰或者密鑰
checkApi_args_rule = '\'(\w{2})\',this.*?,(_0x[\d\w]{6}\((0x[\d\w]{3})\)\)|\'([\d\w]{8})\')'
checkApi_args = re.findall(checkApi_args_rule, content)
十一個(gè)動態(tài)參數(shù)就已經(jīng)匹配出來了。
下面說說怎么去得到值。
2位數(shù)的明文參數(shù)就不說了 循環(huán) 然后下標(biāo)0就是。然后有的下標(biāo)2有值(16進(jìn)制的參數(shù)) 有的是直接下標(biāo)3有值(明文des的密鑰) 寫個(gè)判斷 然后上面不是定義了js函數(shù)和獲得了解密的js函數(shù)名嗎?16進(jìn)制轉(zhuǎn)成int類型 然后執(zhí)行js函數(shù)傳參解密得到密鑰就行。
我的代碼大概這樣的:
data_json = {}
data_json["QueKouWeiZhi"] = [all_args[5][0], all_args[5][3] if all_args[5][3] != "" else get_des_key(int(all_args[5][2], 16))]
最后返回data_json:
要提交滑塊信息的時(shí)候,定義個(gè)params字典先 把固定的先寫好,動態(tài)的就動態(tài)修改。
總結(jié)
大家好,我是黑臉怪。我上上周剛看的時(shí)候 版本號好像是148 現(xiàn)在是151,我試過了我正則出來的只能匹出147-151,146之前的混淆結(jié)構(gòu)又是不同的,所以這里只能算是提供一種動態(tài)的正則思路,GitHub看到一個(gè)大佬用ast做,可惜我不會啊,然后用他的ast代碼好像也提不出來動態(tài)參數(shù)了。這種常更新的js,難頂哦。