自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微博爬蟲“免登錄”技巧詳解及Java實現(xiàn)

開發(fā)
本文詳細介紹如何獲取相關的Cookie并重新封裝Httpclient達到免登錄的目的,以支持微博上的各項數(shù)據(jù)抓取任務。

一、微博一定要登錄才能抓取?

目前,對于微博的爬蟲,大部分是基于模擬微博賬號登錄的方式實現(xiàn)的,這種方式如果真的運營起來,實際上是一件非常頭疼痛苦的事,你可能每天都過得提心吊膽,生怕新浪爸爸把你的那些賬號給封了,而且現(xiàn)在隨著實名制的落地,獲得賬號的渠道估計也會變得越來越少。

但是日子還得繼續(xù),在如此艱難的條件下,為了生存爬蟲們必須尋求進化。好在上帝關門的同時會隨手開窗,微博在其他諸如頭條,一點等這類新媒體平臺的沖擊之下,逐步放開了信息流的查看權限?,F(xiàn)在的微博即便在不登錄的狀態(tài)下,依然可以看到很多微博信息流,而我們的落腳點就在這里。

本文詳細介紹如何獲取相關的Cookie并重新封裝Httpclient達到免登錄的目的,以支持微博上的各項數(shù)據(jù)抓取任務。下面就從微博首頁http://weibo.com開始。

二、準備工作

準備工作很簡單,一個現(xiàn)代瀏覽器(你知道我為什么會寫”現(xiàn)代”兩個字),以及httpclient(我用的版本是4.5.3)

跟登錄爬蟲一樣,免登錄爬蟲也是需要裝載Cookie。這里的Cookie是用來標明游客身份,利用這個Cookie就可以在微博平臺中訪問那些允許訪問的內(nèi)容了。

這里我們可以使用瀏覽器的network工具來看一下,請求http://weibo.com之后服務器都返回哪些東西,當然事先清空一下瀏覽器的緩存。

不出意外,應該可以看到下圖中的內(nèi)容

 

第1次請求weibo.com的時候,其狀態(tài)為302重定向,也就是說這時并沒有真正地開始加載頁面,而最后一個請求weibo.com的狀態(tài)為200,表示了請求成功,對比兩次請求的header:

 

明顯地,中間的這些過程給客戶端加載了各種Cookie,從而使得可以順利訪問頁面,接下來我們逐個進行分析。

三、抽絲剝繭

第2個請求是https://passport.weibo.com/vi...……,各位可以把這個url復制出來,用httpclient單獨訪問一下這個url,可以看到返回的是一個html頁面,里面有一大段Javascript腳本,另外頭部還引用一個JS文件mini_original.js,也就是第3個請求。腳本的功能比較多,就不一一敘述了,簡單來說就是微博訪問的入口控制,而值得我們注意的是其中的一個function:

  1. // 為用戶賦予訪客身份 。 
  2.     var incarnate = function (tid, where, conficence) { 
  3.         var gen_conf = ""
  4.         var from = "weibo"
  5.         var incarnate_intr = window.location.protocol + "//" + window.location.host + "/visitor/visitor?a=incarnate&t=" + encodeURIComponent(tid) + "&w=" + encodeURIComponent(where) + "&c=" + encodeURIComponent(conficence) + "&gc=" + encodeURIComponent(gen_conf) + "&cb=cross_domain&from=" + from + "&_rand=" + Math.random(); 
  6.         url.l(incarnate_intr); 
  7.     };  

這里是為請求者賦予一個訪客身份,而控制跳轉的鏈接也是由一些參數(shù)拼接起來的,也就是上圖中第6個請求。所以下面的工作就是獲得這3個參數(shù):tid,w(where),c(conficence,從下文來看應為confidence,大概是新浪工程師的手誤)。繼續(xù)閱讀源碼,可以看到該function是tid.get方法的回調(diào)函數(shù),而這個tid則是定義在那個mini_original.js中的一個對象,其部分源碼為:

  1.  var tid = { 
  2.         key'tid'
  3.         value: ''
  4.         recover: 0, 
  5.         confidence: ''
  6.         postInterface: postUrl, 
  7.         fpCollectInterface: sendUrl, 
  8.         callbackStack: [], 
  9.         init: function () { 
  10.             tid.get(); 
  11.         }, 
  12.         runstack: function () { 
  13.             var f; 
  14.             while (f = tid.callbackStack.pop()) { 
  15.                 f(tid.value, tid.recover, tid.confidence);//注意這里,對應上述的3個參數(shù) 
  16.             } 
  17.         }, 
  18.         get: function (callback) { 
  19.             callback = callback || function () { 
  20.             }; 
  21.             tid.callbackStack.push(callback); 
  22.             if (tid.value) { 
  23.                 return tid.runstack(); 
  24.             } 
  25.             Store.DB.get(tid.keyfunction (v) { 
  26.                 if (!v) { 
  27.                     tid.getTidFromServer(); 
  28.                 } else { 
  29.                     …… 
  30.                 } 
  31.             }); 
  32.         }, 
  33.     …… 
  34.     } 
  35. …… 
  36.  getTidFromServer: function () { 
  37.             tid.getTidFromServer = function () { 
  38.             }; 
  39.             if (window.use_fp) { 
  40.                 getFp(function (data) { 
  41.                     util.postData(window.location.protocol + '//' + window.location.host + '/' + tid.postInterface, "cb=gen_callback&fp=" + encodeURIComponent(data), function (res) { 
  42.                         if (res) { 
  43.                             eval(res); 
  44.                         } 
  45.                     }); 
  46.                 }); 
  47.             } else { 
  48.                 util.postData(window.location.protocol + '//' + window.location.host + '/' + tid.postInterface, "cb=gen_callback"function (res) { 
  49.                     if (res) { 
  50.                         eval(res); 
  51.                     } 
  52.                 }); 
  53.             } 
  54.         }, 
  55. …… 
  56. //獲得參數(shù) 
  57. window.gen_callback = function (fp) { 
  58.         var value = false, confidence; 
  59.         if (fp) { 
  60.             if (fp.retcode == 20000000) { 
  61.                 confidence = typeof(fp.data.confidence) != 'undefined' ? '000' + fp.data.confidence : '100'
  62.                 tid.recover = fp.data.new_tid ? 3 : 2; 
  63.                 tid.confidence = confidence = confidence.substring(confidence.length - 3); 
  64.                 value = fp.data.tid; 
  65.                 Store.DB.set(tid.key, value + '__' + confidence); 
  66.             } 
  67.         } 
  68.         tid.value = value; 
  69.         tid.runstack(); 
  70.     };  

顯然,tid.runstack()是真正執(zhí)行回調(diào)函數(shù)的地方,這里就能看到傳入的3個參數(shù)。在get方法中,當cookie為空時,tid會調(diào)用getTidFromServer,這時就產(chǎn)生了第5個請求https://passport.weibo.com/vi...,它需要兩個參數(shù)cb和fp,其參數(shù)值可以作為常量:

 

該請求的結果返回一串json

  1.   "msg""succ"
  2.   "data": { 
  3.     "new_tid"false
  4.     "confidence": 95, 
  5.     "tid""kIRvLolhrCR5iSCc80tWqDYmwBvlRVlnY2+yvCQ1VVA=" 
  6.   }, 
  7.   "retcode": 20000000 
  8.  

其中就包含了tid和confidence,這個confidence,我猜大概是推測客戶端是否真實的一個置信度,不一定出現(xiàn),根據(jù)window.gen_callback方法,不出現(xiàn)時默認為100,另外當new_tid為真時參數(shù)where等于3,否則等于2。

此時3個參數(shù)已經(jīng)全部獲得,現(xiàn)在就可以用httpclient發(fā)起上面第6個請求,返回得到另一串json:

  1.   "msg""succ"
  2.   "data": { 
  3.     "sub""_2AkMu428tf8NxqwJRmPAcxWzmZYh_zQjEieKYv572JRMxHRl-yT83qnMGtRCnhyR4ezQQZQrBRO3gVMwM5ZB2hQ.."
  4.     "subp""0033WrSXqPxfM72-Ws9jqgMF55529P9D9WWU2MgYnITksS2awP.AX-DQ" 
  5.   }, 
  6.   "retcode": 20000000 
  7.  

參考最后請求weibo.com的header,這里的sub和subp就是最終要獲取的cookie值。大家或許有一個小疑問,第一個Cookie怎么來的,沒用嗎?是的,這個Cookie是第一次訪問weibo.com產(chǎn)生的,經(jīng)過測試可以不用裝載。

 

最后我們用上面兩個Cookie裝載到HttpClient中請求一次weibo.com,就可以獲得完整的html頁面了,下面就是見證奇跡的時刻:

  1. <!doctype html> 
  2. <html> 
  3. <head> 
  4. <meta charset="utf-8"
  5. <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"
  6. <meta name="viewport" content="initial-scale=1,minimum-scale=1" /> 
  7. <meta content="隨時隨地發(fā)現(xiàn)新鮮事!微博帶你欣賞世界上每一個精彩瞬間,了解每一個幕后故事。分享你想表達的,讓全世界都能聽到你的心聲!" name="description" /> 
  8. <link rel="mask-icon" sizes="any" href="//img.t.sinajs.cn/t6/style/images/apple/wbfont.svg" color="black" /> 
  9. <link rel="shortcut icon" type="image/x-icon" href="/favicon.ico" /> 
  10. <script type="text/javascript"
  11. try{document.execCommand("BackgroundImageCache"falsetrue);}catch(e){} 
  12. </script> 
  13. <title>微博-隨時隨地發(fā)現(xiàn)新鮮事</title> 
  14. <link href="//img.t.sinajs.cn/t6/style/css/module/base/frame.css?version=6c9bf6ab3b33391f" type="text/css" rel="stylesheet" charset="utf-8" /> 
  15. <link href="//img.t.sinajs.cn/t6/style/css/pages/growth/login_v5.css?version=6c9bf6ab3b33391f" type="text/css" rel="stylesheet" charset="utf-8"
  16. <link href="//img.t.sinajs.cn/t6/skin/default/skin.css?version=6c9bf6ab3b33391f" type="text/css" rel="stylesheet" id="skin_style" /> 
  17. <script type="text/javascript"
  18. var $CONFIG = {}; 
  19. $CONFIG['islogin'] = '0'
  20. $CONFIG['version'] = '6c9bf6ab3b33391f'
  21. $CONFIG['timeDiff'] = (new Date() - 1505746970000); 
  22. $CONFIG['lang'] = 'zh-cn'
  23. $CONFIG['jsPath'] = '//js.t.sinajs.cn/t5/'
  24. $CONFIG['cssPath'] = '//img.t.sinajs.cn/t5/'
  25. $CONFIG['imgPath'] = '//img.t.sinajs.cn/t5/'
  26. $CONFIG['servertime'] = 1505746970; 
  27. $CONFIG['location']='login'
  28. $CONFIG['bigpipe']='false'
  29. $CONFIG['bpType']='login'
  30. $CONFIG['mJsPath'] = ['//js{n}.t.sinajs.cn/t5/', 1, 2]; 
  31. $CONFIG['mCssPath'] = ['//img{n}.t.sinajs.cn/t5/', 1, 2]; 
  32. $CONFIG['redirect'] = ''
  33. $CONFIG['vid']='1008997495870'
  34. </script> 
  35. <style>#js_style_css_module_global_WB_outframe{height:42px;}</style> 
  36. </head> 
  37. ……  

如果之前有微博爬蟲開發(fā)經(jīng)驗的小伙伴,看到這里,一定能想出來很多玩法了吧。

四、代碼實現(xiàn)

下面附上我的源碼,通過上面的詳細介紹,應該已經(jīng)比較好理解,因此這里就簡單地說明一下:

  1. 我把Cookie獲取的過程做成了一個靜態(tài)內(nèi)部類,其中需要發(fā)起2次請求,一次是genvisitor獲得3個參數(shù),另一次是incarnate獲得Cookie值;
  2. 如果Cookie獲取失敗,會調(diào)用HttpClientInstance.changeProxy來改變代理IP,然后重新獲取,直到獲取成功為止;
  3. 在使用時,出現(xiàn)了IP被封或無法正常獲取頁面等異常情況,外部可以通過調(diào)用cookieReset方法,重新獲取一個新的Cookie。這里還是要聲明一下,科學地使用爬蟲,維護世界和平是程序員的基本素養(yǎng);
  4. 雖然加了一些鎖的控制,但是還未在高并發(fā)場景實測過,不能保證百分百線程安全,如使用下面的代碼,請根據(jù)需要自行修改,如有問題也請大神們及時指出,拜謝!
  5. HttpClientInstance是我用單例模式重新封裝的httpclient,對于每個傳進來的請求重新包裝了一層RequestConfig,并且使用了代理IP;
  6. 不是所有的微博頁面都可以抓取得到,但是博文,評論,轉發(fā)等基本的數(shù)據(jù)還是沒有問題的;
  7. 后續(xù)我也會把代碼push到github上,請大家支持,謝謝! 
  1. import com.fullstackyang.httpclient.HttpClientInstance; 
  2. import com.fullstackyang.httpclient.HttpRequestUtils; 
  3. import com.google.common.base.Strings; 
  4. import com.google.common.collect.Maps; 
  5. import com.google.common.net.HttpHeaders; 
  6. import lombok.NoArgsConstructor; 
  7. import lombok.extern.slf4j.Slf4j; 
  8. import org.apache.commons.lang3.StringUtils; 
  9. import org.apache.http.client.config.CookieSpecs; 
  10. import org.apache.http.client.config.RequestConfig; 
  11. import org.apache.http.client.methods.HttpGet; 
  12. import org.apache.http.client.methods.HttpPost; 
  13. import org.json.JSONObject; 
  14.   
  15. import java.io.UnsupportedEncodingException; 
  16. import java.math.BigDecimal; 
  17. import java.net.URLEncoder; 
  18. import java.util.Map; 
  19. import java.util.concurrent.locks.Lock; 
  20. import java.util.concurrent.locks.ReentrantLock; 
  21.   
  22. /** 
  23.  * 微博免登陸請求客戶端 
  24.  * 
  25.  * @author fullstackyang 
  26.  */ 
  27. @Slf4j 
  28. public class WeiboClient { 
  29.   
  30.     private static CookieFetcher cookieFetcher = new CookieFetcher(); 
  31.   
  32.     private volatile String cookie; 
  33.   
  34.     public WeiboClient() { 
  35.         this.cookie = cookieFetcher.getCookie(); 
  36.     } 
  37.   
  38.     private static Lock lock = new ReentrantLock(); 
  39.   
  40.     public void cookieReset() { 
  41.         if (lock.tryLock()) { 
  42.             try { 
  43.                 HttpClientInstance.instance().changeProxy(); 
  44.                 this.cookie = cookieFetcher.getCookie(); 
  45.                 log.info("cookie :" + cookie); 
  46.             } finally { 
  47.                 lock.unlock(); 
  48.             } 
  49.         } 
  50.     } 
  51.   
  52.     /** 
  53.      * get方法,獲取微博平臺的其他頁面 
  54.      * @param url 
  55.      * @return 
  56.      */ 
  57.     public String get(String url) { 
  58.         if (Strings.isNullOrEmpty(url)) 
  59.             return ""
  60.   
  61.         while (true) { 
  62.             HttpGet httpGet = new HttpGet(url); 
  63.             httpGet.addHeader(HttpHeaders.COOKIE, cookie); 
  64.             httpGet.addHeader(HttpHeaders.HOST, "weibo.com"); 
  65.             httpGet.addHeader("Upgrade-Insecure-Requests""1"); 
  66.   
  67.             httpGet.setConfig(RequestConfig.custom().setSocketTimeout(3000) 
  68.                     .setConnectTimeout(3000).setConnectionRequestTimeout(3000).build()); 
  69.             String html = HttpClientInstance.instance().tryExecute(httpGet, nullnull); 
  70.             if (html == null
  71.                 cookieReset(); 
  72.             else return html; 
  73.         } 
  74.     } 
  75.   
  76.      /** 
  77.      * 獲取訪問微博時必需的Cookie 
  78.      */ 
  79.     @NoArgsConstructor 
  80.     static class CookieFetcher { 
  81.   
  82.         static final String PASSPORT_URL = "https://passport.weibo.com/visitor/visitor?entry=miniblog&a=enter&url=http://weibo.com/?category=2" 
  83.                 + "&domain=.weibo.com&ua=php-sso_sdk_client-0.6.23"
  84.   
  85.         static final String GEN_VISITOR_URL = "https://passport.weibo.com/visitor/genvisitor"
  86.   
  87.         static final String VISITOR_URL = "https://passport.weibo.com/visitor/visitor?a=incarnate"
  88.   
  89.         private String getCookie() { 
  90.             Map<String, String> map; 
  91.             while (true) { 
  92.                 map = getCookieParam(); 
  93.                 if (map.containsKey("SUB") && map.containsKey("SUBP") && 
  94.                         StringUtils.isNoneEmpty(map.get("SUB"), map.get("SUBP"))) 
  95.                     break; 
  96.                 HttpClientInstance.instance().changeProxy(); 
  97.             } 
  98.             return " YF-Page-G0=" + "; _s_tentry=-; SUB=" + map.get("SUB") + "; SUBP=" + map.get("SUBP"); 
  99.         } 
  100.   
  101.         private Map<String, String> getCookieParam() { 
  102.             String time = System.currentTimeMillis() + ""
  103.             time = time.substring(0, 9) + "." + time.substring(9, 13); 
  104.             String passporturl = PASSPORT_URL + "&_rand=" + time
  105.   
  106.             String tid = ""
  107.             String c = ""
  108.             String w = ""
  109.             { 
  110.                 String str = postGenvisitor(passporturl); 
  111.                 if (str.contains("\"retcode\":20000000")) { 
  112.                     JSONObject jsonObject = new JSONObject(str).getJSONObject("data"); 
  113.                     tid = jsonObject.optString("tid"); 
  114.                     try { 
  115.                         tid = URLEncoder.encode(tid, "utf-8"); 
  116.                     } catch (UnsupportedEncodingException e) { 
  117.                     } 
  118.                     c = jsonObject.has("confidence") ? "000" + jsonObject.getInt("confidence") : "100"
  119.                     w = jsonObject.optBoolean("new_tid") ? "3" : "2"
  120.                 } 
  121.             } 
  122.             String s = ""
  123.             String sp = ""
  124.             { 
  125.                 if (StringUtils.isNoneEmpty(tid, w, c)) { 
  126.                     String str = getVisitor(tid, w, c, passporturl); 
  127.                     str = str.substring(str.indexOf("(") + 1, str.indexOf(")")); 
  128.                     if (str.contains("\"retcode\":20000000")) { 
  129.                         System.out.println(new JSONObject(str).toString(2)); 
  130.                         JSONObject jsonObject = new JSONObject(str).getJSONObject("data"); 
  131.                         s = jsonObject.getString("sub"); 
  132.                         sp = jsonObject.getString("subp"); 
  133.                     } 
  134.   
  135.                 } 
  136.             } 
  137.             Map<String, String> map = Maps.newHashMap(); 
  138.             map.put("SUB", s); 
  139.             map.put("SUBP", sp); 
  140.             return map; 
  141.         } 
  142.   
  143.         private String postGenvisitor(String passporturl) { 
  144.   
  145.             Map<String, String> headers = Maps.newHashMap(); 
  146.             headers.put(HttpHeaders.ACCEPT, "*/*"); 
  147.             headers.put(HttpHeaders.ORIGIN, "https://passport.weibo.com"); 
  148.             headers.put(HttpHeaders.REFERER, passporturl); 
  149.   
  150.             Map<String, String> params = Maps.newHashMap(); 
  151.             params.put("cb""gen_callback"); 
  152.             params.put("fp", fp()); 
  153.   
  154.             HttpPost httpPost = HttpRequestUtils.createHttpPost(GEN_VISITOR_URL, headers, params); 
  155.   
  156.             String str = HttpClientInstance.instance().execute(httpPost, null); 
  157.             return str.substring(str.indexOf("(") + 1, str.lastIndexOf("")); 
  158.         } 
  159.   
  160.         private String getVisitor(String tid, String w, String c, String passporturl) { 
  161.             String url = VISITOR_URL + "&t=" + tid + "&w=" + "&c=" + c.substring(c.length() - 3) 
  162.                     + "&gc=&cb=cross_domain&from=weibo&_rand=0." + rand(); 
  163.   
  164.             Map<String, String> headers = Maps.newHashMap(); 
  165.             headers.put(HttpHeaders.ACCEPT, "*/*"); 
  166.             headers.put(HttpHeaders.HOST, "passport.weibo.com"); 
  167.             headers.put(HttpHeaders.COOKIE, "tid=" + tid + "__0" + c); 
  168.             headers.put(HttpHeaders.REFERER, passporturl); 
  169.   
  170.             HttpGet httpGet = HttpRequestUtils.createHttpGet(url, headers); 
  171.             httpGet.setConfig(RequestConfig.custom().setCookieSpec(CookieSpecs.STANDARD).build()); 
  172.             return HttpClientInstance.instance().execute(httpGet, null); 
  173.         } 
  174.   
  175.         private static String rand() { 
  176.             return new BigDecimal(Math.floor(Math.random() * 10000000000000000L)).toString(); 
  177.         } 
  178.   
  179.         private static String fp() { 
  180.             JSONObject jsonObject = new JSONObject(); 
  181.             jsonObject.put("os""1"); 
  182.             jsonObject.put("browser""Chrome59,0,3071,115"); 
  183.             jsonObject.put("fonts""undefined"); 
  184.             jsonObject.put("screenInfo""1680*1050*24"); 
  185.             jsonObject.put("plugins"
  186.                     "Enables Widevine licenses for playback of HTML audio/video content. (version: 1.4.8.984)::widevinecdmadapter.dll::Widevine Content Decryption Module|Shockwave Flash 26.0 r0::pepflashplayer.dll::Shockwave Flash|::mhjfbmdgcfjbbpaeojofohoefgiehjai::Chrome PDF Viewer|::internal-nacl-plugin::Native Client|Portable Document Format::internal-pdf-viewer::Chrome PDF Viewer"); 
  187.             return jsonObject.toString(); 
  188.         } 
  189.     } 
  190.  
責任編輯:龐桂玉 來源: segmentfault
相關推薦

2019-09-25 17:12:44

2012-05-09 14:02:46

HTML5

2019-10-23 04:37:56

Jschsftp服務器

2021-11-08 14:38:50

框架Scrapy 爬蟲

2021-11-09 09:46:09

ScrapyPython爬蟲

2018-01-02 16:30:27

Python爬蟲微博移動端

2015-04-16 10:35:08

微博微博如何實現(xiàn)

2023-03-09 08:12:08

免登錄實Python腳本

2024-10-28 09:38:15

2021-01-06 10:09:05

Spring Boothttps sslhttps

2015-10-21 11:03:21

ssh登錄Linux

2012-02-15 17:39:36

2014-11-04 10:30:32

新浪微博可登錄任意賬戶

2018-07-02 14:12:26

Python爬蟲反爬技術

2015-07-06 13:36:14

Redis微博關注關系

2023-10-14 15:29:28

RedisFeed

2018-07-03 10:33:51

服務器運維Linux

2021-09-29 06:03:37

JavaScriptreduce() 前端

2009-07-31 17:51:42

linux vi命令詳linux vi命令編輯器

2021-06-02 22:18:11

Python關鍵詞微博
點贊
收藏

51CTO技術棧公眾號