自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用C#+Selenium+ChromeDriver 爬取網(wǎng)頁,模擬真實的用戶瀏覽行為

開發(fā) 后端
Selenium是一個用于Web應(yīng)用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網(wǎng)上的數(shù)據(jù)那么肯定是爬蟲中的殺手武器。

[[381769]]

本文轉(zhuǎn)載自微信公眾號「UP技術(shù)控」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系UP技術(shù)控公眾號。

背景

Selenium是一個用于Web應(yīng)用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網(wǎng)上的數(shù)據(jù)那么肯定是爬蟲中的殺手武器。這里,我將介紹selenium + 谷歌瀏覽器的一般使用。

需求

在平常的爬蟲開發(fā)中,有時候網(wǎng)頁是一堆js堆起來的代碼,涉及很多異步計算,如果是普通的http 控制臺請求,那么得到的源文件是一堆js ,需要自己在去組裝數(shù)據(jù),很費力;但是采用Selenium+ChromeDriver可以達(dá)到所見即所得的完美效果。

實現(xiàn)方式

項目結(jié)構(gòu):為了方便使用,用的winform程序,附nuget包

 

以下是form1.cs的代碼,這里就只放關(guān)鍵方法代碼了。需要安裝最新的chrome瀏覽器+代碼中使用的chromedriver是 v2.9.248315

  1. private void crawlingWebFunc() 
  2.         { 
  3.             SetText("\r\n開始嘗試..."); 
  4.             List<testfold> surls = new List<testfold>(); 
  5.             string path = System.Environment.CurrentDirectory + "\\圖片url\\"
  6.             DirectoryInfo root = new DirectoryInfo(path); 
  7.             DirectoryInfo[] dics = root.GetDirectories(); 
  8.             foreach (var itemdic in dics) 
  9.             { 
  10.                 string txt = ""
  11.                 StreamReader sr = new StreamReader(itemdic.FullName + "\\data.txt"); 
  12.                 while (!sr.EndOfStream) 
  13.                 { 
  14.                     string str = sr.ReadLine(); 
  15.                     txt += str;// + "\n"
  16.                 } 
  17.                 sr.Close(); 
  18.                 surls.Add(new testfold() { key = itemdic.FullName, picurl = txt }); 
  19.             } 
  20.  
  21.             ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory); 
  22.             //  service.HideCommandPromptWindow = true
  23.  
  24.             ChromeOptions options = new ChromeOptions(); 
  25.             options.AddArguments("--test-type""--ignore-certificate-errors"); 
  26.             options.AddArgument("enable-automation"); 
  27.             //   options.AddArgument("headless"); 
  28.             //  options.AddArguments("--proxy-server=http://user:password@yourProxyServer.com:8080"); 
  29.  
  30.             using (IWebDriver driver = new OpenQA.Selenium.Chrome.ChromeDriver(service, options, TimeSpan.FromSeconds(120))) 
  31.             { 
  32.                 driver.Url = "https://www.1688.com/"
  33.                 Thread.Sleep(200); 
  34.                 try 
  35.                 { 
  36.                     int a = 1; 
  37.                     foreach (var itemsurls in surls) 
  38.                     { 
  39.                         SetText("\r\n第" + a.ToString() + "個"); 
  40.                         driver.Navigate().GoToUrl(itemsurls.picurl); 
  41.                         //登錄 
  42.                         if (driver.Url.Contains("login.1688.com")) 
  43.                         { 
  44.                             SetText("\r\n需要登錄,開始嘗試..."); 
  45.                             trylogin(driver); //嘗試登錄完成 
  46.                                               //再試試 
  47.                             driver.Navigate().GoToUrl("https://s.1688.com/youyuan/index.htm?tab=imageSearch&imageType=oss&imageAddress=cbuimgsearch/eWXC7XHHPN1607529600000&spm="); 
  48.  
  49.                             if (driver.Url.Contains("login.1688.com")) 
  50.                             { 
  51.                                 //沒辦法退出 
  52.                                 SetText("\r\n退出,換ip重試..."); 
  53.                                 return
  54.                             } 
  55.                         } 
  56.  
  57.                         //鼠標(biāo)放上去的內(nèi)容因為頁面自帶只能顯示一個的原因 沒辦法做到全部顯示 然后在下載 只能是其他方式下載 
  58.                         //  var elements = document.getElementsByClassName('hover-container'); 
  59.                         //  Array.prototype.forEach.call(elements, function(element) { 
  60.                         //  element.style.display = "block"
  61.                         //   console.log(element); 
  62.                         //  }); 
  63.  
  64.                         //   IJavaScriptExecutor js = (IJavaScriptExecutor)driver; 
  65.  
  66.                         //    var sss = js.ExecuteScript(" var elements = document.getElementsByClassName('hover-container');  Array.prototype.forEach.call(elements, function(element) {  console.log(element); element.setAttribute(\"class\", \"測試title\");  element.style.display = \"block\";  console.log(element); });"); 
  67.  
  68.                         Thread.Sleep(500); 
  69.                         var responseModel = Write(itemsurls.key, driver.PageSource, Pagetypeenum.列表); 
  70.                         Thread.Sleep(500); 
  71.                         int i = 1; 
  72.                         foreach (var offer in responseModel?.data?.offerList ?? new List<OfferItemModel>()) 
  73.                         { 
  74.                             driver.Navigate().GoToUrl(offer.information.detailUrl); 
  75.                             string responseDatadetail = driver.PageSource; 
  76.                             Write(itemsurls.key, driver.PageSource, Pagetypeenum.詳情); 
  77.                             SetText("\r\n第" + a.ToString() + "-" + i.ToString() + "個"); 
  78.                             Thread.Sleep(500); 
  79.                             i++; 
  80.                         } 
  81.                     } 
  82.                 } 
  83.                 catch (Exception ex) 
  84.                 { 
  85.                     CloseChromeDriver(driver); 
  86.                     throw; 
  87.                 } 
  88.             } 
  89.         } 

  1. #region 異常  退出chromedriver 
  2.  
  3.         [DllImport("user32.dll", EntryPoint = "FindWindow")] 
  4.         private extern static IntPtr FindWindow(string lpClassName, string lpWindowName); 
  5.  
  6.         [DllImport("user32.dll", EntryPoint = "SendMessage")] 
  7.         public static extern int SendMessage(IntPtr hWnd, int Msg, int wParam, int lParam); 
  8.  
  9.         public const int SW_HIDE = 0; 
  10.         public const int SW_SHOW = 5; 
  11.  
  12.         [DllImport("user32.dll", EntryPoint = "ShowWindow")] 
  13.         public static extern int ShowWindow(IntPtr hwnd, int nCmdShow); 
  14.  
  15.         /// <summary> 
  16.         /// 獲取窗口句柄 
  17.         /// </summary> 
  18.         /// <returns></returns
  19.         public IntPtr GetWindowHandle() 
  20.         { 
  21.             string name = (Environment.CurrentDirectory + "\\chromedriver.exe"); 
  22.             IntPtr hwd = FindWindow(nullname); 
  23.             return hwd; 
  24.         } 
  25.  
  26.         /// <summary> 
  27.         /// 關(guān)閉chromedriver窗口 
  28.         /// </summary> 
  29.         public void CloseWindow() 
  30.         { 
  31.             try 
  32.             { 
  33.                 IntPtr hwd = GetWindowHandle(); 
  34.                 SendMessage(hwd, 0x10, 0, 0); 
  35.             } 
  36.             catch { } 
  37.         } 
  38.  
  39.         /// <summary> 
  40.         /// 退出chromedriver 
  41.         /// </summary> 
  42.         /// <param name="driver"></param> 
  43.         public void CloseChromeDriver(IWebDriver driver) 
  44.         { 
  45.             try 
  46.             { 
  47.                 driver.Quit(); 
  48.                 driver.Dispose(); 
  49.             } 
  50.             catch { } 
  51.             CloseWindow(); 
  52.         } 
  53.  
  54.         #endregion 異常  退出chromedriver 

效果

 

總結(jié)

說一下思路:

1.跳轉(zhuǎn)到指定的網(wǎng)頁driver.Navigate().GoToUrl

2.確定數(shù)據(jù)源,從driver.PageSource讀取數(shù)據(jù)

3.對html數(shù)據(jù)進(jìn)行解析

 

責(zé)任編輯:武曉燕 來源: UP技術(shù)控
相關(guān)推薦

2022-07-12 09:55:34

Selenium爬取數(shù)據(jù)

2021-11-24 17:22:06

網(wǎng)絡(luò)抓取網(wǎng)絡(luò)爬蟲數(shù)據(jù)收集

2023-05-19 07:43:11

2009-08-11 08:58:19

linux命令瀏覽網(wǎng)頁linux命令行參數(shù)linux命令行

2024-03-18 08:38:57

瀏覽器爬蟲直聘

2023-11-15 13:18:50

2009-06-24 17:39:07

TeamDefine

2015-04-01 14:14:38

Safari谷歌瀏覽器安全

2020-11-03 14:10:45

Python爬取天氣爬蟲

2019-01-02 12:23:30

Python金融數(shù)據(jù)爬取

2022-12-30 14:21:54

2015-10-29 13:22:09

php數(shù)據(jù)分析爬蟲

2011-11-15 08:53:52

用戶

2024-10-08 10:44:32

2013-07-15 15:47:35

App用戶行為

2021-06-02 22:18:11

Python關(guān)鍵詞微博

2022-09-28 11:34:27

用戶行為數(shù)據(jù)業(yè)務(wù)

2021-06-11 00:09:20

C#爬蟲版本

2016-12-22 17:01:11

2024-12-02 09:37:51

點贊
收藏

51CTO技術(shù)棧公眾號