自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用 Puppeteer 實現(xiàn)一個自動化機器人

開發(fā) 前端 自動化
Puppeteer 是 Node.js 的一個函數(shù)庫,可用來操控瀏覽器,是 Google 的項目,可以應(yīng)用的范圍包括:前端的自動化測試、爬蟲、表單提交等。

 [[390866]]

目錄

  • 簡介

  • Selenium vs Puppeteer

  • 安裝

  • 一個簡單的例子

  • 解釋代碼

  • 把項目容器化

  • 容器打包時的一些坑

    • 1. Puppeteer 安裝 Chromium 時會缺少一些組件

    • 2. 頁面焦點問題

    • 3. Page Crash 問題

    • 4. 時區(qū)問題

Puppeteer 是 Node.js 的一個函數(shù)庫,可用來操控瀏覽器,是 Google 的項目,可以應(yīng)用的范圍包括:前端的自動化測試、爬蟲、表單提交等。

Selenium vs Puppeteer

之前有過用 Python 配合 Selenium 的經(jīng)驗,不過如果是做爬蟲、自動化操作用 Puppeteer 還是非常方便的,安裝簡單快速,API 也容易使用。美中不足的是它只支持 Chromium 以下是兩者的比較,僅供參考:

 

由于 Puppeteer 是用 Node.js 寫的,所以必須要先安裝 Node。

  1. 可以至官網(wǎng) 下載

  2. 如果用 mac 可以使用 https://nodejs.org/en/

安裝完后可以在 terminal 輸入 node -v 檢查是否安裝成功

然后到要開發(fā)的項目路徑下輸入 npm init -y 初始化項目,接著 npm i puppeteer ,安裝的時候會發(fā)現(xiàn)它會連同 Chromium 一同安裝。

安裝成功后就可以開始了。

一個簡單的例子

新增一個文件 main.js ,并復(fù)制以下代碼:

  1. const puppeteer = require('puppeteer'); 
  2.  
  3. (async () => { 
  4.  
  5.   // 開啟 browser 
  6.   const browser = await puppeteer.launch({ 
  7.         headless: false 
  8.   }); 
  9.   // 新增分頁 
  10.   const page = await browser.newPage(); 
  11.   // 到自己的博客網(wǎng)站 
  12.   await page.goto(`https://www.myblog.com/`); 
  13.   // 等待訂閱按鈕出現(xiàn) 
  14.   await page.waitForSelector("button[class='subscribe-button pill-button']"); 
  15.   // 點擊訂閱按鈕 
  16.   await page.click("button[class='subscribe-button pill-button']"); 
  17. })(); 

接著到終端下輸入 node main.js 執(zhí)行。

解釋代碼

前面的代碼先引入 Puppeteer,以便后續(xù)使用,接下來可以看到用 async 以及 () => , async 表示函數(shù)要用到異步操作, () => 則是 JS 的箭頭函數(shù)。

  1. const puppeteer = require('puppeteer'); 

接下來是用 Puppeteer 打開一個瀏覽器 ( Chromium ),其中可以看到我們設(shè)了參數(shù) headless : false ,如果是設(shè)定為 true ,會開啟沒有界面的無頭瀏覽器,如果設(shè)定 false ,就會開一個瀏覽器窗口。

  1. const browser = await puppeteer.launch({ 
  2.     headless: false 
  3. }); 

這段就很簡單了,它會幫你在瀏覽器開一個新的分頁。

  1. const page = await browser.newPage(); 

這段也很容易,看到 goto 就可以猜到會幫你導(dǎo)向后方指定的網(wǎng)址。

  1. await page.goto(`https://b123105.blogspot.com/`); 

最后這段代碼用到了 click 這個方法,它能夠幫你點擊后面指定的元素,可以看到我是指定 class = subscribe-button pill-button 的 <button> 。

waitForSelector 的作用是,在執(zhí)行時整個操作速度會很快,有時可能這個元素都很沒出現(xiàn),就讓它去點擊,有可能會找不到。所以先讓它等待指定元素出現(xiàn)后,再去點擊。

  1. await page.waitForSelector("button[class='subscribe-button pill-button']"); 
  2.  
  3. await page.click("button[class='subscribe-button pill-button']"); 

把項目容器化

首先下載 Docker,這里就不再贅述。接下來在項目目錄下創(chuàng)建 Dockerfile ,把下面的腳本代碼復(fù)制粘貼。

然后構(gòu)建鏡像: docker build -t puppeteer-bot . 。

構(gòu)建完成后就執(zhí)行 docker run -d --name puppeteer-bot-timeline puppeteer-bot:latest 。

之后可以通過 docker logs puppeteer-bot-timeline 查看 console.log 的內(nèi)容 ( 如果有的話 )。

要記得 headless 要設(shè)定為 true 才能運行。

  1. FROM node:11-slim 
  2. # 下載 chromium 在 docker 運行時所需組件 
  3. RUN apt-get update && apt-get install -yq libgconf-2-4 
  4. RUN apt-get update && apt-get install -y wget --no-install-recommends \ 
  5.     && wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add - \ 
  6.     && sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list' \ 
  7.     && apt-get update \ 
  8.     && apt-get install -y google-chrome-unstable \ 
  9.       --no-install-recommends \ 
  10.     && rm -rf /var/lib/apt/lists/* \ 
  11.     && apt-get purge --auto-remove -y curl \ 
  12.     && rm -rf /src/*.deb 
  13.  
  14. ADD https://github.com/Yelp/dumb-init/releases/download/v1.2.0/dumb-init_1.2.0_amd64 /usr/local/bin/dumb-init 
  15. RUN chmod +x /usr/local/bin/dumb-init 
  16. USER root 
  17. ENV TZ=Asia/Shanghai # 轉(zhuǎn)換時區(qū),非必要 
  18. RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone 
  19. COPY . /app/ 
  20. WORKDIR app 
  21. RUN npm install 
  22. EXPOSE 8084 
  23. ENTRYPOINT ["dumb-init""--"
  24. CMD ["node""main.js"

容器打包時的一些坑

接下來是我在用 Docke 打包過程遇到的一些問題:

1. Puppeteer 安裝 Chromium 時會缺少一些組件

本來用 docker 封裝是很容易的,安裝 node 然后 npm install 就行了,但是在實際操作時一直報錯說 Chromium 缺少組件。后來去 Puppeteer 的 issue 上查到原來安裝 Puppeteer 時會自動安裝 Chromium,但要在 Docker 上運行的相關(guān)組件并不會自動下載。

2. 頁面焦點問題

在開發(fā)時我是通過開啟一個瀏覽器,然后持續(xù)開三個分頁來進行操作,希望能加快處理的速度。但是發(fā)現(xiàn)當(dāng) headless:false 時,會同時開啟三個分頁,但只有被設(shè)置為焦點的當(dāng)前頁面在執(zhí)行后面的腳本,另外兩頁并沒有。因為在開發(fā)過程中執(zhí)行時 tab 頁會被關(guān)閉,所以接下來第二個 tab 中的頁面獲得焦點后會再開始運行。

在 issue 中也看到有人遇到了同樣的問題,只有在 headless:true 的時候會同時處理,但目前還沒找到其他解法。

3. Page Crash 問題

上面有提到我在一個瀏覽器上操作三個分頁,放在 docker 中運行,總是遇到 Page Crash 問題,第一反應(yīng)是可能內(nèi)存不足,在 issue 上查到原來在打開瀏覽器時要加上 --disable-dev-shm-usage 。

原文是這樣說的:

By default, Docker runs a container with a /dev/shm shared memory space 64MB. This is typically too small for Chrome and will cause Chrome to crash when rendering large pages. To fix, run the container with docker run --shm-size=1gb to increase the size of /dev/shm. Since Chrome 65, this is no longer necessary. Instead, launch the browser with the --disable-dev-shm-usage flag: const browser = await puppeteer.launch({ args: ['--disable-dev-shm-usage'] });

4. 時區(qū)問題

這個問題與 Puppeteer 無關(guān),有的服務(wù)器時區(qū)默認(rèn)是 GMT,這時就要在 Dockerfile 指定容器的時區(qū),不然代碼中涉及到時間的操作時會被自動加 8 小時。

責(zé)任編輯:張燕妮 來源: 前端先鋒
相關(guān)推薦

2021-04-21 13:56:32

人工智能機器學(xué)習(xí)

2023-10-30 17:41:29

機器人自動化

2023-07-11 16:35:13

機器人流程自動化

2019-04-02 09:00:00

機器人人工智能HMI設(shè)計

2020-09-10 11:40:00

Python機器人人工智能

2024-03-04 15:04:37

機器人人工智能

2023-10-18 15:23:47

人工智能聊天機器人

2020-04-11 22:21:07

開源機器人過程自動化工具RPA

2020-04-29 11:28:54

智能自動化機器人流程自動化AI

2022-09-30 13:55:46

Python機器人

2020-12-02 13:00:17

Recast.AI聊天機器人人工智能

2021-08-11 11:18:25

機器人人工智能技術(shù)

2024-02-04 09:43:53

機器人物聯(lián)網(wǎng)

2021-10-08 09:31:05

機器人自動化物流

2023-08-28 16:16:15

機器人測試

2021-09-02 10:19:17

人工智能AI機器人

2020-08-18 09:55:21

機器人過程自動化數(shù)字化轉(zhuǎn)型RPA

2024-03-07 14:37:46

自動化機器人人工智能

2021-08-06 09:35:37

Python盯盤機器人編程語言

2021-02-19 11:09:45

機器人機器人流程自動化RPA
點贊
收藏

51CTO技術(shù)棧公眾號