新一代爬蟲利器 -- Playwright
Playwright 是針對 Python 語言的純自動化工具,它可以通過單個API自動執(zhí)行 Chromium,F(xiàn)irefox 和 WebKit 瀏覽器,連代碼都不用寫,就能實(shí)現(xiàn)自動化功能。
雖然測試工具 selenium 具有完備的文檔,但是其學(xué)習(xí)成本讓一眾小白們望而卻步,對比之下 playwright-python 簡直是小白們的神器。
Playwright真的適用于Python嗎?答案是肯定的,微軟對于適用于Python的Playwright已準(zhǔn)備就緒。可能會發(fā)生API重大更改。但大概率是這種情況不會發(fā)生,微軟還表示僅在他們知道它可以改善您使用新庫的體驗(yàn)時,才會可能這樣做。不過微軟也提醒尚不支持特定于供應(yīng)商的API的某些極端情況,例如收集Chromium跟蹤,覆蓋率報(bào)告等。
1、Playwright介紹
Playwright是一個強(qiáng)大的Python庫,僅用一個API即可自動執(zhí)行Chromium、Firefox、WebKit等主流瀏覽器自動化操作,并同時支持以無頭模式、有頭模式運(yùn)行。
Playwright提供的自動化技術(shù)是綠色的、功能強(qiáng)大、可靠且快速,支持Linux、Mac以及Windows操作系統(tǒng)。
還有朋友這么夸:這個項(xiàng)目作為針對 Python 語言純自動化的工具,解放了代碼,實(shí)現(xiàn)了自動化功能,我們來看看怎么用它吧。
2、Playwright使用
安裝
Playwright的安裝非常簡單,兩步解決。
安裝playwright庫
pip install playwright
安裝瀏覽器驅(qū)動文件(安裝過程稍微有點(diǎn)慢)
python -m playwright install
復(fù)制代碼
上面兩個pip操作分別安裝:
- 安裝Playwright依賴庫,需要Python3.7+
- 安裝Chromium、Firefox、WebKit等瀏覽器的驅(qū)動文件
錄制
使用Playwright無需寫一行代碼,我們只需手動操作瀏覽器,它會錄制我們的操作,然后自動生成代碼腳本。
下面就是錄制的命令codegen,僅僅一行。
命令行鍵入 --help 可看到所有選項(xiàng)
python -m playwright codegen
復(fù)制代碼
codegen的用法可以使用--help查看,如果簡單使用就是直接在命令后面加上url鏈接,如果有其他需要可以添加options。
python -m playwright codegen --help
Usage: index codegen [options] [url]
open page and generate code for user actions
Options:
-o, --output <file name> saves the generated script to a file
--target <language> language to use, one of javascript, python, python-async, csharp (default: "python")
-h, --help display help for command
Examples:
$ codegen
$ codegen --target=python
$ -b webkit codegen https://example.com
復(fù)制代碼
options含義:
- -o:將錄制的腳本保存到一個文件
- --target:規(guī)定生成腳本的語言,有JS和Python兩種,默認(rèn)為Python
- -b:指定瀏覽器驅(qū)動
比如,我要在baidu.com搜索,用chromium驅(qū)動,將結(jié)果保存為my.py的python文件。
python -m playwright codegen --target python -o 'my.py' -b chromium https://www.baidu.com
復(fù)制代碼
命令行輸入后會自動打開瀏覽器,然后可以看見在瀏覽器上的一舉一動都會被自動翻譯成代碼,如下所示。
結(jié)束后自動關(guān)閉瀏覽器,保存生成的自動化腳本到py文件。
from playwright import sync_playwright
def run(playwright):
browser = playwright.chromium.launch(headless=False)
context = browser.newContext()
# Open new page
page = context.newPage()
page.goto("https://www.baidu.com/")
page.click("input[name="wd"]")
page.fill("input[name="wd"]", "jingdong")
page.click("text="京東"")
# Click //a[normalize-space(.)='京東JD.COM官網(wǎng) 多快好省 只為品質(zhì)生活']
with page.expect_navigation():
with page.expect_popup() as popup_info:
page.click("http://a[normalize-space(.)='京東JD.COM官網(wǎng) 多快好省 只為品質(zhì)生活']")
page1 = popup_info.value
# ---------------------
context.close()
browser.close()
with sync_playwright() as playwright:
run(playwright
此外,playwright還提供了同步和異步的API接口,文檔如下。
鏈接:??https://microsoft.github.io/playwright-python/index.html??
同步
下面示例代碼:依次打開三個瀏覽器,前往baidu搜索,截圖后退出。
from playwright import sync_playwright
with sync_playwright() as p:
for browser_type in [p.chromium, p.firefox, p.webkit]:
browser = browser_type.launch()
page = browser.newPage()
page.goto('https://baidu.com/')
page.screenshot(path=f'example-{browser_type.name}.png')
browser.close()
復(fù)制代碼
異步
異步操作可結(jié)合asyncio同時進(jìn)行三個瀏覽器操作。
import asyncio
from playwright import async_playwright
async def main():
async with async_playwright() as p:
for browser_type in [p.chromium, p.firefox, p.webkit]:
browser = await browser_type.launch()
page = await browser.newPage()
await page.goto('http://baidu.com/')
await page.screenshot(path=f'example-{browser_type.name}.png')
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
復(fù)制代碼
移動端
更厲害的是,playwright還可支持移動端的瀏覽器模擬。下面是官方文檔提供的一段代碼,模擬在給定地理位置上手機(jī)iphone 11 pro上的Safari瀏覽器,首先導(dǎo)航到maps.google.com,然后執(zhí)行定位并截圖。
from playwright import sync_playwright
with sync_playwright() as p:
iphone_11 = p.devices['iPhone 11 Pro']
browser = p.webkit.launch(headless=False)
context = browser.newContext(
**iphone_11,
locale='en-US',
geolocation={ 'longitude': 12.492507, 'latitude': 41.889938 },
permissions=['geolocation']
)
page = context.newPage()
page.goto('https://maps.google.com')
page.click('text="Your location"')
page.screenshot(path='colosseum-iphone.png')
browser.close()
復(fù)制代碼
另外,還可以配合pytest插件一起使用,感興趣可以自己試一下。
3、總結(jié)
playwright相比已有的自動化測試工具有很多優(yōu)勢,其中有:
支持所有瀏覽器的
- 在Chromium,F(xiàn)irefox和WebKit上進(jìn)行測試。Playwright擁有適用于所有現(xiàn)代瀏覽器的完整API覆蓋,包括Google Chrome和Microsoft Edge(帶有Chromium),Apple Safari(帶有WebKit)和Mozilla Firefox。
- 跨平臺的WebKit測試。使用Playwright,使用適用于Windows,Linux和macOS的WebKit構(gòu)建,測試您的應(yīng)用程序在Apple Safari中的行為。在本地和CI上進(jìn)行測試。
- 測試手機(jī)。使用設(shè)備仿真在移動Web瀏覽器中測試您的自適應(yīng)Web應(yīng)用程序。
- 無報(bào)文頭與有報(bào)文頭。Playwright支持所有瀏覽器和所有平臺的無頭(無瀏覽器UI)和有頭(有瀏覽器UI)模式。有報(bào)文頭模式適用于調(diào)試,而無報(bào)文頭適用于CI / cloud執(zhí)行。
擁有快速可靠的執(zhí)行
- 自動等待APIs。Playwright交互會自動等待直到元素準(zhǔn)備就緒。這樣可以提高可靠性并簡化測試編寫流程。
- 無超時自動化。Playwright會接收瀏覽器信號,例如網(wǎng)絡(luò)請求,頁面導(dǎo)航和頁面加載事件,以消除導(dǎo)致睡眠中斷的煩惱。
- 與瀏覽器上下文保持并行。對于多個并行孤立的瀏覽器上下文可執(zhí)行環(huán)境重復(fù)使用一個單獨(dú)的瀏覽器實(shí)例。
- 彈性元素選擇器。Playwright可以依靠面向用戶的字符串(例如文本內(nèi)容和可訪問性標(biāo)簽)來選擇元素。這些字符串比緊耦合到DOM結(jié)構(gòu)的選擇器更具彈性。
擁有強(qiáng)大的自動化功能
- 多個域,頁面和框架。Playwright是一種進(jìn)程外自動化驅(qū)動程序,不受頁面內(nèi)JavaScript執(zhí)行范圍的限制,并且可以自動執(zhí)行具有多個頁面的方案。
- 強(qiáng)大的網(wǎng)絡(luò)控制。Playwright引入上下文范圍的網(wǎng)絡(luò)攔截以便進(jìn)行終止或者模擬網(wǎng)絡(luò)請求。
- 現(xiàn)代網(wǎng)絡(luò)功能。Playwright通過插入陰的選擇器,地理位置,權(quán)限,Web Worker和其他現(xiàn)代Web API支持Web組件。
- 涵蓋所有場景的能力。支持文件下載和上傳,進(jìn)程外iframe,原生輸入事件,甚至是深色模式。
但它也有局限性
- 舊版Edge和IE11支持。Playwright不支持舊版Microsoft Edge或IE11(棄用通知)。支持新的Microsoft Edge(在Chromium上)。
- Java語言綁定:Playwright API目前無法在Java或Ruby中使用。這是暫時的限制,因?yàn)镻laywright旨在支持任何語言的綁定。
- 在真實(shí)的移動設(shè)備上進(jìn)行測試:Playwright使用桌面瀏覽器來模擬移動設(shè)備。
雖然有一些局限,但現(xiàn)在playwright 已經(jīng)更新到了 1.7.0 版本,隨著一代代的更新,系統(tǒng)也會更為完善,作為一款小白神器,為大家省了那么多事情,我們相信它的未來會越來越好。