使用ChatGPT自動編寫Python爬蟲腳本
最近人工智能聊天機器人ChatGPT真的是太火了,無論你在哪個媒體上都會看到關于它的新聞。ChatGPT是一種基于大語言模型的生成式AI,可以自動生成類似人類語言的文本,把梳理好的有邏輯的答案呈現(xiàn)在你面前。除了能聊天、寫論文、創(chuàng)作詩歌,ChatGPT還可以幫助我們編寫Python代碼。
今天,我們就講一講如何用ChatGPT寫Python爬蟲腳本?
??????
別光看不練,我們親自嘗試一波,如下圖所示,我們詢問ChatGPT“我想用Python爬取豆瓣電影TOP250的數(shù)據(jù),代碼要怎么寫?”ChatGPT很快給出了答案
我們將上述的代碼復制到本地編輯器中運行,會發(fā)現(xiàn)并沒有打印結(jié)果。print(response)看一下,發(fā)現(xiàn)返回<Response [418]>,這時候應該怎么辦?自然是繼續(xù)詢問ChatGPT呀!
“運行剛才的Python代碼,response返回<Response [418]>,我應該如何修改?”
這次,ChatGPT給了我們解決方案:添加請求頭部信息。
再次在編輯器中運行Python代碼,會發(fā)現(xiàn)已經(jīng)得到了輸出結(jié)果。
圖片
如上所示,我們使用ChatGPT完成了一次簡單的爬蟲,這個例子相信也是很多爬蟲小白學習時的第一個案例。但即便是這個最簡單的例子,在編寫中也遇到了報錯/得不到結(jié)果,所以真正實際起來還是需要自己具備一定的Python爬蟲基礎知識,以及高效利用ChatGPT的能力。
所以在平時的使用中,我更多是將其(ChatGPT)作為寫爬蟲的助力。比如,在有一點難度的Python爬蟲中,往往避不開JavaScript逆向,如果想徹底掌握,就不得不去學那幾百頁厚厚的爬蟲書,還不一定能精通。
而現(xiàn)在,在ChatGPT輔助下,我們可以高效的解決js逆向問題。
再舉一個例子,使用Python寫爬蟲也會經(jīng)常需要寫正則表達式,來從文本中提取待爬取的關鍵數(shù)據(jù)/文本信息。
利用ChatGPT也可以輔助我們快速寫好一個正則表達式。
如下圖所示,我向ChatGPT提問:
幫我寫一個正則表達式,可以從 肖申克的救贖9.7https://movie.douban.com/subject/1292052/ 中提取9.7
很快得到了答案:
ChatGPT就像一位全能的員工,對于我們提出的各種編程問題,它都能給出解決方案并落實到代碼。
當然了,作為老板的我們也需要對整體概念有全面的認識和判斷。