認(rèn)識(shí)網(wǎng)頁抓?。阂磺卸冀唤oAI,還是加點(diǎn)“人情味”?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
“互聯(lián)網(wǎng)上有很多數(shù)據(jù)”,這么說太保守了。事實(shí)上,2020年,“數(shù)字宇宙”預(yù)計(jì)將擁有40萬億字節(jié)或40澤字節(jié)(zettabytes)的信息,一個(gè)澤字節(jié)擁有的數(shù)據(jù)足以填滿大約五分之一曼哈頓大小的數(shù)據(jù)中心。
可供分析的信息如此之多,將收集數(shù)據(jù)的任務(wù)留給AI就顯得合情合理了。網(wǎng)絡(luò)機(jī)器人能以令人難以置信的速度抓取網(wǎng)頁,提取所需的相關(guān)信息。不過,盡管許多數(shù)據(jù)科學(xué)家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網(wǎng)絡(luò)人工智能日益普及,網(wǎng)絡(luò)機(jī)器人還是逐漸被污名化了。
對人工智能的大部分負(fù)面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時(shí)候也要提防著AI。此外,某些web用戶以不道德的方式使用網(wǎng)絡(luò)機(jī)器人,導(dǎo)致即便是專業(yè)、誠心使用數(shù)據(jù)的人也備受打擊。
對于許多專業(yè)人士來說,網(wǎng)頁抓取仍然是必不可少的工具。那么,對于與網(wǎng)絡(luò)機(jī)器人的污名,我們能做些什么呢?
首先,網(wǎng)頁抓取是什么
你可以簡單地把網(wǎng)頁抓取行為理解為數(shù)據(jù)提取。盡管數(shù)據(jù)科學(xué)家和其他專業(yè)人士使用抓取來分析非常復(fù)雜的數(shù)字信息棧,但從網(wǎng)站復(fù)制粘貼文本的行為本身就可以被認(rèn)作一種簡單的抓取形式。
然而,就算可以在網(wǎng)站上盡情訪問,由于可用信息太多,可能也要花費(fèi)非常長的時(shí)間從來源處收集數(shù)據(jù)。大多數(shù)情況下,網(wǎng)頁抓取都是留給人工智能來完成的,人工智能會(huì)將檢索到的數(shù)據(jù)進(jìn)行透徹分析以達(dá)到各種目的。雖然這對網(wǎng)絡(luò)爬蟲來說極為便利,但網(wǎng)站所有者和旁觀者都非常擔(dān)心人工智能在網(wǎng)絡(luò)上的“濫用”
使用網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁抓取會(huì)更好嗎
有這么多的信息要分析,求助于人工智能來收集數(shù)據(jù)理所當(dāng)然。實(shí)際上,谷歌本身就是為感興趣的各方提供網(wǎng)頁抓取工具最可信的來源之一。例如,你可以使用其數(shù)據(jù)集搜索引擎快速訪問認(rèn)為可以免費(fèi)使用的數(shù)據(jù),甚至能定制搜索,以了解這些信息是否可用于商業(yè)用途。完成這些任務(wù)只需要幾秒鐘。
如果沒有谷歌AI如此高效檢查每個(gè)網(wǎng)站的相關(guān)數(shù)據(jù),恐怕無法實(shí)現(xiàn)這樣的速度。這是一個(gè)利用人工智能以純道德的方式為研究或商業(yè)收集有用信息的完美例子,其速度之快也證明了“網(wǎng)絡(luò)機(jī)器人”如何讓執(zhí)行網(wǎng)頁抓取任務(wù)變得如此容易。
人工智能流量變得如此普遍,如今已經(jīng)占到互聯(lián)網(wǎng)流量的一半以上。即便如此,我們還是容易忽視其造成的影響。
機(jī)器人程序流量報(bào)
有人認(rèn)為,人工智能在互聯(lián)網(wǎng)流量中占主導(dǎo)地位令人擔(dān)憂。讓這一問題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機(jī)器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。
使用網(wǎng)絡(luò)機(jī)器人來處理大量數(shù)據(jù)是合理的步驟。除了人工智能,在網(wǎng)頁數(shù)據(jù)抓取時(shí)考慮其他必要工具也很重要。
代理如何提供幫助
使用代理進(jìn)行網(wǎng)絡(luò)抓取有很多優(yōu)點(diǎn),匿名性正是其中之一。比方說,如果你想對一個(gè)競爭品牌進(jìn)行調(diào)研,并利用這些信息來確定改善自己公司發(fā)展的最佳方案,你可能不想讓別人知道自己訪問了他們的網(wǎng)站。在這種情況下,使用代理既能訪問、檢查數(shù)據(jù),又不會(huì)泄露身份,兩全其美。
做進(jìn)一步探討之前,先來快速回顧一下代理服務(wù)器:
- 代理服務(wù)器的設(shè)計(jì)目的是充當(dāng)用戶和web服務(wù)器之間的中間人。
- 功能多樣:個(gè)人和公司都能使用代理服務(wù)器來滿足特定需求。
- 代理的一個(gè)常見用途與網(wǎng)頁抓取有關(guān):使用代理服務(wù)器可以繞過網(wǎng)站管理員設(shè)置的限制,從而大量收集數(shù)據(jù)。
那么問題來了,為什么要設(shè)置限制呢?這些數(shù)據(jù)不是可以在網(wǎng)上免費(fèi)獲得嗎?對人類用戶來說,是的。這里有一個(gè)典型的例子。價(jià)格聚合商的整個(gè)商業(yè)模式是建立在準(zhǔn)確信息之上的,它為“我在哪里能買到價(jià)格最低的X產(chǎn)品?”這個(gè)問題提供確切答案。
盡管這對客戶來說是一個(gè)省錢的好機(jī)會(huì),但供應(yīng)商對其他公司窺探他們的數(shù)據(jù)并不太感興趣,原因是聚合器的網(wǎng)絡(luò)爬蟲軟件(通常稱為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)頁蜘蛛”)給網(wǎng)站帶來了額外的負(fù)載。因此,如果網(wǎng)站管理員懷疑給定的網(wǎng)絡(luò)活動(dòng)不是由真正的用戶進(jìn)行的,就會(huì)限制用戶訪問網(wǎng)站。
代理的另一個(gè)實(shí)際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會(huì)顯示你是來自X國的真正用戶,你可自定義來自哪個(gè)國家。對住宅代理的需求很簡單:(可疑的)網(wǎng)絡(luò)機(jī)器人活動(dòng)通常來自某些國家,所以即使是來自這些國家的真正用戶也經(jīng)常遇到地域限制。
此外,當(dāng)你試圖從數(shù)據(jù)源收集數(shù)據(jù)、卻因各種原因無法訪問時(shí),使用代理尤其有用。在網(wǎng)絡(luò)抓取時(shí)有很多使用代理的方法,但為了在數(shù)字社區(qū)中建立信任,我們建議你堅(jiān)持使用那些可以建立品牌信任和權(quán)威的方法。
圖源:unsplash
利用人類可見性和可信賴的品牌來對抗人工智能的污名
目前,人工智能發(fā)展速度確實(shí)超過了上網(wǎng)人數(shù)增長速度。不過,互聯(lián)網(wǎng)在未來幾年將會(huì)如何發(fā)展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉(zhuǎn),也不能斷定它代表著一種固有的消極趨勢。
要想扭轉(zhuǎn)網(wǎng)絡(luò)上有關(guān)人工智能流量的負(fù)面言論,最佳辦法就是讓互聯(lián)網(wǎng)上的人工智能使用恢復(fù)人性化。還需注意,要以建立信任的方式使用人工智能,無需考慮太多。
- 堅(jiān)持使用由高認(rèn)知度、可信賴的品牌提供的可信賴的產(chǎn)品和服務(wù)。
- 堅(jiān)持合乎道德的網(wǎng)頁抓取操作。不要濫用信任,忽略網(wǎng)站上robots.txt文件,或在短時(shí)間內(nèi)大量使用機(jī)器人程序。
- 以專業(yè)、負(fù)責(zé)的方式使用數(shù)據(jù)。核實(shí)你是否擁有將抓取獲得的數(shù)據(jù)用于預(yù)期目的的權(quán)限。
- 多多普及人工智能。多去和其他人說說如何以及為什么使用網(wǎng)絡(luò)抓取,讓人們對網(wǎng)絡(luò)抓取有更深的認(rèn)識(shí)。人們對使用人工智能獲取、研究大量數(shù)據(jù)的好處了解得越多,對網(wǎng)頁抓取和網(wǎng)絡(luò)機(jī)器人持負(fù)面看法的可能性就越小。
通過純粹的人工操作來手動(dòng)訪問網(wǎng)站數(shù)據(jù)或許讓人很放心,但由于信息太多,這幾乎不可能??捎玫臄?shù)據(jù)量幾乎無窮無盡,使用人工智能是我們?yōu)g覽網(wǎng)站和盡可能高效分析數(shù)據(jù)的最佳手段。不過,它或許還需要再加點(diǎn)兒“人情味”。