自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

巧妙運用PHP函數(shù)實現(xiàn)采集器

作者：佚名 2009-11-18 15:39:43

開發(fā) 后端

文章這里巧妙利用PHP函數(shù)中的file_get_contents()和preg_match_all()實現(xiàn)采集器，希望對大家有幫助。

PHP經(jīng)過長時間的發(fā)展，很多用戶都很了解PHP了，我們現(xiàn)在可以利用PHP函數(shù)實現(xiàn)采集器程序。何為采集器，通常又叫小偷程序，主要是用來抓取別人網(wǎng)頁內(nèi)容的。關于采集器的制作，其實并不難，就是遠程打開要采集的網(wǎng)頁，然后用正則表達式將需要的內(nèi)容匹配出來，只要稍微有點正則表達式的基礎，都能做出自己的采集器來的。

#T#前幾天做了個小說連載的程序，因為怕更新麻煩，順帶就寫了個采集器，采集八路中文網(wǎng)的，功能比較簡單，不能自定義規(guī)則，不過大概思路都在里面了，自定義規(guī)則可以自己來擴展。用php來做采集器主要用到兩個PHP函數(shù)：file_get_contents()和preg_match_all()，前一個是遠程讀取網(wǎng)頁內(nèi)容的，不過只在php5以上的版本才能用，后一個是正則函數(shù)，用來提取需要的內(nèi)容的。面就一步一步來講功能實現(xiàn)。因為是采集小說，所以首先要將書名、作者、類型這三個提取出來，別的信息可根據(jù)需要提取。

這樣還不夠，還需要一個切取PHP函數(shù)：

function cut($string,$start,$end){     
$message = explode($start,$string);     
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容，$start為開始的地方，$end為結(jié)束的地方。取出分類號：     
 
$start = "Html/Book/";     
$end    
= "List.shtm";     
$typeid = cut($typeid[0][0],$start,$end);     
$typeid = explode("/",$typeid);[/php]     
 
這樣，$typeid[0]就是我們要找的分類號了。方法如下：     
 
$ustart = "\"";     
$uend    
= "\"";     
//t表示title的縮寫     
$tstart = ">";     
$tend    
= "<";     
//取路徑,例如:123.shtm,2342.shtm,233.shtm     
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);     
//取標題,例如:***章 九世善人     
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);     
$countcountcount = count($url[0]);     
for($i=0;$i<=$count;$i++)     
{     
$u = cut($url[0][$i],$ustart,$uend);     
$t = cut($title[0][$i],$tstart,$tend);     
$array[$u] = $t;     
}

$array數(shù)組就是所有的章節(jié)地址了，到這里，采集器就完成一半了，剩下的就是循環(huán)打開每個章節(jié)地址，讀取，然后將內(nèi)容匹配出來。這個比較簡單，這里就不詳細敘述了。好了，今天就先寫到這吧，***次寫這么長的文章，語言組織方面難免有問題，還請大家多包涵！

責任編輯：田樹來源： it168

PHP函數(shù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="hfvyx"><rp id="hfvyx"></rp></style>

<style id="hfvyx"></style>