自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

淺析基于ASP.NET網(wǎng)頁的C#數(shù)據(jù)采集

作者：畫上句號 2009-08-13 17:52:27

開發(fā) 后端

在好奇的動(dòng)力下，開始瘋狂的查閱以及學(xué)習(xí)關(guān)于網(wǎng)頁采集，數(shù)據(jù)采集等相關(guān)信息。不過網(wǎng)上大部都是ASP的和PHP的，關(guān)于.NET的很少。無奈之下只要硬著頭皮學(xué)習(xí)。這里簡單介紹下基于ASP.NET網(wǎng)頁的C#數(shù)據(jù)采集。

經(jīng)過幾天的努力，最終還是給我研究出來了。心里還是挺高興的襖。其實(shí)網(wǎng)頁采集也沒有用到什么高深的技術(shù)，都是些普普通通的技術(shù)，只不過效果比較神奇，就會(huì)讓人感覺到整個(gè)都比較深?yuàn)W，如果你想學(xué)習(xí).NET的數(shù)據(jù)采集，以及思路，那么請看完。

C#數(shù)據(jù)采集大體可以分為兩部曲：

一部曲：

因?yàn)橐杉瘎e人網(wǎng)頁上的內(nèi)容，所有我們先要得到要采集網(wǎng)頁上的html代碼，獲取html代碼還是比較簡單。利用WebClient的DownloadData(url)得帶byte數(shù)組，然后在轉(zhuǎn)換成string字符串。

具體代碼如下：

///<summary>  
///獲取網(wǎng)頁源代碼  
///</summary>  
///<paramname="url">URL路徑</param>  
///<paramname="encoding">編碼方式</param>  
publicstringGetHTML(stringurl,stringencoding)  
{  
WebClientweb=newWebClient();  
byte[]buffer=web.DownloadData(url);  
returnEncoding.GetEncoding(encoding).GetString(buffer);  
}

二部曲：

現(xiàn)在我們得到了目標(biāo)網(wǎng)頁的html代碼，那么我們就開始時(shí)得扣取我們想要的數(shù)據(jù)。扣取數(shù)據(jù)無疑就要用到強(qiáng)大的正則表達(dá)式了。利用正則表達(dá)式的匹配來獲取我們要的內(nèi)容，這里可以過濾掉制定的html代碼，剩下的就是內(nèi)容了。

C#數(shù)據(jù)采集具體代碼如下：

Htmlhtml=newHtml();  
//得到指定頁面的html代碼，***個(gè)參數(shù)為url(貌似都知道),第二個(gè)是目標(biāo)網(wǎng)頁的編碼集  
stringhtmlCode=html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3","gb2312");  
//正則表達(dá)式  
Regexregexarticles=newRegex("<td\\s+height=\"\\d+\"><a\\s+href=\".+DataId=(?<id>\\d+)\"\\s+target=\"_blank\">(?<title>.+)</a>.*</td>");  
//所有匹配表達(dá)式的內(nèi)容  
MatchCollectionmarticles=regexarticles.Matches(htmlCode);  
///遍歷匹配內(nèi)容  
foreach(Matchminmarticles)  
{  
Console.Write("標(biāo)題:"+m.Groups["title"].Value+"\n");  
Console.Write("id:"+m.Groups["id"].Value+"\n");  
Console.Write("\n");  
}

以上就是C#數(shù)據(jù)采集的核心代碼，關(guān)于正則表達(dá)式我在這里就不詳細(xì)講解了(其實(shí)正則表達(dá)式我也是菜鳥哈)。

C#數(shù)據(jù)采集結(jié)語：

大部分看似很神奇的功能，都是我們平常所用的功能拼加起來的，其實(shí)仔細(xì)分析起來也沒有多大的難度，只要能夠認(rèn)真研究。

本文來自畫上句號的新浪博客文章《asp.net/C#網(wǎng)頁數(shù)據(jù)采集》

【編輯推薦】

C#反射方法學(xué)習(xí)總結(jié)
淺談C#測量cpu性能
C#遠(yuǎn)程計(jì)算機(jī)的一些理論知識(shí)
淺析C# Static修飾
C#轉(zhuǎn)換農(nóng)歷的簡單方法

責(zé)任編輯：彭凡來源：新浪博客

C#數(shù)據(jù)采集

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營