淺析基于ASP.NET網(wǎng)頁的C#數(shù)據(jù)采集
經(jīng)過幾天的努力,最終還是給我研究出來了。心里還是挺高興的襖。其實(shí)網(wǎng)頁采集也沒有用到什么高深的技術(shù),都是些普普通通的技術(shù),只不過效果比較神奇,就會(huì)讓人感覺到整個(gè)都比較深?yuàn)W,如果你想學(xué)習(xí).NET的數(shù)據(jù)采集,以及思路,那么請看完。
C#數(shù)據(jù)采集大體可以分為兩部曲:
一部曲:
因?yàn)橐杉瘎e人網(wǎng)頁上的內(nèi)容,所有我們先要得到要采集網(wǎng)頁上的html代碼,獲取html代碼還是比較簡單。利用WebClient的DownloadData(url)得帶byte數(shù)組,然后在轉(zhuǎn)換成string字符串。
具體代碼如下:
- ///<summary>
- ///獲取網(wǎng)頁源代碼
- ///</summary>
- ///<paramname="url">URL路徑</param>
- ///<paramname="encoding">編碼方式</param>
- publicstringGetHTML(stringurl,stringencoding)
- {
- WebClientweb=newWebClient();
- byte[]buffer=web.DownloadData(url);
- returnEncoding.GetEncoding(encoding).GetString(buffer);
- }
二部曲:
現(xiàn)在我們得到了目標(biāo)網(wǎng)頁的html代碼,那么我們就開始時(shí)得扣取我們想要的數(shù)據(jù)。扣取數(shù)據(jù)無疑就要用到強(qiáng)大的正則表達(dá)式了。利用正則表達(dá)式的匹配來獲取我們要的內(nèi)容,這里可以過濾掉制定的html代碼,剩下的就是內(nèi)容了。
C#數(shù)據(jù)采集具體代碼如下:
- Htmlhtml=newHtml();
- //得到指定頁面的html代碼,***個(gè)參數(shù)為url(貌似都知道),第二個(gè)是目標(biāo)網(wǎng)頁的編碼集
- stringhtmlCode=html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3","gb2312");
- //正則表達(dá)式
- Regexregexarticles=newRegex("<td\\s+height=\"\\d+\"><a\\s+href=\".+DataId=(?<id>\\d+)\"\\s+target=\"_blank\">(?<title>.+)</a>.*</td>");
- //所有匹配表達(dá)式的內(nèi)容
- MatchCollectionmarticles=regexarticles.Matches(htmlCode);
- ///遍歷匹配內(nèi)容
- foreach(Matchminmarticles)
- {
- Console.Write("標(biāo)題:"+m.Groups["title"].Value+"\n");
- Console.Write("id:"+m.Groups["id"].Value+"\n");
- Console.Write("\n");
- }
以上就是C#數(shù)據(jù)采集的核心代碼,關(guān)于正則表達(dá)式我在這里就不詳細(xì)講解了(其實(shí)正則表達(dá)式我也是菜鳥哈)。
C#數(shù)據(jù)采集結(jié)語:
大部分看似很神奇的功能,都是我們平常所用的功能拼加起來的,其實(shí)仔細(xì)分析起來也沒有多大的難度,只要能夠認(rèn)真研究。
本文來自畫上句號的新浪博客文章《asp.net/C#網(wǎng)頁數(shù)據(jù)采集》
【編輯推薦】