net抓取和分析网页的类

net抓取和分析网页的类

ID:32689227

大小:69.51 KB

页数:17页

时间:2019-02-14

net抓取和分析网页的类_第1页
net抓取和分析网页的类_第2页
net抓取和分析网页的类_第3页
net抓取和分析网页的类_第4页
net抓取和分析网页的类_第5页
资源描述:

《net抓取和分析网页的类》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主要功能有:1、提取网页的纯文本,去所有html标签和javascript代码2、提取网页的链接,包括href和frame及iframe3、提取网页的title等(其它的标签可依此类推,正则是一样的)#region私有成员privateUrim_uri;//网址privateListm_links;privatestringm_title;privatestringmhtml;privatestringm_outstr;privateboolm_good;privateintinpages

2、ize;privatestaticDictionary()4、可以实现简单的表单提交及cookie保存第一部分usingSystem;usingSystem.Data;usingSystentConfiguration;usingSystem・Net;usingSystem.10;usingSystem.Text;usingSystem.Collections.Generic;usingSystentText.Re

3、gularExpressions;usingSystem・Threading;usingSystem.Web;///

///网页类///〈/summary〉publicclassWebPage//此网页上的链接//此网页的标题//此网页的HTML代码//此网页可输出的纯文本〃此网页是否可用//此网页的大小CookieContainor>wobcookies二n//存放所有网页的Cookieprivatestringm_post;〃此网页的登陆页需要的POST数据privatestrin

4、gm_loginurl;〃此网页的登陆页#ondregion#region私有方法///

///这私有方法从网页的HTML代码中分析出链接信息//////ListprivateListgetLinks(){if(m_links.Count==0){Regex[]regex=newRegex[2];regex[0]=newRegexC(?m)(「>"'

5、\s)])+)("I')?「>]*>(?(\w

6、\W)*?)〈]+src=("

7、')?(?(「>、〃'\s)])+)("

8、')?「>]*>",RegexOptions.Multiline

9、RegexOptions.IgnoreCase);for(inti=0;i<2;i++){Matchmatch二reg

10、ex[i].Match(m_html);while(match.Success){try{stringurl=newUri(m_uri,match・GroupsValue).Absolutellri;stringtext=if(i==0)text=newRegex("(<「>]+>)

11、(\s)

12、( )

13、RegexOptions.Multiline

14、RegexOptions.TgnoreCase)・Replace(match.Groups["text"]•Value,"“);Linklink

15、=newLink(url,text);mlinks.Add(link);}catch(Exceptionex){Console.WriteLine(ex.Message);};match=match・NextMatch();returnmlinks;//////此私有方法从一段HTML文本中提取出一定字数的纯文本///〈/summary〉///HTML代码///提取从头数多少个字<

16、/param>///是否要链接里面的字///纯文木privatestringgetFirstNchar(stringinstr,intfirstN,boolwithLink){if(moutstr=="”){m_outstr=instr・Clone()asstring;moutstr=newRegex(@,z(?m)]*>(w

17、W)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。