正则表达式在垂直搜索引擎中的应用.pdf

正则表达式在垂直搜索引擎中的应用.pdf

ID:56977799

大小:97.87 KB

页数:2页

时间:2020-07-30

正则表达式在垂直搜索引擎中的应用.pdf_第1页
正则表达式在垂直搜索引擎中的应用.pdf_第2页
资源描述:

《正则表达式在垂直搜索引擎中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《农业网络信息》2010年第8期应用实践正则表达式在垂直搜索引擎中的应用张斌(浙江越秀外国语学院,绍兴312000)摘要:采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。关键词:正则表达式;聚焦爬虫;信息检索中图分类号:TP3文献标识码:B文章编码:1672-6251(2010)08-0162-02ApplicationofRegularExpressionsinVerticalSearchEngineZ

2、HANGBin(ZhejiangYuexiuForeignLanguageCollege,Shaoxing312000)Abstract:Becausefocusedcrawlersystemcanpromotetheefficiencyofsearchengineandregularexpressioncouldusedtogetquickandefficientsearch.Inthispaper,regularexpressionusedinwebpageindexwasanalyzedforprov

3、idingusefulhelpforresearcherinverticalsearchengine.Keywords:regularexpressions;focusescrawler;informationretrieval页面内容提取、分词、自然语言处理是聚焦爬虫用于引用和替换;的主要工作。在内容提取中采用正则表达可以明显提(6)重复匹配。完整HTML文件可用:高效能,已在许多搜索程序中广泛应用。以下列举几.*?.*?.*?.*.*?

4、个常用的正则表达,并分析其在聚焦爬虫中的应用方]*>.*>.*?.法,以供同行参考。其中:*表示一个或多个,?表示0个或一个,^1正则表达式与文档内容提取表示否定。正则表达式是一种编程语言中使用的特殊代码模Html文件也可使用NekoHTML做标签补偿,用式,可用其验证、查找、替换与划分文本内容。聚焦HtmlParser等解析程序将网页转换成一个个串联的爬虫往往通过对主题网页的学习提取主题特征的正则Node,用正则式过滤脚本、注释等标签,提取表格等[4]表达式,以

5、指导爬虫过滤与主题不相符的网页文本。结构化信息,实现网页去噪。其中包括为网页建立网正则表达式基本技巧如下:站风格树和计算节点重要性来确定噪声元素。(1)匹配多个字符之一。如匹配拼写错误的fac-2正则表达式编程tory,可用:f[ae]ct[ou]ry;使用C#、Java等编程语言的步骤如下:①要先要(2)匹配文本行开始与结束。如以c开始,a结导入函数库,其中C#用usingSystem.Text.RegularEx-束,可用:^a.*b$;pressions;Java用importjava.util.re

6、gex.*;②创建正则(3)匹配单词。如找dog,可用:bdogb;表达式对象,C#用RegexregexObj=newRegex("(4)Unicode字母。如匹配中文,可用:[u3400-regexpattern");Java用Patternregex=Patter.compile("u4DB5u4E00-u9fa5];regexpattern");MatcherregexMatcher=regex.matcher(5)分组和捕获。如匹配年月日相同的日期,可(subjectString);③

7、在网页信息提取中,拆分字符串、用:bdd(dd)-1-1b,其中1表示捕获分组1,即逐行查找为常用功能,C#代码如下:string[]spli-(dd)中的内容,捕获分组可以表示临时存取的区域,tArray=Regex.Split(subjectString,"<[^<>]*>>"),其中作者简介:张斌(1977-),硕士,讲师,研究方向:电子商务专业方向。收稿日期:2010-05-06—162—《农业网络信息》2010年第8期应用实践splitArray为拆分后的数组,string[]

8、lines=Regex.Split匹配含千位分隔符的数,整数和小数可选:^([0-9](subjectString,”r?”);④对lines数组做逐行匹配:{1,3}(,[0,9]{3})*(.[0-9]+)?

9、..[0-9]+)$。for(inti=0;i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。