欢迎来到天天文库
浏览记录
ID:56977799
大小:97.87 KB
页数:2页
时间:2020-07-30
《正则表达式在垂直搜索引擎中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《农业网络信息》2010年第8期应用实践正则表达式在垂直搜索引擎中的应用张斌(浙江越秀外国语学院,绍兴312000)摘要:采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。关键词:正则表达式;聚焦爬虫;信息检索中图分类号:TP3文献标识码:B文章编码:1672-6251(2010)08-0162-02ApplicationofRegularExpressionsinVerticalSearchEngineZ
2、HANGBin(ZhejiangYuexiuForeignLanguageCollege,Shaoxing312000)Abstract:Becausefocusedcrawlersystemcanpromotetheefficiencyofsearchengineandregularexpressioncouldusedtogetquickandefficientsearch.Inthispaper,regularexpressionusedinwebpageindexwasanalyzedforprov
3、idingusefulhelpforresearcherinverticalsearchengine.Keywords:regularexpressions;focusescrawler;informationretrieval页面内容提取、分词、自然语言处理是聚焦爬虫用于引用和替换;的主要工作。在内容提取中采用正则表达可以明显提(6)重复匹配。完整HTML文件可用:高效能,已在许多搜索程序中广泛应用。以下列举几.*?
4、个常用的正则表达,并分析其在聚焦爬虫中的应用方
5、指导爬虫过滤与主题不相符的网页文本。结构化信息,实现网页去噪。其中包括为网页建立网正则表达式基本技巧如下:站风格树和计算节点重要性来确定噪声元素。(1)匹配多个字符之一。如匹配拼写错误的fac-2正则表达式编程tory,可用:f[ae]ct[ou]ry;使用C#、Java等编程语言的步骤如下:①要先要(2)匹配文本行开始与结束。如以c开始,a结导入函数库,其中C#用usingSystem.Text.RegularEx-束,可用:^a.*b$;pressions;Java用importjava.util.re
6、gex.*;②创建正则(3)匹配单词。如找dog,可用:bdogb;表达式对象,C#用RegexregexObj=newRegex("(4)Unicode字母。如匹配中文,可用:[u3400-regexpattern");Java用Patternregex=Patter.compile("u4DB5u4E00-u9fa5];regexpattern");MatcherregexMatcher=regex.matcher(5)分组和捕获。如匹配年月日相同的日期,可(subjectString);③
7、在网页信息提取中,拆分字符串、用:bdd(dd)-1-1b,其中1表示捕获分组1,即逐行查找为常用功能,C#代码如下:string[]spli-(dd)中的内容,捕获分组可以表示临时存取的区域,tArray=Regex.Split(subjectString,"<[^<>]*>>"),其中作者简介:张斌(1977-),硕士,讲师,研究方向:电子商务专业方向。收稿日期:2010-05-06—162—《农业网络信息》2010年第8期应用实践splitArray为拆分后的数组,string[]
8、lines=Regex.Split匹配含千位分隔符的数,整数和小数可选:^([0-9](subjectString,”r?”);④对lines数组做逐行匹配:{1,3}(,[0,9]{3})*(.[0-9]+)?
9、..[0-9]+)$。for(inti=0;i
此文档下载收益归作者所有