基于html 语义分析的网页正文提取

基于html 语义分析的网页正文提取

ID:4121930

大小:105.00 KB

页数:4页

时间:2017-11-29

上传者:U-3680
基于html 语义分析的网页正文提取_第1页
基于html 语义分析的网页正文提取_第2页
基于html 语义分析的网页正文提取_第3页
基于html 语义分析的网页正文提取_第4页
资源描述:

《基于html 语义分析的网页正文提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

第x期朱征宇等:基于HTML语义分析的网页正文提取3基于HTML语义分析的网页正文提取朱征宇任翔苑昆峰徐静秋田云艳(重庆大学计算机学院重庆400044)摘要:随着网络的迅猛发展,web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。关键词:HTML;网页正文;web服务中图法分类号:TP391文献标识码:A文章编号:07020122ResearchonMainTextExtractionforChineseWebPagesBasedonSemanticAnalysisofHTMLZHUZheng-yu,RENXiang,YUANKun-feng,XUJing-qiu,TIANYun-yan(CollegeofComputer,ChongqingUniversity,Chongqing400044China)Abstract:WiththeincreasingofInternet,webServicehasbeenthefocusofresearch.ThepaperproposesaChinesewebpagespreprocessingmethod.Themethodcanparsewebpages,andextractthemainpartfromthewebpages.Theexperimentshowsthatthemethodisfeasibletoparsewebpages.Themethodproposedinthispapercanbeusednotonlytoextractmaintextofwebpagesbutalsotogetotherelementofwebpages.Keywords:HTML;MainTextofWebPages;WebService第x期朱征宇等:基于HTML语义分析的网页正文提取31引言随着Internet的迅猛发展,尤其是WWW的全球普及,带来了现代社会的信息爆炸。在这众多的信息中,以网页形式出现的文本信息占了很大的比重[1,2]。如何从网页的海洋中找到符合用户要求的有用信息,成为一个很重要、迫切的问题。通过对网页分析,我们发现网页通常包含两部分的内容:一部分是网页的正文内容,它反映了网页的主题信息;另一部分则是与网页主题信息无关的内容,包括导航条、广告信息、无关超链接等。而这些与网页主题无关的内容会严重影响搜索引擎、信息检索等web服务的效果,使用户不能快速找到有效信息。因此,能准确提取网页的正文内容成为web服务所要解决的首要问题。2HTML简介HTML是超文本标记语言“HyperTextMarkupLanguage”的英文缩写,是网页编写的基本语言。想要实现网页的正文提取,必须先要对HTML的语法结构有个清楚的认识。HTML的语法中主要包括4部分内容:实体(Entity),元素(Element),属性(Attribute)以及注释(Comment)。[3]实体是指用作HTML标签的特殊字符(如<、>等)的HTML编码,也叫转义字符,主要用于表示一般无法用键盘输入的字符,或者可能和HTML中有特定含义的字符相互冲突的字符。实体一般以“&”开始,用“;”结束。常用的有:“ ;”表示空格;“<;”表示<;“>;”表示>。元素用来表示网页的结构和希望的操作,一个第x期朱征宇等:基于HTML语义分析的网页正文提取3---------------------------------基金项目:高等学校博士学科点专项科研基金资助课题(20030611016)第x期朱征宇等:基于HTML语义分析的网页正文提取3 第x期朱征宇等:基于HTML语义分析的网页正文提取3元素包括3个部分:开始标签,元素的内容和结束标签。开始标签可以表示成,其中element-name表示元素的名称,其相应的结束标签可以表示成。如超链接,表示一个超链接元素。HTML允许有些元素没有结束标签,如

等。还有些元素没有内容,如
等。属性用来表示元素的特性,它以“属性=值”的形式放在元素的开始标签中,如下例中,元素H1的属性align可以表示为。一个元素的开始标签中可以有多个属性,它们之间用空格隔开。注释包含在“”之间,用来增加HTML文档的可读性,不对网页的结构产生任何影响。如,说明网页的内容是从人民日报网站上转载的,但是网页上不会显示出注释的内容。3网页正文提取3.1现有的网页正文提取方法网页文档本身是半结构化或无结构的,其数据结构不规则或不完整,复杂程度远远高于普通的文本文档,其数据结构隐含、模式信息量大、模式变化快。网页文档与典型的具有结构化数据的数据库系统不同,如雇员记录信息。在这里结构化不仅是指数据都符合统一的格式,就像一条记录类型的描述一样,并且一条记录中的字段也须由具有确定意义单一数据类型构成。而如果为一个网页文档定义数据类型,就拿一篇新闻网页来说,为它的正文、数字和图片的组成成分定义的数据类型远没有一条雇员记录的一个字段的类型意义清晰。一个电子邮件就是半结构化数据的例子,它的头域有明确的定义而它的正文体却是半结构化的。因此,要实现网页的正文提取,不能像数据库系统一样,提取某一特定字段就可以实现,而是要分析其HTML语义,从而在HTML文档中找到正文所在的位置并加以提取。当前网页正文提取的方法有很多,文献[4]的方法是对于使用同一个模板生成的网页集,找出在该网页集中多次出现的内容,作为冗余内容,而在该网页集中共同出现较少的内容块就是有效的网页正文。实验证明该方法是有效的,但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,因此该方法显然不够通用。还有一种比较流行的方法是通过对网页划分为多个块,然后根据某种算法进行取舍,找到正文所在的那个块,提取出来。现在存在多种网页划分成块的方式,如基于DOM的分割[5],基于位置的分割[6],还有Vision-basedPageSegmentation[7]。在文献[8]中作者使用SiteStyleTree(SST)来描述网页的版面和内容,并定义了SST中节点的重要程度,通过节点的删剪来得到网页正文。以上方法都是对HTML语义结构进行分析,找到网页正文所在的位置进行处理,提取出网页的正文。但这些方法对于网页结构出现非常规现象时,效果不好。比如网页的正文极短,而该网页中的广告栏含有的文字量很大,这样会把广告所在的部分当成了正文部分提取出来,造成提取的失败。3.2HTML元素选择删除法本文基于以上分析,提出了一种HTML元素选择删除法的新算法。该算法主要思想是通过对HTML标签语义进行分析,先删除无用的HTML标签元素,再通过分块的方法提取出网页的正文部分。元素选择删除的分析过程如下:首先是网页正文存放的位置,它是包含在之间,作为某个HTML元素的内容出现的,比如

元素的内容。因此我们只需要对有内容的元素进行分析,而那些没有内容只有标签的元素可以删掉。例如注释标签


等就被删除。对于有内容的HTML元素,例如style和script等元素不包含正文。style元素主要是用来改善网页的显示效果的,它的内容主要是设计网页显示的属性,和网页正文无关;script元素是脚本程序,用来设计动态网页,它的内容也和网页正文无关。因此要将这两个元素删除。而超链接标签在这里也被删除,虽然超链接有可能出现在正文中,但是本文只是研究网页的主体正文提取,对超链接的恰当处理可参阅文献[9]的“压缩超链接树”的算法。删除无用HTML元素之后,再通过对网页分块,找到网页正文所在的元素,提取出该元素的内容,得到网页的正文。HTML元素选择删除法的具体算法如下:1将网页的HTML代码以文本形式读入字符串s中;2将s中的字符全部小写化,便于后面的字符匹配; 第x期朱征宇等:基于HTML语义分析的网页正文提取33调用删除无用元素模块,对s进行净化;4调用转义字符转换模块,把s里面的转义字符转化成正常字符;5网页分块,将s中包含网页正文的元素提取出来组成新的字符串s1;6提取出s1中元素的内容,保存,其即为网页的正文部分。程序流程图如图1所示:图1程序模块流程图3.3删除无用元素模块在删除无用元素模块中,由于style元素,script元素,a元素是必须有结束标签的,所以很容易定位这些元素所对应的子字符串在字符串s中的位置和长度,但考虑到很多网页的不规范性,为提高程序的容错性能,采用了一种标签配对的方法,将这些要删除的元素各部分补齐,然后再进行匹配删除。标签配对的方法如下:由于在style元素、script元素和a元素的内容中,除了存在注释标签<!--注释-->外,不会出现其他的标签,因此从开始标签向后查找,在除注释标签之外的其他标签之前插入结束标签即可完成标签配对。虽然HTML协议允许出现元素的交叉,即的情况,但style元素,script元素和a元素不会出现这种情况,故在此不再考虑这种情况。4实验数据及结果HTML元素选择删除法的程序实现是采用的Delphi7设计的,开发的硬件平台为:pentium42.4G的CPU,512M内存。为了验证这个新算法的正确性,特从各大网站下载了1万张网页进行了实验,并随机抽取了1000张网页的处理结果进行验证,只有少数几个网页没有抽取出正文,经分析发现是由于该网页是一个网站的首页,全部是链接构成的,没有正文部分,故认为程序是正确的。该程序在执行效率上也是很好的,对一个1000字左右的网页抽取正文,平均时间为573毫秒。并且本算法克服了分块算法容易出现的错误,即找错网页正文所在的块。如链接地址为http://news.sina.com.cn/w/p/2006-12-30/180811925138.shtml的网页,它的正文部分只有一句话,而与正文无关的广告却占了很大篇幅,这样就会造成网页正文提取的失败,而本算法可以顺利提取出该网页的正文部分。如图2所示:图2网页正文提取实例经过一些有代表性的网站(见表1)测试,我们认为该方法能有效得到大部分HTML网页的正文部分。表1经过测试的网站www.sina.com.cnwww.tom.comwww.sohu.comwww.chinaren.comwww.yahoo.com.cnwww.21cn.comwww.163.comwww.china.com/zh_cn/为了验证本算法的效果,采用聚类实验来检验。在聚类实验中,准备五类网页,分别为:算命类、主持人类、计算机类、政治类、宠物类,每类网页数为30。本文做了两组实验,在第一组实验中,没有使用网页正文提取而直接对网页提取特征描述,然后采用遗传算法与k-means结合的聚类方法聚类,记录聚类的实验数据。在第二组实验中,先调用本文中的算法来得到网页测试集的正文,然后得到网页的特征描述,最后采用的与第一组相同的聚类方法聚类,记录聚类的实验数据。在这里本文使用网页的召回率和精确率来描述聚类的结果。两组实验的数据结果对比如图3、图4所示: 第x期朱征宇等:基于HTML语义分析的网页正文提取3图3召回率对比图4精确率对比通过图3、图4所做的对比可知,在使用了本算法的第二组数据中,聚类的召回率和精确率都有了改进,特别是精确率有了明显的提高。5结束语网页文档是网上应用最多的文件格式,处理好网页文档对处理网上的信息内容有很大的意义。本文提出了一种网页文档提取正文的方法,该方法通过对HTML的语义分析,得到网页的正文。测试表明该方法能有效地得到大部分网页的主体部分。本文中对HTML文件正文提取的方法不仅可以用于提取出HTML文件的主体文本,还可以用于网页的特征提取以及网页的分类、推荐等web服务领域,具有较强的推广应用价值。参考文献[1]TkachD.TechnologyTextMining:TurningInformationintoKnowledge[R].AWhitePaperfromIBM,1998.[2]BaizilayR,ElhadadM.UsingLexicalChainsforTextSummarization[C].Madrid,Spain:ProceedingoftheACL’97/EACL’97WorkshoponIntelligentScalableTextSummarization,1997.[3]LemayL,DaneshA.宛延闿,周晓牧,苏俊等译.HTMLWeb页面制作教程[M].北京:清华大学出版社,2000.[4]ShianHuaLin,JanMingHo.DiscoveringinformativecontentblocksfromWebdocuments[J].SIGKDD,2002.[5]Chen,J.,Zhou,B.,Shi,J.,Zhang,H.-J.,Qiu,F.FunctionBasedObjectModelTowardsWebsiteAdaptation.Procrrdingsofthe10thWorldWideWebconference,2001.587~596.[6]Kovaceivic,M.,Diligenti,M.,Gori,M.,Milutinovic,V..RecognitionofCommonAreasinaWebPageUsingVisualInformation[C].Apossibleapplicationinapageclassification.Proceedingsof2002IEEEInternationalConferenceonDataMining(ICDMp02),2002.250.[7]Yu,S.,Cai,D.,Wen,J.-R.,Ma,W.-Y..ImprovingPseudoRelevanceFeedbackinWebInformationretrievalUsingWebPageSegmentation[C].ProceedingsoftwelfthWorldWideWebConference(WWW2003),2003.11~18.[8]LanYi,BingLiu,XiaoliLi.EliminatingNoisyInformationinWebPagesforDataMing[C].ProceedingsoftheninthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2003.296~305.[9]因特网上文本网页信息处理和自动分类研究[D].清华大学硕士学位论文,2000.作者简介:朱征宇(1959-),男,重庆人,副教授,博士,研究方向为Web智能检索、电子商务和数据库技术;任翔(1983-),男,山东人,硕士生,研究方向为个性化服务和Web网页特征提取;苑昆峰(1978-),男,河南人,硕士生,研究方向为个性化服务和Web网页特征提取;徐静秋(1979-),女,重庆人,硕士生,研究方向为个性化服务和推荐算法;田云艳(1983-),男,重庆人,硕士生,研究方向为个性化服务和聚类算法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭