一种基于语义web挖掘方法探究

一种基于语义web挖掘方法探究

ID:6058660

大小:28.00 KB

页数:6页

时间:2018-01-01

一种基于语义web挖掘方法探究_第1页
一种基于语义web挖掘方法探究_第2页
一种基于语义web挖掘方法探究_第3页
一种基于语义web挖掘方法探究_第4页
一种基于语义web挖掘方法探究_第5页
资源描述:

《一种基于语义web挖掘方法探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一种基于语义Web挖掘方法探究  摘要:在已有的基于DomTree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。关键词:语义Web;Web挖掘;网页分块中图分类号:TP311.5文献标识码:A文章编号文章编号:16727800(2014)001005402基金项目基金项目:国家科技支撑计划项目(2012BAH27B03);石河子大学自然科学与技术创新联合

2、资助一般项目(ZRKXYB-LH23)作者简介作者简介:李伟(1980-)男,硕士,石河子大学信息科学与技术学院讲师,研究方向为Web开发技术、计算机网络。0引言6面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。本文探讨了一种网页分块方法,能识别出网页中的主题内容信息块,从而提取出有价值的主题内容。这种方法可以去除网页中的噪音,极大地方便后续数据挖掘与Web分析。1研究现状语义信息主要包括网页中包含的HTML标签信息、HTMLDOM树的结构信

3、息、文字内容信息、超链接信息等,现有网页分块算法是在网页分块的过程中完成内容提取的[1]。SiteLevel算法实现了分析一个网站或者网页集内部的所有网页,从中提取导航栏、广告等噪音信息。采用正则表达式来改进SiteLevel算法则增加了算法的召回率[2]。PageLevel算法能够适应各种不同网页结构的内容抽取,算法通过提取一些网页节点来完成分块工作[3,4],以上工作需要给出标准的网页分块[5],其对不标准的分块效果不理想。2语义挖掘算法2.1网页分块方法在借鉴上述研究基础上,本文分析了W3C制定的HTML4.01格式规范,将

4、所有规范的Html标签进行分类,分类标签如表1所示。6在明确了各html标签的类别之后,利用DomTree中各标签节点的类别信息和内部文字长度,以及其子标签节点的类别信息,对DomTree自底向上遍历,在遍历的过程中不断判断出新的网页块,并加入网页块池中,当遍历到最上部的html根节点时,算法结束,网页分块完毕。分块方法的核心伪码如下:INPUT:某单个网页构建的DomTree,定制标签节点列表BEGIN①用DomTree的叶子节点,也就是文字节点建立一个当前节点队列,开始自底向上遍历;②取当前节点队列的第一个节点;③如果遇到S型

5、节点,则立即将此节点加入网页块池;④如果遇到C型节点,则立即将此节点加入网页块池;⑤如果遇到B型节点,则判断该节点内部的文字长度是否已超过阈值,或者该节点内部的L型节点比例是否超过阈值,如果满足上述两个条件之一,则将此节点加入网页块池;否则将其内部文字长度信息和自身信息向父节点传递,然后将父节点加入当前节点队列,回到②;⑥如果遇到L型节点,则将其内部文字长度信息和其自身信息向父节点传递,然后将父节点加入当前节点队列,回到②;⑦如果遇到D型或A型节点,则将其内部文字长度信息向父节点传递,然后将父节点加入当前节点队列,回到②;⑧当前节

6、点队列为空时,遍历结束,算法终止。END2.2挖掘算法6采用基于规则和基于Bayes的语义分析相交的方法判断每个网页块的类型,然后对它们求交集,只有两个方法共同认定的主题内容块才能最终被认定。算法的伪码阐述如下:2.2.1基于文本相似度的方法(1)首先,把所有网页块中,文本长度最大的那个网页块判定为主题内容块。(2)用其余网页块逐个与最大的网页块比较文本相似度。文本相似度的计算如下:①将两个网页块分别切词,去除停用词后,存储成token流;②对两个token流分别排序;③对排序后的两个token流计算token的重复数;④用tok

7、en的重复数除以较小的token流中的token个数,得到两个网页块的文本相似度。(3)若文本相似度大于一个阈值,则该网页块也判定为主题内容块。2.2.2基于Bayes的方法利用Bayes概率的计算公式,计算出每个网页块是不是主题内容块的后验概率。若该后验概率大于0.5,则判定该网页块为主题内容块,否则反之。2.2.3求交两个方法共同判定的主题内容块即为最后认定的主题内容块。3系统设计6语义挖掘的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其它的存储形式,这个过程需要的工作包括:下载网页配置、解析网页配置

8、、修正结果配置、数据输出配置。配置完毕后,把配置形成任务(任务以XML格式描述),发布到采集服务器群组,采集爬虫按照任务的描述开始工作,最终把采集到的结果存储到结果存储服务器。然后用户的信息处理系统就可以到结果存储服务器上取到数据,作为自己的数据源

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。