Internet上的信息提取

Internet上的信息提取

ID:39104394

大小:1.09 MB

页数:31页

时间:2019-06-24

Internet上的信息提取_第1页
Internet上的信息提取_第2页
Internet上的信息提取_第3页
Internet上的信息提取_第4页
Internet上的信息提取_第5页
资源描述:

《Internet上的信息提取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1IIternet上的信息提取前言自从六十年代出现网络互联,到现在发展成全球性的Internet,计算机网络在儿十年来迅猛发展,并在无形中改变了我们工作和生活的方式。在这个网络时代,符种各样的信息正在以爆炸性的速度增长,作为信息时代的载体一Internet,互联网页上的信息更是浩如烟海。信息扩张的速度是如此之快,大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:”要学会抛弃信息’。

2、人们开始考虑:’如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”。这样web数据挖掘技术应运而生,面对海量的网络信息,它专门研究如何从网络上提取出有用的信息,网页上的大部分信息都是以HT虬的格式来发布的,而HTML语言的设计是让人们浏览用的,所以几乎所有的数据都是无规则的放置在格式标签里面,很难用于自动处理。半结构化或者无结构化的网页布局加大了数据分析的难度。为了更好的利用和处理网络上的信息,当前信息产业的技术产生了两个发展方向,一个是语义网技术,它可以从根本上改善网络的信息结构;另一个方向就是

3、web数据挖掘,利用数据挖掘技术来淘取Intenlet上的海量信息。本文详细介绍7一种web数据挖掘的方法,用于Inter兀et上信息的自动提取。该方法用ⅫL作为数据载体,在处理的过程中使用一种新的x扎地址定位语言——xPointer来抽取网页的信息,与其他类型的抽取方式(HTMLExtractonLanguage,xPath)相比,既保证了技术的标准化,又提供了强大的功能。在对信息提取的过程中,还引入了xQuery语言作一些复杂信息的分析和提取,它为XML中的信息提取带来了类似数据库查询的强大功能。本文章节组织如

4、下:第一章介绍了Web数据挖掘的一些相关知识,包括web数据挖掘的背景、特点、应用与当前研究现状。第二章介绍了w曲数据挖掘的一个分支,Intemet上的信息提取。并简单说明了本文的主要研究方向。第三章阐述本文的主要研究思路,一种基于Ⅺ证L的信息提取方法。第四章通过实验验证本文的研究思路。第五章对本文的内容和观点给出一个总结。hltemct上的信息提取第一章Web数据挖掘概述1.1web数据挖掘背景Internet上包含着海量的数据资源,它涉及新闻、教育、公司、政府等各行各业,可以说,Internet是一个巨大的知识

5、库和信息交流中心。另外,网页上还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,分析这些信息对改善网站设计,提高网站知名度有很好的效果。Internet上提供了丰富的数据资源具有庞大、动态、异构、半结构化等不同于传统数据库中结构化数据的特点,要想充分利用这些海量的数据,就必须提供一些自动化的信息提取和分析工具。传统的数据挖掘基于关系数据库或数据仓库,所处理数据具有完整的结构,DBMS还提供了查询和统计工具。但是Internet上的数据却是无序的、非结构的,并且存在着大量的冗余与噪声。如何从Intern

6、et上快速、有效地发现和分析信息,成了当前信息技术研究的热点。[1]对于信息的搜索,搜索引擎部分的解决了问题,但是它往往会返回给用户成千上万个检索到的网页链接,而其中很大一部分与用户的检索要求无关,用户不能快速、准确地得到所需的有价值的信息。此外,搜索引擎的目的在于发现wEB上的资源,就I『EB上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,需要开发比信息检索层次更高的新技术——_l『EB数据挖掘。为从海量数据中发现有效、新颖、有用、可理解的模式。数据库领域采用了数据挖掘技术。但是,数据挖掘所涉及的

7、多是结构化数据,为了处理WEB上的异构、非结构化或半结构化数据,wEB数据挖掘成为数据挖掘研究的一个重要分支。尽管WEB数据挖掘是比现B信息检索更高层次的技术,但它并不是用来取代WEB信息检索技术的,二者是相辅相成的。我们可以在已有的成熟的WEB信息检索技术的基础上展开对舵B数据挖掘的研究,同时又可以利用WEB数据挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织。使wEB信息检索发展到一个新的水平。1llterllet卜的信息提取1.2web数据挖掘的定义wEB数据挖掘是一门综合技术,它涉及很多研究领域

8、,例如数据挖掘、语言识别、统计学和信息提取等等。基于WEB数据挖掘在于信息模式的挖掘,现将wEB数据挖掘定义如下:wEB数据挖掘是从一个巨大数据集合(Internet)c中发现信息模式p的过程,它可以描述成一个关系映射:[2]C一>p(卜1)由于WEB数据挖掘来源于数据挖掘,它的定义类似于数据挖掘的定义。不同的是,w邛数据挖掘有着不同的数据集合(Intern

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。