基于web数据挖掘技术研究

基于web数据挖掘技术研究

ID:24592364

大小:68.12 KB

页数:7页

时间:2018-11-15

基于web数据挖掘技术研究_第1页
基于web数据挖掘技术研究_第2页
基于web数据挖掘技术研究_第3页
基于web数据挖掘技术研究_第4页
基于web数据挖掘技术研究_第5页
资源描述:

《基于web数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Web数据挖掘技术研宄摘要:基于Web的数据挖掘是采用数据挖掘技术对网页资源进行挖掘的一个热门研宄方向,此文分析了了网页数据挖掘的概念、分类、挖掘原理以及相关技术。关键词:数据挖掘;Web数据挖掘;分类;挖掘技术中图分类号:TP311文献标识码:A文章编号:1009-3044(2015)09-0016-02Abstract:WebbaseddataminingisahotresearchdirectionofWebpageminingresourcesusingthetechnologyofdatamining,thispaperanalysestheWebpagetheconc

2、eptofdatamining,classification,miningprincipleandrelatedtechnologyKeywords:datamining;webdatamining;classification;miningtechnology互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘領域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道,尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我们从事其他方面的运用

3、。基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。1数据挖掘的特点1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。3)数据挖掘的特点之三是数据库的结构存在不同,因为互联网上的一个网站可以存为一个数据源,它们的结构互不相关,异构性特点比较强,由它们构成

4、的数据库自然而然也属于一种异构的形式。4)数据挖掘的特点之四是动态性强,网站上的数据资源是不断更新变化的,找不到固定的形式,网站与网站的直接访问的链接是形式变化的。2数据挖掘过程基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半结构化的或非结构化、不容易识别、变化的,正因为它这些特点,要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。1)数据源的获取,在网站的各个页面中获取数据信息,组成目标数据信息源,再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录

5、、新闻信息、各种网站数据库中挖掘出有用的数据。2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式

6、再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。3数据挖掘分类在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖[3],如图2所示。4数据挖掘相关技术互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。4.1网页内容挖掘4.1.1网页文档挖掘网页文档挖掘就是分析网站上存在的数量很多的网页

7、文档采用聚类、分类、关联处理等多种方法进行分析,然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现,要采集这些网页文档数据,然后把这些文档数据变成记录的形式存贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式,由于文档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对数据分析不利,因此一个好特征表示主要集中在特征集的选取方面,特征集需求好,对数据进行分析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。