web数据挖掘综述

web数据挖掘综述

ID:27997729

大小:125.00 KB

页数:5页

时间:2018-12-07

web数据挖掘综述_第1页
web数据挖掘综述_第2页
web数据挖掘综述_第3页
web数据挖掘综述_第4页
web数据挖掘综述_第5页
资源描述:

《web数据挖掘综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web数据挖掘综述摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因此如何从Web庞大的数据中提取出有价值的信息成为一大难题。Web数据挖掘正是力了解决这一难题而提出的一种数据挖掘技术。本文将从Web数据挖掘的概念、分类、处理流程、常用技术等儿方而对Web数据挖掘进行介绍,并分析了Web数据挖掘的应用及发展趋势。关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势OverviewofWebDataMiningAbstract:Overthepastfewdecades,therapiddevelopmentofWebmakesitbecomi

2、ngtheworld'slargestpublicdatasources.SohowtoextractvaluableinformationfromthemassivedataofWebhasbecomeamajorproblem.Webdataminingisthedataminingtechnologywhatisinordertosolvethisproblem.ThisarticleintroducestheWebdataminingfromitsconcept,classification,processing,andcommontechniques,andanaly

3、zestheapplicationandthedevelopmenttendencyofWebdatamining.Keywords:WebDataMining;Classification;Processing;CommonTechniques;Application;DevelopmentTendency0.引言近些年來,互联网技术的飞速发展,带來了网络信息生产和消费行为的快速拓展。电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联网信息数量的急剧增LC信息资源前所未有的丰富。但同时,海量级、碎片化的信息增加了人们获取有效信息的吋间和成本

4、[11。因此,迫切需要找到这样的工具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。1.Web数据挖掘概念Web数据挖掘,简称Web挖掘,是由OrenEtzioni在1996年首先提山来的p】。Web数据挖掘是数据挖掘在Web上的应川,它利川数据挖掘技术从与Web相关的资源和行力中抽取感兴趣的、有用的模式和隐含信息,涉及数据库技术、信息获取技术、统计学、机器学习和祌经网络等多个研究领域的技术[31。2.Web数据挖掘分类Web上包括三种类型数据:Web页面数据、Web结构

5、数据和Web日志文件[4]。依据在挖掘过程中使用的数据类别,Web数据挖掘可以分为Web内界挖掘,Web结构挖掘,Web使用挖掘三类。2.1Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。根据挖掘出來的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。2.2Web结构挖掘Web结构挖掘是从Web组织结构和链接欠系中推导知识、挖掘页面的结构和Web结构,可以用来指导页而采集工作,提商采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。2.3Web

6、使用挖掘Web使用挖掘是从服务器端记录的用户访I'uJ口志或从用户的浏览信息屮抽収感兴趣的模式。通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化服务[5]。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。图1Web数据挖掘分类示意图3.Web数据挖掘处理流程与传统数据和数据仓库相比,Web上的信息具有岛度异构和半结构化特性[61,并II是动态的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理,典型的Web数据挖掘的处理流程如下3.1查找资源任务是从目称Web文档中得到数据,

7、值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的円志甚至是通过Web形成的交易数据库中的数据。3.2信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告链接,去除多余格式标记、I)动识别段落或者字段,并将数据组织成规整的逻辑形式甚至关系表。3.3模式发现对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。3.4模式分析对发现的模式进行解释和评估,必要时需返回前而处理中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。