浅谈基于web的数据挖掘

浅谈基于web的数据挖掘

ID:37186285

大小:35.51 KB

页数:5页

时间:2019-05-21

浅谈基于web的数据挖掘_第1页
浅谈基于web的数据挖掘_第2页
浅谈基于web的数据挖掘_第3页
浅谈基于web的数据挖掘_第4页
浅谈基于web的数据挖掘_第5页
资源描述:

《浅谈基于web的数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、浅谈基于Web的数据挖掘摘要:本文简单介绍数据挖掘、基于web的内容挖掘、基于web的结构挖掘、web使用模式挖掘的基本概念与了web数据挖掘的发展方向和趋势。关键词:web挖掘web内容挖掘web结构挖掘web使用模式挖掘中图分类号:tp393.09文献标识码:a文章编号:1007-9416(2011)11-0196-01随着internet技术的发展和普及使信息获取和发布的方式发生了巨大的飞跃和本质性的变化。人们如何能不被web信息的汪洋大海所淹没,快速有效地找到所需的信息,提高信息的利用率是我们急需解决的问题。很难快速有效的找到所需的信息。面对铺天盖地的信

2、息,似乎是能够满足大家需求,但是实际的情况是:对99%的用户来说,web上99%以上的信息是没有用处的。随着时间的的推移,人们发现数字时代的“图书馆”并不能支持有组织的信息管理和检索。恰恰相反,他只是一个个杂乱的信息仓库。这个仓库中只有文本、书刊、论文等,转瞬即逝的信息和具有重要的资料混杂在一起,使得我们无法快速有效的找到所需的信息。信息服务的个性化。为了提高站点的知名度和效益,运营商必须要了解客户需要什么、想做什么以及浏览目的;从用户角度来看,由于每个用户的年龄、兴趣、目的、层次的不同,用户希望运营商能够提供个性化的服务。为了吸引用户,提供商必须根据绝大多数客

3、户的兴趣,展开有针对性的个性化服务。1、数据挖掘(datamining,dm)的定义数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场决策等方面提供依据。从这个定义可以看出数据挖掘有以下几个特点:处理的数据规模十分巨大;挖掘出来的知识不能预知;由于数据变化迅速,规则只能反映当前数据库的特征,随着不断地加入新数据,规则要不断更新,要求在新的数据上修正原来的规则,从而快速做出反应,这种情况称为“增量式”的数据挖掘;数据挖掘中,规则的发现

4、基于大样本的统计规律,当置信度达到某一阈值时,就可以认为规则成立。2、web挖掘2.1web挖掘的定义所谓web挖掘就是指在www上挖掘有趣的、潜在的、蕴藏的信息及有用的模式。2.2web挖掘的分类目前的主要有三种web挖掘技术:web结构挖掘、web使用模式挖掘、web内容挖掘。2.2.1web结构挖掘web结构挖掘是从www的组织结构和web文档及其链接关系中推导出潜在的知识和模式。web内容挖掘主要针对的是内部文档,而web结构挖掘这要针对的是外部文档的超链接结构,挖掘web结构的目的是发现web的结构和页面的结构及其蕴含在这些结构中的有用模式;对页面及其

5、链接进行分类和聚类,找出权威页面;发现web文档自身的结构。文档之间的链接反映了文档之间的引用关系,一个网页被引用的次数体现了该页面的重要性。根据文档的重要性把文档放在相应的位置,这样可以使用户尽快找到感兴趣的web页面,节约用户的时间,而且提高了web服务器的服务质量,降低了服务器的负荷。2.2.2web使用模式挖掘web使用模式挖掘就是对用户访问web服务器是留下的日志进行挖掘。如用户的访问的时间、网络地址、目的信息的网络地址及传输的信息量等。web使用模式挖掘就是从web的访问日志中获取用户访问web的规律并预测用户的网上行为。web使用模式的挖掘主要有两

6、个方面:用户访问模式挖掘和个性化挖掘。用户访问模式挖掘通过分析web使用记录来了解用户的访问模式和倾向。在www中,文档通过超链接相连便于用户浏览,用户为了寻找感兴趣的信息经常通过超链接从一个页面跳到另一个页面。多数web分析工具仅能提供单个站点的统计信息,而不是整个web中的路径信息。这种简单的统计已经不能满足信息服务的飞速发展。理解用户的路径不仅有助于改进系统设计,而且有助于做出更好的市场决策。个性化挖掘则倾向于分析单个用户的偏好,目的是根据用户的访问方式,动态的为用户指定观看的内容或提供浏览建议,使得网站更加生动。2.2.3web内容挖掘web内容挖掘就是

7、从web的内容、数据和文档中获取潜在的、有价值的知识和模式的web内容挖掘。从内容方面讲,web内容挖掘可分为对web文本文档和多媒体文档的挖掘。对文本文档的挖掘称为文本挖掘。大量可利用的信息存储文本或文档数据库中。文档数据库包含大量的文档,如新闻文章、技术论文、书籍等。因此文本信息检索和数据挖掘日益重要。查全率、查准率和f-score是信息检索的三种流行度量。已经开发了很多文本检索方法,这些方法或者关注文档选择或者关注文档的秩的评定,后者常使用空间向量模型。潜在语义标引、保持局部性标引和概率潜在语义标引可用于文本维度规约。文本文档的挖掘迈出了一步,超越了关键词

8、和基于相似的信息检索,利

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。