基于web的数据挖掘方法的研究及实现

基于web的数据挖掘方法的研究及实现

ID:34139642

大小:57.19 KB

页数:4页

时间:2019-03-03

基于web的数据挖掘方法的研究及实现_第1页
基于web的数据挖掘方法的研究及实现_第2页
基于web的数据挖掘方法的研究及实现_第3页
基于web的数据挖掘方法的研究及实现_第4页
资源描述:

《基于web的数据挖掘方法的研究及实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、(自然科学版)JournalofHefeiUniversity(NaturalSciences)2005年6月第15卷第2期Jun.2005Vol.15No.2基于Web的数据挖掘方法的研究及实现何鲲,朱方洲(安徽经济管理干部学院,合肥230051)摘要:Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。关键词:Web的数据挖掘;XML

2、;XHTML;JAVA中图分类号:TP311.52文献标识码:A文章编号:1673-162X(2005)02-0024-04随着Web技术的发展,各类电子商务网站风起云涌,建立一个电子商务网站困难的是如何使其有效益。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,如何分析和挖掘这些数据,充分了解客户的喜好和购买方式,从而设计出满足于不同客户群体需要的个性化网站,进而增强其竞争力。在挖掘网站数据时,需要的数据主要来自于客户登记表中的客户背景信息和浏览者的单击流(Clickstream),此部分数据主要用于考察客户的行为表现。如果客户不愿意把背景信息填

3、写在登记表中,就会给数据分析和挖掘带来不便;这时就不得不从浏览者的表现数据中来推测客户的背景信息,进而加以利用。本文将讨论使用标准的Web技术———HTML、XML和Java开发的一种基于Web的数据挖掘方法。1Web数据挖掘的难点Web上有海量的数据信息,如何对这些数据进行复杂的应用成为现今数据库技术研究热点。数据挖掘就是从大量的数据中发现隐含的规律性内容,解决数据的应用质量问题。充分利用有用数据,废弃无用数据,是数据挖掘技术的最重要应用。相对于Web数据而言,传统数据库中的数据结构性强,即其中的数据为完全结构化的数据,而Web上的数据最大的特点就是半结构化

4、。显然,面向Web的数据挖掘比面向单个数据仓库要复杂的多。1.1异构数据库环境从数据库的研究角度出发,Web中的信息可以看作一个更大更复杂的数据库;每一个站点就是一个数据源,由于站点之间的信息和组织不同,因而构成一个巨大的异构数据库环境。如果要利用这些数据进行挖掘,首先必须研究站点之间异构数据的集成问题,只有集成这些站点的数据,为用户提供一个统一的视图,才有可能从巨大的数据资源中获取所需的内容;其次,还要解决Web上的数据查[1]询问题,因为如果所需的数据不能很有效得到,则分析、集成并处理这些数据就无从谈起。1.2半结构化的数据结构传统数据库都有一定的数据模型

5、,可以根据该模型具体描述特定的数据;而Web上的数据非常复杂,没有特定的模型描述。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,因而Web上的数据具有一定的结构性;但因自述层次的存在,从而是一种非完全结构化的数据,即半结构化数据。半结构化是Web上数据的最大特点。1.3解决半结构化的数据源问题Web数据挖掘技术首先要解决半结构化数据源模型及其查询和集成问题,解决这个问题必须要有一个模型清晰地描述Web上的数据,查询一个半结构化的数据模型是关键[2]所在。除定义这个模型外,还需要一种自动地从现在数据中抽取半结构化模型的技术。面向Web的数据挖

6、掘必须以半结构化模型和半结构化数据模型抽取技术为前提。2XML与Web数据挖掘技术以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,收稿日期:2005-03-17修回日期:2005-04-11作者简介:何鲲(1969-),男,安徽桐城人,安徽经济管理干部学院讲师,合肥工业大学博士研究生,研究方向:数据处理。©1994-2006ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net第2期何鲲,朱方洲:基于Web

7、的数据挖掘方法的研究及实现25而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将[3]XML的文档描述与关系数据库中的属性一对应起来,实施精确的查询与模型抽取。XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行

8、通信的应用;试图将大部分处理负载从We

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。