基于xml的web数据挖掘

基于xml的web数据挖掘

ID:33728165

大小:2.57 MB

页数:75页

时间:2019-02-28

基于xml的web数据挖掘_第1页
基于xml的web数据挖掘_第2页
基于xml的web数据挖掘_第3页
基于xml的web数据挖掘_第4页
基于xml的web数据挖掘_第5页
资源描述:

《基于xml的web数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学硕士学位论文基于XML的WEB数据挖掘姓名:周晓兰申请学位级别:硕士专业:计算机应用技术指导教师:王随平20070508摘要随着Internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此缤纷复杂的Web空间,如何从浩如烟海的网络数据中发掘所需信息已经成为人们所关注的一个重要问题。虽然用户可以依赖于各种搜索引擎快速、高效、准确地检索到相关的信息,但是要想找到用户所需要的信息,还是有很大的困难。近年来出现的Web数据挖掘,特别是基于XML的WEB数据挖掘对解决这个难题提供了一个有效手段。本文研

2、究了基于XML的WEB数据挖掘的基本方法和技术。阐明了数据挖掘的必要性、基本方法、主要过程、所涉及到的技术,以及数据挖掘和在线分析处理的联系等,并阐述了XML的相关技术。在此基础上,探讨了XML与WEB数据挖掘技术,认为基于XML的WEB挖掘分为XML结构上的挖掘和XML内容上的挖掘;XML在WEB挖掘中主要有数据交换、实现异构数据集成、裁减信息内容、将负载从WEB服务器转到WEB客户端等四类应用,基于XML的WEB数据挖掘可分为确定业务对象、数据准备、数据挖掘、模式评价四个步骤。论文重点研究了非结构化文档向结构化文档转化的方法,设计并实现

3、从非规则、非严谨的HTML文档向结构化XML文档转化的过程,根据用户浏览网页的行为建立用户的兴趣模型,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个基于xml的Web数据挖掘系统。此系统可以帮助用户更好地从网络环境中挖掘到自己需要的信息。由用户的Cookies获得用户在某个域名上的点击次数和登陆次数,从收藏夹中获得用户收藏夹上的记录和收藏夹中记录的访问次数,或者利用钩子函数进行用户浏览网页的动态分析,并根据这些数据建立和更新用户兴趣模型。根据XML文档的结构特征从XML网页中抽取网页的特征向量,采用改进了的TF_IDF公式

4、计算其特征权值。根据网页特征向量与用户兴趣向量的值计算它们的相似度,把相似度进行排序,根据用户需求把相似度大的网页推荐给用户,把用户最感兴趣的信息放在最前面。所有的研究目的就是提供一个实用的Web挖掘系统,帮助人们更好地找到自己所要的知识。在理论论证基础上,论文对挖掘原型进行系统设计、功能模块分解和实验分析。最后,指出了基于xml的Web数据挖掘的研究方向、应用前景和它所面I临的挑战。这一技术将成为未来Internet环境中主流的网络计算技术。关键词数据挖掘,xml,用户兴趣模型,网页推荐IIABSTRACTWiththerapiddeve

5、lopmentofInteract,moreandmoredatabasesandinformationsystemjointhenetworkunceasingly,whichcausesmassivedatainthenetwork.FacingsuchriotouscomplexWebspace,howtoexcavatetheneededinformationfromthevoluminousnetworkdatahasalreadybecomeanimportantquestion.Althoughtheusermayrelyon

6、variouskindsofsearchenginetoretrievetheconnectedinformationfast,highlyeffective,andaccurately,itisstilldifficulttofmdtheinformationwhichtheuserneeds.Inrecentyears,theWebdatamining,especiallytheWEBdataminingwhichbasedon)@几,provideaneffectivemethodtosolvethisdifficultproblem

7、.ThisarticlestudiestheessentialmethodandtechnologyoftheWEBdataminingwhichbasedontheX~几.illustratesthenecessity,essentialmethod,mainprocess,concerningtechnologyofthedatamining,aswellastherelationofthedataminingandtheonlineanalysisprocessingetc.,italSOelaboratestherelatedtec

8、hnologyofXM吐.Withthisfoundation.itdiscussesthetechnologyoftheX^Ⅱandthe、ⅣEBdatamining.rega

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。