面向分类信息网站数据挖掘算法的研究与应用

面向分类信息网站数据挖掘算法的研究与应用

ID:5350656

大小:299.55 KB

页数:4页

时间:2017-12-08

面向分类信息网站数据挖掘算法的研究与应用_第1页
面向分类信息网站数据挖掘算法的研究与应用_第2页
面向分类信息网站数据挖掘算法的研究与应用_第3页
面向分类信息网站数据挖掘算法的研究与应用_第4页
资源描述:

《面向分类信息网站数据挖掘算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第16卷第6期电脑与信息技术Vo1.16No.62008年12月ComputerandInformationTechnologyDee.20o8文章编号:1005—1228(2008)06—0034—04面向分类信息网站数据挖掘算法的研究与应用杨波,陈宁,郁云,安源(1.南京信息职业技术学院,南京210046;2.赣榆县发展与改革委员会,赣榆222100)摘要:文章在分析数据特点的基础上进行了关联规则的数据挖掘。阐述了关联规则挖掘的基本理论,给出了关联规则挖掘的一般模型,并在介绍了著名的Apriori

2、算法的前提下,将哈希技术应用到Apriori算法中,提出了HTBA算法,并通过Ⅵ.ciW0518.cn的数据实例加以分析。关键词:分类信息;数据挖掘;关联规则;Apriori算法中图分类号:TP311文献标识码:AClassifiedInformationWebsiteOrientedResearchandApplicationonDataMiningAlgorithmsYANGBo,CHENNing,YUYun,ANYuan2(1.NamingColegeofInformation&Technolo

3、gy,Nanjing210046,China;2.Develops&ReformsCommitteeofGanyuCoun~,Ganyu222100.China)Abstract:Onthebasisofthedatacharacteristic,havingcarriedoutdataMiningaboutassociationrules.ThemodelofassociationrulesandclassicalApriorialgorithmareintroduced.Inordertoimpr

4、oveitseficiency,analgorithmcalledHTBAisproposedwhichintroducestheHashtree.andthedataexampleformⅥcity0518.CI1areverifiedbyHTBA.Keywords:classifiedinformation;datamining;associationrules;Apriorialgorithm很实用的规则。关联规则模式属于描述型模式,发现关0引言联规则的算法属于无监督学习方法。随着社会进入网络信

5、息化、经济一体化的时代,发掘关联规则问题可以看作是在一个所有属性均各种综合信息服务网站应运而生,给我们带来了大量为布尔类型的关系表中寻找“l(T)”值之间的关联。在的数据,而通过传统方法所获得的数据中的信息量仅关系表的一个记录中,某个属性的值为“1(T)”则表示仅是整个数据库所包含信息的一小部分,即数据的表在相应的事务中包含了相应的项目,否则属性值为“0层信息,而隐藏在这些数据之后的更深层次、更重要(F)”,在这种f青况下发现的关联规则称为布尔型关联的信息即关于这些数据的整体特征的描述及对其发规则,但

6、是数据库属性的类型是多种多样的,当属性是展趋势的预测等信息,我们是无法用传统的方法来获定量型或定陛型,在这些属性中发现的关联规则就被取的。数据挖掘技术的出现,为解决建模准确性问题,称为定量型关联规则。即从“海量数据”中自动挖掘出影响网站运营状况的先举例分别说明定量型(quantitative)、定性型因素,提供了非常有效的数据处理手段,有着广阔的(categorica1)和布尔型属性。定量型属性是指值域不可应用前景。数的连续或离散型属性,如年龄、价格等。而定性型属性则是值域可数的离散型属性,如城市规模

7、、商品种类1定量型关联规则的基本模型等。布尔型属性则是一种特殊的定性属性,其值域为在数据挖掘的知识模式中,关联规则是其中最成{0,1),因而定量关联规则的挖掘算法适用于布尔型数熟、最重要、最活跃的一种。关联规则的概念最早是由据表的关联规则挖掘。Agrawal于1993年提出的,是数据挖掘中一种简单但运用定量型属性的属性值离散化方法,可将定量收稿Ft期:2008—08一ll作者简介:杨波(1972一),男,江苏南京人,硕士,讲师,主要研究方向为图像处理,数据挖掘;陈宁(1957一),江苏南京人,高级工程

8、师,主要研究方向为系统集成。第16卷第6期杨波等:面向分类信息网站数据挖掘算法的研究与应用型属性的值域分割为多个分区。设Aq=(q。,q:,⋯q)为于用户最小支持度阀值的候选3一项目集构成频繁3一定量型属性集,为Ai=(‘,f2,⋯fm)定性型属性集,其中项目序列集L3。反复执行上述过程,直到没有新的候n,In为自然数,则数据库的属性集A可表示为选产生为止。A=AqUAf。。3改进的关联规则挖掘算法对于定量型属性集A=(q,q2,⋯q),设V=(v。,v

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。