基于支持向量机的分布数据挖掘模型dsvm

基于支持向量机的分布数据挖掘模型dsvm

ID:33931174

大小:622.09 KB

页数:11页

时间:2019-02-28

基于支持向量机的分布数据挖掘模型dsvm_第1页
基于支持向量机的分布数据挖掘模型dsvm_第2页
基于支持向量机的分布数据挖掘模型dsvm_第3页
基于支持向量机的分布数据挖掘模型dsvm_第4页
基于支持向量机的分布数据挖掘模型dsvm_第5页
资源描述:

《基于支持向量机的分布数据挖掘模型dsvm》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第30卷第10期2010年10月系统工程理论与实践SystemsEngineering—Theory&PracticeVd,30.NO.10Oct..2010文章编号:100口6788(2010)1皿1855—09中图分类号:TP311文献标志码:A基于支持向量机的分布数据挖掘模型DSVM琚春华-,一,郭飞鹏3(1.浙江工商大学计算机与信息工程学院,杭州310018;2.浙江工商大学现代商贸研究中心,杭州3100183.浙江经贸职业技术学院信息技术系,杭州310018)摘要针对分布环境的数据挖掘要求,提出了基于支

2、持向量机的分布数据挖掘模型DSVM.定义了DSVM中特征多叉树的概念,描述了基于移动Agent访问分布数据集来构建特征多叉树的方法,阐述了通过特征多叉树来反映分布环境各数据集属性总体特征的思想,并利用该数据结构和支持向量机的特点,提出了基于壳向量的分布式支持向量机增量算法来修正和完善特征多叉树,最终实现分布环境下全局的数据挖掘.实验结果表明,该模型有效地解决原有分布环境下其他挖掘算法存储开销大、执行效率差、安全性和隐私性低等问题.关键词分布数据挖掘;支持向量机;特征多叉树;移动AgentDistributeddatami

3、ningmodelbasedonSupportVectorMachinesJUChun—hual,一.GUOFei-pen93(1.ComputerandInformationEngineeringCollege,ZhejiangGongshangUniversity,Hangzhou310018,China;2.CenterforStudiesofModernBusiness,ZhejiangGongshangUniversity,Hangzhou310018,China;3.InformationTechnology

4、Department,ZhejiangEconomic&TradePolytechnic,Hangzhou310018,China)AbstractThepaperpresentedadistributeddataminingmodelbasedonSupportVectorMachinesDSVM.Itdescribedthedefinitionofmulti.branchestreeofEigenfET)andthemethodofbuildingETbasedonmobileAgentsaccessingtodis

5、tributeddatasets.ItelaboratedtheconceptbyusingETtoreflectthecharacteristicofattributeinthedistributeddataset,andthenproposedthealgorithmofdistributedincrementalSupportVectorMachinesbasedonhullvector(HDIS)usingthedatastructureofETandthefeatureofSupportVectorMachin

6、e.Finally,theETwasmodifiedandimprovedbyHDIStorealizedistributeddatamining.TheexperimentalresuKsshowtheDSVMprovidinghighcapabilityandefficiencyofdistributedbusinessdatamining.Keywordsdistributeddatamining;supportvectormachine;multi-branchestreeofeigen;mobileAgent1

7、引言随着企业网络化信息系统的发展,企业数据库的集中管理已不能满足实际需求,受地域空间、时间等的影响,企业的数据库逐步从集中管理发展到分布管理.数据库分布于各个门店,并且随着时间的推移,其数据也日益增长,使数据具有分布、异构、海量等特点,这给数据挖掘提出了严峻的考验【1】.目前,已有众多的数据挖掘算法,如神经网络【引、贝叶斯网络【引、决策树141等,用于客户分类、客户流失预测等应用.但上述挖掘算法在不同程度上具有以下两方面的缺点:第一,在处理大规模、高维度、含有非线性关系的数据时效果不理想;第二,主要依靠的是经验风险最小化

8、原则,容易导致泛化能力的下降且模型结构难以确定【5】.基于结构风险最小化准则的SVM算法是少数可以成功解决上述问题的学习算法之一【6】.另外,现有的大部分方法在分布环境下挖掘不仅会大量占用存储空间,增加网络负担,而且使响应时间变长[7-s】.收稿日期:2009.09-02资助项目:国家自然科学基金(71071141)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。