基于密度网格结构的数据流在线聚类算法研究

基于密度网格结构的数据流在线聚类算法研究

ID:33408651

大小:1.90 MB

页数:56页

时间:2019-02-25

基于密度网格结构的数据流在线聚类算法研究_第1页
基于密度网格结构的数据流在线聚类算法研究_第2页
基于密度网格结构的数据流在线聚类算法研究_第3页
基于密度网格结构的数据流在线聚类算法研究_第4页
基于密度网格结构的数据流在线聚类算法研究_第5页
资源描述:

《基于密度网格结构的数据流在线聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、『I国内图书分类号:TPl8题】g2‘2工5单位代码:10005学号:$200707057密级:公开北京工业大学硕士学位论文英文并列R曼SEAR£旦QⅨ墅塾盥S兰!Y__鱼R亘坠』塑遇旦坠』丛哩兰兰迦题目£L立S!ER亘盥堡△LgQR兰!旦丛S专论文报告提交刚胡2Q!Q生堇且学位授予日期授予单位名称和地址j匕宝工些厶堂j匕壶立塑田区垩丕国!QQ曼鲣缅!鲤12垒习独创性声明IYIIIIIltllllllll7111111811111171111117111111511111111411Y1787751本人声明所呈交的论

2、文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。·签名:圣坠同期:2口细·c;-10关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复

3、制手段保存论文。(保密的论文在解密后应遵守此规定)签名:导师签名:●摘要随着计算机和互联网络技术的不断发展,各个应用领域都在源源不断地产生数据,而这些数据通常以流的形式出现,例如传感器网络产生的数据流、股票交易流、超市结算流、网络通信流等。数据挖掘融合了统计学、数据库、机器学习等技术,帮助人们从海量数据中抽取出有用的知识,从而为决策提供重要依据。数据流具有高速流动、快速变化和潜在无限等特点,因此要求数据流挖掘算法必须满足单次线性扫描、压缩存储、低的时间复杂度等要求。现有的数据流聚类算法,大多数停留在在线收集和离线分析

4、阶段,典型的算法如CluStream。这类算法的缺点是实时性差,不能在线生成用户需要的聚类,精确的聚类结果需要经过离线分析才能获得。针对这些问题,本文对数据流的在线聚类算法进行了研究,主要研究内容包括以下几方面:(1)使用密度网格的存储结构,将数据流的概要信息以统计值的形式存储在网格单元中。通过设置密度网格阈值Cm舣和Cm证,能有效地控制聚类质量。密度网格结构容易更新和维护,从而提高在线聚类效率,并节省存储空间。(2)本文采用计数型滑动窗口来保存当前数据流。通过调整窗口滑动一次的步数step,可以有效地节省系统资源。

5、(3)定义了网格邻居和网格簇等概念,设计优化的网格合并和更新规则,使算法能够区分数据密集区域和稀疏区域,并较快地找到数据分布中存在的簇,提高算法的实时性。(4)在论文研究过程中,通过大量的实验分析和对比,不断调整和优化算法,取得了较好的聚类质量和在线聚类效率。实验结果表明本算法具有快速在线聚类能力,同时保证了良好的聚类质量。关键词数据挖掘;数据流;在线聚类北京-E.qk大学工学硕一卜学位论文UAbstractWiththedevelopmentofcomputerscienceandInternettechnolog

6、y,alargenumberofdataisgeneratedinvariousapplications,whichisusuallyintheformofstreams,suchasdatastreamsgeneratedbysensornetworks,stockflow,supermarketsettlementflow,Intemetcommunication,etc.Datamining,whichcombinestatistics,databaseandmachinelearning,callhelppe

7、opleextractusefulknowledgefromhugeamountsofdataandprovideimportantbasisfordecision-making.Datastreamhasthefollowingcharacteristics:highspeed,rapidlychanging,potentiallyunlimitedandSOon.Therefore,dataminingalgorithmsmustsatisfyrequirementssuchassinglelinearscan,

8、compressionandstorage,lowcomplexity,etc.MostexistingstreamclusteringalgorithmsuchasCluStream,remainintheonlinecollectionandofflineanalysisphase.Thedisadvantageoftwo—phasealg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。