稀疏化相似矩阵并行分析及MapReduce并行实现.doc

稀疏化相似矩阵并行分析及MapReduce并行实现.doc

ID:55279899

大小:41.50 KB

页数:10页

时间:2020-05-08

稀疏化相似矩阵并行分析及MapReduce并行实现.doc_第1页
稀疏化相似矩阵并行分析及MapReduce并行实现.doc_第2页
稀疏化相似矩阵并行分析及MapReduce并行实现.doc_第3页
稀疏化相似矩阵并行分析及MapReduce并行实现.doc_第4页
稀疏化相似矩阵并行分析及MapReduce并行实现.doc_第5页
资源描述:

《稀疏化相似矩阵并行分析及MapReduce并行实现.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、(2)基于HadoopMapReduce并行优化算法性能:目前,基于HadoopMapReduce并行计算近似谱聚类算法研究刚起步,国内外学者基于HadoopMapReduce并行计算主要侧重于优化聚类算法性能,提高聚类算法的加速比与可扩展性,以解决不能求解海量算数据聚类问题。研究k-means聚类算法特点,为获得加速比与扩展性,利用MapReduce并行化后部署到Hadoop集群运行[50]与利用Hadoop集群Mapreduce编程模型实现k-means聚类算法降低大数据聚类的时间复杂度[51],以及利用Combine函数减少网络流量改进基于

2、MapReduce传统的并行k-means聚类算法,用以分析和挖掘海量数据[52];Plaza等人[53]结合高光谱图像中空间和谱信息,在基于商业用途的集群上(包括高性能并行计算体系结构:欧洲巴塞罗那并行计算中心的分布式存储、多指令多数据的多机组等)并行化使用多信道波形变换的无监督技术提出并行数据分析策略;LvZ等人[54]基于MapReduce并行编程模型并行k-means聚类算法聚类远程传感图像。文献[55]是该领域的理论专著,文献[56]和[57]分别是MapReduce并行大规模高维数据集研究的专著和最新的云计算分布式并行研究专著。目前,

3、国内外基于HadoopMapReduce并行聚类与谱聚类算法研究都处于刚起步状况,其发展趋势:向并行大规模高维数据的近似谱聚类方向发展。第三节论文工作量及主要贡献本文在确保谱聚类聚类质量(或准确性)的前提下,为聚类大规模高维数据,对k-means聚类中心初始化位置选择、距离相似度近似法、相似矩阵稀疏化方法、拉普拉斯矩阵特征向量分解、k-means聚类算法以及ApacheHadoop系统MapReduce并行框架进行了深入研究,介绍了谱聚类算法及其近似法研究现状,此外,简单介绍了基于HadoopMapReduce谱聚类的发展趋势,HadoopMap

4、Reduce平台架构与编程模型等,并从以下三个方面开展了相关研究工作。一、稀疏化相似矩阵并行分析及MapReduce并行实现相似矩阵中元素直接决定谱图矩阵中元素的构成,因此影响谱聚类准确性。基于国内外研究现状及发展趋势,本文在前人研究基础上,提出一种新的相似矩阵优化法---使用稀疏化Euclidean距离矩阵并调整为对称矩阵后,对相似矩阵列向量的离群点进行优化,并在优化引理的前提下理论证明该方法最优解的存在,并说明其时间复杂度。论文使用该方法应用于构建相似矩阵并基于Hadoop集群系统下MapReduce并行编程框架,对上述优化后的稀疏相似矩阵进

5、行并行算法设计与并行编程实现,在设计的过程中,分析HadoopMapReduce并行前后稀疏化近似相似矩阵的时间复杂度,以及通过大规模高维数据实验验证所设计的HadoopMapReduce并行算法加速比,使用实验结果阐述应用该方法的ASC并行后的性能。二、特征向量分解并行分析及MapReduce并行实现相对于聚类而言谱聚类必须对拉普拉斯矩阵进行特征向量分解,否则,得不到数据集的低阶表示,即维简约。谱聚类算法时间复杂度正是由于其特征分解过程所产生的。针对大规模数据集而言,从理论分析可得出:k-means聚类的时间杂度()相对于拉普拉斯矩阵特征向量分

6、解几乎可忽略不计。因此,本文在前人研究基于MapReduce编程框架TallandSkinnyQR矩阵分解[58]的基础上对其进行修改,使其能够计算由近似相似矩阵求得的近似拉普拉斯近似矩阵的特征向量分解。并设计基于Hadoop集群系统下MapReduce并行编程框架的并行算法与并行编程实现,在设计的过程中,分析HadoopMapReduce并行前后特征向量分解的时间复杂度,以及通过大规模高维数据实验验证所设计的HadoopMapReduce并行算法加速比,使用实验结果阐述应用该设计的ASC并行后的性能。三、k-means聚类算法并行分析及MapR

7、educe并行实现k-means聚类中心初始化位置决定其算法收敛时迭代次数,直接影响谱聚类计算时间。基于国内外研究现状及发展趋势,本文基于Hadoop集群系统下MapReduce并行编程框架对适合聚类大规模数据集的粗糙集模型框架下基于数据密度Astrahan的k-means聚类中心初始化位置选择方法进行算法时间复杂度及方法中迭代步骤之间依赖性进行分析,设计基于该方法的k-means聚类算法并行策略并编程实现。在设计的过程中,分析HadoopMapReduce并行前后特征向量分解的时间复杂度,以及通过大规模高维数据集实验验证所设计的HadoopMa

8、pReduce并行算法加速比,使用实验结果阐述应用该设计的ASC并行后的性能。在设计的过程中,分析HadoopMapReduce并行前后

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。