资源描述:
《平行坐标及其在聚类分析中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、·124·计算机应用研究2005年*平行坐标及其在聚类分析中的应用翟旭君,李春平(清华大学软件学院,北京100084)摘要:平行坐标对多维数据的表达是数据可视化的重要方法之一。它实现了多维数据在二维平面上的表示。利用平行坐标对数据进行分析处理的技术已经取得了很大的进展,如刷(Brushing)技术、交换坐标轴、抽象等。这些分析技术已经应用到数据挖掘的很多领域,尤其在聚类分析中,平行坐标对数据集的定性分析使聚类结果的合理性得到证明。关键词:平行坐标;分层平行坐标;聚类分析;数据可视化中图法分类号:TP311.13文献标识码:A文章编号:1001-3695(
2、2005)08-0124-03ParallelCoordinatesandApplicationonClusteringAnalysisZHAIXu-jun,LIChun-ping(SchoolofSoftware,TsinghuaUniversity,Beijing100084,China)Abstract:Itisoneoftheimportantdatavisualizationmethodsthatparallelcoordinatespresentmulti-dimensionaldata.Thetechnicamakemulti-dimens
3、ionaldataexpressedontwodimensionplane.Theanalysismethodsthatparallelcoordinatesprocessdatasetshaveobtainagreatprogress,suchasbrushing,exchangingcoordinates,abstractionetc.Theseanalysistech-nicahavebeenappliedtomanyfieldsofdatamining.Especiallyinclusteringanalysis,qualitativeanaly
4、sisondatasetsdemon-stratetherationalityofclusteringresult.Keywords:ParallelCoordinates;HierarchicalParallelCoordinates;ClusteringAnalysis;DataVisualization随着数据集的容量不断增大、复杂性不断提高,需要更加由式(1)可以得出xi+1=mixi+bi,i=1,2,⋯,n-1(2)有效的方式来对数据进行显示、分析,从而获得数据中所包含其中,m=u/u表示斜率,b=(a-ma)表示在xx平ii+1iii+1i
5、iii+1的信息。然而,对于具有多维数据的大数据集的有效显示更是面中x轴上的截距。i+1一个数据显示中的难点。目前,对于多维大数据集的可视化技平面直角坐标中的点映射到平行坐标中是一条线段,而平[1]术已有了很大的发展,如散列图矩阵(ScatterplotMatrix)、基面直角坐标中处于一条直线上的多个点映射到平行坐标中就[2]于像素的技术(Pixel-orientedTechniques)、图标显示技术(I-是相交于一点的多条线段,这样就可以用平行坐标中的点与平[3][4]conicDisplays)、平行坐标(ParallelCoordinates)
6、等。面直角坐标中的直线相对应,假设平行坐标轴间的距离为1,数据可视化技术已经在数据挖掘领域得到了广泛的应用,ibi则交点坐标为(,),其中i=1,2,⋯,n-1(3)1-m1-m人们将多维数据展示在二维平面上,以便更容易地发现数据中ii所隐含的信息,平行坐标正好满足这个要求,它将多维数据点1.2平行坐标的分层结构映射成为平面上的折线并且不损失信息,从折线的变化规律中在应用平行坐标进行数据的可视化过程中,主要的困难是挖掘信息相对就比较简单了。当数据集很大时显示的数据层次混乱,很难发现数据的变化规律,阻碍了人们对信息的理解。这种情况下,利用分层平行坐1平行坐
7、标与其分层结构标对数据集进行分层显示可以有效克服以上困难。[6]分层平行坐标(HierarchicalParallelCoordinates)采用分1.1平行坐标概念层显示模式对数据集进行多种层次的显示,克服平行坐标中数[4,5]平行坐标是对多维空间的两维表示。其思想就是将据显示混乱的缺点。分层显示模式中利用分层聚类算法构造N维数据点映射到处于N条平行的坐标轴上的彼此相连的分层聚簇树(HierarchicalClusterTree),分层聚簇树可以从不N-1条线段。这N-1条线段与N条轴相交的N个点分别代同抽象层次上构造和表达大型数据集。分层聚簇树上的每
8、个表了数据点的N维数据。这条代表N维数据的折线可用N-节点都表达一个聚簇。1个线