集群分析 Cluster Analysis

集群分析 Cluster Analysis

ID:37503099

大小:400.50 KB

页数:30页

时间:2019-05-12

集群分析 Cluster Analysis_第1页
集群分析 Cluster Analysis_第2页
集群分析 Cluster Analysis_第3页
集群分析 Cluster Analysis_第4页
集群分析 Cluster Analysis_第5页
资源描述:

《集群分析 Cluster Analysis》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、集群分析ClusterAnalysis基本定義一個分類系統的創造:將一群物體加以分類的過程[Instatistics,thesearchforrelativelyhomogeneousgroupsofobjectsiscalledclusteranalysis(SPSS)]應用議題:生物學:分類物種醫學:疾病分類消費行為:消費型態分類2集群分析法: 三種測量集群相似性的方法相關測量(correlationalmeasures)求取每一不同配對受測樣本之間在特定題目的不同相關性分析重點在於不同受測個體在不同分類變項的關係型態變異差異測量(distancemeasures)求取受測樣本之間距離的差

2、異分析重點在於受測樣本在所有的不同分類變項形成的整體分類概念上的整體性差異聯結測量(associationmeasures)求取受測樣本之間在類別變項上的分佈差異特性3Clustervs.FactorAnalysis4這一個班的同學要如何分類5他們的成績6單變項集群分析結果7歐幾里得平方距離個體第一次形成集群的階段下一次進行集群歸類的階段8Example912345610Profilediagram:PreliminaryscreeningforoutliersV1V211網路購物被騙時,你怎麼辦?ID打電話寫信告消基會大一111小二111李三001邱SIR001王五001趙六010劉妻010

3、八八110酒鬼110石頭1101213階段一:定向確立研究的目的分類系統的建立:兼顧探索性與確認性資料簡化關係的探究重要的議題分類變項的選擇:選擇具有鑑別力的適當變項14階段二:研究設計三個決策的重點1.偏離值如何檢測?2.樣本相似性如何測量?3.資料是否需要經過標準化?重要議題集群分析涉及一連串研究者的主觀判斷,因此判斷的合理性與依恃的的基礎便格外重要15階段三:假定的考量集群分析不是母數統計,而是一套客觀的分類程序,涉及複雜的數學計算程序,並沒有嚴格的統計假定必須遵守兩個重要的分析影響條件representativeness樣本的代表性multicollinearity變項的多元共線性16

4、階段四:集群的分離與評鑑決定形成集群的策略決定集群的合理數目集群分析的程序階層法凝聚法(agglomerative)分離法(divisive)非階層法二階段法(Ward法):結合變異數分析,找出兩群最佳的集群使MSwithin最小17階段五:集群的解釋集群分離出來之後,決定集群性質的過程類似於因素分析法的命名問題非標準化資料:就原始資料意義來說明標準化資料:需迴歸資料原始狀態可以使用區別分析來釐清18階段六:集群的效度驗證一旦集群確立之後,對於集群的性質的區辨力以及穩定性與類化性的評估進行相關性的研究,選取重要的變項來進行預測與分類分析19集群分析的技術特性測量集群距離的方法最近法(singl

5、elinkage)最遠法(completelinkage)平均法(centroidmethod,averagelinkage)測量差異的方法SquaredEuclideandistance歐幾里得距離(個體差距平方和)City-blockapproach(個體差距絕對值總和)謝比雪夫法:個體最大差距的距離Minkowski:乘冪距離法資料的型態標準化vs.非標準化20分類的層次階層測量距離方法Agglomerativehierarchicalclustering匯聚法:將所有物體歸入越來越大的類別中直到所有的物體屬於同一類當物體前一個步驟歸入所屬的類別後即不得改變Divisivehierarc

6、hicalclustering分裂法:將所有的物體從一個大類區分成兩類直到所有的物體都自成一類非階層測量距離方法階段性閾值:選擇一個種子,針對某一個距離標準來分類平行閾值:同時選擇多個種子,針對某一個距離標準來分類21資料標準化當變項對於測量的尺度(單位)有相當的敏感度時,應採用標準化策略優點易於比較有一致的變動性缺點失去原有變項的變異特性22分析技術SquaredEuclideandistance:(non-standardized)(157-144)2+(43-48)2=194缺點:受單位的影響啤酒品牌熱量價格B品牌14443L品牌1574823分析技術SquaredEuclideandi

7、stance:(standardized)(.38-.81)2+(-.46-(-.11))2=.307缺點:失去測量變項的特質啤酒品牌熱量價格B品牌Z=.38Z=-.46L品牌Z=.81Z=-.1124Outliers25RawDataandStandardizedScores26歐幾里德距離平方SquaredEuclideandistanceD2=(.38-.61)2+(.01-.62)2+(.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。