决策树分析和SPSS实现

决策树分析和SPSS实现

ID:36343390

大小:4.13 MB

页数:63页

时间:2019-05-09

决策树分析和SPSS实现_第1页
决策树分析和SPSS实现_第2页
决策树分析和SPSS实现_第3页
决策树分析和SPSS实现_第4页
决策树分析和SPSS实现_第5页
资源描述:

《决策树分析和SPSS实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1第九章決策樹分析DecisionTreeAnalysis2決策樹分析簡介決策樹基本觀念三種研究方法其他決策樹的變化決策樹的優、缺點3決策樹是功能強大且相當受歡迎的分類和預測工具。這項以樹狀圖為基礎的方法,其吸引人之處在於決策樹具有規則,和類神經網路不同。規則可以用文字來表達,讓人類了解,或是轉化為SQL之類的資料庫語言,讓落在特定類別的資料紀錄可以被搜尋。在本章中,我們先介紹決策樹運作的方式及其如何應用在分類和預測問題。隨後我們進一步介紹如何以CART、C4.5和CHAID演算法建構決策樹。簡介4決策樹如何運作:『二

2、十個問題』(TwentyQuestions)這個遊戲,一定可以輕易了解決策樹將資料分類的方式。在遊戲中,一個玩家先想好所有參加者都有知道的一個特定地點,人物或事物,其他玩家藉著提出一堆『是或不是』的問題,來找出答案。一個決策樹代表一系列這類問題。在遊戲中,第一個問題的答案決定了下一個問題。如果謹慎選擇問題,只要短短幾次詢問就可以將後來的資料正確分類。決策樹基本觀念5以『二十個問題』的方法顯示樂器的分類。決策樹基本觀念6一筆資料從根部的節點進入決策樹。在根部,應用一項測驗來決定這筆資料該進入下一層的哪一個子節點(chil

3、dnode)。選擇一開始的測驗有不同的演算法,但目的都是一樣的:這個過程一再重複,直到資料到達葉部節點(leafnode)。從根部到每一個葉部都有一套獨特的路徑,這個路徑就是用來分類資料規則的一種表達方式。決策樹基本觀念7決策樹的多種形式:決策樹基本觀念8某些規則比其他規則好:我們將一個決策樹應用在一個前所未有的資料集合上,並觀察其分類正確的比率,來衡量這個決策樹的有效程度。對決策樹的每一個節點,我們可以如此衡量:●進入這個節點的資料數目。●如果是一個葉部節點,可觀察資料分類的方式。●這個節點將資料正確分類的比率。決策

4、樹基本觀念9藉由將資料分到正確類別的情況,我們可以驗證出建構決策樹的最佳演算法。第四章中的電影迷資料庫。受測者被要求回答他們的年齡,性別,最常看的電影,以及最近看過的電影片名。然後我們使用決策樹程式來創造規則,以受測者在問卷中其他問題的答案來找出該名受測者的性別。下表顯示這個節點共有11筆資料被歸類其下,其中九個是正確的(女性),還有兩個男性被誤分到這裡。換言之,這項規則的錯誤率為0.182決策樹基本觀念10決策樹基本觀念11決策樹基本觀念yearplacemovielastlikesexpred.594231FF43

5、2112FF432130FF4512563MF451252FF4512526FF461262FF45232111FF493163MF4512563FF4523217FF12決策樹基本觀念決策樹創造資料箱:雖然樹狀圖和『二十個問題』類推法有助於呈現決策樹方法的某些特質,但作者發現,在某些情況下,基於不同表現方式的箱形圖(boxdiagram)更加清楚明白。一個決策樹創造一系列盒子或箱子,我們可以將資料丟進去。任何樹狀圖的葉部節點形成一個一維式箱形圖。和決策樹根部節點有關的測試將下層分成兩個或更多部分。13決策樹基本觀念1

6、4決策樹基本觀念決策樹的根部擴大成資料箱:●資料箱的寬度可以有變化,以顯示一筆資料落在特定箱中的相對可能性。●這個圖形可以換成一個直條圖(histogram),每一個直條的高度顯示落在對應箱中的資料數目。這類直條圖可以使用直條的頻色或形狀來顯示對應規則的錯誤率。●單一資料可以根據輸出變數的數值,用有色的球形或點狀來代表。這樣可以立即顯示這套分類系統的表現。15決策樹基本觀念16決策樹基本觀念表現多維度:當我們將資料丟進格子中,它們落到特定的層內並以此分類。一個層形圖讓我們一目了然的見到數層資料的細節。在下圖,我們可以一

7、眼看出左下的格子清一色都是男性。仔細的看,我們可以發現某些層在分類上表現很好,或是聚集了大量資料。這和線性,邏輯性或二次差分等傳統的統計分類方法試圖在資料空間中劃上一條直線或弧線將資料分層的方式大不相同。17決策樹基本觀念18決策樹基本觀念這是一種基本上的差異:當一筆資料有多種非常不同的方法使其成為目標類別的一部份時,使用單一線條來找出類別間界線的統計方法效力會很弱。例如,在信用卡產業,很多種持卡人都讓發卡根行有利可圖。某些持卡人每次繳款的金額不高,但他們欠繳金額很高時,卻又不會超過額度;還有一種持卡人每月都繳清帳款,

8、但他們交易金額很高,因此發卡銀行還是可以賺到錢。這兩種非常不同的持卡人可能為發卡銀行帶來同樣多的收益。在下圖中,我們將顥示在這種分類問題上,決策樹超越純粹統計方法的優點。19決策樹基本觀念20分類與迴歸樹(CART)分類與迴歸樹(ClassificationAndRegressionTree,CART)CART演算法是建構決策樹時

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。