聚類和判別分析ppt課件

資源ID：1309911 資源大小：2.62MB 全文頁數(shù)：47頁
資源格式： PPT 下載積分：20積分

快捷下載

會員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要20積分

郵箱/手機：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機號，方便查詢和重復(fù)下載（系統(tǒng)自動生成）
支付方式：
驗證碼：	換一換

賬號：
密碼：
驗證碼：	換一換
當(dāng)日自動登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會被瀏覽器默認(rèn)打開，此種情況可以點擊瀏覽器菜單，保存網(wǎng)頁到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒有明確說明有答案則都視為沒有答案，請知曉。

網(wǎng)站客服

侵權(quán)投訴

聚類和判別分析ppt課件

第九章,聚類和判別分析,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,9.1 聚類和判別分析簡介,9.1.1 基本概念 (1) 聚類分析聚類分析的基本思想是找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計量，以這些統(tǒng)計量為劃分類型的依據(jù)，把一些相似程度較大的樣本（或指標(biāo)）聚合為一類，把另外一些彼此之間相似程度較大的樣本又聚合為一類。根據(jù)分類對象的不同，聚類分析可分為對樣本的聚類和對變量的聚類兩種。 (2) 判別分析判別分析是判別樣本所屬類型的一種統(tǒng)計方法。,9.1 聚類和判別分析簡介,9.1.1 基本概念 (3) 二者區(qū)別不同之處在于，判別分析是在已知研究對象分為若干類型（或組別）并已取得各種類型的一批已知樣本的觀測量數(shù)據(jù)的基礎(chǔ)上，根據(jù)某些準(zhǔn)則建立判別式，然后對未知類型的樣本進(jìn)行差別分析。,9.1.2 樣本間親疏關(guān)系的度量 (1)連續(xù)變量的樣本間距離常用度量主要方法有歐氏距離（Euclidean Distance）、歐氏平方距離（Squared Euclidean Distance）、切比雪夫距離（Chebychev Distance）、明可斯基距離（Minkowski Distance）、用戶自定義距離（Customize Distance）、Pearson相關(guān)系數(shù)、夾角余弦（Cosine）等。（公式見教材表7.9） (2)順序變量的樣本間距離常用度量常用的有統(tǒng)計量（Chi-square measure）和統(tǒng)計量（Phi-square measure）。具體計算公式參見7.4節(jié)表7.10。,9.1 聚類和判別分析簡介,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計原理（1）基本概念二階聚類（TwoStep Cluster）（也稱為兩步聚類）是一個探索性的分析工具（），為揭示自然的分類或分組而設(shè)計，是數(shù)據(jù)集內(nèi)部的而不是外觀上的分類。它是一種新型的分層聚類算法（Hierarchical Algorithms）,目前主要應(yīng)用到數(shù)據(jù)挖掘（Data Mining）和多元數(shù)據(jù)統(tǒng)計的交叉領(lǐng)域模式分類中。該過程主要有以下幾個特點：分類變量和連續(xù)變量均可以參與二階聚類分析；該過程可以自動確定分類數(shù)；可以高效率地分析大數(shù)據(jù)集；用戶可以自己定制用于運算的內(nèi)存容量。,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計原理（2）統(tǒng)計原理兩步法的功能非常強大，而原理又較為復(fù)雜。他在聚類過程中除了使用傳統(tǒng)的歐氏距離外，為了處理分類變量和連續(xù)變量，它用似然距離測度，它要求模型中的變量是獨立的，分類變量是多項式分布，連續(xù)變量是正態(tài)分布的。分類變量和連續(xù)變量均可以參與兩步聚類分析。,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計原理（3）分析步驟第1步構(gòu)建聚類特征樹：對每個觀測變量考察一遍，確定類中心。根據(jù)相近者為同一類的原則，計算距離并把與類中心距離最小的觀測量分到相應(yīng)的各類中去。這個過程稱為構(gòu)建一個分類的特征樹（CF）。第2步對聚類特征樹的節(jié)點進(jìn)行分組：為確定最好的類數(shù)，對每一個聚類結(jié)果使用Akaik判據(jù)（AIC）或貝葉斯判據(jù)（BIC）作為標(biāo)準(zhǔn)進(jìn)行比較，得出最后的聚類結(jié)果。,9.2 二階聚類,9.2.2 SPSS實例分析【例9-1】某機構(gòu)為了調(diào)查學(xué)生性別和所學(xué)專業(yè)與畢業(yè)后初始工資的情況，調(diào)查抽取了60個學(xué)生的數(shù)據(jù)，如表9.1所示（其中“性別”1代表男性，0代表女性；“學(xué)科”1代表農(nóng)學(xué)，2代表建筑，3代表地質(zhì)，4代表商務(wù)，5代表林學(xué)，6代表教育，7代表工程，8代表藝術(shù)），試根據(jù)樣本指標(biāo)進(jìn)行聚類分析。（數(shù)據(jù)參見教材P202）第1步分析：由于自變量中不僅有連續(xù)屬性，也有分類變量，故采用二階聚類進(jìn)行分析。第2步數(shù)據(jù)組織：按表所示定義變量，輸入數(shù)據(jù)并保存。,9.2 二階聚類,第3步二階聚類設(shè)置：按“分析分類兩步聚類”順序打開“二階聚類分析”對話框，并按下圖進(jìn)行設(shè)置。,9.2 二階聚類,第4步主要結(jié)果及分析：二階聚類的模型概要和聚類質(zhì)量情況,從中可以看出，此算法采用的是兩步（二階）聚類，共輸入3個變量，將所有個案聚成3類。聚類的平均輪廓值為0.6（其范圍值為-1.01.0，值越大越好），說明聚類質(zhì)量較好。,聚類個案情況圖,可以看出各類所占的比例情況,9.2 二階聚類,第4步主要結(jié)果及分析：各個案所屬的分類號情況,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,9.3 K-均值聚類,9.3.1 基本概念及統(tǒng)計原理（1）基本概念 K-均值聚（也稱快速聚類）是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析。它先對數(shù)據(jù)進(jìn)行初始分類，然后逐步調(diào)整，得到最終分類數(shù)。分類變量和連續(xù)變量均可以參與兩步聚類分析。（2）統(tǒng)計原理如果選擇了n個數(shù)值型變量參與聚類分析，最后要求聚類數(shù)為k。由系統(tǒng)首先選擇k個觀測量(也可以是用戶指定)作為聚類的目標(biāo)，n個變量組成n維空間。每個觀測量在n維空間中是一個點。K個事先選定的觀測量就是k個聚類中心，也稱為初始類中心。按照距這幾個類中心的距離最小的原則把觀測量分派到各類中心所在的類中去；形成第一次迭代形成的k類。,9.3 K-均值聚類,根據(jù)組成每一類的觀測量計算每個變量的均值，每一類中的n個均值在n維空間中又形成k個點，這就是第二次迭代的類中心。按照這種方法迭代下去，直到達(dá)到指定的迭代次數(shù)或達(dá)到中止迭代的判據(jù)要求時，迭代就停止了，聚類過程也就結(jié)束了。（3）分析步驟第1步指定聚類數(shù)目k；第2步確定k個初始類中心；第3步根據(jù)距離最近原則進(jìn)行分類；第4步重新確定k個類中心；第5步迭代計算。,9.3 K-均值聚類,9.3.2 SPSS實例分析【例9-2】測量12名大學(xué)生對高等數(shù)學(xué)的心理狀況和學(xué)習(xí)效果，主要包括四個因素：學(xué)習(xí)動機、學(xué)習(xí)態(tài)度、自我感覺、學(xué)習(xí)效果，具體數(shù)據(jù)如下表所示。試將該12名學(xué)生分成3類以分析不同心理狀況下學(xué)生的學(xué)習(xí)效果。,9.3 K-均值聚類,第1步分析：由于已知分成3類，故可采用K-均值聚類法。第2步數(shù)據(jù)組織：按如上表的表頭所示建立變量，將“編號”變量的數(shù)據(jù)類型設(shè)為字符型（作為標(biāo)識變量）。第3步快速聚類設(shè)置，按“分析分類K-均值聚類”順序打開“K-均值聚類分析”對話框，將“學(xué)習(xí)動機”、“學(xué)習(xí)態(tài)度”、“自我感覺”、“學(xué)習(xí)效果”四個變量選入“變量”列表框。將“編號”變量移入“個案標(biāo)記依據(jù)”框中；將“聚類數(shù)”設(shè)為3。其余“迭代”、“保存” 和“選項”設(shè)置參見教材。,9.3 K-均值聚類,第4步主要結(jié)果及分析：,初始聚類中心表,由于沒有指定初始聚類中心，列出了由系統(tǒng)指定的類中心。與原數(shù)據(jù)比較，發(fā)現(xiàn)它們分別是第1、第6和第7號個案。,9.3 K-均值聚類,第4步主要結(jié)果及分析：,迭代歷史表,由表可知，第一次迭代后，3個類的中心點分別變化了8.193，9.889和13.472。一共進(jìn)行了10次迭代，達(dá)到聚類結(jié)果的要求（達(dá)到最大迭代次數(shù)），聚類分析結(jié)束。,9.3 K-均值聚類,最終聚類中心表,如第1類的學(xué)習(xí)動機值為39，學(xué)習(xí)態(tài)度值為77，自我感覺值為55，學(xué)習(xí)效果值為45。,樣本數(shù)情況,可看出第1，2，3類中分別含有2，4，6個樣本,9.3 K-均值聚類,分類保存情況,查看數(shù)據(jù)文件，可看到多出兩個變量，分別表示每個個案的具體分類歸屬和與類中心的距離。,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計原理（1）基本概念系統(tǒng)聚類是效果最好且經(jīng)常使用的方法之一，國內(nèi)外對它進(jìn)行了深入的研究，系統(tǒng)聚類在聚類過程中是按一定層次進(jìn)行的。具體分成兩種，分別是Q型聚類和R型聚類，Q型聚類是對樣本（個案）進(jìn)行的分類，它將具有共同特點的個案聚集在一起，以便對不同類的樣本進(jìn)行分析；R型聚類是對變量進(jìn)行的聚類，它使具有共同特征的變量聚在一起，以便對不同類的變量進(jìn)行分析。,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計原理 (2) 統(tǒng)計原理系統(tǒng)聚類是根據(jù)個案或變量之間的親疏程度，將最相似的對象聚集在一起。根據(jù)系統(tǒng)聚類過程的不同，又分為凝聚法和分解法兩種。凝聚法的原理是將參與聚類的每個個案（或變量）視為一類，根據(jù)兩類之間的距離或相似性，逐步合并直到合并為一個大類為止；分解法的原理是將所有個案（或變量）都視為一類，然后根據(jù)距離和相似性逐層分解，直到參與聚類的每個個案（或變量）自成一類為止。在層次聚類中，度量數(shù)據(jù)之間的親疏程度是極為關(guān)鍵的。在衡量樣本與樣本之間的距離時，一般使用的距離有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距離、Block距離、明可斯基距離（Minkowshi）、夾角余弦（Cosine）等。,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計原理 (2) 統(tǒng)計原理衡量樣本數(shù)據(jù)與小類、小類與小類之間親疏程度的度量方法主要有以下7種：最短距離法（Nearest Neighbor）；最長距離法（Furthest Neighbor）；類間平均鏈鎖法（Between-groups Linkage）；類內(nèi)平均鏈鎖法（Within-groups Linkage）；重心法（Centriod Clustering）；中間距離法（Median Clustering）；離差平方和（Wards Method）。,9.4 系統(tǒng)聚類,9.4.2 SPSS實現(xiàn)舉例【例9-3】已知29例兒童的血中血紅蛋白、鈣、鎂、鐵、錳、銅的含量如下表，試對數(shù)據(jù)進(jìn)行變量聚類分析。,9.4 系統(tǒng)聚類,第1步分析：根據(jù)題目要求，需進(jìn)行變量聚類分析（即R型聚類），故采用系統(tǒng)聚類分析中的R型聚類進(jìn)行處理。第2步數(shù)據(jù)組織：如上表定義七個變量：“order”（編號）、“ca”（鈣）、“mg”（鎂）、“fe”（鐵）、“mn”（錳）、“cu”（銅）和“hemogl”（血紅蛋白），其中“order”為字符串型，其余變量為數(shù)值型。第3步進(jìn)行按變量聚類的設(shè)置：按“分析分類系統(tǒng)聚類”打開“系統(tǒng)聚類分析”對話框，將“ca”（鈣）、“mg”（鎂）、“fe”（鐵）、“mn”（錳）、“cu”（銅）和“hemogl”（血紅蛋白）幾個變量選入“變量”列表框。設(shè)置按“變量”分類，并選擇輸出“統(tǒng)計量”和“圖”，以激活“統(tǒng)計量（S）”和“繪制（T）“兩個按鈕。具體如下面圖所示。,9.4 系統(tǒng)聚類,9.4 系統(tǒng)聚類,第4步主要結(jié)果及分析：,凝聚順序表,第1步是第4個變量和第5個變量進(jìn)行聚類，變量間的距離系數(shù)為6.028，這個結(jié)果將在第2步中用到；第2步是經(jīng)過第1步聚類后的變量4和變量5與變量6進(jìn)行聚類，變量間的距離系數(shù)為54.938，這個結(jié)果將在第4步中用到。以此類推，這6個變量經(jīng)過5步聚類最終聚成一個大類。,9.4 系統(tǒng)聚類,第4步主要結(jié)果及分析：,系統(tǒng)聚類的冰柱圖,圖的縱坐標(biāo)表示聚類的數(shù)目，我們從圖的最下方看起，從5類，逐漸到4類、3類、2類，最后聚成一個大類。首先是“銅”和“錳”聚成一類，其余每個變量各為一類。第2步再將“血紅蛋白”聚到“銅”和“錳”一類中，原先的6個變量就變成了4類。以此類推，經(jīng)過5步聚類，最后將所有變量聚成了一個大類。,9.4 系統(tǒng)聚類,第4步主要結(jié)果及分析：,系統(tǒng)聚類的樹狀圖,第1步將“cu（銅）”和“mn（錳）”聚成一類，第2步將“hemogl（血紅蛋白）”聚到“cu（銅）”和“mn（錳）”類中，第3步將“ca（鈣）”和“mg（鎂）”聚成一類。以此類推，最后聚成一個大類。這與聚類順序表和聚類冰柱圖的分析結(jié)果是一致的。,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,9.5 判別分析,9.5.1 基本概念與統(tǒng)計原理 (1)基本概念判別分析（Discriminant Analysis）是多元統(tǒng)計分析中用于判別樣本所屬類型的一種統(tǒng)計方法。它要解決的問題是在一些已知研究對象用某種方法已分成若干類的情況下，確定新的觀察數(shù)據(jù)屬于已知類別中的哪一類。判別分析是應(yīng)用很強的一種多元統(tǒng)計分析方法。 (2) 統(tǒng)計原理判別分析按判別組數(shù)來分，有兩組判別分析和多組判別分析，按區(qū)分不同總體所用的數(shù)學(xué)模型來分，有線性差別和非線性判別。判別分析可以從不同的角度提出問題，因此有不同的判別準(zhǔn)則，如費歇爾（Fisher）準(zhǔn)則和貝葉斯（Bayes）準(zhǔn)則。,判別函數(shù)的一般形式是,9.5 判別分析,分析步驟第1步計算特征值：計算需要用到的一些反映樣本的特征值，比如均值、協(xié)方差矩陣等。第2步建立判別函數(shù)：判別函數(shù)的一般形式如式10.1建立判別函數(shù)就是要確定這些系數(shù)。第3步確定判別準(zhǔn)則：如費歇爾（Fisher）準(zhǔn)則和貝葉斯（Bayes）準(zhǔn)則。第4步檢驗判別效果：驗證判別函數(shù)用來進(jìn)行判別時的準(zhǔn)確度。第5步分類：根據(jù)所建立的判別函數(shù)對待判樣本進(jìn)行分類。,9.5 判別分析,9.5.2 SPSS實例分析【例9-4】下表是健康人（c = 1）、硬化癥患者（c = 2）和冠心病患者（c = 3）三種人群的心電圖的5個指標(biāo)（x1x5）數(shù)據(jù)，其中有19個樣本是確定的分類，另又測出4個人的相關(guān)指標(biāo)，試根據(jù)確定分類的樣本對這未確定的樣本進(jìn)行分類。,9.5 判別分析,第1步分析：由于部分樣本已經(jīng)有分類標(biāo)記，還有幾個待分類樣本。這顯然屬于根據(jù)已知分類樣本的信息對未分類樣本進(jìn)行分類的情況，用判別分析進(jìn)行處理。第2步數(shù)據(jù)組織：建立7個變量。分別是“序號”、“x1”、“x2”、“x3”、“x4”、“x5”和“c”，均為數(shù)值型變量。輸入數(shù)據(jù)，對第20條23條的類別“c”變量，不填數(shù)據(jù)，作為缺失值處理，存盤并保存。第3步判別分析設(shè)置：按如下圖示進(jìn)行設(shè)置,9.5 判別分析,9.5 判別分析,第4步主要結(jié)果及分析：,分析案例處理摘要表,表明共23條記錄，已分好類的19條，有4條需進(jìn)行分類。,匯聚的變量之間相關(guān)矩陣表,給出了這五個自變量之間的相關(guān)系數(shù)，如變量“x1”與變量“x2”之間的相關(guān)系數(shù)為0.059。,9.5 判別分析,特征值表,判別函數(shù)的顯著性檢驗結(jié)果表,由于本例中預(yù)測變量為5個，類別數(shù)為3，因此判別函數(shù)的個數(shù)為2（即min(3-1，5)=2）。判別函數(shù)的特征值越大，表明該函數(shù)越具有區(qū)別力。第一個判別函數(shù)的特征值為1.386，第二個為0.408。,其中“1到2”表示兩個判別函數(shù)的平均數(shù)在3個級別間的差異情況。“2”表示在排除第一個判別函數(shù)后，第二個函數(shù)在3個級別間的差異情況。從最后的顯著性概率Sig.來看，其兩個判別函數(shù)的效果并不十分顯著,9.5 判別分析,判別系數(shù)表,9.5 判別分析,分類結(jié)果概述表,從表中可以看出，有23條個案被成功分類。,9.5 判別分析,分類函數(shù)系數(shù)表,9.5 判別分析,各類區(qū)域圖及分類標(biāo)記情況圖,這是以根據(jù)每個個案計算出的判別分?jǐn)?shù)為坐標(biāo)，以典則判別函數(shù)1為橫軸，以典則判別函數(shù)2為縱軸，所繪出的散點圖。可以看出，在圖中分出了1，2，3三個區(qū)域，在圖中也標(biāo)出了各類的中心（其中心用“*”表示）。,9.5 判別分析,分類結(jié)果矩陣,對角線顯示的為準(zhǔn)確預(yù)測的個數(shù)，其余為錯誤預(yù)測的個數(shù)。從該表可以看出，已經(jīng)分的19個個案正確分類17個，錯誤分類2個。正確率還是比較高的。根據(jù)這19個個案為先驗數(shù)據(jù)，將待分類的4個個案分別分入1，2，3類的分別有1，1，2個。,9.5 判別分析,分類保存結(jié)果圖,The End,

注意事項

本文（聚類和判別分析ppt課件）為本站會員（鐘***）主動上傳，裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)（點擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因為網(wǎng)速或其他原因下載失敗請重新下載，重復(fù)下載不扣分。