歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

聚類分析和判別分析.ppt

  • 資源ID:16014489       資源大?。?span id="6166611" class="font-tahoma">254.05KB        全文頁(yè)數(shù):30頁(yè)
  • 資源格式: PPT        下載積分:9.9積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺(tái)登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開,此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請(qǐng)知曉。

聚類分析和判別分析.ppt

第8章 聚類分析和判別分析,俗話說“物以類聚,人以群分”,在現(xiàn)實(shí)生活中,為了更好的認(rèn)識(shí)事物,人們往往需要根據(jù)事物的屬性對(duì)事物進(jìn)行分類,分類是人類認(rèn)識(shí)客觀世界的一種重要方法。在社會(huì)生活的各個(gè)方面和科學(xué)研究的各個(gè)領(lǐng)域都存在著大量的分類問題。,在實(shí)際生活中經(jīng)常需要使用聚類分析對(duì)事物進(jìn)行分類,在總體類別已知時(shí)需要使用判別分析對(duì)研究對(duì)象進(jìn)行歸類。在SPSS中其菜單打開方式為:選擇“分析”“分類”命令,打開如圖所示的“分類”菜單。,8.1 聚類分析基本原理,聚類分析作為一種重要的分類方法,其實(shí)質(zhì)在于通過研究對(duì)象之間的親疏關(guān)系將相似的對(duì)象劃分為一類,不相似的對(duì)象劃分到不同的類別當(dāng)中。在本節(jié)中將介紹聚類分析的概念、計(jì)算方法和聚類結(jié)果的評(píng)價(jià)等。,8.1.1 聚類分析簡(jiǎn)介,聚類分析(Cluster Analysis)是根據(jù)事物本身的特征通過統(tǒng)計(jì)方法對(duì)事物進(jìn)行分類的多元分析方法,可以通過數(shù)據(jù)建模達(dá)到簡(jiǎn)化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對(duì)象的不同,聚類分析可分為樣本聚類和變量聚類兩種。,8.1.2 聚類分析的計(jì)算,在聚類分析過程中,需要區(qū)分為不同的類,事物是怎樣劃分到不同的類別當(dāng)中的呢?判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標(biāo)準(zhǔn)一般有兩種:距離和相似性系數(shù),距離一般用來(lái)度量樣本之間的相似性,而相似性系數(shù)一般是用來(lái)度量變量之間的相似性。,1距離 距離的計(jì)算根據(jù)觀測(cè)指標(biāo)數(shù)據(jù)類型的不同可以分為兩種情況:如果觀測(cè)指標(biāo)是非連續(xù)數(shù)據(jù),需要采用卡方分析等計(jì)算方法;如果觀測(cè)值標(biāo)是連續(xù)數(shù)據(jù),則可以采用以下幾種算法: (1)明氏距離 (2)馬氏距離 (3)蘭氏距離 (4)自定義距離,2相似性系數(shù) 前面提到,聚類分析不僅可以對(duì)樣本進(jìn)行聚類,而且還可以對(duì)變量進(jìn)行聚類,當(dāng)對(duì)變量進(jìn)行聚類時(shí),考察變量之間關(guān)系的指標(biāo)一般采用相似性系數(shù)來(lái)表示。相似性系數(shù)是描述測(cè)量指標(biāo)之間相關(guān)程度的指標(biāo),取值范圍為-1,1,相似系數(shù)越大,變量之間的相似性就越高。根據(jù)研究目的的不同,有時(shí)只需要考察相關(guān)系數(shù)絕對(duì)值的大小,有時(shí)還要考慮到相關(guān)的方向,即相關(guān)系數(shù)的正負(fù)。聚類時(shí),相似的變量歸入一類,不相似的變量歸到不同的類。相似性系數(shù)的計(jì)算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。 積差相關(guān)系數(shù):,8.1.3 聚類結(jié)果的評(píng)價(jià),聚類分析是一個(gè)探索性的過程,在使用聚類分析過程中,除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外,還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對(duì)聚類樣本或變量的先驗(yàn)經(jīng)驗(yàn),并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡(jiǎn)要介紹一些判斷類別數(shù)量是否合理的標(biāo)準(zhǔn)和最終分類應(yīng)該符合的要求作為參考。 1規(guī)定一個(gè)閾值T 2查看樣本的散點(diǎn)圖 3使用統(tǒng)計(jì)量,8.2.1 二階聚類的基本原理,顧名思義,二階聚類是指聚類過程是分為兩步進(jìn)行的,故又稱為兩步聚類。二階聚類發(fā)展較晚,但由于其能同時(shí)處理連續(xù)數(shù)據(jù)和離散數(shù)據(jù),同時(shí)還可以自動(dòng)確定最佳聚類個(gè)數(shù),加上處理速度快等優(yōu)點(diǎn),使它從一經(jīng)提出就在多個(gè)領(lǐng)域得到推廣,并受到越來(lái)越多用戶的青睞。 二階聚類主要分為以下兩個(gè)步驟: (1)預(yù)分類 (2)正式聚類,8.2.2 二階聚類的操作過程,在SPSS中二階聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“兩步聚類”命令,打開“二階聚類分析”對(duì)話框,如圖所示。,(3)選擇變量 (4)選擇距離度量標(biāo)準(zhǔn) (5)連續(xù)變量計(jì)數(shù) (6)設(shè)定聚類數(shù)量 (7)選擇聚類準(zhǔn)則 (8)選項(xiàng)設(shè)置 (9)輸出設(shè)置 (10)設(shè)置完成后,單擊“確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.2.3 實(shí)例分析:普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成(1),教師隊(duì)伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展。現(xiàn)準(zhǔn)備根據(jù)2008年中國(guó)部分省份普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成情況對(duì)這些地區(qū)進(jìn)行分類。收集到的資料包括:正高級(jí)職稱人數(shù)(單位:人)、副高級(jí)職稱人數(shù)、中級(jí)職稱人數(shù)、初級(jí)職稱人數(shù)和無(wú)職稱人數(shù)。 1操作過程 2結(jié)果分析,8.3 K-均值聚類分析,K-均值聚類(K-Means-Cluster)是一種快速樣本聚類方法,在聚類個(gè)數(shù)已知的情況下,特別適合于對(duì)大樣本數(shù)據(jù)進(jìn)行分析。在本節(jié)將介紹K-均值聚類的基本原理和操作過程。,8.3.1 K-均值聚類的基本原理,K-均值聚類(K-Means-Cluster)又稱快速樣本聚類或逐步樣本聚類,是先將樣本數(shù)據(jù)進(jìn)行初始分類,然后根據(jù)中心點(diǎn)逐步調(diào)整,直至得到最終分類。這種聚類方法具有計(jì)算量大、對(duì)系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點(diǎn),因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對(duì)樣本的聚類,而不能對(duì)變量進(jìn)行聚類。K-均值聚類分析的基本步驟如下: (1)確定聚類數(shù)量。 (2)確定初始類中心坐標(biāo)。 (3)根據(jù)距離最近原則進(jìn)行分類。 (4)重新計(jì)算所形成的各個(gè)新類別的中心點(diǎn)坐標(biāo),并重新歸類。 (5)重復(fù)上一過程,直至達(dá)到收斂標(biāo)準(zhǔn)。,8.3.2 K-均值聚類的操作過程,前面介紹了K-均值聚類分析的基本原理和步驟,在SPSS中K-均值聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“K-均值聚類”命令,打開“K-均值聚類”對(duì)話框,如圖所示。,(3)選擇變量 (4)確定聚類數(shù) (5)選擇聚類方法 (6)設(shè)定聚類中心的讀取與輸出 (7)設(shè)定迭代次數(shù) (8)設(shè)定輸出結(jié)果 (9)選擇統(tǒng)計(jì)量指標(biāo)和缺失值處理 (10)單擊“確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.3.3 實(shí)例分析:不同省份三次產(chǎn)業(yè)從業(yè)人數(shù),優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),轉(zhuǎn)變經(jīng)濟(jì)增長(zhǎng)方式對(duì)于國(guó)民經(jīng)濟(jì)平穩(wěn)較快發(fā)展有著重要的意義。為了更好的了解全國(guó)不同省份的三次產(chǎn)業(yè)結(jié)構(gòu)情況,國(guó)家統(tǒng)計(jì)局調(diào)查了全國(guó)31個(gè)省份2008的三次產(chǎn)業(yè)從業(yè)人數(shù)情況。這里摘選了其中部分省份的數(shù)據(jù),請(qǐng)問如何通過這些數(shù)據(jù)對(duì)各省份三次產(chǎn)業(yè)從業(yè)人數(shù)進(jìn)行聚類分析? 1操作過程 2結(jié)果分析,8.4 層次聚類,在前面兩節(jié)的內(nèi)容中介紹了二階聚類和K-均值聚類,這兩種聚類方法聚類速度快,較適合于樣本量較大的數(shù)據(jù),但它們也有一些不夠完善之處。首先,它們只可以對(duì)樣本進(jìn)行聚類,但是無(wú)法對(duì)變量進(jìn)行聚類;其次,由于聚類個(gè)數(shù)往往需要研究者事先指定(對(duì)于K-均值聚類必須指定聚類個(gè)數(shù)),這就需要研究者對(duì)研究對(duì)象要有一定的先驗(yàn)知識(shí)經(jīng)驗(yàn)和預(yù)期,這對(duì)新手來(lái)說會(huì)有一定的困難;最后,在輸出結(jié)果中它們對(duì)樣本之間的關(guān)系和結(jié)構(gòu)的描述也不夠詳細(xì)和直觀。而本節(jié)的層次聚類方法能很好的克服上述兩種聚類方法的缺陷。,8.4.1 層次聚類的基本原理,層次聚類又稱系統(tǒng)聚類或分層聚類,是一種常用的聚類方法。在層次聚類中,它既可以對(duì)樣本進(jìn)行聚類(即Q型聚類),也可以對(duì)變量進(jìn)行聚類(即R型聚類);聚類個(gè)數(shù)也無(wú)需事先指定(如果了解的話也可以指定或者只是指定類別數(shù)量范圍);在聚類過程中系統(tǒng)將所有觀測(cè)指標(biāo)納入計(jì)算過程,在聚類結(jié)果中不僅可以顯示不同樣本(或變量)的距離、所屬類別,而且還可以根據(jù)分類過程繪制出樣本(或變量)的樹狀譜系關(guān)系圖,對(duì)于確定類別個(gè)數(shù)有著重要的參考價(jià)值。 根據(jù)聚類過程的不同,層次聚類又可以分為凝聚法和分解法兩種方向相反的聚類方法。,8.4.2層次聚類的操作過程,在SPSS中層次聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“系統(tǒng)聚類”命令,打開“系統(tǒng)聚類分析”對(duì)話框,如圖所示。,(3)選擇變量:從左邊變量列表框中選擇要進(jìn)行聚類的變量將其移入右邊“變量”列表框中,同時(shí)選擇稱名變量移入“標(biāo)注個(gè)案”文本框中。 (4)選擇聚類類型:在“分群”選項(xiàng)組中可以選擇聚類對(duì)象。 (5)設(shè)定輸出指標(biāo):在“輸出”選項(xiàng)組中選擇輸出統(tǒng)計(jì)量和圖形。 (6)選擇基本統(tǒng)計(jì)量 (7)選擇輸出圖形 (8)選擇聚類方法 (9)聚類結(jié)果保存 (10)設(shè)置完成后,單擊 “確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.4.3 實(shí)例分析:普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成(2),在此仍采用二階聚類中使用的“普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成”案例。 1操作過程 2結(jié)果分析,8.5 判別分析,在前面幾節(jié)中主要介紹的是聚類分析,在根據(jù)一定的指標(biāo)對(duì)一組樣本進(jìn)行分類時(shí)就可以使用聚類分析。如果已知一組樣本總體可以分為幾類,但仍有一些樣本需要明確其類別歸屬時(shí)就需要使用本節(jié)的判別分析。 在實(shí)際生活中經(jīng)常會(huì)遇到各種各樣的類別歸屬的判斷問題。如醫(yī)生在給病人診斷時(shí),就需要根據(jù)病人的各種癥狀、生化指標(biāo)、持續(xù)時(shí)間等方面對(duì)病人的疾病類型及嚴(yán)重程度進(jìn)行判斷。同樣,在生物學(xué)中對(duì)新發(fā)現(xiàn)物種的歸類,在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)中對(duì)社會(huì)發(fā)展?fàn)顩r、經(jīng)濟(jì)形勢(shì)的判斷也都要涉及到本節(jié)要學(xué)習(xí)的判別分析。,8.5.1 判別分析簡(jiǎn)介,判別分析(Discriminant Analysis)是多元統(tǒng)計(jì)分析中判斷樣品所屬類別的一種重要的統(tǒng)計(jì)方法,它最早是由費(fèi)希爾 (R. A. Fisher) 1936 年在生物學(xué)的植物分類問題中提出來(lái)的,但當(dāng)初只是作為一種分類方法而缺少數(shù)學(xué)上的理論依據(jù),后來(lái)出現(xiàn)的貝葉斯(Bayes)判別證明了費(fèi)希爾判別的合理性,因此一般將這兩種判別分析合稱為Fisher判別分析。,1判別分析的基本原理 判別分析是在類別數(shù)確定的情況下,根據(jù)某一研究對(duì)象的各種特征判斷其類別歸屬的一種多變量統(tǒng)計(jì)分析方法。判別分析的方法很多,根據(jù)判別的組數(shù)來(lái)區(qū)分,有兩組判別分析和多組判別分析;根據(jù)區(qū)分不同總體所用數(shù)學(xué)模型的不同,有線性判別和非線性判別;根據(jù)判別時(shí)變量處理方法的不同,有逐步判別和序貫判別等。,2判別分析的適用條件 任何一種統(tǒng)計(jì)方法在滿足其適用條件的前提下才可能得到理想的結(jié)果和解釋。建立理想的判別分析模型需要滿足以下前提假設(shè): (1)自變量服從多元正態(tài)分布且彼此之間不存在多重共線性。 (2)所有自變量在各組之間方差齊性,協(xié)方差矩陣也相等。 (3)因變量的取值事先是確定的且獨(dú)立。 (4)自變量與因變量間關(guān)系符合線性假設(shè)。,8.5.2 判別分析的操作過程,在SPSS中判別分析的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“判別”命令,打開“判別分析”對(duì)話框,如圖所示。,(3)選擇變量 (4)選擇判別分析方法 (5)選擇基本統(tǒng)計(jì)量 (6)選擇判別方法 (7)選擇分類 (8)結(jié)果保存 (9)設(shè)置完成后,單擊 “確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.4.3 實(shí)例分析:地區(qū)職工平均工資水平,不同地區(qū)工資水平會(huì)存在一定的差異,在2004年全國(guó)不同地區(qū)職工平均工資調(diào)查中選取國(guó)有單位、城鎮(zhèn)集體單位及其他單位作為指標(biāo),通過對(duì)部分?jǐn)?shù)據(jù)進(jìn)行聚類分析總體上確立了兩個(gè)類別,分別為第一、第二組。另外有4個(gè)地區(qū)屬于待判別個(gè)案,請(qǐng)根據(jù)下面數(shù)據(jù)對(duì)這4個(gè)地區(qū)進(jìn)行判別分析以確定其所屬類別。 1操作過程 2結(jié)果分析,8.5 習(xí)題,

注意事項(xiàng)

本文(聚類分析和判別分析.ppt)為本站會(huì)員(xin****828)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!