多元統(tǒng)計(jì)之判別分析

上傳人:san****019 文檔編號(hào):16257968 上傳時(shí)間:2020-09-24 格式:PPT 頁(yè)數(shù):109 大?。?.06MB
收藏 版權(quán)申訴 舉報(bào) 下載
多元統(tǒng)計(jì)之判別分析_第1頁(yè)
第1頁(yè) / 共109頁(yè)
多元統(tǒng)計(jì)之判別分析_第2頁(yè)
第2頁(yè) / 共109頁(yè)
多元統(tǒng)計(jì)之判別分析_第3頁(yè)
第3頁(yè) / 共109頁(yè)

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《多元統(tǒng)計(jì)之判別分析》由會(huì)員分享,可在線閱讀,更多相關(guān)《多元統(tǒng)計(jì)之判別分析(109頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,1,多元統(tǒng)計(jì)分析,何曉群,中國(guó)人民大學(xué)出版社,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,2,4.1 判別分析的基本理論 4.2 距離判別 4.3 Bayes判別 4.4 Fisher判別 4.5 逐步判別 4.6 判別分析方法步驟及框圖 4.7 判別分析的上機(jī)實(shí)現(xiàn) 4.8 判別分析應(yīng)用的幾個(gè)例子,第四章 判別分析,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,3,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第四章 判別分析,回歸模型普及性的基礎(chǔ)在于用它去預(yù)測(cè)和解釋度量(metric)變量。但是對(duì)于非度量(nonmetric

2、)變量,多元回歸不適合解決此類問(wèn)題。本章介紹的判別分析來(lái)解決被解釋變量是非度量變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費(fèi)者,一家公司成功還是破產(chǎn)等。 判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別的情況下有著廣泛的應(yīng)用。潛在的應(yīng)用包括預(yù)測(cè)新產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種類、或者預(yù)測(cè)一個(gè)公司是否成功。在每種情況下,將對(duì)象進(jìn)行分組,并且要求使用這兩種方法中的一種可以通過(guò)人們選擇的解釋變量來(lái)預(yù)測(cè)或者解釋每個(gè)對(duì)象的所屬類別。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,4,目錄

3、 上頁(yè) 下頁(yè) 返回 結(jié)束,4.1 判別分析的基本理論,有時(shí)會(huì)遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問(wèn)題,這時(shí)需要選擇一種合適的分析方法。比如,我們希望區(qū)分好和差的信用風(fēng)險(xiǎn)。如果有信用風(fēng)險(xiǎn)的度量指標(biāo),就可以使用多元回歸。但我們可能僅能判斷某人是在好的或者差的一類,這就不是多元回歸分析所要求的度量類型。 當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。 判別分析能夠解決兩組或者更多組的情況。 當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析(Multiple discriminant analysis)。 判別分析的假設(shè)條件 判別分析最基本

4、的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個(gè)以上。解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,5,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,4.1 判別分析的基本理論,判別分析的假設(shè)之一,是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問(wèn)題。 判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來(lái)計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。 判

5、別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,6,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,4.2.1 兩總體情況,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,7,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,8,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究

6、中心,9,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,10,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,11,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,4.2.2 多總體情況 1. 協(xié)差陣相同。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,12,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2. 協(xié)差陣不相同。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,13,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民

7、大學(xué)六西格瑪質(zhì)量管理研究中心,14,4.2 距離判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,15,4.3 Bayes判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來(lái)修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,16,4.3 Bayes判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24

8、,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,17,4.4 Fisher判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,18,4.4 Fisher判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,19,4.4 Fisher判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,20,4.4 Fisher判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,21,4.4 Fisher判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24

9、,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,22,4.5 逐步判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,在多元回歸中熟知,變量選擇的好壞直接影響回歸的效果,而在判別分析中也有類似的問(wèn)題。如果在某個(gè)判別問(wèn)題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問(wèn)題中,事先并不十分清楚哪些指標(biāo)是主要的,這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算才好呢?理論和實(shí)踐證明,指標(biāo)太多了,不僅帶來(lái)大量的計(jì)算,同時(shí)許多對(duì)判別無(wú)作用的指標(biāo)反而會(huì)干擾了我們的視線。因此適當(dāng)篩選變量的問(wèn)題就成為一個(gè)很重要的事情。 凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從

10、而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見(jiàn)1所討論指標(biāo)的附加信息檢驗(yàn)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,23,4.5 逐步判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,逐步判別的原則,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,24,4.5 逐步判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,25,4.5 逐步判別,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,()這時(shí)既不能選進(jìn)新變量,又不能剔除已選進(jìn)的變量,將已選中的變量建立判別函數(shù)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,26,4.6 判別分析方法步驟及框圖

11、,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,使用判別分析可以看作是下面6個(gè)步驟的過(guò)程: 第1步:判別分析的對(duì)象 判別分析的研究目的: 1. 確定在兩個(gè)或者更多事先定義的組上的一組變量的平均得分剖面是否存在顯著性差異。 2. 確定哪些變量在兩個(gè)或更多組的平均得分剖面的差異中解釋最多。 3. 在一組變量得分的基礎(chǔ)上,建立將對(duì)象(個(gè)體、公司、產(chǎn)品等等)分類的步驟。 4. 建立由這組變量形成的組與組之間判別函數(shù)的數(shù)目及構(gòu)成。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,27,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第2步:判別分析的研究設(shè)計(jì) 判別分析的成功應(yīng)用需要考慮到幾個(gè)要點(diǎn)

12、。這些要點(diǎn)包括解釋變量和被解釋變量的選擇、估計(jì)判別函數(shù)所需的樣本量和為了驗(yàn)證目的對(duì)樣本的分割。 (一)解釋變量和被解釋變量的選擇 要應(yīng)用判別分析,研究者必須首先指定解釋變量與被解釋變量。這里,解釋變量為定量變量,而被解釋變量為定性變量。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,28,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,研究者首先應(yīng)該關(guān)注被解釋變量。被解釋變量的組數(shù)可以是兩個(gè)或更多,但這些組必須具有相互排斥性和完全性。被解釋變量有時(shí)確實(shí)是定性的變量。然而也有一些情況,即使被解釋變量不是真的定性變量,判別分析也是適用的。我們可能有一個(gè)被解釋變量是順序或者

13、間隔尺度的變量,而要作為定性變量使用。這種情況下我們可以創(chuàng)建一個(gè)定性變量。 當(dāng)確定了被解釋變量后,研究者必須確定分析中應(yīng)包括的解釋變量。解釋變量的選擇通常有兩種方法。第一種是從以前的研究中或者從該研究問(wèn)題根本的理論模型中確定變量。第二種方法是直覺(jué)運(yùn)用研究者的知識(shí),直觀地選擇沒(méi)有以前研究或理論存在但是邏輯上與預(yù)測(cè)解釋變量的組相關(guān)的變量。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,29,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(二)樣本容量 判別分析對(duì)樣本量與預(yù)測(cè)變量個(gè)數(shù)的比率很敏感。許多研究建議比率為每個(gè)預(yù)測(cè)變量20個(gè)觀測(cè)。盡管這個(gè)比率在實(shí)際中難以保持,但研

14、究者應(yīng)注意,當(dāng)樣本量相對(duì)于解釋變量個(gè)數(shù)在減少時(shí),結(jié)果是不穩(wěn)定的。建議最小的樣本量是每個(gè)變量有5個(gè)觀測(cè)。 除總的樣本量以外,研究者還必須考慮每組的樣本容量。至少,最小的組的大小必須超過(guò)解釋變量的個(gè)數(shù)。作為實(shí)際的指導(dǎo),每組應(yīng)至少有20個(gè)觀測(cè)。但即使所有的組大小都超過(guò)了20,研究者還應(yīng)注意組的相對(duì)大小。如果組的大小相差很大,這可能影響到判別函數(shù)的估計(jì)和觀測(cè)的分類。在分類階段,大的組有不相稱的高的分類機(jī)會(huì)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,30,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(三)樣本的分割 很多時(shí)候樣本需要分割為兩個(gè)子樣本,一個(gè)用于估計(jì)判別函

15、數(shù),另一個(gè)用于驗(yàn)證。每個(gè)子樣本都有適當(dāng)?shù)拇笮?lái)支持結(jié)論是很重要的。 分割樣本有很多種方法,最常用的一種是通過(guò)一個(gè)子樣本來(lái)估計(jì)判別函數(shù),而用另一個(gè)子樣本來(lái)驗(yàn)證。常用的過(guò)程是將整個(gè)樣本隨機(jī)地分為兩組。其中的一組,分析樣本是用來(lái)估計(jì)判別函數(shù)的。另一組保留樣本,是用來(lái)驗(yàn)證結(jié)論的。這種驗(yàn)證方法稱為分割樣本或者交叉驗(yàn)證方法。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,31,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,如果劃分分析樣本和保留樣本沒(méi)有固定的原則。最常用的程序是分為兩半。 當(dāng)選擇分析組和保留組的個(gè)體時(shí),通常遵循比例分層抽樣。也就是分析組和保留組的各組大小比率應(yīng)與

16、整個(gè)樣本的各組大小比率相同。 如果研究者要?jiǎng)澐謽颖?,這個(gè)樣本應(yīng)該充分的大。一般來(lái)講,研究者需要整個(gè)樣本至少為100,將它分為兩組。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,32,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第3步:判別分析的假定 推導(dǎo)判別函數(shù)的關(guān)鍵假定是解釋變量的多元正態(tài)性和由被解釋變量定義的各組的未知但相等的協(xié)方差結(jié)構(gòu)。不滿足多元正態(tài)性假定在估計(jì)判別方程時(shí)可能會(huì)出現(xiàn)問(wèn)題。因此,如果可能的話,建議使用Logistic回歸作為一種替代方法。 不等的協(xié)方差矩陣可能會(huì)負(fù)面影響分類過(guò)程。如果樣本量小而協(xié)方差陣不等,那么估計(jì)過(guò)程的統(tǒng)計(jì)顯著性會(huì)受到負(fù)面影

17、響。最可能的情況是在適當(dāng)?shù)臉颖玖康慕M之間存在不等的協(xié)方差陣,那么觀測(cè)會(huì)被“過(guò)度歸類”到大的協(xié)方差陣的組中??梢酝ㄟ^(guò)增加樣本量和使用各組特定的協(xié)方差陣減小這種影響。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,33,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,最后,如果組間的協(xié)方差陣存在大的差異,沒(méi)有方法可以減小這種影響時(shí),在許多統(tǒng)計(jì)問(wèn)題中可以使用二次判別技術(shù)。 另一個(gè)可能影響結(jié)果的是解釋變量的多重共線性。當(dāng)使用逐步判別時(shí)這種考慮尤為重要。研究者在解釋判別方程時(shí)必須注意多重共線性的程度和它對(duì)哪些變量進(jìn)入逐步解的影響。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管

18、理研究中心,34,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第4步:估計(jì)判別模型和評(píng)估整體擬合 為了推導(dǎo)判別函數(shù),研究者必須確定估計(jì)的方法,然后確定保留的函數(shù)個(gè)數(shù)。隨著估計(jì)的函數(shù),可以用多種方法來(lái)評(píng)估模型擬合。首先,判別Z得分,可以為每一個(gè)觀測(cè)計(jì)算?;赯得分的各組均值的比較提供了組與組之間判別的一種測(cè)量。通過(guò)分到正確類中的觀測(cè)來(lái)測(cè)量預(yù)測(cè)精度。一系列準(zhǔn)則可以用來(lái)評(píng)價(jià)判別過(guò)程是否達(dá)到了實(shí)際的或者統(tǒng)計(jì)的顯著性。最后,個(gè)體診斷可以分析每個(gè)觀測(cè)的分類精度和它對(duì)于整個(gè)模型估計(jì)的相對(duì)影響。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,35,4.6 判別分析方法步驟及框圖,

19、目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(一)計(jì)算方法 推導(dǎo)判別函數(shù)時(shí)可以使用兩種計(jì)算方法:聯(lián)立(直接)法和逐步法。聯(lián)立估計(jì)在計(jì)算判別函數(shù)時(shí)同時(shí)考慮所有的解釋變量。這樣,判別函數(shù)是基于解釋變量的整個(gè)集合來(lái)計(jì)算的,而不管每個(gè)解釋變量的判別力。 逐步估計(jì)是另一種估計(jì)方法。它以解釋變量的判別力為基礎(chǔ),每次進(jìn)入一個(gè)變量到判別函數(shù)中。逐步估計(jì)開(kāi)始是選取一個(gè)最有判別力的變量。然后這個(gè)變量與其他的解釋變量一一配對(duì),那么與第一個(gè)變量一起最能夠提高判別力的變量被選中。第三個(gè)及以后的用類似的方式選取。增加新的變量時(shí),如果一些前面選中的變量所包含的關(guān)于組差異信息可由后面選中的變量所包含,它們將被剔除。最后,既不能選進(jìn)新的變量

20、,又不能剔除已有變量。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,36,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(二)評(píng)估整體擬合 一旦判別方程通過(guò)了顯著性檢驗(yàn),注意力轉(zhuǎn)向確定保留的判別函數(shù)的整體擬合。這個(gè)評(píng)估包括三個(gè)任務(wù):計(jì)算每個(gè)觀測(cè)的判別Z得分,檢驗(yàn)各組在判別Z得分上的差異和評(píng)估組的關(guān)系的預(yù)測(cè)精度。 1.計(jì)算判別Z得分,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,37,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,這個(gè)得分是定量變量,提供了在每個(gè)函數(shù)上比較對(duì)象的直接手段。有類似的Z得分的觀測(cè)被認(rèn)為在構(gòu)成函數(shù)的變量上比得分懸

21、殊的觀測(cè)更相似。判別函數(shù)既有用標(biāo)準(zhǔn)化的權(quán)重和值,也有用非標(biāo)準(zhǔn)化的權(quán)重和值。標(biāo)準(zhǔn)化形式更易于解釋,而非標(biāo)準(zhǔn)化形式更易于計(jì)算判別Z得分。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,38,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,應(yīng)當(dāng)注意判別函數(shù)不同于分類函數(shù),也稱為費(fèi)歇線性判別函數(shù)。分類函數(shù),可用于對(duì)觀測(cè)進(jìn)行分類。在這種分類方法中,一個(gè)觀測(cè)的解釋變量的值代入分類函數(shù)中,這個(gè)觀測(cè)針對(duì)每組可以計(jì)算一個(gè)分類得分。然后這個(gè)觀測(cè)被分到分類得分最高的組中。我們使用判別函數(shù)作為分類手段,是因?yàn)樗峁┝嗣總€(gè)判別函數(shù)的一個(gè)簡(jiǎn)潔表示,簡(jiǎn)化了解釋過(guò)程和對(duì)解釋變量貢獻(xiàn)的評(píng)估。,2020

22、/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,39,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2. 檢驗(yàn)組的差異 一種評(píng)估整體擬合的方法是根據(jù)判別Z得分,確定各組個(gè)體的差異大小。組差異的一種綜合測(cè)量是比較組的重心,即組中所有個(gè)體的平均判別Z得分。 重心的差異是用馬氏距離來(lái)測(cè)量的,這樣檢驗(yàn)可用來(lái)確定差異是否在統(tǒng)計(jì)上顯著。研究者應(yīng)保證即使有顯著的判別函數(shù),組間應(yīng)存在顯著的差異。 在每個(gè)判別函數(shù)上組的重心可以從球面的角度來(lái)繪圖顯示結(jié)果。通常用前兩個(gè)或者三個(gè)判別函數(shù)來(lái)作圖。每組的值顯示了它在降維的空間中的值(并非畫出所有的函數(shù))。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管

23、理研究中心,40,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,3. 評(píng)價(jià)組關(guān)系預(yù)測(cè)的精度 判別分析中每個(gè)觀測(cè)是通過(guò)它是否被正確歸類來(lái)評(píng)價(jià)的。要這樣做,應(yīng)當(dāng)解決一些主要的考慮:利用分類矩陣的統(tǒng)計(jì)和實(shí)際的基本原理、分割點(diǎn)的確定、分類矩陣的構(gòu)造和評(píng)價(jià)分類精度的標(biāo)準(zhǔn)。 判別函數(shù)的顯著性檢驗(yàn)并沒(méi)有說(shuō)明函數(shù)擬合有多好。比如,假定兩個(gè)組在0.01的水平上有顯著性差異,如果樣本量足夠大,組的均值(重心)可能實(shí)際上相等。因此顯著性水平可能并不是反映判別函數(shù)判別能力的很好的指標(biāo)。為了確定一個(gè)判別函數(shù)的預(yù)測(cè)能力,研究者必須構(gòu)造分類矩陣。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,4

24、1,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,如果統(tǒng)計(jì)檢驗(yàn)顯示判別函數(shù)顯著,通常構(gòu)造分類矩陣來(lái)提供函數(shù)的判別效力的更精確的估計(jì)。然而,在分類矩陣構(gòu)造之前,研究者必須確定臨界得分。每個(gè)觀測(cè)的判別得分與臨界得分比較來(lái)確定個(gè)體應(yīng)分到哪一類中。 在構(gòu)造分類矩陣時(shí),研究者希望確定最優(yōu)臨界得分(也稱臨界Z值)。最優(yōu)臨界得分會(huì)因各組大小是否相等而不同。如果兩組是相同的大小,最優(yōu)臨界得分是兩組重心的中點(diǎn)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,42,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,4

25、3,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,所有計(jì)算最優(yōu)臨界得分的公式都假定正態(tài)分布和已知組的協(xié)方差結(jié)構(gòu)。 為了用分類矩陣來(lái)驗(yàn)證判別分析的結(jié)果,樣本必須隨機(jī)地分割為分析樣本和保留樣本。保留樣本的每個(gè)觀測(cè)的判別得分可與臨界得分相比較,進(jìn)行分類。分類的結(jié)果用矩陣的形式表示出來(lái)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,44,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,45,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,評(píng)估模型擬合的最后一個(gè)方法就是在每個(gè)觀測(cè)的基礎(chǔ)上研

26、究預(yù)測(cè)結(jié)果。與回歸分析的殘差分析相似,目的是為了理解被錯(cuò)判的觀測(cè)和不是該組代表的觀測(cè)。研究者可以通過(guò)馬氏距離來(lái)評(píng)估一個(gè)觀測(cè)與該組其他個(gè)體的相似性??拷匦牡挠^測(cè)被認(rèn)為比遠(yuǎn)離重心的觀測(cè)更加代表該組。 用圖形的方式表示觀測(cè)是研究觀測(cè)特征的另一種方法。尤其是錯(cuò)判的觀測(cè)。一種常用的方法是將觀測(cè)點(diǎn)根據(jù)判別Z得分繪圖,并且畫出各組重疊部分和錯(cuò)判的觀測(cè)。如果保留了兩個(gè)或兩個(gè)以上的判別函數(shù),可以用區(qū)域圖來(lái)表示各組所對(duì)應(yīng)的區(qū)域和最優(yōu)臨界點(diǎn)。將每個(gè)觀測(cè)與組的重心畫在一起,不僅可以用組的重心反映一般特征,還可以反映組中成員的變動(dòng)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,46,4.6 判別分析方法

27、步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第5步:結(jié)果的解釋,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,47,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,解釋判別函數(shù)傳統(tǒng)的方法是觀察計(jì)算判別函數(shù)時(shí)賦予每個(gè)變量的標(biāo)準(zhǔn)化判別權(quán)重(有時(shí)也稱為判別系數(shù))的符號(hào)和大小。忽略符號(hào)時(shí),較大權(quán)重的解釋變量意味著對(duì)判別函數(shù)的判別力貢獻(xiàn)更多。符號(hào)只是代表那個(gè)變量有正的還是負(fù)的貢獻(xiàn)。對(duì)判別權(quán)重的解釋也有一些批評(píng)。比如解釋變量存在多重共線性情況時(shí),判別權(quán)重可能會(huì)出現(xiàn)問(wèn)題。另一個(gè)問(wèn)題是判別權(quán)重被認(rèn)為不穩(wěn)定。 近年來(lái),由于判別權(quán)重的缺陷,判別載荷逐漸作為解釋的基礎(chǔ)。判別載荷,有時(shí)也稱為結(jié)

28、構(gòu)相關(guān)系數(shù),是每個(gè)解釋變量與判別函數(shù)的簡(jiǎn)單相關(guān)系數(shù)。判別載荷反映的是每個(gè)解釋變量對(duì)判別函數(shù)的相對(duì)貢獻(xiàn)。判別載荷也可能存在不穩(wěn)定性。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,48,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,當(dāng)存在兩個(gè)或以上的判別函數(shù)的時(shí)候,我們面臨著其他的解釋問(wèn)題。首先,我們能簡(jiǎn)化判別權(quán)重或載荷以利于刻畫判別函數(shù)嗎?再者,我們?nèi)绾伪硎窘忉屪兞繉?duì)判別函數(shù)的影響?我們介紹函數(shù)旋轉(zhuǎn)和能力指數(shù)的概念來(lái)解決這兩個(gè)問(wèn)題。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,49,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,在推導(dǎo)出

29、判別函數(shù)以后,它們可以旋轉(zhuǎn)來(lái)重新分配方差。旋轉(zhuǎn)保持了原始結(jié)構(gòu)和判別解的穩(wěn)定性,而且使方程更易于解釋。 當(dāng)保留兩個(gè)或兩個(gè)以上的判別函數(shù)時(shí),需要一個(gè)綜合的量來(lái)描述一個(gè)變量對(duì)所有顯著函數(shù)的貢獻(xiàn)。 能力指數(shù)(potency index)是反映每個(gè)變量判別能力的相對(duì)指標(biāo)。它既包含一個(gè)變量對(duì)判別函數(shù)的貢獻(xiàn)(判別載荷),又包含一個(gè)方程對(duì)整個(gè)解的相對(duì)貢獻(xiàn)(對(duì)方程特征值的相對(duì)測(cè)量)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,50,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,綜合指數(shù)只是在所有顯著的判別函數(shù)上的個(gè)體能力指數(shù)之和。綜合指數(shù)僅當(dāng)描述每個(gè)變量的相對(duì)重要性時(shí)是有用的,其

30、絕對(duì)數(shù)值沒(méi)有實(shí)際意義。能力指數(shù)通過(guò)兩步計(jì)算:,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,51,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(2):計(jì)算在所有顯著的函數(shù)上的綜合能力指數(shù)。當(dāng)每個(gè)函數(shù)都計(jì)算了能力值后,綜合指數(shù)為每個(gè)顯著的判別函數(shù)上的能力值之和。這個(gè)能力指數(shù)表示該變量在所有顯著的判別函數(shù)上的全部判別效果。 第6步:結(jié)果的驗(yàn)證 判別分析的最后一個(gè)階段就是驗(yàn)證判別分析的結(jié)果,通常采用分割樣本或者交叉驗(yàn)證法。兩種廣泛使用的方法是法和小刀法。這兩種方法都是以“留一個(gè)觀測(cè)在外”的原則為基礎(chǔ)。(“留一個(gè)觀測(cè)在外”的原則是指在交叉驗(yàn)證時(shí),某個(gè)觀測(cè)不參與估計(jì)判別函數(shù)

31、,但是根據(jù)除這個(gè)觀測(cè)以外的其他觀測(cè)估計(jì)的判別函數(shù)來(lái)預(yù)測(cè)該觀測(cè)的所屬類,從而使每個(gè)觀測(cè)得到驗(yàn)證。)進(jìn)行兩者的主要區(qū)別在于法主要關(guān)注分類精度,而小刀法強(qiáng)調(diào)判別系數(shù)的穩(wěn)定性。兩種方法都對(duì)小樣本量非常敏感。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,52,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,判別分析的邏輯框圖如下:,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,53,4.6 判別分析方法步驟及框圖,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,圖4.1 判別分析步驟框圖,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,54,4.7 判別分析的上機(jī)實(shí)現(xiàn),目

32、錄 上頁(yè) 下頁(yè) 返回 結(jié)束,這里舉兩個(gè)例子,一個(gè)例子是分兩組的情況,一個(gè)是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來(lái)實(shí)現(xiàn)判別分析。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,55,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,56,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,(一)二元變量的判別分析計(jì)算,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,57,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,另外,如果需要更深入的分析,可以選擇其他項(xiàng)。

33、統(tǒng)計(jì)量(Statistics)選項(xiàng)中可以選擇描述統(tǒng)計(jì)量Mean,ANVOA,BoxM ,函數(shù)可以選擇Fisher和非標(biāo)準(zhǔn)化函數(shù),同時(shí)還可以使用哪種矩陣。由于只有兩個(gè)自變量,我們不需要使用逐步判別法。分類(Classify)選項(xiàng)中可以選擇先驗(yàn)概率(所有組相等或根據(jù)組的大小計(jì)算概率),子選項(xiàng)顯示(display)中可以選擇每個(gè)個(gè)體的結(jié)果(Casewise results),綜合表(Summery Table)和“留一個(gè)在外”的驗(yàn)證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項(xiàng)中可以選擇預(yù)測(cè)的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Metho

34、d)。得到分析結(jié)果如下:,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,58,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,59,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,60,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,61,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,62,4.7 判別分析的上機(jī)

35、實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關(guān)系數(shù)。(注意我們僅選取了兩個(gè)解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對(duì)第一個(gè)判別函數(shù)的顯著性檢驗(yàn)。由Wilks Lambda檢驗(yàn),認(rèn)為判別函數(shù)在0.01的顯著性水平上是極顯著的。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,63,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,64,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下

36、頁(yè) 返回 結(jié)束,第2張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出兩個(gè)解釋變量對(duì)判別函數(shù)的貢獻(xiàn)較大。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,65,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,66,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,67,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.5是分類的統(tǒng)計(jì)結(jié)果。 第1張表概括了分類過(guò)程,說(shuō)明24個(gè)觀測(cè)都參與分類。第2張表說(shuō)明各組的先驗(yàn)概率,我們?cè)贑l

37、assify選項(xiàng)中選擇的是所有組的先驗(yàn)概率相等。 第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費(fèi)歇線性判別函數(shù),,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,68,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,第4張表是分類矩陣表。Predicted Group Membership表示預(yù)測(cè)的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗(yàn)證的所屬組關(guān)系,這里交叉驗(yàn)證是采用“留一個(gè)在外”的原則,即每個(gè)觀測(cè)是通過(guò)除了這個(gè)觀測(cè)以外的其他觀測(cè)推導(dǎo)出來(lái)的判別函數(shù)來(lái)分類的。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中

38、心,69,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,我們還可以通過(guò)保存(Save)選項(xiàng)選擇預(yù)測(cè)的類別關(guān)系和判別得分等,對(duì)觀測(cè)進(jìn)行診斷。 下面我們看一個(gè)三總體判別的例子。 【例4.2】研究者希望能夠根據(jù)氣候、經(jīng)濟(jì)因素、人口等信息來(lái)判斷某國(guó)家或地區(qū)屬于哪一類型。這里國(guó)家country(因變量)有3種類別,OECD表示經(jīng)合組織的國(guó)家(包括美國(guó)、加拿大和西歐等發(fā)達(dá)國(guó)家),Pacific/Asia表示亞太地區(qū)的國(guó)家,Africa表示非洲地區(qū)的國(guó)家??紤]了以下幾個(gè)自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城市居民的比

39、例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來(lái)自SPSS10.0自帶的數(shù)據(jù)集World95.sav。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,70,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,進(jìn)入判別分析對(duì)話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結(jié)果: 首先顯示有類的輸出結(jié)果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計(jì)分析。第3張表是各組變量均值是否相等的統(tǒng)計(jì)檢驗(yàn),結(jié)果說(shuō)明四個(gè)自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。,2020/9/24,中國(guó)人民大

40、學(xué)六西格瑪質(zhì)量管理研究中心,71,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.6是對(duì)協(xié)方差陣是否相等的檢驗(yàn)。由第2張表可以看出,原假設(shè)被拒絕,即認(rèn)為各組的協(xié)方差陣不等。(注意這里違反了原假設(shè)),2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,72,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,73,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,74,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.7

41、是說(shuō)明逐步回歸的結(jié)果。第1,2張表說(shuō)明變量進(jìn)入判別函數(shù)的情況。第3張表說(shuō)明不在判別函數(shù)的變量,結(jié)果反映城市居民的比例(urban)對(duì)判別函數(shù)的貢獻(xiàn)不顯著,其他三個(gè)自變量被選入判別方程。第4張表說(shuō)明判別函數(shù)的顯著性,由Step3的結(jié)果說(shuō)明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,75,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,76,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4.8分析的是典型判別函數(shù)。第1張表說(shuō)明選取了兩個(gè)典型

42、判別函數(shù),它們可以解釋全部的方差。第2張表是對(duì)兩個(gè)判別函數(shù)的Wilks Lamada檢驗(yàn),檢驗(yàn)結(jié)果說(shuō)明兩個(gè)判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標(biāo)準(zhǔn)化判別函數(shù),第4張表是結(jié)構(gòu)矩陣(即判別載荷矩陣),第5張表是非標(biāo)準(zhǔn)化判別函數(shù),由這幾張表可以說(shuō)明,第一判別函數(shù)主要反映一國(guó)的氣候和經(jīng)濟(jì)因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計(jì)算出臨界點(diǎn),從而根據(jù)判別函數(shù)計(jì)算出判別Z得分,對(duì)各個(gè)觀測(cè)進(jìn)行歸類。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,77,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪

43、質(zhì)量管理研究中心,78,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,輸出結(jié)果4-9的第1張表是對(duì)觀測(cè)分類的總體概括,有一個(gè)觀測(cè)至少有1個(gè)自變量缺失。第2張表是各組的先驗(yàn)概率,由于我們選擇先驗(yàn)概率按各組大小計(jì)算,所以各組的先驗(yàn)概率是與各組大小成比例的。第3張表說(shuō)明分類函數(shù),也就是費(fèi)歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計(jì)算每個(gè)觀測(cè)在各組的分類得分,然后將該觀測(cè)歸到得分最高的組中。 第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點(diǎn)圖,比較直觀地反映了各組觀測(cè)的分類情況和各組的重心。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,79,4.7 判別分析的上機(jī)實(shí)現(xiàn),目錄 上頁(yè) 下

44、頁(yè) 返回 結(jié)束,第5張表是分類結(jié)果的矩陣,這里我們也使用了“留一個(gè)在外”的原則進(jìn)行交叉驗(yàn)證,驗(yàn)證的結(jié)果還是可以接受的,表明模型擬合還是不錯(cuò)的。由分類矩陣可以看出,OECD國(guó)家和非洲國(guó)家的個(gè)體誤判概率很小,而亞太國(guó)家誤判概率很大。這說(shuō)明了OECD國(guó)家經(jīng)濟(jì)比較發(fā)達(dá),城市化水平較高,而且各成員國(guó)發(fā)展水平相差不大;非洲國(guó)家經(jīng)濟(jì)水平較低,城市化水平也較低,其成員國(guó)發(fā)展水平相差也不大;因此這兩類國(guó)家比較容易判別,而亞太國(guó)家和地區(qū)發(fā)展水平不均衡,沒(méi)有太多的共同點(diǎn),導(dǎo)致其成員國(guó)不易判別。(根據(jù)輸出結(jié)果4.8第2張表的均值和協(xié)差陣可以說(shuō)明)我們還可以在對(duì)話框中選擇ClassifyDisplayCasewise

45、results,對(duì)每個(gè)觀測(cè)進(jìn)行診斷分析。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,80,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,下面用SPSS軟件中的Discriminant模塊來(lái)實(shí)現(xiàn)判別分析。 例4.3 為了研究2005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)支出情況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個(gè)消費(fèi)水平類型。判別指標(biāo)及原始數(shù)據(jù)見(jiàn)表42。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,81,4.8 判

46、別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,82,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,83,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,將原29個(gè)樣品的回報(bào)結(jié)果列于表43,兩個(gè)待判樣品的判別結(jié)果列于表44。廣東省應(yīng)判歸第二類消費(fèi)水平,西藏自治區(qū)歸入第三類消費(fèi)水平為宜。本例的回報(bào)準(zhǔn)確率高,說(shuō)明各地區(qū)農(nóng)村居民的消費(fèi)水平劃分為三種類型是合適的。由于SPSS中的判別分析沒(méi)有距離判別這一方法,因此距離判別法無(wú)法在SPSS中直接實(shí)現(xiàn),但可以

47、通過(guò)Excel等軟件來(lái)進(jìn)行手工計(jì)算。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,84,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,這里順便指出,回報(bào)的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時(shí)參考。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,85,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,例4.4 為了研究2005年全國(guó)各地區(qū)國(guó)有及國(guó)有控股工業(yè)企業(yè)的經(jīng)營(yíng)狀況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別

48、函數(shù),判定廣東、西藏分別屬于哪個(gè)發(fā)展類型。判別指標(biāo)及原始數(shù)據(jù)見(jiàn)表45。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,86,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,87,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,88,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,將原29個(gè)樣品的回報(bào)結(jié)果列于表46,兩個(gè)待判樣品的判別結(jié)果列于表47。廣東省應(yīng)判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報(bào)準(zhǔn)確率高,說(shuō)明各地區(qū)國(guó)有

49、及控股工業(yè)企業(yè)經(jīng)濟(jì)效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結(jié)合應(yīng)用。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,89,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,例4.5 2005年全國(guó)城鎮(zhèn)居民月平均消費(fèi)狀況可劃分為兩類,分類后的數(shù)據(jù)見(jiàn)表48。試建立費(fèi)歇爾線性判別函數(shù),并將廣東、西藏兩個(gè)待判省區(qū)歸類。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,90,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,91,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回

50、 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,92,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,93,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,6回判及待判樣品的歸類。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,94,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,95,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,96

51、,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,SPSS中進(jìn)行費(fèi)歇爾判別分析是十分快捷的。首先按照表416把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點(diǎn)擊“Analyze”“Classify” “Discriminant”,打開(kāi)Discriminant Analysis對(duì)話框,將對(duì)話框左側(cè)變量列表中的group選入 Grouping Variable框,并點(diǎn)擊“Define Range”鈕,在彈出的Discriminant Analysis:Define Range對(duì)話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1、在Maximum處輸入2,點(diǎn)擊Continu

52、e鈕返回Discriminant Analysis對(duì)話框。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,97,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,再?gòu)膶?duì)話框左側(cè)的變量列表中選將八個(gè)變量選Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點(diǎn)擊“Statistics”鈕,彈出Discriminant Analysis: Statistics對(duì)話框,在Descriptive欄中選Means項(xiàng),要求對(duì)各組的各變量作均數(shù)與標(biāo)準(zhǔn)差的描述;在Function Coefficients欄中選Unstandardized項(xiàng)(注意,不是Fishers項(xiàng)?。?,要求顯示費(fèi)

53、歇爾判別法建立的非標(biāo)準(zhǔn)化系數(shù)。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,98,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,之后,點(diǎn)擊“Continue”鈕返回Discriminant Analysis對(duì)話框。點(diǎn)擊“Save”鈕,彈出Discriminant Analysis: Save New Variables對(duì)話框,選Predicted group membership項(xiàng)要求將回判的結(jié)果存入原始數(shù)據(jù)庫(kù)中。點(diǎn)擊“Continue”鈕返回Discriminant Analysis對(duì)話框,其他項(xiàng)目不變,點(diǎn)擊“OK”鈕即完成分析。在輸出結(jié)果中可以看到各組均值、標(biāo)

54、準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計(jì)結(jié)果以及判別函數(shù),返回?cái)?shù)據(jù)表中,可以看到判別結(jié)果已經(jīng)作為一個(gè)新的變量被保存,廣東和西藏均被劃分到第二大類,篇幅所限,各輸出結(jié)果在此不再列示。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,99,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,例4.6 2005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)情況可劃分為三種類型,分類后的數(shù)據(jù)見(jiàn)表42。試用SPSS軟件建立Bayes判別函數(shù),并將待判樣品歸類。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,100,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人

55、民大學(xué)六西格瑪質(zhì)量管理研究中心,101,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,102,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,根據(jù)判別函數(shù),就可以對(duì)原各組樣品以及待判樣品進(jìn)行回判和判別,此時(shí)在SPSS中返回原數(shù)據(jù)表,可以看到一個(gè)新的變量名為Dis_1,其對(duì)應(yīng)的各值就是對(duì)各地區(qū)的回判和判別結(jié)果,可知廣東被劃分到第二類消費(fèi)水平地區(qū),西藏被劃分到第三類消費(fèi)水平地區(qū),并且原各組樣品的回報(bào)誤判率為零。以上判別結(jié)果綜合整理列于表410。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,103,

56、4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,104,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,在例4.5和4.6中,我們是將事先確定的所有八個(gè)指標(biāo)變量都選入來(lái)進(jìn)行判別分析,在實(shí)際應(yīng)用中,我們也大多是設(shè)計(jì)盡可能多的相關(guān)指標(biāo)來(lái)進(jìn)行聚類和判別分析,然而事實(shí)是,指標(biāo)太多不僅增大了計(jì)算量,而且那些對(duì)判別無(wú)用的指標(biāo)也會(huì)干擾我們的視線。因此對(duì)眾多指標(biāo)進(jìn)行篩選,找出對(duì)判別函數(shù)貢獻(xiàn)比較突出,具有較強(qiáng)判別能力的指標(biāo)成為一個(gè)很重要的事情。凡是具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法,有關(guān)這些方法的具體論述可見(jiàn)參考文獻(xiàn)2

57、。,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,105,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,在此我們以例4.6為例介紹逐步判別法在SPSS中的實(shí)現(xiàn)。操作步驟仍與例4.5類似,不同之處在于點(diǎn)擊“Analyze”“Classify” “Discriminant”,打開(kāi)Discriminant Analysis對(duì)話框后,將Independents欄下的“Enter independents together”項(xiàng)改選為“Use stepwise method”,此時(shí)窗口最下面一行的“Method”按鈕被激活,點(diǎn)擊后進(jìn)入Discriminant Analysis:

58、stepwise method對(duì)話框,在method欄中選中Mahalanobis distance項(xiàng),即采用馬氏距離,其他選項(xiàng)保持不變,返回主對(duì)話框后,其他操作仍按例4.5進(jìn)行,點(diǎn)擊“OK”得到輸出結(jié)果,部分列舉如下:,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,106,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,107,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,108,4.8 判別分析應(yīng)用的幾個(gè)例子,目錄 上頁(yè) 下頁(yè) 返回 結(jié)束,The end! Thanks!,2020/9/24,中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心,109,

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!