判別分析的基本原理

上傳人：jun****875 文檔編號：17805207 上傳時間：2020-12-06 格式：DOC 頁數(shù)：17 大小：1.04MB

收藏版權(quán)申訴舉報下載

第1頁 / 共17頁

第2頁 / 共17頁

第3頁 / 共17頁

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《判別分析的基本原理》由會員分享，可在線閱讀，更多相關(guān)《判別分析的基本原理（17頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、判別分析的基本原理和模型一、判別分析概述（一）什么是判別分析判別分析是多元統(tǒng)計中用于判別樣品所屬類型的一種統(tǒng)計分析方法，是一種在已知研究對象用某種方法已經(jīng)分成若干類的情況下，確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。判別分析方法處理問題時，通常要給出用來衡量新樣品與各已知組別的接近程度的指標(biāo)，即判別函數(shù)，同時也指定一種判別準(zhǔn)則，借以判定新樣品的歸屬。所謂判別準(zhǔn)則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準(zhǔn)則。常用的有，距離準(zhǔn)則、Fisher準(zhǔn)則、貝葉斯準(zhǔn)則等。判別準(zhǔn)則可以是統(tǒng)計性的，如決定新樣品所屬類別時用到數(shù)理統(tǒng)計的顯著性檢驗，也可以是確定性的，如決定樣品歸屬時，只考慮判別函數(shù)值的

2、大小。判別函數(shù)是指基于一定的判別準(zhǔn)則計算出的用于衡量新樣品與各已知組別接近程度的函數(shù)式或描述指標(biāo)。（二）判別分析的種類按照判別組數(shù)劃分有兩組判別分析和多組判別分析；按照區(qū)分不同總體的所用數(shù)學(xué)模型來分有線性判別分析和非線性判別分析；按照處理變量的方法不同有逐步判別、序貫判別等；按照判別準(zhǔn)則來分有距離準(zhǔn)則、費(fèi)舍準(zhǔn)則與貝葉斯判別準(zhǔn)則。二、判別分析方法（一）距離判別法基本思想：首先根據(jù)已知分類的數(shù)據(jù)，分別計算各類的重心，即分組（類）均值，距離判別準(zhǔn)則是對于任給一新樣品的觀測值，若它與第類的重心距離最近，就認(rèn)為它來自第類。因此，距離判別法又稱為最鄰近方法（nearest neighbor method）

3、。距離判別法對各類總體的分布沒有特定的要求，適用于任意分布的資料。兩組距離判別兩組距離判別的基本原理。設(shè)有兩組總體，相應(yīng)抽出樣品個數(shù)為，每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下，總體的樣本數(shù)據(jù)為：該總體的樣本指標(biāo)平均值為：總體的樣本數(shù)據(jù)為：該總體的樣本指標(biāo)平均值為：現(xiàn)任取一個新樣品，實測指標(biāo)數(shù)值為=（），要求判斷屬于哪一類？首先計算樣品與、兩類的距離，分別記為、，然后按照距離最近準(zhǔn)則判別歸類，即樣品距離哪一類最近就判為哪一類；如果樣品距離兩類的距離相同，則暫不歸類。判別準(zhǔn)則寫為：，如果，如果，待判，如果。其中，距離的定義很多，根據(jù)不同情況區(qū)別選用。如果樣品的各個變量之間互不相關(guān)或相關(guān)很小時，可

4、選用歐氏距離。采用歐氏距離時，= 然后比較和的大小，按照距離最近準(zhǔn)則判別歸類。但實際應(yīng)用中，考慮到判別分析常涉及到多個變量，且變量之間可能相關(guān)，故多用馬氏距離。馬氏距離公式為：其中、分別是、的均值和協(xié)方差陣。這時的判別準(zhǔn)則分兩種情況給出：（1）當(dāng)=時=令，同時記則所以判別準(zhǔn)則寫成：，如果，如果，待判，如果。該規(guī)則取決于的值，因此被稱為判別函數(shù)，也可以寫成：，其中。被稱為線性判別函數(shù)。作為特例，當(dāng)時，兩個總體的分布分別是和，判別函數(shù)為或（使用樣本資料代替總體參數(shù)時）不妨設(shè)，這時的符號取決于或。時，判；時，判。兩組距離判別法，簡單容易理解，判別準(zhǔn)則也是合理的，但是有時也會出現(xiàn)錯判。如下圖6.1，如

5、果來自，但卻落入，被錯判為組，錯判的概率為圖中陰影的面積，記為，類似有，顯然=。圖6.1當(dāng)兩總體靠的比較近時，即兩總體的均值差異較小的時候，無論用何種判別方法，錯判的概率都比較大，這時的判別分析也是沒有意義的。因此只有當(dāng)兩總體的均值有顯著差異時，進(jìn)行判別分析才有意義，為此，要對兩總體的均值差異性進(jìn)行檢驗，對此在下文中敘述。（2）當(dāng)時按照距離最近準(zhǔn)則，類似地有：，如果，如果，待判，如果。仍然用作為判別函數(shù)，此時的判別函數(shù)是的二次函數(shù)。（3）關(guān)于兩組判別分析的檢驗由于判別分析是假設(shè)兩組樣品是取自不同總體，如果兩個總體的均值向量在統(tǒng)計上差異不顯著，則進(jìn)行判別分析意義不大。所以，兩組判別分析的檢驗，實

6、際就是要經(jīng)驗兩個正態(tài)總體的均值向量是否相等，為此，檢驗的統(tǒng)計量為：其中：給定檢驗水平，查分布表使，可得出，再由樣本值計算，若，則否定原假設(shè)，認(rèn)為兩個總體的均值向量在統(tǒng)計上差異顯著，否則兩個總體的均值向量在統(tǒng)計上差異不顯著。3、多個總體的距離判別法類似兩個總體的討論推廣到多個總體。設(shè)有個總體，相應(yīng)抽出樣品個數(shù)為，每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下，總體的樣本數(shù)據(jù)為：該總體的樣本指標(biāo)平均值為：總體的樣本數(shù)據(jù)為：該總體的樣本指標(biāo)平均值為：它們的樣本均值和協(xié)方差陣分別為：、。一般的，記總體的樣本指標(biāo)平均值為：（），。（）當(dāng)時此時，判別函數(shù)為，相應(yīng)的判別準(zhǔn)則為：，當(dāng)時，對于一切待判，

7、若有一個（）當(dāng)不相等時此時判別函數(shù)為相應(yīng)的判別準(zhǔn)則為：，當(dāng)時，對于一切待判，若有一個（二）費(fèi)舍判別法費(fèi)舍判別法是1936年提出來的，該方法對總體分布未提出什么特定的要求。1基本思想費(fèi)舍判別法是基于統(tǒng)計上的費(fèi)舍準(zhǔn)則，即判別的結(jié)果應(yīng)該使兩組間區(qū)別最大，使每組內(nèi)部離散性最小。在費(fèi)舍準(zhǔn)則意義下，確定線性判別函數(shù)：其中為待求的判別函數(shù)的系數(shù)。判別函數(shù)的系數(shù)的確定原則是使兩組間區(qū)別最大，使每組內(nèi)部離散性最小。有了判別函數(shù)后，對于一個新的樣品，將個指標(biāo)的具體數(shù)值代入判別式中求出值，然后與判別臨界值進(jìn)行比較，并判別其應(yīng)屬于哪一組。2兩組判別分析（1）方法原理設(shè)有兩組總體，相應(yīng)抽出樣品個數(shù)為，每個樣品觀

8、測個指標(biāo)得觀測數(shù)據(jù)如下，總體的樣本數(shù)據(jù)為：第1個總體的樣本指標(biāo)平均值為：總體的樣本數(shù)據(jù)為：第2個總體的樣本指標(biāo)平均值為：根據(jù)判別函數(shù)，用表示組樣品的重心，以表示組樣品的重心。則兩組之間的離差用來表示，、內(nèi)部的離差程度分別用和來表示，其中；。根據(jù)費(fèi)舍準(zhǔn)則，要使判別的結(jié)果滿足兩組間區(qū)別最大，每組內(nèi)部離散性最小。則判別函數(shù)的系數(shù)應(yīng)該能夠使：取得最大值。（2）判別系數(shù)的導(dǎo)出令 +根據(jù)數(shù)學(xué)分析求極值的原理，對上式兩邊取對數(shù)：令則即而 =令有則有而 +=+=+令 =+有則有于是有令是一個常數(shù)因子，不依賴，它對方程組的解只起到共同擴(kuò)大倍的作用，不影響它的解之間的比例關(guān)系，因此也

9、不會影響判別函數(shù)，所以，取，得方程組：即解此方程即得，進(jìn)而得判別函數(shù)：（3）判別準(zhǔn)則由判別函數(shù)，可得兩組總體各自樣品的重心：對它們進(jìn)行根據(jù)樣本的容量進(jìn)行加權(quán)得：稱為兩組判別的綜合指標(biāo)。據(jù)此可得判別準(zhǔn)則為：如果，則對于給定的新樣品，若有則將該樣品判屬于組，若，則判其屬于組；如果，則對于給定的新樣品，若有則將該樣品判屬于組，若，則判其屬于組。（4）兩組判別分析的檢驗由于判別分析是假設(shè)兩組樣品是取自不同總體，如果兩個總體的均值向量在統(tǒng)計上差異不顯著，則進(jìn)行判別分析意義不大。所以，兩組判別分析的檢驗，實際就是要檢驗兩個正態(tài)總體的均值向量是否相等，為此，檢驗的統(tǒng)計量為：其中：，給定檢驗水平，查分

10、布表使，可得出，再由樣本值計算，若，則否定原假設(shè)，認(rèn)為兩個總體的均值向量在統(tǒng)計上差異顯著，判別函數(shù)有效，可用；否則兩個總體的均值向量在統(tǒng)計上差異不顯著，判別函數(shù)無效不可用。3、多組費(fèi)舍判別分析（1）方法原理類似兩總體的費(fèi)舍判別法,下面給出多總體的費(fèi)舍判別法。設(shè)有個總體抽取樣品數(shù)分別為令。為第個總體的第個樣品的觀測向量。假定所建立的判別函數(shù)為其中記和分別是總體內(nèi)的樣本均值向量和樣本協(xié)差陣，根據(jù)求隨機(jī)變量線性組合的均值和方差的性質(zhì)可知，在上的樣本均值和樣本方差為記為總的均值向量，則在多總體情況下，F(xiàn)isher準(zhǔn)則就是要選取系數(shù)向量，使達(dá)到最大，其中是人為的正的加權(quán)系數(shù)，它可以取為先驗概率。如

11、果取，并將，代入上式可化為：其中為組內(nèi)離差陣，為總體之間樣本的協(xié)差陣，即（2）判別函數(shù)判別系數(shù)（矩陣關(guān)于矩陣的廣義特征向量）的導(dǎo)出。為求的最大值，根據(jù)極值存在的必要條件，令=0，利用對向量求導(dǎo)的公式：因此這說明了及恰好是矩陣關(guān)于矩陣的廣義特征根及其對應(yīng)的特征向量（因為根據(jù)定義有，設(shè)為階對稱矩陣，為階正定矩陣，若有或，則稱為關(guān)于矩陣的廣義特征根，是對應(yīng)的特征向量）。由于一般都要求加權(quán)協(xié)差陣是正定的，因此由代數(shù)知識可知，上式非零特征根個數(shù)不超過，又因為為非負(fù)定的，所以非零特征根必定為正根，記為于是可構(gòu)造個判別函數(shù)：判別函數(shù)的判別能力與判別函數(shù)的個數(shù)。由上述知，由于非零特征根有個，由此對

12、應(yīng)有個特征向量，即個判別函數(shù)，為了選取有效的判別函數(shù)，對于每個判別函數(shù)必須給出一個用以衡量判別能力的指標(biāo)，衡量判別函數(shù)判別能力的指標(biāo)定義為：個判別函數(shù)的判別能力定義為如果達(dá)到某個人定的值（比如85%）則就認(rèn)為個判別函數(shù)就夠了。（3）判別準(zhǔn)則有了判別函數(shù)之后，如何對待判的樣品進(jìn)行分類？Fisher判別法本身并未給出最合適的分類法，在實際工作中可以選用下列分類法之一進(jìn)行分類。第一方法，當(dāng)取=1時（即只取一個判別函數(shù)），此時有兩種可供選用的方法不加權(quán)法若則判加權(quán)法將按大小次序排列，記為，相應(yīng)的判別函數(shù)的標(biāo)準(zhǔn)差排為。令則可作為與之間的分界點。如果使得，則判。第二種方法，當(dāng)取時（即取多個判別函數(shù)）

13、，也有類似兩種供選用的方法不加權(quán)法記對待判樣品，計算若，則判加權(quán)法考慮到每個判別函數(shù)的判別能力不同，記其中是由求出的特征根。若，則判。（三）貝葉斯判別法1.基本思想設(shè)有個總體，它們的先驗概率分別為，密度函數(shù)為（在離散情形是概率函數(shù)），在觀測到一個樣品的情況下，可用貝葉斯公式計算它來自第g個總體的后驗概率：并且當(dāng)時，判定來自第個總體。另外，有時為了合理考慮錯判所帶來的損失，還使用錯判損失最小的概念確定判別函數(shù)，這時，把錯判給第個總體的平均損失定義為：其中稱為損失函數(shù)。它表示本來是第個總體的樣品錯判為第個總體的損失。于是建立判別準(zhǔn)則為，如果則，判定來自第個總體。顯然考慮損失函數(shù)更為合理，但是

14、由于實際應(yīng)用中，由于不容易確定，經(jīng)常在數(shù)學(xué)模型中假定各種錯判的損失皆相等，這樣，尋找使后驗概率最大實際上等價于使錯判損失最小。根據(jù)上述思想，在假定協(xié)方差矩陣相等的條件下，即可以導(dǎo)出判別函數(shù)。2.多元正態(tài)總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態(tài)分布，下面給出元正態(tài)總體的Bayes判別法，以及判別函數(shù)的導(dǎo)出。（1）待判樣品的先驗概率和密度函數(shù)使用Bayes準(zhǔn)則進(jìn)行分析,首先需要知道待判總體的先驗概率和密度函數(shù) (如果是離散情形則是概率函數(shù))。對于先驗概率，一般可用樣品頻率來代替，即令，其中為用于建立判別函數(shù)的已知分類數(shù)據(jù)中來自第總體樣品的數(shù)目，且，或者干脆令先驗概率相等，即，

15、這時可以認(rèn)為先驗概率不起作用。對于第g總體的密度函數(shù)，設(shè)元正態(tài)分布密度函數(shù)為：式中和分別是第g總體的均值向量（維）和協(xié)差陣（階）。把代入的表達(dá)式中，因為我們只關(guān)心尋找使最大的，而分式中的分母不論為何值都是常數(shù)，故可改令對取對數(shù)并去掉與無關(guān)的項，記為，則問題可化為（2）假設(shè)各組協(xié)方差陣相等，導(dǎo)出判別函數(shù)中含有個總體的協(xié)方差陣（逆陣及行列式值），而且對于還是二次函數(shù)，實際計算時工作量很大。如果進(jìn)一步假定個總體協(xié)方差陣相同，即，這時中和兩項與無關(guān)，求最大時可以去掉，最終得到如下形式的判別函數(shù)與判別準(zhǔn)則（如果協(xié)方差陣不等，則有非線形判別函數(shù)）；上式判別函數(shù)也可以寫成多項式形式：其中，用樣本資料這里為，

16、，總樣本總協(xié)差為總協(xié)差陣的估計，為總協(xié)差陣的逆矩陣。（3）計算后驗概率進(jìn)行計算分類時，主要根據(jù)判別式的大小，而它不是后驗概率，但是有了之后，就可以根據(jù)下式算出后驗概率：因為其中是中與無關(guān)的部分。所以由上式知使為最大的，其必為最大，因此我們只須把樣品代入判別式中：分別計算，。若，則把樣品歸為第總體。(4)輔助性檢驗為了檢驗個變量是否有能力區(qū)分這個組，還需要用廣義的馬哈拉諾比斯統(tǒng)計量來進(jìn)行檢驗。馬氏統(tǒng)計量為：統(tǒng)計量在正態(tài)分布各組均值、協(xié)方差陣全部相同的假定下，服從個自由度的分布。所以，當(dāng)統(tǒng)計量值大于查表得的臨界值時，可以斷定個變量有能力區(qū)分這個組。貝葉斯方法一般多用于多組判別分析，貝葉斯判別方法的數(shù)學(xué)模型所要求的條件嚴(yán)格，它要求各組變量必須服從多元正態(tài)分布，各組的協(xié)方差矩陣相等，各組的均值向量有顯著差異。而費(fèi)舍判別法主要要求各組均值向量有顯著差異即可。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

點擊下載此資源

判別分析的基本原理

最新文檔

相關(guān)資源

相關(guān)搜索