歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

判別分析的基本原理

  • 資源ID:17805207       資源大?。?span id="fylyliy" class="font-tahoma">1.04MB        全文頁數(shù):17頁
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認(rèn)打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請知曉。

判別分析的基本原理

判別分析的基本原理和模型一、判別分析概述(一)什么是判別分析判別分析是多元統(tǒng)計中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。判別分析方法處理問題時,通常要給出用來衡量新樣品與各已知組別的接近程度的指標(biāo),即判別函數(shù),同時也指定一種判別準(zhǔn)則,借以判定新樣品的歸屬。所謂判別準(zhǔn)則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準(zhǔn)則。常用的有,距離準(zhǔn)則、Fisher準(zhǔn)則、貝葉斯準(zhǔn)則等。判別準(zhǔn)則可以是統(tǒng)計性的,如決定新樣品所屬類別時用到數(shù)理統(tǒng)計的顯著性檢驗,也可以是確定性的,如決定樣品歸屬時,只考慮判別函數(shù)值的大小。判別函數(shù)是指基于一定的判別準(zhǔn)則計算出的用于衡量新樣品與各已知組別接近程度的函數(shù)式或描述指標(biāo)。(二)判別分析的種類按照判別組數(shù)劃分有兩組判別分析和多組判別分析;按照區(qū)分不同總體的所用數(shù)學(xué)模型來分有線性判別分析和非線性判別分析;按照處理變量的方法不同有逐步判別、序貫判別等;按照判別準(zhǔn)則來分有距離準(zhǔn)則、費舍準(zhǔn)則與貝葉斯判別準(zhǔn)則。二、判別分析方法(一)距離判別法基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,即分組(類)均值,距離判別準(zhǔn)則是對于任給一新樣品的觀測值,若它與第類的重心距離最近,就認(rèn)為它來自第類。因此,距離判別法又稱為最鄰近方法(nearest neighbor method)。距離判別法對各類總體的分布沒有特定的要求,適用于任意分布的資料。兩組距離判別兩組距離判別的基本原理。設(shè)有兩組總體,相應(yīng)抽出樣品個數(shù)為,每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下, 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為:現(xiàn)任取一個新樣品,實測指標(biāo)數(shù)值為=(),要求判斷屬于哪一類?首先計算樣品與、兩類的距離,分別記為、,然后按照距離最近準(zhǔn)則判別歸類,即樣品距離哪一類最近就判為哪一類;如果樣品距離兩類的距離相同,則暫不歸類。判別準(zhǔn)則寫為:,如果,如果,待判,如果。其中,距離的定義很多,根據(jù)不同情況區(qū)別選用。如果樣品的各個變量之間互不相關(guān)或相關(guān)很小時,可選用歐氏距離。采用歐氏距離時,= 然后比較和的大小,按照距離最近準(zhǔn)則判別歸類。但實際應(yīng)用中,考慮到判別分析常涉及到多個變量,且變量之間可能相關(guān),故多用馬氏距離。馬氏距離公式為:其中、分別是、的均值和協(xié)方差陣。這時的判別準(zhǔn)則分兩種情況給出:(1)當(dāng)=時=令,同時記則所以判別準(zhǔn)則寫成:,如果,如果,待判,如果。該規(guī)則取決于的值,因此被稱為判別函數(shù),也可以寫成:,其中。被稱為線性判別函數(shù)。作為特例,當(dāng)時,兩個總體的分布分別是和,判別函數(shù)為或(使用樣本資料代替總體參數(shù)時)不妨設(shè),這時的符號取決于或。時,判;時,判。兩組距離判別法,簡單容易理解,判別準(zhǔn)則也是合理的,但是有時也會出現(xiàn)錯判。如下圖6.1,如果來自,但卻落入,被錯判為組,錯判的概率為圖中陰影的面積,記為,類似有,顯然=。圖6.1當(dāng)兩總體靠的比較近時,即兩總體的均值差異較小的時候,無論用何種判別方法,錯判的概率都比較大,這時的判別分析也是沒有意義的。因此只有當(dāng)兩總體的均值有顯著差異時,進(jìn)行判別分析才有意義,為此,要對兩總體的均值差異性進(jìn)行檢驗,對此在下文中敘述。(2)當(dāng)時按照距離最近準(zhǔn)則,類似地有:,如果,如果,待判,如果。仍然用作為判別函數(shù),此時的判別函數(shù)是的二次函數(shù)。(3)關(guān)于兩組判別分析的檢驗由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個總體的均值向量在統(tǒng)計上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要經(jīng)驗兩個正態(tài)總體的均值向量是否相等,為此,檢驗的統(tǒng)計量為: 其中: 給定檢驗水平,查分布表使,可得出,再由樣本值計算,若,則否定原假設(shè),認(rèn)為兩個總體的均值向量在統(tǒng)計上差異顯著,否則兩個總體的均值向量在統(tǒng)計上差異不顯著。3、多個總體的距離判別法類似兩個總體的討論推廣到多個總體。設(shè)有個總體,相應(yīng)抽出樣品個數(shù)為,每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下,總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 它們的樣本均值和協(xié)方差陣分別為: 、。一般的,記總體的樣本指標(biāo)平均值為:(),。()當(dāng)時此時,判別函數(shù)為,相應(yīng)的判別準(zhǔn)則為: , 當(dāng)時,對于一切 待判, 若有一個()當(dāng)不相等時此時判別函數(shù)為相應(yīng)的判別準(zhǔn)則為: , 當(dāng)時,對于一切 待判, 若有一個(二)費舍判別法費舍判別法是1936年提出來的,該方法對總體分布未提出什么特定的要求。1基本思想費舍判別法是基于統(tǒng)計上的費舍準(zhǔn)則,即判別的結(jié)果應(yīng)該使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。在費舍準(zhǔn)則意義下,確定線性判別函數(shù):其中為待求的判別函數(shù)的系數(shù)。判別函數(shù)的系數(shù)的確定原則是使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。有了判別函數(shù)后,對于一個新的樣品,將個指標(biāo)的具體數(shù)值代入判別式中求出值,然后與判別臨界值進(jìn)行比較,并判別其應(yīng)屬于哪一組。2兩組判別分析(1)方法原理設(shè)有兩組總體,相應(yīng)抽出樣品個數(shù)為,每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下, 總體的樣本數(shù)據(jù)為: 第1個總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 第2個總體的樣本指標(biāo)平均值為:根據(jù)判別函數(shù),用表示組樣品的重心,以表示組樣品的重心。則兩組之間的離差用來表示,、內(nèi)部的離差程度分別用和來表示,其中;。根據(jù)費舍準(zhǔn)則,要使判別的結(jié)果滿足兩組間區(qū)別最大,每組內(nèi)部離散性最小。則判別函數(shù)的系數(shù)應(yīng)該能夠使:取得最大值。(2)判別系數(shù)的導(dǎo)出令 +根據(jù)數(shù)學(xué)分析求極值的原理,對上式兩邊取對數(shù): 令 則 即 而 =令 有 則有 而 +=+=+令 =+有 則有 于是有 令 是一個常數(shù)因子,不依賴,它對方程組的解只起到共同擴大倍的作用,不影響它的解之間的比例關(guān)系,因此也不會影響判別函數(shù),所以,取,得方程組:即 解此方程即得,進(jìn)而得判別函數(shù):(3)判別準(zhǔn)則由判別函數(shù),可得兩組總體各自樣品的重心:對它們進(jìn)行根據(jù)樣本的容量進(jìn)行加權(quán)得:稱為兩組判別的綜合指標(biāo)。據(jù)此可得判別準(zhǔn)則為:如果,則對于給定的新樣品,若有則將該樣品判屬于組,若,則判其屬于組;如果,則對于給定的新樣品,若有則將該樣品判屬于組,若,則判其屬于組。(4)兩組判別分析的檢驗由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個總體的均值向量在統(tǒng)計上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要檢驗兩個正態(tài)總體的均值向量是否相等,為此,檢驗的統(tǒng)計量為: 其中: , 給定檢驗水平,查分布表使,可得出,再由樣本值計算,若,則否定原假設(shè),認(rèn)為兩個總體的均值向量在統(tǒng)計上差異顯著,判別函數(shù)有效,可用;否則兩個總體的均值向量在統(tǒng)計上差異不顯著,判別函數(shù)無效不可用。3、多組費舍判別分析(1)方法原理類似兩總體的費舍判別法,下面給出多總體的費舍判別法。設(shè)有個總體抽取樣品數(shù)分別為令。為第個總體的第個樣品的觀測向量。假定所建立的判別函數(shù)為 其中 記和分別是總體內(nèi)的樣本均值向量和樣本協(xié)差陣,根據(jù)求隨機變量線性組合的均值和方差的性質(zhì)可知,在上的樣本均值和樣本方差為記為總的均值向量,則 在多總體情況下,F(xiàn)isher準(zhǔn)則就是要選取系數(shù)向量,使達(dá)到最大,其中是人為的正的加權(quán)系數(shù),它可以取為先驗概率。如果取 ,并將 ,代入上式可化為:其中為組內(nèi)離差陣,為總體之間樣本的協(xié)差陣,即 (2)判別函數(shù)判別系數(shù)(矩陣關(guān)于矩陣的廣義特征向量)的導(dǎo)出。為求的最大值,根據(jù)極值存在的必要條件,令=0,利用對向量求導(dǎo)的公式: 因此 這說明了及恰好是矩陣關(guān)于矩陣的廣義特征根及其對應(yīng)的特征向量(因為根據(jù)定義有,設(shè)為階對稱矩陣,為階正定矩陣,若有或,則稱為關(guān)于矩陣的廣義特征根,是對應(yīng)的特征向量)。由于一般都要求加權(quán)協(xié)差陣是正定的,因此由代數(shù)知識可知,上式非零特征根個數(shù)不超過,又因為為非負(fù)定的,所以非零特征根必定為正根,記為于是可構(gòu)造個判別函數(shù): 判別函數(shù)的判別能力與判別函數(shù)的個數(shù)。由上述知,由于非零特征根有個,由此對應(yīng)有個特征向量,即個判別函數(shù),為了選取有效的判別函數(shù),對于每個判別函數(shù)必須給出一個用以衡量判別能力的指標(biāo),衡量判別函數(shù)判別能力的指標(biāo)定義為: 個判別函數(shù)的判別能力定義為如果達(dá)到某個人定的值(比如85%)則就認(rèn)為個判別函數(shù)就夠了。(3)判別準(zhǔn)則有了判別函數(shù)之后,如何對待判的樣品進(jìn)行分類?Fisher判別法本身并未給出最合適的分類法,在實際工作中可以選用下列分類法之一進(jìn)行分類。第一方法,當(dāng)取=1時(即只取一個判別函數(shù)),此時有兩種可供選用的方法不加權(quán)法若則判加權(quán)法 將按大小次序排列,記為,相應(yīng)的判別函數(shù)的標(biāo)準(zhǔn)差排為。令 則可作為與之間的分界點。如果使得,則判。第二種方法,當(dāng)取時(即取多個判別函數(shù)),也有類似兩種供選用的方法不加權(quán)法記 對待判樣品,計算 若,則判加權(quán)法考慮到每個判別函數(shù)的判別能力不同,記其中是由求出的特征根。若,則判。(三)貝葉斯判別法1.基本思想 設(shè)有個總體,它們的先驗概率分別為,密度函數(shù)為(在離散情形是概率函數(shù)),在觀測到一個樣品的情況下,可用貝葉斯公式計算它來自第g個總體的后驗概率:并且當(dāng)時,判定來自第個總體。另外,有時為了合理考慮錯判所帶來的損失,還使用錯判損失最小的概念確定判別函數(shù),這時,把錯判給第個總體的平均損失定義為:其中稱為損失函數(shù)。它表示本來是第個總體的樣品錯判為第個總體的損失。于是建立判別準(zhǔn)則為,如果則,判定來自第個總體。顯然考慮損失函數(shù)更為合理,但是由于實際應(yīng)用中,由于不容易確定,經(jīng)常在數(shù)學(xué)模型中假定各種錯判的損失皆相等,這樣,尋找使后驗概率最大實際上等價于使錯判損失最小。 根據(jù)上述思想,在假定協(xié)方差矩陣相等的條件下,即可以導(dǎo)出判別函數(shù)。2.多元正態(tài)總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態(tài)分布,下面給出元正態(tài)總體的Bayes判別法,以及判別函數(shù)的導(dǎo)出。(1)待判樣品的先驗概率和密度函數(shù)使用Bayes準(zhǔn)則進(jìn)行分析,首先需要知道待判總體的先驗概率和密度函數(shù) (如果是離散情形則是概率函數(shù))。對于先驗概率,一般可用樣品頻率來代替,即令,其中為用于建立判別函數(shù)的已知分類數(shù)據(jù)中來自第總體樣品的數(shù)目,且,或者干脆令先驗概率相等,即,這時可以認(rèn)為先驗概率不起作用。對于第g總體的密度函數(shù),設(shè)元正態(tài)分布密度函數(shù)為:式中和分別是第g總體的均值向量(維)和協(xié)差陣(階)。把代入的表達(dá)式中,因為我們只關(guān)心尋找使最大的,而分式中的分母不論為何值都是常數(shù),故可改令對取對數(shù)并去掉與無關(guān)的項,記為,則問題可化為(2)假設(shè)各組協(xié)方差陣相等,導(dǎo)出判別函數(shù)中含有個總體的協(xié)方差陣(逆陣及行列式值),而且對于還是二次函數(shù),實際計算時工作量很大。如果進(jìn)一步假定個總體協(xié)方差陣相同,即,這時中和兩項與無關(guān),求最大時可以去掉,最終得到如下形式的判別函數(shù)與判別準(zhǔn)則(如果協(xié)方差陣不等,則有非線形判別函數(shù));上式判別函數(shù)也可以寫成多項式形式:其中,用樣本資料這里為, ,總樣本總協(xié)差為總協(xié)差陣的估計,為總協(xié)差陣的逆矩陣。(3)計算后驗概率進(jìn)行計算分類時,主要根據(jù)判別式的大小,而它不是后驗概率,但是有了之后,就可以根據(jù)下式算出后驗概率: 因為 其中是中與無關(guān)的部分。所以由上式知使為最大的,其必為最大,因此我們只須把樣品代入判別式中:分別計算,。若 ,則把樣品歸為第總體。(4)輔助性檢驗為了檢驗個變量是否有能力區(qū)分這個組,還需要用廣義的馬哈拉諾比斯統(tǒng)計量來進(jìn)行檢驗。馬氏統(tǒng)計量為:統(tǒng)計量在正態(tài)分布各組均值、協(xié)方差陣全部相同的假定下,服從個自由度的分布。所以,當(dāng)統(tǒng)計量值大于查表得的臨界值時,可以斷定個變量有能力區(qū)分這個組。貝葉斯方法一般多用于多組判別分析,貝葉斯判別方法的數(shù)學(xué)模型所要求的條件嚴(yán)格,它要求各組變量必須服從多元正態(tài)分布,各組的協(xié)方差矩陣相等,各組的均值向量有顯著差異。而費舍判別法主要要求各組均值向量有顯著差異即可。

注意事項

本文(判別分析的基本原理)為本站會員(jun****875)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!