歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

《主成分分析 》PPT課件

  • 資源ID:16510737       資源大?。?span id="jifzmec" class="font-tahoma">2.35MB        全文頁數(shù):58頁
  • 資源格式: PPT        下載積分:14.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要14.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

《主成分分析 》PPT課件

CH.10 主成分分析,主成分分析 主成分回歸 立體數(shù)據(jù)表的主成分分析,一項十分著名的工作是美國的統(tǒng)計學家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。,1 基本思想,在進行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:,主成分分析是把各變量之間互相關(guān)聯(lián)的復雜關(guān)系進行簡化分析的方法。 在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。,主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。,(1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。,在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:,(2) 選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟意義。,2 數(shù)學模型與幾何解釋,假設(shè)我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,Xp,主成分分析就是要把這p個指標的問題,轉(zhuǎn)變?yōu)橛懻損個指標的線性組合的問題,而這些新的指標F1,F(xiàn)2,F(xiàn)k(kp),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。,這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。,滿足如下的條件:,主成分之間相互獨立,即無重疊的信息。即,主成分的方差依次遞減,重要性依次遞減,即,每個主成分的系數(shù)平方和為1。即,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,為了方便,我們在二維空間中討論主成分的幾何意義。 設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。,如果我們將xl 軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。,根據(jù)旋轉(zhuǎn)變換的公式:,旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。,Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。,3 主成分的推導及性質(zhì),一、兩個線性代數(shù)的結(jié)論,1、若A是p階實對稱陣,則一定可以找到正交陣U,使,其中 是A的特征根。,2、若上述矩陣的特征根所對應(yīng)的單位特征向量為,則實對稱陣 屬于不同特征根所對應(yīng)的特征向量是正交的,即有,令,二、主成分的推導,(一) 第一主成分,設(shè)X的協(xié)方差陣為,由于x為非負定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得,其中1, 2, p為x的特征根,不妨假設(shè)1 2 p 。而U恰好是由特征根相對應(yīng)的特征向量所組成的正交陣。,下面我們來看,是否由U的第一列元素所構(gòu)成為原始 變量的線性組合是否有最大的方差。,設(shè)有P維正交向量,當且僅當a1 =u1時,即 時, 有最大的方差1。因為Var(F1)=U1xU1=1。 如果第一主成分的信息不夠,則需要尋找第二主成分。,(二) 第二主成分,在約束條件 下,尋找第二主成分,因為 所以,則,對p維向量 ,有,所以如果取線性變換:,則 的方差次大。,類推,寫為矩陣形式:,4 主成分的性質(zhì),一、均值,二、方差為所有特征根之和,說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。,三、精度分析,1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。,2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重 來描述,稱為累積貢獻率。,我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來的P個指標。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。,四、原始變量與主成分之間的相關(guān)系數(shù),可見, 和 的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。,五、原始變量被主成分的提取率,前面我們討論了主成分的貢獻率和累計貢獻率,他度量了F1,F(xiàn)2,F(xiàn)m分別從原始變量X1,X2,XP中提取了多少信息。那么X1,X2,XP各有多少信息分別F1,F(xiàn)2,F(xiàn)m被提取了。應(yīng)該用什么指標來度量?我們考慮到當討論F1分別與X1,X2,XP的關(guān)系時,可以討論F1分別與X1,X2,XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負,所以只有考慮相關(guān)系數(shù)的平方。,如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:,是Fj 能說明的第i 原始變量的方差,是Fj 提取的第i 原始變量信息的比重,例 設(shè) 的協(xié)方差矩陣為,解得特征根為 , ,,,,第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。,定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。,(該題無公共因子),六、載荷矩陣,5 主成分分析的步驟,在 實際問題中,X的協(xié)方差通常是未知的,樣品有 的,第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。,一、基于協(xié)方差矩陣,第二步:求出分別所對應(yīng)的特征向量U1,U2,Up,,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。,第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。,二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進行主成分分析。不同的是計算得分時應(yīng)采用標準化后的數(shù)據(jù)。,例子(中學生身體四項指標的主成分分析),在某中學隨機抽取某年級30名學生,測量起身高(X1),體重(X2),胸圍(X3)和坐高(X4),數(shù)據(jù)如下表。試對這30名中學生身體四項指標數(shù)據(jù)做主成分分析。,對數(shù)據(jù)的相關(guān)陣作主成分分析,有, pr.stud summary(pr.stud,loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 X1 -0.497 0.543 -0.450 0.506 X2 -0.515 -0.210 -0.462 -0.691 X3 -0.481 -0.725 0.175 0.461 X4 -0.507 0.368 0.744 -0.232 其中Standard deviation為主成分的標準差,即方差的開方,也就是相應(yīng)的特征值的開方。Proportion of Variane表示方差的貢獻率,而Cumulative Proportion表示方差的累計貢獻率。Loadings=FALSE或缺省就不列出loadings。,分析:從主成分分析結(jié)果可看出前兩個主成分的累計貢獻率高達96%,選擇兩個主成分。 第一個主成分對應(yīng)系數(shù)的符號都相同,其值在0.5左右,反映了中學生身材的魁梧程度,身材高大的學生,他的四個部分的尺寸都比較大,因此第一主成分的值就較小。 而身材矮小的同學他的四部分都比較小,第一主成分的值較大。 第一主成分為大小因子。 第二主成分是高度和圍度之差,比較大表明該學生細高,比較小為“矮胖”,稱第二因子為形體因子。 看一下各樣本的主成份值,畫第一個主成分的散點圖,可看出10, 11,15,29值較大,說明學生比較瘦小,而3,5,25值較小,說明學生比較高大. predict(pr.stud)-score plot(1:30, score,1) plot(1:30, score,2),從這個圖很容易看出,那些學生屬于高大魁梧型,比如25號學生,3,5號學生,那些學生屬于高瘦型比如23,19,4.等等.,根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。,6 主成分分析主要有以下幾方面的應(yīng)用,2有時可通過因子負荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。,4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。,

注意事項

本文(《主成分分析 》PPT課件)為本站會員(san****019)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!