主成分分析與因子分析.ppt

資源ID：2288348 資源大小：1.25MB 全文頁數(shù)：25頁
資源格式： PPT 下載積分：9.9積分

快捷下載

會員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要9.9積分

郵箱/手機(jī)：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機(jī)號，方便查詢和重復(fù)下載（系統(tǒng)自動生成）
支付方式：
驗(yàn)證碼：	換一換

賬號：
密碼：
驗(yàn)證碼：	換一換
當(dāng)日自動登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會被瀏覽器默認(rèn)打開，此種情況可以點(diǎn)擊瀏覽器菜單，保存網(wǎng)頁到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒有明確說明有答案則都視為沒有答案，請知曉。

網(wǎng)站客服

侵權(quán)投訴

主成分分析與因子分析.ppt

主成分分析和因子分析,匯報(bào)什么？,假定你是一個公司的財(cái)務(wù)經(jīng)理，掌握了公司的所有數(shù)據(jù)，比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況，你能夠把這些指標(biāo)和數(shù)字都原封不動地?cái)[出去嗎？當(dāng)然不能。你必須要把各個方面作出高度概括，用一兩個指標(biāo)簡單明了地把情況說清楚。,主成分分析,每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟(jì)和社會變量的數(shù)據(jù)；各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多，在如此多的變量之中，有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進(jìn)行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法：主成分分析（principal component analysis）和因子分析（factor analysis）。,主成分分析與因子分析的概念,需要與可能：在各個領(lǐng)域的科學(xué)研究中，往往需要對反映事物的多個變量進(jìn)行大量的觀測，收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律。多變量大樣本無疑會為科學(xué)研究提供豐富的信息，但也在一定程度上增加了數(shù)據(jù)采集的工作量，更重要的是在大多數(shù)情況下，許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性，同時對分析帶來不便。如果分別分析每個指標(biāo)，分析又可能是孤立的，而不是綜合的。盲目減少指標(biāo)會損失很多信息，容易產(chǎn)生錯誤的結(jié)論。因此需要找到一個合理的方法，減少分析指標(biāo)的同時，盡量減少原指標(biāo)包含信息的損失，對所收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系，因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息。主成分分析與因子分析就是這樣一種降維的方法。主成分分析與因子分析是將多個實(shí)測變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的多元統(tǒng)計(jì)分析方法直線綜合指標(biāo)往往是不能直接觀測到的，但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等科學(xué)領(lǐng)域以及社會化生產(chǎn)中得到廣泛的應(yīng)用。,主成分分析與因子分析的概念（續(xù)）,由于實(shí)測的變量間存在一定的相關(guān)關(guān)系，因此有可能用較少數(shù)的綜合指標(biāo)分別綜合存在于各變量中的各類信息，而綜合指標(biāo)之間彼此不相關(guān)，即各指標(biāo)代表的信息不重疊。綜合指標(biāo)稱為因子或主成分（提取幾個因子），一般有兩種方法：特征值1 累計(jì)貢獻(xiàn)率0.8,有關(guān)概念: 因子載荷即表達(dá)式中各因子的系數(shù)值，用于反映因子和各個變量間的密切程度，其實(shí)質(zhì)是兩者間的相關(guān)系數(shù) 公因子方差比（Communalities）指的是提取公因子后，各變量中信息分別被提取出的比例，或者說原變量的方差中由公因子決定的比例特征根（Eigenvalue）可以被看成是主成分影響力度的指標(biāo)，代表引入該因子主成分后可以解釋平均多少原始變量的信息。 KMO統(tǒng)計(jì)量用于探查變量間的偏相關(guān)性,它比較的是各變量間的簡單相關(guān)和偏相關(guān)的大小,取值范圍在01之間. 0.9最佳，0.7尚可，0.6很差，0.5以下放棄,成績數(shù)據(jù)（student.sav）,100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?從本例可能提出的問題,目前的問題是，能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢？這一兩個綜合變量包含有多少原來的信息呢？能不能利用找到的綜合變量來對學(xué)生排序呢？這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè)，對學(xué)校進(jìn)行分析、排序、判別和分類等問題。,主成分分析,例中的的數(shù)據(jù)點(diǎn)是六維的；也就是說，每個觀測值是6維空間中的一個點(diǎn)。我們希望把6維空間用低維空間表示。先假定只有二維，即只有兩個變量，它們由橫坐標(biāo)和縱坐標(biāo)所代表；因此每個觀測值都有相應(yīng)于這兩個坐標(biāo)軸的兩個坐標(biāo)值；如果這些數(shù)據(jù)形成一個橢圓形狀的點(diǎn)陣（這在變量的二維正態(tài)的假定下是可能的）那么這個橢圓有一個長軸和一個短軸。在短軸方向上，數(shù)據(jù)變化很少；在極端的情況，短軸如果退化成一點(diǎn)，那只有在長軸的方向才能夠解釋這些點(diǎn)的變化了；這樣，由二維到一維的降維就自然完成了。,主成分分析,當(dāng)坐標(biāo)軸和橢圓的長短軸平行，那么代表長軸的變量就描述了數(shù)據(jù)的主要變化，而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是，坐標(biāo)軸通常并不和橢圓的長短軸平行。因此，需要尋找橢圓的長短軸，并進(jìn)行變換，使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息，就用該變量代替原先的兩個變量（舍去次要的一維），降維就完成了。橢圓（球）的長短軸相差得越大，降維也越有道理。,主成分分析,對于多維變量的情況和二維類似，也有高維的橢球，只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來，再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量；這樣，主成分分析就基本完成了。注意，和二維情況類似，高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合，叫做主成分(principal component)。,主成分分析,正如二維橢圓有兩個主軸，三維橢球有三個主軸一樣，有幾個變量，就有幾個主成分。選擇越少的主成分，降維就越好。什么是標(biāo)準(zhǔn)呢？那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議，所選的主軸總長度占所有主軸長度之和的大約85%即可，其實(shí)，這只是一個大體的說法；具體選幾個，要看實(shí)際情況而定。,SPSS實(shí)現(xiàn)(因子分析與主成分分析),拿student.sav為例，選AnalyzeData ReductionFactor進(jìn)入主對話框；把math、phys、chem、literat、history、english選入Variables，然后點(diǎn)擊Extraction，在Method選擇一個方法（如果是主成分分析，則選Principal Components），下面的選項(xiàng)可以隨意，比如要畫碎石圖就選Scree plot，另外在Extract選項(xiàng)可以按照特征值的大小選主成分（或因子），也可以選定因子的數(shù)目；之后回到主對話框（用Continue）。然后點(diǎn)擊Rotation，再在該對話框中的Method選擇一個旋轉(zhuǎn)方法（如果是主成分分析就選None），在Display選Rotated solution（以輸出和旋轉(zhuǎn)有關(guān)的結(jié)果）和Loading plot（以輸出載荷圖）；之后回到主對話框（用Continue）。如果要計(jì)算因子得分就要點(diǎn)擊Scores，再選擇Save as variables（因子得分就會作為變量存在數(shù)據(jù)中的附加列上）和計(jì)算因子得分的方法（比如Regression）；之后回到主對話框（用Continue）。這時點(diǎn)OK即可。,對于我們的數(shù)據(jù)，SPSS輸出為,這里的Initial Eigenvalues就是這里的六個主軸長度，又稱特征值（數(shù)據(jù)相關(guān)陣的特征值）。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。,特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出,怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢？SPSS可以輸出下面的表。,這里每一列代表一個主成分作為原來變量線性組合的系數(shù)（比例）。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個原先變量的線性組合，系數(shù)（比例）為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量，而用y1,y2,y3,y4,y5,y6表示新的主成分，那么，原先六個變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為： X1=-0.806y1 + 0.353y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2 這些系數(shù)稱為主成分載荷（loading），它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如x1表示式中y1的系數(shù)為-0.806，這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對值）越大，主成分對該變量的代表性也越大?？梢钥吹贸觯谝恢鞒煞謱Ω鱾€變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關(guān)了。,可以把第一和第二主成分的載荷點(diǎn)出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖。,該圖左面三個點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科，右邊三個點(diǎn)是語文、歷史、外語三科。圖中的六個點(diǎn)由于比較擠，不易分清，但只要認(rèn)識到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷，坐標(biāo)是前面表中第一二列中的數(shù)目，還是可以識別的。,因子分析,主成分分析從原理上是尋找橢球的所有主軸。因此，原先有幾個變量，就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分，這里叫因子（factor）（比如兩個），那就找兩個。這使得在數(shù)學(xué)模型上，因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn)，它還多一道工序：因子旋轉(zhuǎn)（factor rotation）；這個步驟可以使結(jié)果更好。當(dāng)然，對于計(jì)算機(jī)來說，因子分析并不比主成分分析多費(fèi)多少時間。從輸出的結(jié)果來看，因子分析也有因子載荷（factor loading）的概念，代表了因子和原先變量的相關(guān)系數(shù)。但是在輸出中的因子和原來變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷，也給出了二維圖；該圖雖然不是載荷圖，但解釋和主成分分析的載荷圖類似。,對于我們的數(shù)據(jù)，SPSS因子分析輸出為,這里，第一個因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān)；而第二個因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個因子起名為“文科因子”，而給第二個因子起名為“理科因子”。從這個例子可以看出，因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。,這兩個因子的系數(shù)所形成的散點(diǎn)圖（雖然不是載荷，在SPSS中也稱載荷圖，,可以直觀看出每個因子代表了一類學(xué)科,計(jì)算因子得分,可以根據(jù)前面的因子得分公式（因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和），算出每個學(xué)生的第一個因子和第二個因子的大小，即算出每個學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩套因子得分對學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個選項(xiàng)（可將因子得分存為新變量、顯示因子得分系數(shù)矩陣）,因子分析和主成分分析的一些注意事項(xiàng),可以看出，因子分析和主成分分析都依賴于原始變量，也只能反映原始變量的信息。所以原始變量的選擇很重要。另外，如果原始變量都本質(zhì)上獨(dú)立，那么降維就可能失敗，這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān)，降維效果就越好。在得到分析的結(jié)果時，并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì)，選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時要特別小心，特別是對于敏感問題。由于原始變量不同，因子的選取不同，排序可以很不一樣。,

注意事項(xiàng)

本文（主成分分析與因子分析.ppt）為本站會員（xt****7）主動上傳，裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)（點(diǎn)擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因?yàn)榫W(wǎng)速或其他原因下載失敗請重新下載，重復(fù)下載不扣分。