模式識別第2章課件聚類分析v.ppt

上傳人：za****8

文檔編號：6748597

上傳時間：2020-03-03

格式：PPT

頁數(shù)：49

大小：1,010.56KB

《模式識別第2章課件聚類分析v.ppt》由會員分享，可在線閱讀，更多相關(guān)《模式識別第2章課件聚類分析v.ppt（49頁珍藏版）》請在裝配圖網(wǎng)上搜索。

第二章聚類分析分類與聚類的區(qū)別分類用已知類別的樣本訓(xùn)練集來設(shè)計分類器監(jiān)督學(xué)習(xí) 聚類集群用事先不知類別的樣本而利用樣本的先驗知識來構(gòu)造分類器無監(jiān)督學(xué)習(xí) 2 1聚類分析的概念基本思想對一批沒有標(biāo)明類別及類數(shù)的模式樣本集根據(jù)模式間的相似程度按照物以類聚人以群分的思想將相似的模式分為一類不相似的分為另一類特征的類型 1 低層特征無序尺度有明確的數(shù)量和數(shù)值有序尺度有先后好壞的次序關(guān)系如酒分為上中下三個等級名義尺度無數(shù)量無次序關(guān)系如有紅黃兩種顏色2 中層特征經(jīng)過計算變換得到的特征3 高層特征在中層特征的基礎(chǔ)上有目的的經(jīng)過運算形成例如椅子的重量體積比重體積與長寬高有關(guān) 比重與材料紋理顏色有關(guān) 這里低中高三層特征都有了方法的有效性特征選取不當(dāng)特征過少特征過多量綱問題主要聚類分析技術(shù) 譜系法系統(tǒng)聚類層次聚類法基于目標(biāo)函數(shù)的聚類法動態(tài)聚類圖論聚類法模糊聚類分析法 2 2模式相似度度量各種距離表示相似性絕對值距離已知兩個樣本xi xi1 xi2 xi3 xin Txj xj1 xj2 xj3 xjn T 歐幾里德距離明考夫斯基距離其中當(dāng)q 1時為絕對值距離當(dāng)q 2時為歐氏距離切比雪夫距離q趨向無窮大時明氏距離的極限情況馬哈拉諾比斯距離其中xi xj為特征向量為協(xié)方差使用的條件是樣本符合正態(tài)分布夾角余弦為xixj的均值即樣本間夾角小的為一類具有相似性例 x1 x2 x3的夾角如圖因為x1 x2的夾角小所以x1 x2最相似 x2 x3 相關(guān)系數(shù)為xixj的均值注意在求相關(guān)系數(shù)之前要將數(shù)據(jù)標(biāo)準(zhǔn)化 2 3類的定義和與類間距離用距離進(jìn)行定義類書非監(jiān)督學(xué)習(xí)方法分類 1 基于概率密度函數(shù)估計的直接方法不實用 2 基于樣本間相似性度量的間接聚類方法兩類間的距離 1 最短距離兩類中相距最近的兩樣本間的距離 2 最長距離兩類中相距最遠(yuǎn)的兩個樣本間的距離 3 中間距離最短距離和最長距離都有片面性因此有時用中間距離設(shè) 1類和 23類間的最短距離為d12 最長距離為d13 23類的長度為d23 則中間距離為上式推廣為一般情況 4 重心距離均值間的距離5 類平均距離兩類中各個元素兩兩之間的距離平方相加后取平均值 6 離差平方和設(shè)N個樣品原分q類則定義第i類的離差平方和為離差平方和增量設(shè)樣本已分成 p q兩類若把 p q合為 r類則定義離差平方聚類準(zhǔn)則類內(nèi)距離越小越好類間距離越大越好一些準(zhǔn)則函數(shù) 聚類分析三要素相似性測度聚類準(zhǔn)則聚類算法 2 4聚類的算法 1 根據(jù)相似性閾值和最小距離原則的簡單聚類法 2 按照最小距離原則不斷進(jìn)行兩類合并的方法 3 依據(jù)準(zhǔn)則函數(shù)的動態(tài)動態(tài)聚類算法系統(tǒng)聚類的算法譜系聚類的算法原理步驟例如下圖所示1 設(shè)全部樣本分為6類 2 作距離矩陣D 0 3 求最小元素 4 把 1 3合并 7 1 3 4 6合并 8 4 6 5 作距離矩陣D 1 6 若合并的類數(shù)沒有達(dá)到要求轉(zhuǎn)3 否則停止 3 求最小元素 4 8 5 2合并 9 2 5 4 6 分解聚類分解聚類把全部樣本作為一類然后根據(jù)相似性相鄰性分解目標(biāo)函數(shù)兩類均值方差 N 總樣本數(shù) 1類樣本數(shù) 2類樣本數(shù) 分解聚類框圖對分算法略例已知21個樣本每個樣本取二個特征原始資料矩陣如下表解第一次分類時計算所有樣本分別劃到時的E值找出最大的 1 開始時 2 分別計算當(dāng)劃入時的E值把劃入時有然后再把劃入時對應(yīng)的E值找出一個最大的E值把劃為的E值最大 E 1 56 6 再繼續(xù)進(jìn)行第二第三次迭代計算出E 2 E 3 次數(shù)E值156 6279 16390 904102 615120 116137 157154 108176 159195 2610213 0711212 01 第10次迭代劃入時 E最大于是分成以下兩類每次分類后要重新計算的值可用以下遞推公式動態(tài)聚類兼顧系統(tǒng)聚類和分解聚類一動態(tài)聚類的方法概要先選定某種距離作為樣本間的相似性的度量確定評價聚類結(jié)果的準(zhǔn)則函數(shù) 給出某種初始分類用迭代法找出使準(zhǔn)則函數(shù)取極值的最好的聚類結(jié)果動態(tài)聚類框圖二代表點的選取方法代表點就是初始分類的聚類中心數(shù)k 憑經(jīng)驗選代表點根據(jù)問題的性質(zhì) 數(shù)據(jù)分布從直觀上看來較合理的代表點k 將全部樣本隨機(jī)分成k類計算每類重心把這些重心作為每類的代表點按密度大小選代表點以每個樣本作為球心以d為半徑做球形落在球內(nèi)的樣本數(shù)稱為該點的密度并按密度大小排序首先選密度最大的作為第一個代表點即第一個聚類中心再考慮第二大密度點若第二大密度點距第一代表點的距離大于d1 人為規(guī)定的正數(shù) 則把第二大密度點作為第二代表點否則不能作為代表點這樣按密度大小考察下去所選代表點間的距離都大于d1 d1太小代表點太多 d1太大代表點太小一般選d1 2d 對代表點內(nèi)的密度一般要求大于T T 0為規(guī)定的一個正數(shù) 用前k個樣本點作為代表點三初始分類和調(diào)整選一批代表點后代表點就是聚類中心計算其它樣本到聚類中心的距離把所有樣本歸于最近的聚類中心點形成初始分類再重新計算各聚類中心稱為成批處理法選一批代表點后依次計算其它樣本的歸類當(dāng)計算完第一個樣本時把它歸于最近的一類形成新的分類再計算新的聚類中心再計算第二個樣本到新的聚類中心的距離對第二個樣本歸類即每個樣本的歸類都改變一次聚類中心此法稱為逐個處理法直接用樣本進(jìn)行初始分類先規(guī)定距離d 把第一個樣品作為第一類的聚類中心考察第二個樣本若第二個樣本距第一個聚類中心距離小于d 就把第二個樣本歸于第一類否則第二個樣本就成為第二類的聚類中心再考慮其它樣本根據(jù)樣本到聚類中心距離大于還是小于d 決定分裂還是合并最佳初始分類如圖所示隨著初始分類k的增大準(zhǔn)則函數(shù)下降很快經(jīng)過拐點A后下降速度減慢拐點A就是最佳初始分類四 C 平均算法例已知有20個樣本每個樣本有2個特征數(shù)據(jù)分布如下圖第一步令C 2 選初始聚類中心為第三步根據(jù)新分成的兩類建立新的聚類中心第四步轉(zhuǎn)第二步第二步重新計算到z1 2 z2 2 的距離把它們歸為最近聚類中心重新分為兩類第三步更新聚類中心第四步第二步第三步更新聚類中心迭代自組織數(shù)據(jù)分析算法 ISOData 方法步驟 1 任選初始值中心 C個 2 將N個樣本分到C類中 3 計算距離 4 要求對中心分裂合并新的中心 5 判斷上機(jī)作業(yè) 已知50個樣本隨機(jī)產(chǎn)生每個樣本2個特征取值在0 10 數(shù)據(jù)如下用c平均算法和ISODATA算法分類編程上機(jī) 并畫出分類圖

下載提示(請認(rèn)真閱讀)

1.請仔細(xì)閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 模式識別課件聚類分析

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標(biāo)題：模式識別第2章課件聚類分析v.ppt
鏈接地址：http://appdesigncorp.com/p-6748597.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

模式識別 課件 聚類分析

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

模式識別第2章課件聚類分析v.ppt

最新文檔