數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究

上傳人:xin****18 文檔編號:47120185 上傳時(shí)間:2021-12-17 格式:DOC 頁數(shù):7 大?。?8.50KB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究_第1頁
第1頁 / 共7頁
數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究_第2頁
第2頁 / 共7頁
數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究_第3頁
第3頁 / 共7頁

本資源只提供3頁預(yù)覽,全部文檔請下載后查看!喜歡就下載吧,查找使用更方便

15 積分

下載資源

資源描述:

《數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究(7頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究 摘要:在知識工程系統(tǒng)中,經(jīng)常需要通過非自動(dòng)方法 或自動(dòng)方法來實(shí)現(xiàn)計(jì)算機(jī)從知識源獲取知識的過程。知識發(fā) 現(xiàn) KDD( knowledge discovery from data base )是從人們建造 的數(shù)據(jù)庫中進(jìn)一步獲取新知識的主要方法。該文論述了知識 工程中知識發(fā)現(xiàn)的過程,對象以及在知識發(fā)現(xiàn)中數(shù)據(jù)挖掘的 應(yīng)用情況。 關(guān)鍵詞:知識發(fā)現(xiàn);數(shù)據(jù)挖掘;數(shù)據(jù)倉庫 中圖分類號: TP311 文獻(xiàn)標(biāo)識碼: A 文章編號: 1009-3044(2011)23-5550-02 在知識工程系統(tǒng)中,經(jīng)常需要通過非自動(dòng)方法或自動(dòng)方 法來實(shí)現(xiàn)計(jì)算機(jī)從知識源獲取知識的過程。知識源包括專

2、家, 書本,數(shù)據(jù)庫以及人們的經(jīng)驗(yàn)。獲取知識的目的是通過計(jì)算 機(jī)高速度地收集、 整理知識 ,建立各種高性能的知識系統(tǒng), 以解決靠人自身難解決或解決起來效率太低的一些問題。知 識發(fā)現(xiàn) KDD( knowledge discovery from data base )是從人們 建造的數(shù)據(jù)庫中進(jìn)一步獲取新知識的主要方法,目的是從數(shù) 據(jù)集中抽取和優(yōu)化一般規(guī)律或模式,其所涉及的數(shù)據(jù)形態(tài)包 括數(shù)值,文字,符號,圖形,圖像,聲音,甚至是視頻和 Web 網(wǎng)頁等。 1 知識發(fā)現(xiàn)的過程 知識發(fā)現(xiàn)是對數(shù)據(jù)進(jìn)行更深層處理的過程,而不僅僅是 對數(shù)據(jù)進(jìn)行加, 減, 求和等簡單運(yùn)算或查詢, 要有一定的智 能性和自動(dòng)性。知識發(fā)

3、現(xiàn)主要包括以下 5 個(gè)部分。 1)數(shù)據(jù)選擇 :更據(jù)用戶的需求,從數(shù)據(jù)庫中提取與 KDD 相關(guān)的數(shù)據(jù)。在此過程中,可以利用一些數(shù)據(jù)庫操作對數(shù)據(jù) 進(jìn)行處理,形成真實(shí)的數(shù)據(jù)庫。 2)數(shù)據(jù)預(yù)處理:對上一步驟產(chǎn)生的數(shù)據(jù)進(jìn)行再加工, 檢查其完整性及一致性,對其中的噪聲數(shù)據(jù)進(jìn)行處理,并對 丟失的數(shù)據(jù)利用統(tǒng)計(jì)方法進(jìn)行填補(bǔ),形成發(fā)掘數(shù)據(jù)庫。 3)數(shù)據(jù)變換:從發(fā)掘數(shù)據(jù)庫里選擇數(shù)據(jù)進(jìn)行變換,變 換的方法主要是利用聚類分析和判別分析。指導(dǎo)數(shù)據(jù)變換的 方式是通過人機(jī)交互由專家輸入感興趣的知識,從而指導(dǎo)數(shù) 據(jù)挖掘的方向。 4)數(shù)據(jù)挖掘:根據(jù)用戶的要求,確定 KDD 的目標(biāo)是發(fā) 現(xiàn)何種類型的知識, 因?yàn)閷?KDD 的不同要

4、求, 會(huì)導(dǎo)致知識發(fā) 現(xiàn)的過程采用不同的發(fā)現(xiàn)算法。算法選擇包括選取合適的模 型和參數(shù),并使得知識發(fā)現(xiàn)算法與整個(gè) KDD的評判標(biāo)準(zhǔn)相一 致。 2 知識發(fā)現(xiàn)的對象 1)數(shù)據(jù)庫。包括關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫,空間數(shù) 據(jù)庫,時(shí)態(tài)數(shù)據(jù)庫,文本數(shù)據(jù)源,異質(zhì)數(shù)據(jù)庫等。主要研究 任務(wù)包括動(dòng)態(tài)數(shù)據(jù),噪聲,數(shù)據(jù)不完整性,冗余信息等。 2) 數(shù)據(jù)倉庫。它是一種新的數(shù)據(jù)處理技術(shù),能從大量 的事物型數(shù)據(jù)庫中抽取數(shù)據(jù),將其清理,轉(zhuǎn)換為新的存儲(chǔ)格 式,即為決策目標(biāo),繼而把數(shù)據(jù)聚合在一種特殊的格式,這 種支持決策的特殊的數(shù)據(jù)存儲(chǔ)即是數(shù)據(jù)倉庫。 數(shù)據(jù)倉庫的定義。 W.H.Imon 將其定義為“數(shù)據(jù)倉庫 是面向主題的,集成的,不同

5、時(shí)間的,不可更新的,以支持 管理決策處理過程的數(shù)據(jù)集合。 ”數(shù)據(jù)倉庫是伴隨著信息與 決策支持系統(tǒng)的發(fā)展過程產(chǎn)生的。數(shù)據(jù)倉庫從各數(shù)據(jù)源抽取 決策所需的數(shù)據(jù)并經(jīng)過必要的變換后,還需按一定的數(shù)據(jù)模 式組織這些數(shù)據(jù)。星型,雪花模式是數(shù)據(jù)倉庫中基表的常用 數(shù)據(jù)模式。數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)是良好定義的,數(shù)據(jù)量也應(yīng) 足夠支持?jǐn)?shù)據(jù)分析,查詢,報(bào)表生成以及可與長期積累的歷 史數(shù)據(jù)相對比;數(shù)據(jù)倉庫是一個(gè)決策支持環(huán)境,通過數(shù)據(jù)的 組織給決策支持者提供分布的,跨平臺(tái)的數(shù)據(jù)。 數(shù)據(jù)倉庫的特征。數(shù)據(jù)倉庫有 4 個(gè)特征:數(shù)據(jù)倉庫 的數(shù)據(jù)時(shí)面向主題的;數(shù)據(jù)倉庫的數(shù)據(jù)是集成的;數(shù)據(jù)倉庫 的數(shù)據(jù)是穩(wěn)定的;數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變

6、化的。以 上特征使得數(shù)據(jù)倉庫的環(huán)境與傳統(tǒng)的數(shù)據(jù)庫完全不同。 3) Web 信息。 隨著 WWW 的迅速發(fā)展, 分布在網(wǎng)絡(luò)上 的 Web 網(wǎng)頁已構(gòu)成了一個(gè)巨大的蘊(yùn)藏豐富知識的信息空間, 因此,它當(dāng)然也屬于知識發(fā)現(xiàn)的對象。 Web 環(huán)境與企業(yè)系統(tǒng)之間的實(shí)際有著非常緊密的聯(lián)系。 在 Web 環(huán)境中收集到得數(shù)據(jù)是細(xì)節(jié)程度非常低的數(shù)據(jù), 這樣 的數(shù)據(jù)不能直接用于數(shù)據(jù)倉庫,必須對它們進(jìn)行加工處理, 并提高粒度級別。數(shù)據(jù)在可以被數(shù)據(jù)倉庫使用前所做的處理 工作包括:清除無關(guān)的數(shù)據(jù);聚集同類的數(shù)據(jù);對數(shù)據(jù)進(jìn)行 重新排序;編輯數(shù)據(jù);清理數(shù)據(jù);對數(shù)據(jù)進(jìn)行轉(zhuǎn)換等工作。 通常在 Web 和企業(yè)的數(shù)據(jù)倉庫之間設(shè)置操作型數(shù)

7、據(jù)存儲(chǔ) ODS通過ODS,可以直接訪問這些數(shù)據(jù)。 ODS是一個(gè)混合結(jié)構(gòu)體,既具有數(shù)據(jù)倉庫的某些特征, 又兼具操作型數(shù)據(jù)庫的一些特征。一方面, ODS包含了集成 數(shù)據(jù),能支持決策支持系統(tǒng)的處理;另一方面, ODS又支持 高性能的事務(wù)處理,對 Web 訪問提供支持。 4)圖像和視頻數(shù)據(jù)。圖像和視頻數(shù)據(jù)中也存在著需要 挖掘的有用信息。 3 數(shù)據(jù)挖掘的應(yīng)用 3.1 數(shù)據(jù)挖掘的涵義 數(shù)據(jù)挖掘就是從大量的,不完全的,有噪聲的,模糊的 和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的潛 在有用的信息和知識的過程。利用數(shù)據(jù)挖掘工具從數(shù)據(jù)集中 所發(fā)現(xiàn)的知識,是有特定的前提和約束條件的,面向特定領(lǐng) 域的,同時(shí)已

8、被用戶理解,最好能用自然語言表達(dá)所發(fā)現(xiàn)的 結(jié)果。這也說明人們對數(shù)據(jù)的應(yīng)用,已從低層的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持。 3.2 數(shù)據(jù)挖掘的必要性 數(shù)據(jù)挖掘從商業(yè)等實(shí)用的數(shù)據(jù)庫中對大量業(yè)務(wù)數(shù)據(jù)進(jìn) 行抽取,轉(zhuǎn)換,分析和模型化處理,實(shí)際是一類深層次的數(shù) 據(jù)分析方法。數(shù)據(jù)分析本身不是一項(xiàng)新技術(shù),不過在過去, 數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,加上當(dāng)時(shí)的計(jì)算能 力限制,對大數(shù)據(jù)量進(jìn)行分析的復(fù)雜方法受到了較大限制, 現(xiàn)階段,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)等各領(lǐng)域產(chǎn)生 了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集, 主要是為了決策提供有價(jià)值的信息,進(jìn)而獲得利潤。許多企 業(yè)面臨的一

9、個(gè)共同問題是企業(yè)數(shù)據(jù)量龐大,其中有價(jià)值的支 持決策的信息卻很少。因而,進(jìn)行數(shù)據(jù)挖掘,從企業(yè)數(shù)據(jù)庫 大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于企業(yè)運(yùn)作,提高競 爭力的信息是非常必要的。 3.3 數(shù)據(jù)挖掘的具體實(shí)施 數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,受多學(xué)科的影響,產(chǎn)生了大 量數(shù)據(jù)挖掘方法或算法。一個(gè)數(shù)據(jù)挖掘的算法往往涉及 部分的內(nèi)容:輸入,輸出,和處理過程。數(shù)據(jù)挖掘算法的輸 入就是數(shù)據(jù)挖掘要處理的對象,可以是多種類型的數(shù)據(jù);算 法的輸出是要發(fā)現(xiàn)的知識或模式;算法的處理過程則涉及具 體的搜索方法;另外應(yīng)該注意建造的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該是面 向應(yīng)用的。按照數(shù)據(jù)挖掘的模型與算法,一些常見的數(shù)據(jù)挖 掘方法包括: 人工神經(jīng)網(wǎng)

10、絡(luò), 決策樹,回歸分析, 遺傳算法, 鄰近算法,模糊邏輯,另外的數(shù)據(jù)挖掘算法還有粗糙集,貝 葉斯分類3個(gè) 算法,基于網(wǎng)格的聚類算法等。 數(shù)據(jù)挖掘往往依賴于經(jīng)過良好組織和預(yù)處理的數(shù)據(jù)源, 數(shù)據(jù)的好壞直接影響數(shù)據(jù)挖掘的效果,因此數(shù)據(jù)的前期準(zhǔn)備 是數(shù)據(jù)挖掘過程中的一個(gè)非常重要的階段;而數(shù)據(jù)倉庫具有 從各種數(shù)據(jù)源中抽取數(shù)據(jù)的能力,具有對數(shù)據(jù)進(jìn)行清洗,聚 集和轉(zhuǎn)移等處理的能力,這些恰好為數(shù)據(jù)挖掘提供勞務(wù)良好 的進(jìn)行前期數(shù)據(jù)準(zhǔn)備的工作環(huán)境。因此,數(shù)據(jù)倉庫和數(shù)據(jù)挖 掘技術(shù)的結(jié)合就成為一種必然的趨勢,目前許多數(shù)據(jù)挖掘工 具都采用了數(shù)據(jù)倉庫的技術(shù)。 4 應(yīng)用實(shí)例及結(jié)語 數(shù)據(jù)挖掘已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用。例如在

11、金融業(yè), 金融事務(wù)需要收集和處理大量數(shù)據(jù)。財(cái)經(jīng)分析依賴各種來源 的數(shù)據(jù),這些數(shù)據(jù)可能包含錯(cuò)誤信息或丟失信息,對數(shù)據(jù)進(jìn) 行清理或聯(lián)機(jī)驗(yàn)證非常重要。一個(gè)叫RECON的數(shù)據(jù)挖掘系統(tǒng) 曾用于清理有 2200 個(gè)墨西哥和英國政府債券及歐洲債券的 數(shù)據(jù)庫,為投資決策提供了很大的支持?,F(xiàn)階段數(shù)據(jù)挖掘已 有廣泛應(yīng)用的領(lǐng)域還有保險(xiǎn)業(yè),制造業(yè),醫(yī)療業(yè),市場和零 售業(yè)以及工程與科學(xué)方面。 當(dāng)前, 數(shù)據(jù)挖掘技術(shù)研究正方興 未艾,它的研究和應(yīng)用受到了學(xué)術(shù)界和實(shí)業(yè)界越來越多的重 視。可以預(yù)計(jì), 在不久的將來, 數(shù)據(jù)挖掘技術(shù)將會(huì)迅速發(fā)展, 在各個(gè)領(lǐng)域得到更加廣泛的應(yīng)用,在人們的工作和生活中發(fā) 揮更大的重要作用。 參考文獻(xiàn): 1 吳新玲數(shù)據(jù)集的分形維數(shù)及其算法實(shí)現(xiàn) J微電子 學(xué)與計(jì)算機(jī) ,2011(6). 2 王育欣 .面向通信企業(yè)客戶關(guān)系管理的數(shù)據(jù)挖掘技術(shù) 研究J科技與企業(yè),2011(3). 3 王曉剛 .基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的企業(yè)決策支 持系統(tǒng)設(shè)計(jì)J.中國石油和化工標(biāo)準(zhǔn)與質(zhì)量,2011(3). 4 吳金橋 .基于多重評價(jià)因素的 Web 用戶聚類方法 J. 計(jì)算機(jī)工程 ,2011(10). 5 孫文俊 .基于 T 統(tǒng)計(jì)量的一種改進(jìn)關(guān)聯(lián)規(guī)則挖掘方法 J.計(jì)算機(jī)應(yīng)用研究,2011(6).

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!