數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜述.doc
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜述.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜述.doc(14頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
Southwest university of science and technology 數(shù)據(jù)挖掘課程報(bào)告 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜述 學(xué)院名稱 計(jì)算機(jī)科學(xué)與技術(shù) 專業(yè)名稱 計(jì)科 學(xué)生姓名 學(xué)號(hào) 指導(dǎo)教師 吳玨 二〇一六年11月 摘要 通過對(duì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的學(xué)習(xí)和大致的了解,主要提出了一種基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)的決策支持系統(tǒng)的框架。該文章把數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘工具和知識(shí)庫(kù)結(jié)合在一起,提高了數(shù)據(jù)挖掘的效率。增加了挖掘數(shù)據(jù)的效率和價(jià)值實(shí)用性! 1、 概述 近十幾年來(lái),人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬(wàn)萬(wàn)個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,并且這一勢(shì)頭仍將持續(xù)發(fā)展下去。于是,一個(gè)新的挑戰(zhàn)被提了出來(lái):在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對(duì)的問題。如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對(duì)"人們被數(shù)據(jù)淹沒,人們卻饑餓于知識(shí)的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。 數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。還有很多和這一術(shù)語(yǔ)相近似的術(shù)語(yǔ),如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。 數(shù)據(jù)倉(cāng)庫(kù),英文名稱為Data Warehouse,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)所有級(jí)別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。 今天, 越來(lái)越多的企業(yè)認(rèn)識(shí)到要從以往的事務(wù)處理和決策中總結(jié)經(jīng)驗(yàn),利用現(xiàn)有的數(shù)據(jù)進(jìn)行分析和推理,建立企業(yè)的決策支持系統(tǒng)(DSS)以提高決策的質(zhì)量。企業(yè)如果不能快速精確的收集和分析信息,將無(wú)法進(jìn)行科學(xué)而有效的決策。建立數(shù)據(jù)倉(cāng)庫(kù)(Data warehouse)將能很的解決這一問題,使企業(yè)從大量的業(yè)務(wù)信息中篩選出所需的信息,并做出正確的決策。數(shù)據(jù)倉(cāng)庫(kù)不是單一的產(chǎn)品, 而是綜合了多種信息技術(shù)的計(jì)算環(huán)境。它將全企業(yè)的運(yùn)行數(shù)據(jù)匯集到一個(gè)精心設(shè)計(jì)的關(guān)系數(shù)據(jù)庫(kù)中,并將它們轉(zhuǎn)換成面向主題(Subject-oriented)的形式,使最終用戶很容易的從歷史的角度對(duì)這些數(shù)據(jù)進(jìn)行訪問和分析。以銀行為例,通常,銀行的應(yīng)用系統(tǒng)是按業(yè)務(wù)分類的,如儲(chǔ)蓄、信貸、信用卡等,一個(gè)客戶的信息分布在不同的業(yè)務(wù)系統(tǒng)中,要想得到一個(gè)客戶的全面信息非常困難。銀行通過建立數(shù)據(jù)倉(cāng)庫(kù), 可以將分離在各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)合并成一個(gè)統(tǒng)一的圖表,這樣就可以看到客戶在各個(gè)系統(tǒng)中的全貌,而且可以從歷史的角度對(duì)客戶檔案進(jìn)行分析, 以便做出為每一個(gè)客戶進(jìn)一步服務(wù)的決策。 二、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本概念 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘都是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的重要組成部分, 它們既有聯(lián)系, 又有區(qū)別。 聯(lián)系是: (1) 數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源。 (2) 數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供了新的支持平臺(tái)。 (3) 數(shù)據(jù)倉(cāng)庫(kù)為更好地使用數(shù)據(jù)挖掘這個(gè)工具提供了方便。 (4) 數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供了更好的決策支持。 (5) 數(shù)據(jù)挖掘?qū)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織提出了更高的要求。 (6) 數(shù)據(jù)挖掘還為數(shù)據(jù)倉(cāng)庫(kù)提供了廣泛的技術(shù)支持。 區(qū)別是: (1) 數(shù)據(jù)倉(cāng)庫(kù)是一種數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)組織技術(shù), 提供數(shù)據(jù)源。 (2) 數(shù)據(jù)挖掘是一種數(shù)據(jù)分析技術(shù), 可針對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行分析。 數(shù)據(jù)倉(cāng)庫(kù)是支持管理決策過程的、面向主題的、集成的、隨時(shí)間而變的、持久的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)負(fù)責(zé)從操作型數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),實(shí)現(xiàn)對(duì)集成和綜合后的數(shù)據(jù)的管理,并把數(shù)據(jù)呈現(xiàn)給一組數(shù)據(jù)倉(cāng)庫(kù)前端工具, 以滿足用戶的各種分析和決策的需求。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的前端工具以O(shè)LAP 工具和數(shù)據(jù)挖掘工具為代表,是用戶賴以從數(shù)據(jù)倉(cāng)庫(kù)中提取、分析數(shù)據(jù),以及實(shí)施決策的必經(jīng)途徑。數(shù)據(jù)挖掘DM(Data Mining),是指從數(shù)據(jù)中識(shí)別出潛在有用的、先前未知的、最終可理解的模式的非平凡過程。研究基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)框架是很有意義的。 三、數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)、功能 1、數(shù)據(jù)倉(cāng)庫(kù)的基本結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision Support)。其實(shí)數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何的數(shù)據(jù),數(shù)據(jù)來(lái)源于外部,并且開放給外部應(yīng)用,這也是為什么叫“倉(cāng)庫(kù)”,而不叫“工廠”的原因。 數(shù)據(jù)倉(cāng)庫(kù)中的信息存儲(chǔ), 根據(jù)對(duì)數(shù)據(jù)的不同深度的分析處理而區(qū)分為不同的層次,其基本結(jié)構(gòu)分為以下幾個(gè)部分: (1)歷史性詳細(xì)數(shù)據(jù)層:它存儲(chǔ)歷史數(shù)據(jù),用于數(shù)據(jù)對(duì)比、回歸、匯總等供分析、建模預(yù)測(cè)之用。歷史數(shù)據(jù)一般為5 至10 年或更久的數(shù)據(jù),它縱向只對(duì)數(shù)據(jù)/信息進(jìn)行分類存儲(chǔ)。 (2)當(dāng)前詳細(xì)數(shù)據(jù)層:存儲(chǔ)當(dāng)前最新詳細(xì)數(shù)據(jù),重點(diǎn)用于了解當(dāng)前情況,是進(jìn)一步分析數(shù)據(jù)的基礎(chǔ)。在一定時(shí)刻,這些數(shù)據(jù)會(huì)轉(zhuǎn)移到歷史數(shù)據(jù)層去。 (3)不同程序的歸納總結(jié)信息層:可包含多個(gè)層次,根據(jù)所需分類和歸納的不同深度而定。如按周、月、年統(tǒng)計(jì)的數(shù)據(jù)。這些信息只是一些簡(jiǎn)單的匯總,尚不能形成高級(jí)的決策信息。 (4)專業(yè)信息分析層:進(jìn)一步專業(yè)分析的結(jié)果,如統(tǒng)計(jì)分析、運(yùn)籌分析、時(shí)間序列分析以及表面數(shù)據(jù)的內(nèi)在規(guī)律分析等。 (5)倉(cāng)庫(kù)結(jié)構(gòu)信息:數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部結(jié)構(gòu)信息,反映各種信息在數(shù)據(jù)倉(cāng)庫(kù)中的位置分布和處理方式等,以便檢索查詢之用。組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)時(shí), 應(yīng)根據(jù)數(shù)據(jù)訪問概率把數(shù)據(jù)分為經(jīng)常被訪問但較少被修改的數(shù)據(jù)和經(jīng)常被修改但較少被訪問的數(shù)據(jù)。對(duì)于前者可以做較多的索引(一般可做8 至12 個(gè))來(lái)提高訪問的效率;對(duì)于后者就必須少建索引,否則,由于它經(jīng)常被修改,重索引的概率就很大,反而會(huì)降低系統(tǒng)的效率。 2、數(shù)據(jù)倉(cāng)庫(kù)的功能特點(diǎn) 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展的需要,基于數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)發(fā)展而來(lái),并逐步獨(dú)立的一系列新的應(yīng)用技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)就是基于數(shù)學(xué)及統(tǒng)計(jì)學(xué)嚴(yán)謹(jǐn)邏輯思維的并達(dá)成“科學(xué)的判斷、有效的行為”的一個(gè)工具。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)也是一種達(dá)成“數(shù)據(jù)整合、知識(shí)管理”的有效手段。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。這是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)特征的定位。數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專有的,而是來(lái)源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代數(shù)據(jù)庫(kù),它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫(kù)在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù)。 數(shù)據(jù)倉(cāng)庫(kù)的主要功能是提供企業(yè)決策支持系統(tǒng)或執(zhí)行信息系統(tǒng)(EIS)所需要的信息,它把企業(yè)日常運(yùn)行中分散不一致的數(shù)據(jù)經(jīng)歸納整理后轉(zhuǎn)換為集中統(tǒng)一的、可隨時(shí)取用的深層信息,這種信息雖然也是按關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)結(jié)構(gòu)存儲(chǔ)的, 單與面向逐條記錄的聯(lián)機(jī)時(shí)務(wù)處理(OLTP)不同,在數(shù)據(jù)倉(cāng)庫(kù)中的一條記錄,有可能是基礎(chǔ)數(shù)據(jù)中若干個(gè)表、若干條記錄的歸納和匯總。 數(shù)據(jù)倉(cāng)庫(kù)的基本特點(diǎn)是: (1)面向?qū)ο笮?。?shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的信息是面向主題來(lái)組織的。它根據(jù)所需要的信息,分不同類、不同角度等主題把數(shù)據(jù)加工、整理之后存儲(chǔ)起來(lái)(按橫向?qū)?shù)據(jù)進(jìn)行分類存儲(chǔ))。 (2)數(shù)據(jù)歷史性。數(shù)據(jù)倉(cāng)庫(kù)中可以專門存儲(chǔ)5 至10 年或更久的歷史數(shù)據(jù),數(shù)據(jù)具有時(shí)間標(biāo)示,以滿足信息比較、分析預(yù)測(cè)等的數(shù)據(jù)需求(按縱向?qū)?shù)據(jù)進(jìn)行分類存儲(chǔ))。 (3)數(shù)據(jù)集成性。無(wú)論數(shù)據(jù)來(lái)源于何處,進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后都具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和編碼規(guī)則, 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)具有一致性的特點(diǎn)。 (4)數(shù)據(jù)只讀性。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)信息源,它只是為在其上開發(fā)的DSS 或EIS 等提供信息服務(wù),因此它應(yīng)是只讀數(shù)據(jù)庫(kù),一般不能輕易改動(dòng),只能定期刷新。 (5)操作集合性。數(shù)據(jù)倉(cāng)庫(kù)可通過快照機(jī)制,成批的更新來(lái)自不同資源的數(shù)據(jù), 將其載入數(shù)據(jù)倉(cāng)庫(kù); 也可以成批的訪問數(shù)據(jù)。 (6)應(yīng)用C/S(客戶機(jī)/服務(wù)器)性。數(shù)據(jù)倉(cāng)庫(kù)通過定義信息(元信息)把整個(gè)數(shù)據(jù)組織起來(lái)。在元信息中有一類記錄系統(tǒng)信息,定義了數(shù)據(jù)存儲(chǔ)、修改權(quán)限等,記錄系統(tǒng)將原始數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的數(shù)據(jù),所以這實(shí)際上是C/S 應(yīng)用模式。 四、數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘是一種大型數(shù)據(jù)庫(kù)(如數(shù)據(jù)倉(cāng)庫(kù))中提取隱藏的預(yù)測(cè)性信息的新技術(shù)。數(shù)據(jù)挖掘是一種展望和預(yù)測(cè)性的信息分析工具,它能挖掘數(shù)據(jù)間潛在的關(guān)系模式,發(fā)現(xiàn)用戶可能忽略的信息,為企業(yè)管理者提供前攝的(Proactive)、基于知識(shí)的決策。數(shù)據(jù)挖掘技術(shù)使DSS 的應(yīng)用向效益型賣出了重要的一步。傳統(tǒng)的DSS 通常是在某個(gè)假設(shè)的前提下通過數(shù)據(jù)查詢和分析來(lái)驗(yàn)證或否定這個(gè)假設(shè),而數(shù)據(jù)挖掘技術(shù)則能夠自動(dòng)分析數(shù)據(jù),進(jìn)行歸納性推理,從中發(fā)掘出潛在模式或產(chǎn)生聯(lián)想,建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場(chǎng)策略,做出正確的決策。 從數(shù)據(jù)本身來(lái)考慮,通常數(shù)據(jù)挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評(píng)估和知識(shí)表示等8個(gè)步驟。 (1) 信息收集:根據(jù)確定的數(shù)據(jù)分析對(duì)象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫(kù)。對(duì)于海量數(shù)據(jù),選擇一個(gè)合適的數(shù)據(jù)存儲(chǔ)和管理的數(shù)據(jù)倉(cāng)庫(kù)是至關(guān)重要的。 (2) 數(shù)據(jù)集成:把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。 (3) 數(shù)據(jù)規(guī)約:執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法即使在少量數(shù)據(jù)上也需要很長(zhǎng)的時(shí)間,而做商業(yè)運(yùn)營(yíng)數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來(lái)得到數(shù)據(jù)集的規(guī)約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。 (4) 數(shù)據(jù)清理:在數(shù)據(jù)庫(kù)中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯(cuò)誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉(cāng)庫(kù)中。 (5) 數(shù)據(jù)變換:通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對(duì)于有些實(shí)數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來(lái)轉(zhuǎn)換數(shù)據(jù)也是重要的一步。 (6) 數(shù)據(jù)挖掘過程:根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用的分析信息。 (7) 模式評(píng)估:從商業(yè)角度,由行業(yè)專家來(lái)驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。 (8) 知識(shí)表示:將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中,供其他應(yīng)用程序使用。 數(shù)據(jù)挖掘過程是一個(gè)反復(fù)循環(huán)的過程,每一個(gè)步驟如果沒有達(dá)到預(yù)期目標(biāo),都需要回到前面的步驟,重新調(diào)整并執(zhí)行。不是每件數(shù)據(jù)挖掘的工作都需要這里列出的每一步,例如在某個(gè)工作中不存在多個(gè)數(shù)據(jù)源的時(shí)候,步驟(2)數(shù)據(jù)集成的步驟便可以省略。 步驟(3)數(shù)據(jù)規(guī)約(4)數(shù)據(jù)清理(5)數(shù)據(jù)變換又合稱數(shù)據(jù)預(yù)處理。在數(shù)據(jù)挖掘中,至少60%的費(fèi)用可能要花在步驟(1)信息收集階段,而至少60%以上的精力和時(shí)間是花在數(shù)據(jù)預(yù)處理。 五、一種基于DW 的DMS 結(jié)構(gòu)框架 根據(jù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的特點(diǎn), 提出一種基于數(shù)據(jù)倉(cāng)庫(kù)的通用數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)框架,如圖1。該結(jié)構(gòu)框架的概念模型包括如下組成部分: (1)用戶查詢接口它可分為查詢分類、查詢解釋及規(guī)格化兩部分。其作用是將數(shù)據(jù)挖掘請(qǐng)求解釋成規(guī)格化的查詢語(yǔ)言,并交由查詢協(xié)同機(jī)處理。 (2)查詢協(xié)同機(jī)它的工作是協(xié)同數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)、數(shù)據(jù)挖掘工具管理系統(tǒng)和知識(shí)庫(kù)管理系統(tǒng), 共同對(duì)查詢接口提交的查詢請(qǐng)求進(jìn)行處理。 圖1 一種基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)框架 (3)數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)它直接負(fù)責(zé)對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行管理,并完成對(duì)各種異構(gòu)分布數(shù)據(jù)源中數(shù)據(jù)的提取工作, 以最大限度屏蔽各異構(gòu)數(shù)據(jù)源對(duì)系統(tǒng)的影響。 (4)知識(shí)庫(kù)管理系統(tǒng)它對(duì)知識(shí)庫(kù)進(jìn)行管理和控制,包括知識(shí)的增加、刪除、更新和查詢等。一方面,處理由查詢協(xié)同機(jī)處理后產(chǎn)生的知識(shí)庫(kù)查詢請(qǐng)求,并將結(jié)果提交給數(shù)據(jù)挖掘模塊;另一方面,接受通過知識(shí)評(píng)價(jià)的知識(shí)模式,并存入知識(shí)庫(kù)。 (5) 數(shù)據(jù)挖掘工具的管理系統(tǒng)它的作用是對(duì)數(shù)據(jù)挖掘工具進(jìn)行管理。 (6) 數(shù)據(jù)挖掘預(yù)處理模塊它的任務(wù)是在數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的協(xié)同下,根據(jù)元數(shù)據(jù)和維表,對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中儲(chǔ)存的數(shù)據(jù)進(jìn)行處理,生成符合用戶查詢需要的,并能滿足數(shù)據(jù)挖掘工具集要求的待處理數(shù)據(jù)子集。 (7) 知識(shí)評(píng)價(jià)模塊數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來(lái)的模式需要經(jīng)過知識(shí)評(píng)價(jià)模塊的評(píng)估。如果存在冗余或無(wú)關(guān)的模式,則將其剔除了;如果模式不能滿足用戶要求,則需要重新選取數(shù)據(jù),設(shè)定新的數(shù)據(jù)挖掘參數(shù)值, 甚至更換數(shù)據(jù)挖掘算法重新進(jìn)行數(shù)據(jù)挖掘。 (8) 結(jié)論表達(dá)模塊它將得到的結(jié)論按語(yǔ)義層次結(jié)構(gòu)進(jìn)行普化,得出各語(yǔ)義層上的結(jié)論,并對(duì)其進(jìn)行解釋,將發(fā)現(xiàn)的模式以可視化或自然語(yǔ)言的形式呈現(xiàn)給用戶。 六、基于數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的DSS 創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的目的是為企業(yè)的DSS 和EIS 提供科學(xué)的決策依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)用于大量數(shù)據(jù)存儲(chǔ)和組織;數(shù)據(jù)挖掘用于從大量的數(shù)據(jù)中發(fā)現(xiàn)知識(shí),為用戶進(jìn)行預(yù)測(cè)決策。數(shù)據(jù)挖掘以數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)為基礎(chǔ), 通過OLAP 和多維分析工具自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的潛在模式,并以這些模式為基礎(chǔ)自動(dòng)做出預(yù)測(cè)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的結(jié)合為企業(yè)DSS 和EIS 的建立提供了新的、更有效的解決方案。圖2 表明了這種方案的一種結(jié)構(gòu)。 七、結(jié)束語(yǔ) 通過對(duì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程的學(xué)習(xí),我了解了數(shù)據(jù)倉(cāng)庫(kù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析的方法,以及用相關(guān)軟件預(yù)測(cè)的步驟。并且懂得了企業(yè)未來(lái)的成功,很大程度上取決于準(zhǔn)確的數(shù)據(jù)挖掘能力,許多領(lǐng)域都需要對(duì)潛在的數(shù)據(jù)進(jìn)行深層次的分析,困難主要有對(duì)數(shù)據(jù)的一些概念和方法方法不太熟悉,導(dǎo)致思想比較懵懂,會(huì)時(shí)不時(shí)出現(xiàn)差錯(cuò),導(dǎo)致出現(xiàn)的結(jié)果與預(yù)期的不一致。但總體來(lái)說還是有很多收獲的,通過這次學(xué)習(xí),我鞏固了所學(xué)的理論知識(shí),進(jìn)一步理解了相關(guān)的概念和方法。也明白了一些深刻的道理,即在遇到困難時(shí)不要放棄,要有持之以恒的精神,遇到不懂的問題時(shí)要及時(shí)請(qǐng)教老師和同學(xué),要在實(shí)際動(dòng)手操作時(shí)進(jìn)一步完善自己的所學(xué)的知識(shí),要善于思考,善于總結(jié),這樣才能有所學(xué)有所想,學(xué)有所得。 八、參考文獻(xiàn): 1、賴福軍,周婷, 數(shù)據(jù)倉(cāng)庫(kù)及其本關(guān)技術(shù), 軟件世界, 1997.2 2、王珊,數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理數(shù)據(jù)挖掘.計(jì)算機(jī)世界報(bào)1997.01.06. P123-125 3 、駱斌, 面向?qū)ο蟮臄?shù)據(jù)倉(cāng)庫(kù)技術(shù)的研究, 南京大學(xué)博士學(xué)位論文,1999.12 . 4、陳兆乾,周志華、駱斌、陳世福,"增量式IHMCAP 算法的研究及其應(yīng)用",計(jì)算機(jī)學(xué)報(bào),1998,8. 5、陳堅(jiān)志 ,廣東外語(yǔ)外貿(mào)大學(xué),"數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘在決策系統(tǒng)中的應(yīng)用"- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘 綜述
鏈接地址:http://appdesigncorp.com/p-6623520.html