《數(shù)據(jù)挖掘課程設計(共22頁)》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘課程設計(共22頁)(20頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-傾情為你奉上棗 莊 學 院信息科學與工程學院課程設計任務書 題目: 數(shù)據(jù)挖掘在期末成績評估中的應用 小組成員: 趙尊強、 桂文學 成員學號: 6、 6 專業(yè)班級: 計算機科學與技術(shù)、2012級本1班 課 程: 數(shù)據(jù)挖掘 指導教師: 遲慶云 職稱: 副教授 完成時間: 2015年 5 月-2015年 6 月棗莊學院信息科學與工程學院制2015年5 月20日開發(fā)小組成員分工及職責趙尊強:設計規(guī)劃、文獻搜集 桂文學:挖掘資料、數(shù)據(jù)整合課程設計任務書及成績評定課程設計的任務和具體要求任務:1. 確定挖掘主題和方法:根據(jù)挖掘的主題和目標,確定合適的挖掘方法。2. 數(shù)據(jù)選擇和預處理:根據(jù)所收
2、集數(shù)據(jù),填充缺失值,平滑噪聲數(shù)據(jù),消除異常值,解決數(shù)據(jù)不一致等問題。3挖掘方法實現(xiàn):規(guī)劃挖掘過程,界面設計,挖掘方法實現(xiàn)。4挖掘數(shù)據(jù):對預處理后的數(shù)據(jù)進行挖掘4. 模式的可視化表達與解釋:根據(jù)應用領域的信息和知識需求,以直觀有效的形式,如圖表等顯示數(shù)據(jù)挖掘出的模式,用特定領域的知識加以解釋,使得用戶能夠理解和接受。要求:.撰寫出符合要求的軟件項目綜合實踐報告。指導教師簽字: 遲慶云 日期: 指導教師評語成績:_ 指導教師簽字: 日期: 課程設計所需軟件、硬件等n 硬件環(huán)境:Iterl(R) Core(TM)2 Duo CPU,主頻2.31GHz;內(nèi)存3G; 硬盤320G以上;1024768顯示
3、分辨率n 軟件環(huán)境: Delphi ,SQL Server2008 ,WEKA課程設計進度計劃起至日期工作內(nèi)容備注5月01日06日5月07日20日6月05日08日6月09日18日搜集資料課程設計分析系統(tǒng)設計、測試設計寫報告書參考文獻、資料索引序號文獻、資料名稱編著者出版單位1Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat 著數(shù)據(jù)挖掘原理與應用(第2版)SQL Server 2008數(shù)據(jù)庫北京:清華大學出版社.2王麗珍、周麗華、陳紅梅、肖清,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原來及應用,北京:科學出版社3 張興會 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 清華大學出版社 專心-專注-專業(yè)目錄
4、1概述1.1應用背景和問題的提出在大學生活中,我們大學生在某種程度上還是比較重視自己的課程成績的。而有一個期末最終成績的評估系統(tǒng),無疑對同學們而言是很有用的。在這個系統(tǒng)中,只需輸入你估計的平時成績以及表現(xiàn)和期末考試的得分,就可以預測出最終的成績。而這個課程成績的組成以及得出是怎么樣的呢。這個最終的得分是受到什么影響呢?本論文就以上問題進行了探討和挖掘。1.2設計內(nèi)容的介紹本課程設計主要是探討和研究在老師給定成績時考慮的因素,以及這些因素所占的比例。數(shù)據(jù)倉庫為一份記錄著600個同學的得分情況的數(shù)據(jù),數(shù)據(jù)挖掘則采用決策樹探究出影響結(jié)婚年齡的因素。2數(shù)據(jù)倉庫設計2.1概念模型設計數(shù)據(jù)倉庫里面有一個實
5、體,也就是成績score。成績的決定因素有performance也就平時表現(xiàn)情況,即根據(jù)其在課堂上的活躍程度以及認真聽課的情況來給的分,還有averscore就是同學平時的作業(yè)得分以及平時測試或者期中測試的平均成績,以及期末考試的成績lasttest。scorelasttestperformanceaverscore2.2邏輯模型設計本數(shù)據(jù)倉庫只有一個表,邏輯模型設計如下:2.3物理模型設計在數(shù)據(jù)倉庫的物理設計中,主要解決數(shù)據(jù)的存儲結(jié)構(gòu)、數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲策略、存儲分配優(yōu)化等問題。物理設計的主要目的有兩個,一是提高性能,二是更好地管理存儲的數(shù)據(jù)。訪問的頻率、數(shù)據(jù)容量、選擇的RDBMS支
6、持的特性和存儲介質(zhì)的配置都會影響物理設計的最終結(jié)果。在本數(shù)據(jù)挖掘中,數(shù)據(jù)的索引策略采取的并不是位圖索引而是按列索引2.4 OLAP模型設計在本設計中由于案例考慮的并不復雜,所以OLAP模型設計也就比較的簡單。下面的數(shù)據(jù)是保存在Excel中的。大概的模型設計也就如下圖所示。2.5 OLAP前端展示設計3數(shù)據(jù)挖掘分析3.1 期末成績評估系統(tǒng)應用挖掘概述在本系統(tǒng)中,數(shù)據(jù)倉庫采用一個二維表來存儲和表示同學們的平時成績,平時表現(xiàn)得分,以及期末成績等屬性。數(shù)據(jù)挖掘則采用關(guān)聯(lián)分析來將二維表中的實例分開,并探究這些數(shù)據(jù)所蘊含的規(guī)律。3.2數(shù)據(jù)挖掘?qū)嶒?.2.1實驗環(huán)境 Windows XPMicrosoft
7、SQL Server 2008Microsoft Visual Studio 2008Microsoft Office 2003 Excel Access3.2.2數(shù)據(jù)準備及預處理 首先選擇數(shù)據(jù)源,以下幾個截圖是在做實驗時的幾個步驟。3.2.3 實驗內(nèi)容 (輸入數(shù)據(jù)集,選擇算法,輸出結(jié)果,比較分析)建立一個Analysis Services Project的項目,在數(shù)據(jù)源中輸入數(shù)據(jù)集:說明: 以上實驗室在實驗室做的,由于時間不夠,回到宿舍自己安裝了中文版的SQL SERVER工具,并完成接下來的實驗步驟。3.2.4 算法選擇分類的任務是通過分析由已知類別數(shù)據(jù)對象組成的訓練數(shù)據(jù)集,建立描述并區(qū)分
8、數(shù)據(jù)對象類別的分類函數(shù)或分類模型(也常常稱作分類器)。分類算法有多種,例如,決策樹分類算法、神經(jīng)網(wǎng)絡分類算法、貝葉斯分類算法等。這里需要用的是決策樹分類算法。在本挖掘中選擇是關(guān)聯(lián)分析,分析過程和結(jié)果如以下圖所示:下面是挖掘模型:關(guān)聯(lián)規(guī)則:項集:說明(項集是比較準確的)分類矩陣:依賴關(guān)系網(wǎng)絡圖:提升圖:通過整合做出散點圖如下圖:通過以上的分析,我們得出一個結(jié)論,就是期末成績在最終得分中所占的比例最大,平時成績和平時表現(xiàn)的權(quán)重差不多,在這個結(jié)論中,期末考試的成績的重要性,不言而喻,增加期末考試的成績,最能提高最終成績,平時成績和表現(xiàn)的得分也很重要,但相對權(quán)重沒有期末成績大。一個分數(shù)高的學生,他的所有成績都應該是很高的。4小結(jié) 由于團隊技術(shù)水平有限,在開發(fā)過程中遇到了很多技術(shù)問題,不過大多數(shù)都是一些小的細節(jié)問題,花了很長時間。 還有就是由于對軟件的不熟練,然后經(jīng)常會搞錯多對一等的關(guān)系,或者是一些屬性的不對應,最后通過同學的幫忙,幫我查找到錯誤,并幫我們改正。經(jīng)過幾個星期的課程設計,過程曲折可謂一語難盡。生活就是這樣,汗水預示著結(jié)果也見證著收獲。通過這次的設計培養(yǎng)了我綜合應用所學知識,發(fā)現(xiàn)、提出、分析和解決實際問題,鍛煉了我的實踐能力。