《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題.doc》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題.doc(9頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 習題
1.1什么是數(shù)據(jù)挖掘?在你的回答中,強調(diào)以下問題:
(a) 它是又一個騙局嗎?
(b) 它是一種從數(shù)據(jù)庫,統(tǒng)計學和機器學習發(fā)展的技術的簡單轉換嗎?
(c) 解釋數(shù)據(jù)庫技術發(fā)展如何導致數(shù)據(jù)挖掘
(d) 當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。
1.2 給出一個例子,其中數(shù)據(jù)挖掘對于一種商務的成功至關重要的。這種商務需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎?
1.3 假定你是Big-University的軟件工程師,任務是設計一個數(shù)據(jù)挖掘系統(tǒng),分析學校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個學生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學分平均)。描述你要選取的結構。該結構的每個成分的作用是什么?
1.4 數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?
1.5簡述以下高級數(shù)據(jù)庫系統(tǒng)和應用:面向對象數(shù)據(jù)庫,空間數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫和WWW。
1.6 定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關聯(lián),分類,預測,聚類和演變分析。使用你熟悉的現(xiàn)實生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘的例子。
1.7 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預測呢?對于每一對任務,它們有何相似之處?
1.8 根據(jù)你的觀察,描述一種可能的知識類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術嗎?
1. 9 描述關于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘的挑戰(zhàn)。
1. 10 描述關于性能問題的兩個數(shù)據(jù)挖掘的挑戰(zhàn)。
2.1 試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅動的方法(構造使用數(shù)據(jù)倉庫),而不愿使用查詢驅動的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅動方法比更新驅動方法更受歡迎。
2.2 簡略比較以下概念,可以用例子解釋你的觀點
(a) 雪花模式、事實星座、星型網(wǎng)查詢模型
(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新
(c) 發(fā)現(xiàn)驅動數(shù)據(jù)立方體、多特征方、虛擬倉庫
2.3 假定數(shù)據(jù)倉庫包含三個維time,doctor和patient,兩個度量count 和charge,其中charge是醫(yī)生對一位病人的一次診治的收費。
(a) 列舉三種流行的數(shù)據(jù)倉庫建模模式。
(b) 使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉庫的模式圖。
(c) 由基本方體[day,doctor,patient]開始,為列出2000年每位醫(yī)生的收費總數(shù),應當執(zhí)行哪些 OLAP操作?
(d) 為得到同樣的結果,寫一個SQL查詢。假定數(shù)據(jù)存放在關系數(shù)據(jù)庫中,其模式如下:
fee(day,month,year, doctor,hospital,patient,count,charge)
2.4 假定Big_University的數(shù)據(jù)倉庫包含如下4個維student, course, semester和instructor,2個度量count和avg_grade。在最低的概念層(例如對于給定的學生、課程、學期和教師的組合),度量avg_grade存放學生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。
(a) 為數(shù)據(jù)倉庫畫出雪花模式圖;
(b) 由基本方體 [student, course, semester, instructor]開始,為列出Big_University每個學生的CS課程的平均成績,應當使用哪些OLAP操作(如由 semester上卷到y(tǒng)ear);
(c) 如果每維有5層(包括all),如student
2.5 假定數(shù)據(jù)倉庫包含4個維date,spectator,location和game,2個度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費。觀眾可以是學生、成年人或老人,每類觀眾有不同的收費標準。
(a ) 畫出該數(shù)據(jù)倉庫的星型模式圖;
(b) 由基本方體[date,spectator,location,game]開始,為列出2000年學生觀眾在GM-Place的總付費,應當執(zhí)行哪些OLAP操作?
(c) 對于數(shù)據(jù)倉庫,位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結構的優(yōu)點和問題。
2.6 為地區(qū)氣象局設計一個數(shù)據(jù)倉庫。氣象局大約有1000觀察點,散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長達十年。你的設計應當有利于有效的查詢和聯(lián)機分析處理,有利于有效地導出多維空間的一般天氣模式。
2.7 關于數(shù)據(jù)立方體中的度量計算:
(a) 根據(jù)計算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;
(b) 對于具有三個維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類?如果立方體被分割成一些塊,描述如何計算它;
(c) 假定函數(shù)是"最高的10個銷售額"。討論如何在數(shù)據(jù)立方體里有效的計算該度量。
2.8 假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設計有效的計算和存儲方法。
2.9 數(shù)據(jù)倉庫實現(xiàn)的流行方法是構造一個稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。
(a) 給出一個例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;
(b) 設計一種實現(xiàn)方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細解釋你的數(shù)據(jù)結構,討論空間需求量,以及如何由你的結構中檢索數(shù)據(jù);
(c) 修改你在(b)的設計,處理遞增的數(shù)據(jù)更新。給出你的新設計的理由。
2.10 假定數(shù)據(jù)倉庫包含20個維,每個維有5級粒度。
(a)用戶感興趣的主要是4個特定的維,每維有3個上卷、下鉆頻繁訪問的級。你如何設計數(shù)據(jù)立方結構,有效地對此予以支持?
(b)用戶時常想由一兩個特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?
2.11 假定基本立方體有三個維A,B,C,其單元數(shù)如下:|A|=1000000, |B|=100,|C|=1000。假定分塊將每維分成10部分。
(a)假定每維只有一層,畫出完整的立方體的格。
(b)如果每個立方單元存放一個4字節(jié)的度量,若方是稠密的,所計算的立方體有多大?
(c)指出立方體中空間需求量最小的塊計算次序,并對計算2-維平面所需要的內(nèi)存空間計算空間量。
3.1 數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來評估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。
3.2 在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。
3.3 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52, 70
(a) 使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度是3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術的效果
(b) 你怎樣確定數(shù)據(jù)中的孤立點?
(c) 對于數(shù)據(jù)平滑,還有那些其他方法?
3.4 討論數(shù)據(jù)集成需要考慮的問題。
(1) 模式識別:這主要是實體識別問題
(2) 冗余:一個屬性是冗余的,即它能由另一個表導出,如果屬性或唯的命名不一致,也可能導致冗余,可以用相關分析來檢測
(3) 數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導致屬性不同
3.5 使用習題3。3給出的age數(shù)據(jù),回答以下問題:
(a) 使用最小-最大規(guī)范化,將age值35轉換到[0。0,1。0]區(qū)間
(b) 使用z-score規(guī)范化轉換age 值35,其中age的標準差為12。94年
(c) 使用小數(shù)定標規(guī)范化轉換age值35。
(d) 指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。
3.6 使用流程圖概述如下屬性子集選擇過程
(a) 逐步向前選擇
(b) 逐步向后刪除
(c) 逐步向前選擇和逐步向后刪除的結合
3.7 使用習題3.3給出的age數(shù)據(jù)
(a)畫一個寬度為10的等寬直方圖。
(b)為如下每種選樣技術勾畫例子: SRSWOR, SRSWR, 聚類選擇,分層選擇。使用長度為5的樣本和層"young","middle_aged"和"senior"。
3.8 對如下問題,使用偽代碼或你喜歡用的程序設計語言,給出算法:
(a)對于分類數(shù)據(jù),基于給定模式中屬性的不同值得個數(shù),自動產(chǎn)生概念分層。
(b)對于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動產(chǎn)生概念分層。
(c)對于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動產(chǎn)生概念分層。
4.1列出和描述說明數(shù)據(jù)挖掘任務的五種原語。
4.2 說明為什么概念分層在數(shù)據(jù)挖掘中是有用的。
4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導出的分層和基于規(guī)則的分層。
a)簡略定義每種類型的分層。
b)對于每種類型的分層,給出一個不在本章中出現(xiàn)的例子。
4.4 考慮下面的由Big-University 的學生數(shù)據(jù)庫挖掘的關聯(lián)規(guī)則major (X,"science")=>status(X,"undergrad") (4.8)
假定學校的學生人數(shù)(即任務相關的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學,64%的學生注冊本科學位課程,70%的學生主修科學。
a) 計算規(guī)則(4.8)的支持度和置信度。
b)考慮下面的規(guī)則(4.9):
major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9)
假定主攻科學的學生30%專業(yè)為biology。與規(guī)則(4.8)對比,你認為規(guī)則(4.9)新穎嗎? 解釋你的結論。
4.5 語句可以用于挖掘特征化,區(qū)分,關聯(lián)和分類規(guī)則。為聚類的挖掘提出一個語法定義。
4.6 論建立標準化的數(shù)據(jù)挖掘查詢語言的重要性。涉及這一任務的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領域的最近提議。
4.7 下面的練習涉及定義概念分層的DMQL語法。
(a) 典型情況,對于模式date(day,month,quarter,year),數(shù)據(jù)挖掘系統(tǒng)有一個預定義的概念分層。使用DMQL提供該概念分層的定義。
(b) 概念分層定義可能涉及多個關系。例如,iterm_hierachy可以涉及兩個關系item和supplier,由如下模式定義:
item(item_ID, brand, type, place_made, supplier)
supplier(name, type, headquarter_location, owner, size, assets, revenue)
5.1.對于類特征化, 基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向屬性歸納的關系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。
5.2 假定下面的表從面向屬性的歸納導出
class &n bsp; birth--- place count
&n bsp; Cannada &nbs p; 180
programmer others ; 120
&nbs p; Cannada &nbs p; 20
Dba &n bsp; others ; 80
(a) 將該表轉換成現(xiàn)實相關t-權和d-權的交叉表
(b) 將類Programmer轉換成(雙向的)量化描述規(guī)則。例如 (birth_place(X)="Canada"∧...)[t:x%,d:y%]...∨(...)([t:w%,d:z%]。?X,Programmer(X)
5.3 討論為什么需要解析特征化和如何進行。比較兩種歸納方法的結果:(I)包含相關分析和(ii)不包含相關分析。
5.4 對于數(shù)據(jù)離散的特征化,另外給出三個常用統(tǒng)計度量(未在本章說明),并討論如何在大型數(shù)據(jù)庫中有效地計算它們。
5.5 假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
A 該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?
B 該數(shù)據(jù)的模是多少?評論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).
C 數(shù)據(jù)的中列數(shù)是什么
D 你能找出(粗略地)數(shù)據(jù)的第一個四分位數(shù)(q1)和第三個四分位數(shù)(Q3)嗎?
E 給出數(shù)據(jù)的五數(shù)概括
F 畫出數(shù)據(jù)的盒圖
G 分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?
5.6 給定由數(shù)據(jù)庫DB導出的概化關系R,假定元組的集合△ DB需要從DB中刪除,簡要給出用于R的必要刪除的增量更新過程。
5.7 簡要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。
5.8 簡要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計度量的(ⅰ)并行和( ⅱ)分布式挖掘方法。
6.1 Apriori 算法使用子集支持度性質(zhì)的先驗知識
a) 證明頻繁項集的所有非空子集必須也是頻繁的。
b) 證明項集s的任意非空子集s`的支持度至少和s的支持度一樣大。
c) 給定頻繁項集l和l的子集s,證明規(guī)則"s=>(l-s)"的置信度不可能大于"s=>(l-s)"的置信度。其中,s是s的子集。
d) Apriori的一種變形將事務數(shù)據(jù)庫D中的事務劃分成n個不重疊的部分。證明在D中是頻繁的任何項集至少在D的一個部分中是頻繁的。
6.2 數(shù)據(jù)庫有4個事務。設min_sup = 60%,min_conf = 80%。
TID DATE ITEMS_BOUGHT
T100 10/15/99 {K, A, D, B}
T200 10/15/99 {D, A, C, E, B}
T300 10/19/99 {C, A, B, E}
T400 10/22/99 {B, A, D}
A) 分別使用Apriori 和FP- 增長算法找出頻繁項集。比較兩種挖掘過程的有效性。
B) 列出所有強關聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X 是代表顧客的變量,item 時表示項的變量: " x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
6.3 在挖掘層交叉關聯(lián)規(guī)則時,假定發(fā)現(xiàn)項集"{IBM desktop computer, printer}"不滿足最小支持度。這一信息可以用來剪去諸如"{IBM desktop computer, b/w printer}"的"后代"項集的挖掘嗎?給出一個一般規(guī)則,解釋這一信息如何用于對搜索空間剪枝。
6.4 給出一個短例子,表明強關聯(lián)規(guī)則中的項可能實際上是負相關的。
6.5 下面的相依表匯總了超級市場的事務數(shù)據(jù),其中,hot dogs 表示包含熱狗的事務,~hotdogs 表示不包含熱狗的事務,hamburgers 表示包含漢堡包的事務,~hamburgers 表示不包含漢堡包的事務。
Hotdogs ~hotdogs
Hamburgers 2000 500 2500
~hamburgers 1000 1500 2500
∑ col 3000 2000 5000
A) 假定發(fā)現(xiàn)關聯(lián)規(guī)則"hotdogs=>hamburgers "。給定最小支持度閾值25% ,最小置信度閾值 50% ,該關聯(lián)規(guī)則是強的嗎?
B) 根據(jù)給定的數(shù)據(jù),買hotdog 獨立于買hamburgers 嗎?如果不是,二者之間存在何種相關聯(lián)系?
6.6 數(shù)據(jù)庫有4 個事務,設 min_sup = 60% , min_conf = 80% 。
Cust_ID TID Items_bought(以brand- item_category形式)
01 T100 {Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread}
02 T200 {Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread}
01 T300 {Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie}
03 T400 {Wonder-Bread, Sunset-Milk, Dairyland-Cheese}
a) 在 item_category 粒度(例如,itemi 可以是"milk" ),對于下面規(guī)則模板
" x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
對于最大的k,列出頻繁k-項集和包含最大的k的頻繁k-項集的所有強關聯(lián)規(guī)則。
b) 在brand-item_category 粒度(例如:item 可以是"sunset-milk "),對于下面的規(guī)則模板:
" x∈customer, buys(X, item1)∧buys(X, item2) => buys(X, item3)
對最大的k,列出頻繁k-項集。注意:不打印任何規(guī)則。
6.7 假定一個大型存儲具有分布在4個站點的事務數(shù)據(jù)庫。每個成員數(shù)據(jù)庫中的事務具有相同的格式Tj:{i1,...,im};其中,Tj是事務標示符,而ik(1<=k<=m)是事務中購買的商品標識符。提出一個有效的算法,挖掘全局關聯(lián)規(guī)則(不考慮多層關聯(lián)規(guī)則)??梢越o出你的算法的要點。你的算法不必將所有的數(shù)據(jù)移到一個站點,并且不造成過度的網(wǎng)絡通信開銷。
6.8 假定大型事務數(shù)據(jù)庫DB的頻繁項集已經(jīng)存儲。討論:如果新的事務集△DB(增量地)加進,在相同的最小支持度閾值下,如何有效地挖掘(全局)關聯(lián)規(guī)則?
6.9 提出并給出挖掘多層關聯(lián)規(guī)則的層共享挖掘方法的要點。其中,每個項用它的層位置編碼,一次初始數(shù)據(jù)庫掃描收集每個概念層的每個項的計數(shù),識別頻繁和子頻繁項集。將用該方法挖掘多層關聯(lián)規(guī)則與挖掘單層關聯(lián)規(guī)則的花費進行比較。
6.10 證明:包含項h和其祖先h的項集H的支持度與項集H-h的支持度相同。解釋如何將它用于層交叉關聯(lián)規(guī)則挖掘。
6.11 提出一種挖掘混合維關聯(lián)規(guī)則(多維關聯(lián)規(guī)則帶有重復謂詞)的方法。
6.12 序列模式可以用類似于關聯(lián)規(guī)則挖掘的方法挖掘。設計一個有效的算法,由事務數(shù)據(jù)庫挖掘多層序列模式。這種模式的一個例子如下:"買PC的顧客在三個月內(nèi)將買Microsoft軟件",在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細的版本,如"買Pentium PC的顧客在三個月內(nèi)將買Microsoft Office"。
6.13 商店里每種商品的價格是非負的。商店經(jīng)理只關心如下形式的規(guī)則:"一件免費商品可能觸發(fā)在同一事務中$200的總購物"。陳述如何有效地挖掘這種規(guī)則。
6.14 商店里每種商品的價格是非負的。對于以下每種情況,識別它們提供的約束類型,并簡略討論如何有效地挖掘這種關聯(lián)規(guī)則。
(a) 至少包含一件Nintendo游戲。
(b) 包含一些商品,它們的單價和小于$150。
(c) 包含一件免費商品,并且其它商品的單價和至少是$200。
(d) 所有商品的平均價格在$100和$500之間。
7.1 簡述判定樹分類的主要步驟。
7.2 在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣本集計值剪枝的缺點是什么?
7.3 為什么樸素貝葉斯分類稱為"樸素"的?簡述樸素貝葉斯分類的主要思想。
7.4 比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡)相對于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點。
7.5 通過對預測變量的變換,有些非線性回歸模型可以轉換成線性的。指出如何將非線性回歸方程Y=aXb轉換成可以用最小平方法求解的線性回歸方程。
7.6 什么是推進?陳述它為何能提高判定樹歸納的準確性。
的表決,這里每個分類法的表決是其準確率的函數(shù)。推進算法也可以擴充到連續(xù)值預測。
7.7 證明準確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。
7.8 當一個數(shù)據(jù)對象可以同時屬于多個類時,很難評估分類的準確率。陳述在這種情況下,你將使用何種標準比較在相同數(shù)據(jù)上的建模的不同分類方法。
7.9 給定判定樹,你有選擇:(a)將判定樹轉換成規(guī)則,然后對結果規(guī)則剪枝,或(b) 對判定樹剪枝,然后將剪枝后的樹轉換成規(guī)則。相對于(b),(a)的優(yōu)點是什么?
7.10 給定k和描述每個樣本的屬性數(shù)n,寫一個k-最臨近分類算法。
7.11 下表給出課程數(shù)據(jù)庫中學生的期中和期末考試成績。
X
其中考試 Y
期末考試
72 84
50 63
81 77
74 78
94 90
86 75
59 49
83 79
65 7 7
33 52
88 74
81 90
(a) 繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?
(b) 使用最小二乘法,求由學生的期中成績預測學生的期末成績的方程式。
(c) 預測期中成績?yōu)?6分的學生的期末成績。
7.12 下表有雇員數(shù)據(jù)庫的訓練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行, count表示department,status, age和salary在該行上具有給定值的元組數(shù)。
department Status Age Salary count
sales senior 31...35 46K...50K 30
sales& nbsp;junior 26...30 26K...30K 40
sales junior 31...35 31K...35K 40
systems juni or 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50&nbs p;36K...40K 4
secretary junior 26...30 26K...30K 6
設salary是類標號屬性。
(a) 你將如何修改ID3算法,以便考慮每個概化數(shù)據(jù)元組(即每一行)的count?
(b) 使用你修改過的ID3算法,構造給定數(shù)據(jù)的判定樹。
(c) 給定一個數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為"systems","junior"和"20...24"。該樣本的salary的樸素貝葉斯分類是什么?
(d) 為給定的數(shù)據(jù)設計一個多層前饋神經(jīng)網(wǎng)絡。標記輸入和輸出層節(jié)點。
(e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡,給定訓練實例"(sales,senior,31...35,46K...50K)",給出后向傳播算法一次迭代后的權值。指出你使用的初始權值和偏置以及學習率。
8.1 給定年齡 age 的變量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通過如下的方法進行變量標準化:
a) 計算age 的平均絕對誤差。
b) 計算頭四個值的z -score 。
8.2 給定兩個對象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示
a) 計算兩個對象之間的歐幾里的距離
b) 計算兩個對象之間的曼哈坦距離
計算兩個對象間的明考斯基距離,q=3。
8.3 什么是聚類?簡單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。
8.4 假設數(shù)據(jù)挖掘的任務是將如下8 個點(用(x , y )代表位置)聚類為3 個簇:
A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ),
B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ),
C1 ( 1 ,2 ),C2 ( 4 ,9 )
距離函數(shù)是歐幾里的距離。假設初始選擇A1 ,B1 , C1 分別為每個聚類的中心。請用K 平均算法給出
a) 第一次循環(huán)執(zhí)行后的三個聚類中心;
b) 最后的三個簇。
8.5 人眼在判斷聚類方法對二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設計出一個數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對更高維的數(shù)據(jù)如何?
8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個聚類算法被用作另一個算法的預處理。
9.1異構數(shù)據(jù)庫系統(tǒng)由多個數(shù)據(jù)庫系統(tǒng)組成,這些數(shù)據(jù)庫的定義是相互獨立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。
9.2對象立方體的建立,可以在執(zhí)行多維概化之前通過把面向對象的數(shù)據(jù)庫概化為結構化數(shù)據(jù)來完成。試述如何在對象立方體中處理集合值數(shù)據(jù)。
9.3 空間關聯(lián)挖掘可以至少按如下兩種方式加以實現(xiàn):(i)基于挖掘查詢的要求,可以動態(tài)計算不同空間對象之間的空間關聯(lián)關系;(ii)預先計算出空間對象間的空間距離,使得關聯(lián)挖掘可以基于這些預計算結果求得。試述(i)如何高效實現(xiàn)上述方法;(ii)各方法的適用條件。
9.4假設某城市的交通部門需要規(guī)劃高速公路的建設,為此希望根據(jù)每天不同時刻收集到的交通數(shù)據(jù)進行有關高速公路大通方面的數(shù)據(jù)分析。
(a)設計一存儲高速公路交通信息的空間數(shù)據(jù)倉庫,可以方便地支持人們按高速公路、按一天的時間和按工作日查看平均的和高峰時間的交通流量,以及在發(fā)生重大交通事故時的交通狀況。
(b)可以從該空間數(shù)據(jù)倉庫中挖掘什么樣的信息用于支持城市規(guī)劃人員?
(c)該數(shù)據(jù)倉庫既包含了空間數(shù)據(jù),也包含了時態(tài)數(shù)據(jù)。設計一種挖掘技術,可以高效地從該空間-時態(tài)數(shù)據(jù)倉庫挖掘有意義的模式。
9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡單多媒體特征分析,如顏色、形狀、描述、關鍵字,等等。
(a)請指出將數(shù)據(jù)挖掘與基于相似性的檢索結合,可以給多媒體數(shù)據(jù)挖掘帶來重要的進步。可以用任一數(shù)據(jù)挖掘技術為例,如多維分析、分類、關聯(lián)或聚類等。
(b)請概述應用基于相似性的搜索方法增強多媒體數(shù)據(jù)中聚類質(zhì)量的實現(xiàn)技術。
9.6假設一供電站保存了按時間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時序數(shù)據(jù)庫中,如何解決如下問題:
(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;
(b)當能源消耗曲線急劇上升時,20分鐘內(nèi)會發(fā)生什么情況?
(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?
9.7假設某連鎖餐廳想挖掘出與主要體育事件相關的顧客行為,如"每當電視播出法裔加拿大人的曲棍球比賽時,肯德雞的銷量會在比賽前一小時上升20%"。
(a)給出一種找出這種模式的有效方法。
(b )大部分與時間相關的關聯(lián)挖掘算法都使用了類Apriori算法來挖掘此類模式。6.2.4節(jié)中介紹的基于數(shù)據(jù)庫投影的頻繁模式(FP)增長方法,對挖掘頻繁項集是十分有效的??煞駭U展FP-增長方法去找出此類與時間相關的模式?
9.8一個電子郵件數(shù)據(jù)庫是指包含了大量電子郵件(e-mail)信息的數(shù)據(jù)庫。它可以被視為主要包含文本數(shù)據(jù)的半結構化數(shù)據(jù)庫。討論以下問題:
(a)如何使一個e-mail數(shù)據(jù)庫變成結構化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時問等的檢索。
(b)從e-mail數(shù)據(jù)庫中可以挖掘什么信息?
(c )假設對以前的一組e-mail 信息有一個粗略的對類,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),試論述一數(shù)據(jù)挖掘系統(tǒng)如何以此為訓練集來自動分類新的e-mail 消息或反分類(unclassify )e-mail 信息。
10.1. 給出一個數(shù)據(jù)挖掘的例子,并且討論在此應用中如何使用各種不同的數(shù)據(jù)挖掘方法
10.2.假設要在市場上購買一個數(shù)據(jù)挖掘系統(tǒng)
(a)考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)耦合方式,試述無耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別;
(b)行可伸縮性和列可伸縮性之間的區(qū)別是什么?
(c)當選擇一個數(shù)據(jù)挖掘系統(tǒng)時,在以上列出的諸多特征中,哪些是你要關心的?
10.3、考察一個現(xiàn)存的商品化數(shù)據(jù)挖掘系統(tǒng)。從多個不同角度來看,分析這一系統(tǒng)的主要特征,包括可處理的數(shù)據(jù)類型,系統(tǒng)體系結構,數(shù)據(jù)源,數(shù)據(jù)挖掘功能,數(shù)據(jù)挖掘方法,與數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的耦合度,可伸縮性,可視化工具,和圖形用戶界面。能否對該系統(tǒng)提出一些改進意見,并且概述其實現(xiàn)方法?
10.4、提出幾種對音頻數(shù)據(jù)挖掘的實現(xiàn)方法。可否將音頻數(shù)據(jù)挖掘與可視化數(shù)據(jù)挖掘結合起來,使得數(shù)據(jù)挖掘有趣而強大?
10.5、基于現(xiàn)有的對數(shù)據(jù)挖掘系統(tǒng)和應用的只是,你認為數(shù)據(jù)挖掘會成為一個巨大的市場嗎?數(shù)據(jù)挖掘研究與開發(fā)的瓶頸是什么?你認為目前數(shù)據(jù)挖掘的方法會贏得巨大的系統(tǒng)應用市場份額嗎?如果不是,你能提出一些建議嗎?
10.6、直接查詢應答與智能查詢應答之間的區(qū)別是什么?假設一個用戶要查詢某度假區(qū)的旅館的價格、地址和等級。舉例來說明用直接查詢應答與智能查詢應答處理此查詢的情況。
10.7、為什么說理論基礎的建立對數(shù)據(jù)挖掘十分重要的?列出并且描述現(xiàn)在已經(jīng)提出的數(shù)據(jù)挖掘的主要理論基礎。評論一下每一種理論是如何滿足(或者不滿足)數(shù)據(jù)挖掘的理想理論框架的要求。
10.8、通用計算機加上于領域獨立的關系數(shù)據(jù)庫系統(tǒng)在過去的幾十年中,已經(jīng)形成一個巨大的市場。對數(shù)據(jù)挖掘而言,我們應該致力于開發(fā)獨立于領域的數(shù)據(jù)挖掘系統(tǒng),還是應當開發(fā)特定領域的數(shù)據(jù)挖掘系統(tǒng)?請說出理由。
鏈接地址:http://appdesigncorp.com/p-6593487.html