《基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術(shù)》由會員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術(shù)(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術(shù)
摘 要:摘要:數(shù)據(jù)倉庫是信息業(yè)界的明日之星,數(shù)據(jù)倉庫與聯(lián)機事務(wù)處理(OLAP)是過去十幾年來最熱門的信息領(lǐng)域,它們的目標是以計算機來取代許多當(dāng)前的作業(yè)。文章首先介紹了數(shù)據(jù)倉庫和聯(lián)機分析處理技術(shù)的基本概念,比較并分析了它們同傳統(tǒng)的數(shù)據(jù)庫的差異,最后介紹并探討了聯(lián)機分析處理技術(shù)的發(fā)展領(lǐng)域。
關(guān)鍵詞:關(guān)鍵詞:數(shù)據(jù)倉庫;聯(lián)機分析處理;聯(lián)機事務(wù)處理;傳統(tǒng)數(shù)據(jù)庫
中圖分類號:TP392文獻標志碼:A文章編號:引言:隨著市場競爭的日趨激烈,信息對于企業(yè)的生存和發(fā)展發(fā)揮著越來越重要的作用。與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),但是面對不斷增加如潮水
2、般的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已無法滿足決策支持系統(tǒng)對數(shù)據(jù)的要求,因此人們提出了更深層次的問題:能不能從數(shù)據(jù)中 提取信息或者知識為決策服務(wù)。在這種情況下,一種適用于決策支持系統(tǒng)的數(shù)據(jù)組織與管理技術(shù)—數(shù)據(jù)倉庫1技術(shù)應(yīng)運而生。1.?dāng)?shù)據(jù)倉庫技術(shù)1.1 數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變傳統(tǒng)的數(shù)據(jù)庫與OLTP(On-Line Transaction Process)平臺并不是為了分析數(shù)據(jù)而設(shè)計的,用戶可以在一個OLTP平臺上安裝數(shù)個應(yīng)用系統(tǒng),它在數(shù)據(jù)共享、數(shù)據(jù)與應(yīng)用程序的獨立性、維護數(shù)據(jù)的一致性和完整行及數(shù)據(jù)的安全保密性等方面提供了有效的手段。但是當(dāng)它與分析型應(yīng)用結(jié)合時,卻出現(xiàn)了許多問題。首先,利用傳統(tǒng)的數(shù)據(jù)庫進
3、行數(shù)據(jù)分析,分析的結(jié)果缺乏可靠性。其次,利用傳統(tǒng)的數(shù)據(jù)庫進行數(shù)據(jù)處理,其效率很低。第三,傳統(tǒng)的數(shù)據(jù)庫難以將數(shù)據(jù)轉(zhuǎn)化成信息。第四,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)主要用于事務(wù)處理,而在事務(wù)處理型的應(yīng)用環(huán)境中直接構(gòu)建分析決策型應(yīng)用是不可能的。所以,為了提高分析和決策的效率和有效性,面向分析決策型應(yīng)用的數(shù)據(jù)處理及其數(shù)據(jù)必須與事務(wù)處理型應(yīng)用環(huán)境分離,建立單獨的分析決策型應(yīng)用環(huán)境。數(shù)據(jù)倉庫正是為了解決這一問題而誕生的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫的不同之處在于數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它可以支持企業(yè)或組織的決策分析處理2。2. 聯(lián)機分析處理技術(shù)聯(lián)機分析處理O
4、LAP(On-Line Analytical Processing)技術(shù)3是基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的一種技術(shù)。OLAP可使企業(yè)數(shù)據(jù)分析人員、企業(yè)經(jīng)理及企業(yè)其他管理人員通過對企業(yè)信息的多種可能的觀察角度進行快速、一致和交互性的存取,以獲得對信息的深入理解。2.1 OLAP的基本特性O(shè)LAP是數(shù)據(jù)處理的一種技術(shù)概念,其定義簡單的概括為:共享多維信息的快速分析。OLAP通過對多維信息以很多種可能的觀察方式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人對數(shù)據(jù)進行深入觀察。其特點4有四個方面:(1)快速性。用戶對OLAP的快速反應(yīng)能力有很高的要求。要求系統(tǒng)能在幾秒鐘內(nèi)對用戶的多數(shù)分析要求做出反應(yīng);(
5、2)可分析性。OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析;(3)多維性。多維性是OLAP的關(guān)鍵屬性和靈魂,系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和分析,包括層次維和多重層次維的支持。(4)信息性。OLAP系統(tǒng)能夠及時獲得信息,并且管理大容量信息;(5)共享性。共享性是在大量用戶間實現(xiàn)潛在地共享秘密數(shù)據(jù)所必須的安全需求。2.2 OLAP的基本分析操作OLAP的基本操作是指通過對多維形式組織起來的數(shù)據(jù)進行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動作,以求剖析數(shù)據(jù)使用戶能夠從多種維度、多個側(cè)面、多種數(shù)據(jù)綜合度查看數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。(1)切片(Slicing)。切片操作就是
6、在某個或某些維上選定一個屬性成員,而在其他維上取一定區(qū)間的屬性成員,或全部屬性成員來觀察數(shù)據(jù)的一種分析方式。(2)切塊(Dicing)。切塊就是在各個維上取一定區(qū)間的成員屬性,或全部成員屬性來觀察數(shù)據(jù)的一種分析方式。從另一個角度講,切塊可以看成是在切片的基礎(chǔ)上,進一步確定各個屬性成員的區(qū)間得到的片段體,也即由多個切片疊合起來。(3)鉆取(Drilling)。鉆取包含向下鉆(Drill-down)和向上鉆(Drill-up) /上卷(Roll-up)操作。下鉆指從概括性的數(shù)據(jù)出發(fā)獲得相應(yīng)的更詳細的數(shù)據(jù),上鉆則相反。鉆取的深度與維度所劃分的層次相對應(yīng)。(4)旋轉(zhuǎn)(Pivoting)。旋轉(zhuǎn)即改變一個
7、報告或頁面顯示的維方向。旋轉(zhuǎn)可能包含交換行和列,或是把某一個行維移到列為中去,或包頁面顯示中的一個維和頁面外的維進行交換。3. OLAP與數(shù)據(jù)倉庫在數(shù)據(jù)倉庫中 ,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者是不同的概念。數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)要用于對企業(yè)的經(jīng)營決策提供分析和支持。數(shù)據(jù)倉庫中的數(shù)據(jù)是不能用于OLTP的,而OLAP則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進行聯(lián)機分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進行組織和匯總,用聯(lián)機分析和可視化工具對這些數(shù)據(jù)迅速進行評價。OLAP可用多級結(jié)構(gòu)表示數(shù)據(jù)倉庫中的數(shù)據(jù),創(chuàng)建組織和
8、匯總數(shù)據(jù)的立方體,這樣才能有效的提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉庫的結(jié)構(gòu)將直接影響立方體的設(shè)計和構(gòu)造,也就影響了OLAP的工作效率。從OLAP使用的效率角度考慮,在設(shè)計數(shù)據(jù)倉庫時應(yīng)該考慮一下幾個因素:(1)盡可能使用星型架構(gòu),如果采用雪花結(jié)構(gòu),就要最小化事實表底層維度表以后的維度表數(shù)量。(2)為用戶設(shè)計包含事實表的維度表,這些維度表應(yīng)該包含有意義的、用戶希望了解的信息。(3)度表的設(shè)計應(yīng)該符合通常意義上的范式約束,維度表中不要出現(xiàn)無關(guān)的數(shù)據(jù)。(4)事實表中不要包含匯總數(shù)據(jù),事實表中包含的用戶需要訪問的數(shù)據(jù)應(yīng)該具有必需的粒度,這些數(shù)據(jù)應(yīng)該是同一層次的數(shù)據(jù)。(5)對事實表和維度表中的關(guān)鍵字必須創(chuàng)
9、建索引,同一中數(shù)據(jù)盡可能使用一個事實表。(6)保證數(shù)據(jù)的參考完整性,使事實表中的所有數(shù)據(jù)都出現(xiàn)在所有的維度表中,避免事實表中的某些數(shù)據(jù)行在立方體進行聚集運算時沒有參加過來。4. OLAP的發(fā)展OLAP技術(shù)5是在市場競爭日益激烈,決策人員迫切需要準確及時并且可以靈活訪問的決策信息的背景下興起的。其主要的發(fā)展領(lǐng)域為:(1)市場和銷售分析幾乎每個商業(yè)公司都需要此類軟件,但其大規(guī)模分布在:生活消費品行業(yè)、零售業(yè)、金融服務(wù)業(yè)。此類行業(yè)通常都需要用發(fā)哦OLAP能夠?qū)Υ罅繑?shù)據(jù)進行復(fù)雜的分析和統(tǒng)計功能。(2)電子
商務(wù)分析電子商務(wù)網(wǎng)站記錄了用戶在網(wǎng)上的所有行為,為更精細的分析用戶行為提供了可能。一個典型
10、的商業(yè)網(wǎng)站每天都產(chǎn)生大量的數(shù)據(jù),簡單手工分析顯然難以勝任,用多維、分層OLAP可以很好的把這些數(shù)據(jù)組織起來。(3)基于歷史數(shù)據(jù)的營銷通過各種不同的歷史數(shù)據(jù),用數(shù)據(jù)挖掘或統(tǒng)計的方法,找到針對某項服務(wù)或商品的銷售對象。雖然傳統(tǒng)上不是OLAP的范圍,但是通過多維數(shù)據(jù)分析的引入,會取得更好的效果。(4)預(yù)算預(yù)算通常是從下到上提交和從上到下約束的反復(fù)過程,OLAP工具可以在這個過程中提供分析能力。預(yù)算制定者利用OLAP提供的工具瀏覽市場、銷售、生成及合并計劃等企業(yè)全方位的數(shù)據(jù),得到一個較合理的方案,也可以利用這些數(shù)據(jù)自動制定出方案。(5)財務(wù)報告與整合早起的財務(wù)報告整合系統(tǒng)與現(xiàn)在OLAP相似,但是OLA
11、P利用對多維數(shù)據(jù)的分析能夠更好的對其進行管理。(6)管理報告(7)利益率分析(8)質(zhì)量分析5. 小結(jié)數(shù)據(jù)倉庫和聯(lián)機分析處理技術(shù)在市場競爭日益激烈的的背景下逐漸興起,目前正處于快速發(fā)展的階段。文章首先對數(shù)據(jù)倉庫和聯(lián)機分析處理技術(shù)做了詳細介紹并將它們和傳統(tǒng)的數(shù)據(jù)庫做了對比,得出數(shù)據(jù)倉庫和聯(lián)機分析處理技術(shù)是在傳統(tǒng)數(shù)據(jù)庫無法到達設(shè)計者需求下產(chǎn)生的。文章最后對聯(lián)機分析處理技術(shù)的發(fā)展領(lǐng)域做了介紹和分析。相信在不久的將來基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術(shù)定會成為處理數(shù)據(jù)的主流技術(shù)。
參考文獻: HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年
基金項目:國家自然科學(xué)基金青年基金(61103195);國家博士后基金項目(20100480048)