高性能微處理器的先進技術及典型結構.ppt

上傳人:za****8 文檔編號:14456410 上傳時間:2020-07-21 格式:PPT 頁數(shù):66 大?。?99KB
收藏 版權申訴 舉報 下載
高性能微處理器的先進技術及典型結構.ppt_第1頁
第1頁 / 共66頁
高性能微處理器的先進技術及典型結構.ppt_第2頁
第2頁 / 共66頁
高性能微處理器的先進技術及典型結構.ppt_第3頁
第3頁 / 共66頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《高性能微處理器的先進技術及典型結構.ppt》由會員分享,可在線閱讀,更多相關《高性能微處理器的先進技術及典型結構.ppt(66頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、第 16 章,高性能微處理器的先進技術 及典型結構,本章主要內容,高性能微處理器的先進技術 高性能微處理器的典型結構,16.1 高性能微處理器所采用的先進技術,16.1.1流水線中的“相關”及其處理技術 流水線技術是實現(xiàn)多條指令并行執(zhí)行的重要技術?,F(xiàn)在,它已成為建造高速CPU的一項基本實現(xiàn)技術。 流水級數(shù)為n的流水線,在理想情況下可以使處理器性能提高n倍。但是,在實際中,有一些情況會阻止指令流中的下一條指令在預定的時鐘周期內執(zhí)行,這種情況稱為指令間的“相關”(dependency)或“險態(tài)”(hazard)。 指令間的“相關”會造成流水線的停頓,使指令不能連續(xù)不斷地進入流水線,其結果是降低了流

2、水線的工作效率。,,指令間的“相關”是指后面一條指令需要等前面一條(或幾條)指令的執(zhí)行結果,或者要等前面的一條(或幾條)指令用完它們所需要的硬件資源(如存儲器)后才能執(zhí)行完。也就是說,后面一條指令必須等待前面一條(或幾條)指令流過流水線后才能執(zhí)行完。 指令間的“相關”可分為:結構相關、數(shù)據(jù)相關和控制相關。 下面分別說明這三種“相關”的不同特性、產(chǎn)生原因及處理方法。,1. 結構相關,結構相關(structural dependency)亦稱資源相關。它是指令流水線中在不同流水級(stage)上重疊執(zhí)行的指令之間爭用同一硬件資源時所產(chǎn)生的相關。例如,在流水線執(zhí)行過程中出現(xiàn)訪問存儲器沖突就是結構相關

3、的一個例子。 要緩解結構相關引起的流水線停頓問題,可以采用把具有訪問沖突的資源配置成多套的辦法來實現(xiàn)。例如,可以采用分開式的Cache,即由指令Cache和數(shù)據(jù)Cache分別提供指令和數(shù)據(jù)(即所謂哈佛結構),而且可以把這兩個Cache的總線及存儲器地址寄存器也分開成兩套,使得當一條指令在某流水級上訪問指令Cache時,另一條指令在其他流水級上可以在同一時間訪問數(shù)據(jù)Cache。,2. 數(shù)據(jù)相關,在流水線中重疊執(zhí)行的指令中,如果后一條指令依賴于前面一條指令的執(zhí)行結果,就會出現(xiàn)數(shù)據(jù)相關(data dependency)。 在指令流水線中重疊執(zhí)行的讀數(shù)和寫數(shù)指令之間,若要使用同一個存儲單元或同一個通用

4、寄存器時,就可能發(fā)生數(shù)據(jù)相關。這可通過下面的例子來說明。 設有相繼的兩條算術運算指令如下: ADD R3 , R2 , R1;(R3)+(R2)R1 SUB R4 , R1 , R5 ;(R4)-(R1)R5 假設采用4級流水,且分別是: 取指(F)、譯碼(D)、執(zhí)行(E)和寫結果(W),則上述兩條指令在流水線中執(zhí)行的時間圖可能會出現(xiàn)如圖16.1(a)所示的情況。,,圖16.1 數(shù)據(jù)相關及其處理方法,,從圖16.1(a)中可以看到,指令2從寄存器R1中取操作數(shù)是在流水級D,而指令1把結果送入寄存器R1是在流水級W。顯然,指令2取操作數(shù)是在指令1把結果送入R1之前,所以指令2取來的是R1中先前(

5、未執(zhí)行指令1時)的舊內容,從而發(fā)生錯誤。 要解決數(shù)據(jù)相關,需要設置專門的檢查數(shù)據(jù)相關的硬件,在每次取操作數(shù)時,把取數(shù)的地址同它前面正在流水線中尚未完成寫數(shù)操作的所有寫數(shù)指令的寫數(shù)地址進行比較,如果有相同的,說明有數(shù)據(jù)相關存在,就必須采取相應措施。 就本例而言,解決數(shù)據(jù)相關最簡單的辦法就是推遲執(zhí)行讀數(shù)操作,等待相關的寫數(shù)指令完成寫數(shù)操作之后,再執(zhí)行讀數(shù)操作。如圖16.1(b)所示。,,從圖16.1(b)可見,指令2要等待指令1在流水級W的操作完成之后才啟動流水級D的操作,指令2在流水線中停頓了兩個時鐘周期。這種機制稱為流水線互鎖(pipeline interlock),是通過硬件實現(xiàn)的。也有的用

6、軟件(編譯程序)的辦法來實現(xiàn)。無論是通過軟件還是硬件,顯然,推遲執(zhí)行讀數(shù)操作的辦法總要影響流水線的效率。為了盡量縮短數(shù)據(jù)相關時指令在流水線中停頓的時間,還有其他一些方法,在此不再詳述。 共有三種類型的數(shù)據(jù)相關,分別是:先寫后讀相關(讀-寫相關),即RAW(Read After Write);先讀后寫相關(寫-讀相關),即WAR(Write After Read)和先寫后寫相關(寫-寫相關),即WAW(Write After Write)。 上面給出的例子屬于“先寫后讀”(RAW)相關。,3. 控制相關,控制相關(control dependency)主要是由轉移指令或其他能夠改變程序計數(shù)器(P

7、C)內容的指令在流水線中進行處理時引起的。以轉移指令為例,如果發(fā)生轉移,則流水線中在轉移指令之后的指令要全部作廢,需要重新按轉移地址取指令后才開始執(zhí)行。 轉移指令又分為無條件轉移和條件轉移兩種類型,它們對指令流水線效率產(chǎn)生的影響有所不同。無條件轉移指令在指令譯碼發(fā)現(xiàn)它的同時已經(jīng)知道了轉移地址,可以較早地采取措施,因而對流水線效率的影響比條件轉移指令要小。,,對于條件轉移指令,雖然在指令流水線前端的指令譯碼時就能發(fā)現(xiàn),但是確定轉移方向的條件碼卻要在指令流水線的末端的執(zhí)行部件中產(chǎn)生。所以一旦在指令部件中發(fā)現(xiàn)條件轉移指令,指令部件就要停頓下來,等待轉移指令前面一條指令在執(zhí)行部件中執(zhí)行完畢,產(chǎn)生條件碼

8、以后,才能確定轉移方向,此時整個流水線已經(jīng)排空,沒有指令在里面流動了。 如果轉移條件成立,執(zhí)行新的指令流,就要從指令部件預取新指令開始;如果轉移條件不成立,雖然指令部件中原來預取的指令還有用,但也要從指令部件分析指令開始。等到指令流到執(zhí)行部件時,執(zhí)行部件已經(jīng)停頓了相當一段時間,所以條件轉移指令對流水線效率的影響很大。,,為了改進由于條件轉移指令引起的流水線“斷流”現(xiàn)象,減少條件轉移指令造成的執(zhí)行部件停頓時間,可采用多項措施和技術: (1) 雙分支預取。對于條件轉移指令而言,共有兩個分支方向,一個是順序執(zhí)行的方向,一個是轉移目標的方向。雙分支預取就是在發(fā)現(xiàn)條件轉移指令后,同時向兩個分支方向預取指

9、令。即除了繼續(xù)順序預取指令外,還要按轉移方向預取指令,最后根據(jù)條件碼所確定的方向選取其中的一個分支的指令,進行分析和執(zhí)行。 這樣,無論是否發(fā)生轉移,總有一個分支的指令可以使用,從而節(jié)省了等待讀取指令的時間,即減少了流水線的停頓時間。,,(2) 加快和提前形成條件碼。有的指令的條件碼并不一定要等待指令執(zhí)行完畢得到運算結果后才能形成。例如,對于乘法和除法指令,其結果(積和商)是正還是負的條件碼在相乘(或除)前就能夠根據(jù)兩個操作數(shù)的符號位來確定。乘法和除法指令的執(zhí)行時間很長,所以這種提前形成條件碼的措施對減少條件轉移指令引起的流水線停頓時間很有益處。 (3) 轉移預測。轉移預測有靜態(tài)預測和動態(tài)預測兩

10、種。靜態(tài)預測是在程序編譯時進行預測,而在硬件設計中則規(guī)定條件轉移指令總是向一個固定方向執(zhí)行指令。在編譯時應盡可能使程序的轉移方向與硬件規(guī)定的方向一致。,,動態(tài)轉移預測用硬件來實現(xiàn),它是在現(xiàn)代微處理器設計中普遍采用的一種行之有效的方法。 在前面第7章介紹Pentium處理器結構時曾介紹過這種方法。,16.1.2 指令級并行,要提高計算機系統(tǒng)的整體性能,可以在兩個方面做出努力,一是改進構成計算機的器件性能(如微電子電路的速度、功耗等),二是要采用先進的系統(tǒng)結構設計。而在系統(tǒng)結構設計方面,一個重要的手段就是要采用并行處理技術,設法以各種方式挖掘計算機工作中的并行性。 并行性有粗粒度并行性和細粒度并行

11、性之分。所謂粗粒度并行性是在多個處理器上分別運行多個進程,由多個處理器合作完成一個程序。所謂細粒度并行性是指在一個進程中實現(xiàn)操作一級或指令一級的并行處理。 高性能處理器在指令處理方面采用了一系列關鍵技術,大多是圍繞指令級并行處理這個核心問題發(fā)揮作用的。,,下面通過兩個例子來說明指令級并行性的特點和含義: (1)Add R1R12 (2) Add R1R13 Sub C2C2C1 并行度=3 Sub R3R1R2 并行度=1 Load C350R2 Store R0R3 在上面的例子中,(1)的三條指令是互相獨立的,它們之間不存在數(shù)據(jù)相關,所以可以并行(同時)執(zhí)行。

12、即(1)存在指令級并行性,其并行度為3(可并行執(zhí)行三條指令)。 (2)的情況則完全不同,在其三條指令中,第二條要用到第一條的結果,第三條又要用到第二條的結果,它們都不能并行執(zhí)行。即(2)的并行度為1,指令間沒有并行性。,,,,與指令級并行性有關的一個指標是每條指令的時鐘周期數(shù)CPI(Clock Per Instruction),它是在流水線中執(zhí)行一條指令所需的時鐘周期數(shù)。CPI隨指令的不同而異,比如在RISC機器中,大多數(shù)指令的CPI等于1,但有些復雜指令需要幾個時鐘周期才能執(zhí)行完,則其CPI大于1。 通??梢杂闷骄鵆PI來說明一個處理器的速度性能。平均CPI是把各種類型的指令所需的時鐘周期數(shù)

13、按一定的混合比(出現(xiàn)的頻度)加權后計算得到。它同另一種表示處理器速度的指標MIPS(每秒百萬條指令)的關系是:f/CPI=MIPS,其中f為時鐘頻率(以MHz為單位)。例如,f=300MHz,CPI=0.6,則處理器的速度可達300/0.6=500MIPS.,,需要說明的是,在單處理器中挖掘指令級并行性,實現(xiàn)指令級并行處理,提高系統(tǒng)總體運算速度,是通過處理器和編譯程序的結合來實現(xiàn)的,對于用戶是完全透明的,用戶不必考慮如何使自己編寫的程序去適應指令級并行處理的需要,即處理器中實現(xiàn)指令級并行處理是由編譯程序和處理器硬件電路負責實現(xiàn)的。 目前,已有幾種典型的開發(fā)指令級并行的系統(tǒng)結構,如超標量結構、超

14、長指令字結構及超級流水線結構。,16.1.3 超標量技術,在早期采用流水線方式的處理器中只有一條流水線,它是通過指令的重疊執(zhí)行來提高計算機的處理能力的。而在采用超標量結構的處理器中則有多條流水線,即在處理器中配有多套取指、譯碼及執(zhí)行等功能部件,在寄存器組中設有多個端口,總線也安排了多套,使在同一個機器周期中可以向幾條流水線同時送出多條指令,并且能夠并行地存取多個操作數(shù)和操作結果,執(zhí)行多個操作。這就是所謂超標量技術(Superscalar)。 采用超標量結構的處理器中流水線的條數(shù)稱為超標度。例如,Pentium處理器中的流水線為兩條,其超標度為2;P/P處理器的超標度為3等。,,采用超標量技術,

15、不僅要考慮單條流水線中的重疊執(zhí)行,還要考慮在流水線之間的并行執(zhí)行,其“相關”問題比單流水線的處理器要復雜得多。這需要通過專門的技術來解決。 超標量處理器工作的大致過程是:首先,取指部件從指令Cache中取出多條指令,并送至分發(fā)部件的指令緩沖器中,這個指令緩沖器有時又稱為指令窗口;在每個機器周期,分發(fā)部件都對指令窗口進行掃描,一旦發(fā)現(xiàn)可以并行發(fā)送的指令,并且和這些指令相對應的功能部件是空閑的,則同時將它們送到功能部件去處理。,,一般地說,超標量計算機具有如下特點: (1) 處理器中配有多套取指、譯碼及執(zhí)行等功能部件,采用多條流水線進行并行處理; (2)能同時將可以并行執(zhí)行的指令送往不同的功能部件

16、,從而達到每一個時鐘周期啟動多條指令的目的; (3) 對程序代碼的順序可通過編譯程序進行靜態(tài)調度,或通過處理器硬件在程序執(zhí)行期間進行動態(tài)調度,以達到并行執(zhí)行指令的目的。 從原理上講,超標量技術主要是借助硬件資源的重復來實現(xiàn)空間上的并行操作。,16.1.4 超長指令字結構,超長指令字VLIW(Very Long Instruction Word)技術是1983年由美國耶魯大學的Josh Fisher在研制ELI-512機器時首先實現(xiàn)的。 采用VLIW技術的計算機在開發(fā)指令級并行上與上面介紹的超標量計算機有所不同,它是由編譯程序在編譯時找出指令間潛在的并行性,進行適當調整安排,把多個能并行執(zhí)行的操

17、作組合在一起,構成一條具有多個操作段的超長指令,由這條超長指令控制VLIW機器中多個互相獨立工作的功能部件,每個操作段控制一個功能部件,相當于同時執(zhí)行多條指令。 VLIW指令的長度和機器結構的硬件資源情況有關,往往長達上百位。,,VLIW技術的主要特點: (1) 只有一個控制器(單一控制流),每個時鐘周期啟動一條長指令; (2) 超長指令字被分成多個控制字段,每個字段直接地、獨立地控制特定的功能部件; (3) 含有大量的數(shù)據(jù)通路及功能部件,由于編譯程序在編譯時已考慮到可能出現(xiàn)的“相關”問題,所以控制硬件較簡單; (4) 在編譯階段完成超長指令中多個可并行執(zhí)行操作的調度。,16.1.5 超級流水

18、線技術,資源重復和流水線技術是開發(fā)計算機并行性的兩個基本手段。通過上面介紹的超標量技術和超長指令字結構可以看到,這兩種技術主要是依賴資源的重復來開發(fā)指令級并行性,從而提高處理器性能的。 而超級流水線技術則是通過另一種途徑來改進處理器執(zhí)行程序的能力。 一個程序在計算機中總的執(zhí)行時間T可用如下公式表示: T=N*CPI*t 式中N是被執(zhí)行程序的指令總條數(shù),CPI是每條指令所需的平均時鐘周期數(shù),t是時鐘周期。,,可見,改變CPI和改變時鐘周期t可能對機器速度產(chǎn)生等效的影響。雖然不可能孤立地通過改變N、CPI和時鐘周期t中的某一因素來改進處理器的性能,但是,不同體系結構對于這三個因素的側重程度是可以存

19、在差異的。 超級流水線技術是從減小t著手的,即它是把執(zhí)行一條指令過程中的操作劃分得更細,把流水線中的流水級分得更多,由于每個操作要做的事情少了,可以執(zhí)行得更快些,因而可以使流水線的時鐘周期縮短,即可以把上式中的 t 縮短。這樣的流水線就是超級流水線(Superpipeline)。 如果設法把t縮短一半,則相當于起到了CPI減少一半的作用。如果一個處理器具有較高的時鐘頻率和較深的流水級,那么就稱它采用了超級流水線技術。,,超級流水線技術的實現(xiàn)方式一般是將通常流水線中的若干流水級進一步細分為兩個或更多個流水小級,然后,通過在一個機器時鐘內發(fā)送多條指令,在一定的流水線調度和控制下,使得每個流水小級和

20、其他指令的不同流水小級并行執(zhí)行,從而在形式上好像每個流水周期都可以發(fā)送一條指令。 對于超級流水線結構的處理器,其機器時鐘和流水線時鐘是不同的。在這種情況下,流水線時鐘頻率通常是機器時鐘頻率的整數(shù)倍,具體數(shù)值決定于流水級劃分為流水小級的程度。 例如,在MIPS R4000處理器中,流水線時鐘頻率就是外部機器時鐘頻率的兩倍。,16.1.6 RISC技術,1. RISC結構對傳統(tǒng)計算機結構的挑戰(zhàn) 在計算機技術的發(fā)展過程中,為了保證同一系列內各機種的向前兼容和向后兼容,后來推出機種的指令系統(tǒng)往往只能增加新的指令和尋址方式,而不能取消老的指令和尋址方式。于是新設計計算機的指令系統(tǒng)變得越來越龐大,尋址方式

21、和指令種類越來越多,CPU的控制硬件也變得越來越復雜。 然而往基本的簡單指令集中不斷添加進去的一些復雜指令,其使用頻率卻往往很低。人們研究了大量的統(tǒng)計資料后發(fā)現(xiàn):復雜指令系統(tǒng)中僅占20%的簡單指令,竟覆蓋了程序全部執(zhí)行時間的80%。,,這是一個重要的發(fā)現(xiàn),它啟發(fā)人們產(chǎn)生了這樣一種設想:能否設計一種指令系統(tǒng)簡單的計算機,它只用少數(shù)簡單指令,使CPU的控制硬件變得很簡單,能夠比較方便地使處理器在執(zhí)行簡單的常用指令時實現(xiàn)最優(yōu)化,把CPU的時鐘頻率提得很高,并且設法使每個時鐘周期能完成一條指令,從而可以使整個系統(tǒng)的性能達到最高,甚至超過傳統(tǒng)的指令系統(tǒng)龐大復雜的計算機。 用這種想法設計的計算機就是精簡指

22、令集計算機,簡稱RISC(Reduced Instruction Set Computer)。它的對立面?zhèn)鹘y(tǒng)的指令系統(tǒng)復雜的計算機被稱作復雜指令集計算機,簡稱CISC (Complex Instruction Set Computer)。,,為了說明RISC的基本特性,再看一下前面給出的計算程序總的執(zhí)行時間T的公式:T=N*CPI*t。實際上,為了減少程序的執(zhí)行時間,CISC機器采取的辦法是減少N,但要略微增加CPI,同時可能增加t;而RISC機器采取的辦法是減少CPI和t,但通常會引起N的增加。 1980年,Patterson和Ditzel首先提出了精簡指令集計算機RISC的概念,并由Pat

23、terson和Sequin領導的一個小組于1981年在美國加州大學伯克萊分校首先推出第一臺這種類型的機器RISC機。 RISC結構是計算機技術發(fā)展中的重要變革,對傳統(tǒng)的計算機結構的技術和概念提出了挑戰(zhàn)。RISC不僅代表著一類計算機,它的特性、所涉及的關鍵技術還代表著一種設計哲學。,,概括而言,RISC機器的主要特點有: (1) 指令種類少; (2) 尋址方式少; (3) 指令格式少,而且長度一致; (4) 除存數(shù)(Store)和取數(shù)(Load)指令外,所有指令都能在不多于一個CPU時鐘周期的時間內執(zhí)行完畢; (5) 只有存數(shù)(Store)和取數(shù)(Load)指令能夠訪問存儲器; (6) RISC

24、處理器中有較大的通用寄存器組,絕大多數(shù)指令是面向寄存器操作的,通常支持較大的片載高速緩沖存儲器(Cache);,,(7) 完全的硬連線控制,或僅使用少量的微程序; (8) 采用流水線技術,并能很好地發(fā)揮指令流水線的功效; (9) 機器設計過程中,對指令系統(tǒng)仔細選擇,采用優(yōu)化的編譯程序,以彌補指令種類減少后帶來的程序膨脹的弊??; (10) 將一些功能的完成從執(zhí)行時間轉移到編譯時間,以提高處理器性能。 * RISC機并沒有公認的嚴格定義,以上只是大多數(shù)RISC機具有的特點。有的機器雖然有其中的幾條不符合,但仍稱作RISC機。,16.2 高性能微處理器舉例,,16.2.1 64位處理器Alpha 2

25、1064,Alpha 21064是Alpha處理器系列的首次實現(xiàn)。其組成結構框圖如圖16.2所示。 圖16.2 Alpha芯片組成結構框圖,,Alpha 21064的主要性能參數(shù)如下: (1) 字長64位,外部數(shù)據(jù)通道64/128位; (2) 32位物理地址,可直接尋址的物理存儲空間為4GB; (3) 64位虛擬地址,使虛擬存儲空間可達161018B; (4) 分別有8KB的指令高速緩存和8KB的數(shù)據(jù)高速緩存; (5) 整數(shù)流水線:7級流水線; (6) 浮點流水線:10級流水線; (7) 片內時鐘頻率200MHz,外部時鐘頻率400MHz,峰

26、值速度400MIPS。,,由圖16.2可見,Alpha 21064處理器由四個獨立的功能部件(I盒、E盒、F盒及A盒)及片上高速緩存組成,主要包括: (1) 中央控制部件I box(I盒); (2) 整數(shù)執(zhí)行部件 E box(E盒); (3) 浮點部件F box(F盒); (4) 地址轉換和裝入/存儲部件 A box(A盒); (5) 指令高速緩存(8KB)和數(shù)據(jù)高速緩存(8KB)。,,下面對Alpha 21064的各組成部件做概要說明。 1. 片內高速緩存 Alpha 21064片內分開設立兩個高速緩存。一個為指令高速緩存,包含指令轉移歷程表、標志及指令代碼。指令高速緩存的大小為8

27、K字節(jié);另一個為數(shù)據(jù)高速緩存,大小也為8K字節(jié)。此外,還允許在片外配置高速緩存(第二級高速緩存)。 2. 四個功能部件 (1) 整數(shù)部件。整數(shù)部件稱為E盒,即常規(guī)定點運算部件,包括加法器、乘法器、移位器及邏輯運算部件。此外,整數(shù)部件還有一個由32個64位整數(shù)寄存器構成的整數(shù)寄存器堆。,,(2) 浮點部件。浮點部件稱為F盒,即浮點運算器,包括加法器、乘法器和專門的浮點除法器。 (3) 地址轉換和裝入/存儲部件。地址轉換和裝入/存儲部件稱為A盒,負責將整數(shù)/浮點數(shù)裝入整數(shù)寄存器/浮點寄存器,或者將寄存器中的數(shù)寫入數(shù)據(jù)高速緩存。 (4) 控制部件。控制部件稱為I盒,它采用了超標量流水線技術。Alp

28、ha處理器采用多級流水,并分設兩條流水線:整數(shù)流水線及浮點流水線。從預取指令開始,隨后進行資源沖突分析,通過流水線控制,使指令按流水處理方式執(zhí)行。,,3. 總線接口部件 Alpha處理器的總線接口部件允許用戶配置64位或128位的外部數(shù)據(jù)通道,調整所需要的外部高速緩存容量和訪問時間,控制總線接口部件的時鐘頻率,使用TTL電平或ECL電平等。 Alpha是真正的64位體系結構。它的所有寄存器都是64位寬。它絕不是擴展成64位的32位體系結構。 Alpha的設計目標是高性能、長壽命并能運行多種操作系統(tǒng)。,16.2.2 Itanium(安騰)處理器,Itanium處理器的基本設計思想是: (1)提供

29、一種新的機制,利用編譯程序和處理器協(xié)同能力來提高指令并行度。采用創(chuàng)新的技術充分利用編譯程序提供的信息和調度能力來提高指令并行度。 (2)簡化芯片邏輯結構,為提高主頻和性能開辟道路。信守工程設計上的一條基本原則,即“不是越復雜越好,而是越簡捷越好”。事實上,簡捷的構思比復雜的構思更困難。 (3)提供足夠的資源來實現(xiàn)EPIC,包括存儲編譯程序提供的信息以及提高并行計算效率所需的處理單元、高速緩存和其他資源。 (4)充分利用豐富的寄存器資源,采用寄存器輪轉技術,讓指令按順序循環(huán)使用寄存器,使得處理器在非常繁忙的情況下也不會出現(xiàn)寄存器不足的情況。,,Itanium處理器能夠提供遠比RISC處理器豐富得

30、多的資源,后繼推出的Itanium處理器比前期的Itanium處理器所提供的資源還有進一步增加。圖16.3 展示了了Itanium 2處理器的外觀,圖16.4 給出了Itanium 2的組成結構方框圖。 Itanium 2的晶體管數(shù)已達214M (2.14億)只,主頻1GHz,線寬(工藝)0.18 m,系統(tǒng)總線接口128位,片內3級緩存(L1 Cache 為32KB,L2 Cache為256KB,L3 Cache已達3MB),8級流水,指令/時鐘周期(IPC)數(shù)為6,即每個時鐘周期可以處理6條指令,片內寄存器數(shù)達328個等。,,圖16.3 Itanium 2 外觀,,圖16.4 Itanium

31、 2的框圖,,Itanium 處理器具有64位內存尋址能力,能提供近180GB物理內存。當處理非常龐大的數(shù)據(jù)集時,這種巨大的物理內存空間對于服務器應用是非常重要的。 由于該處理器有充裕的并行處理能力,其內部有9個功能通道(Itanium 2為11個),包括2個整數(shù)通道(I)、2個浮點通道(F)、3個分支單元(B)、2個存取單元(M),所以對于執(zhí)行代碼中出現(xiàn)的分支,處理器采用了一種非常有趣的處理方式:同時并行執(zhí)行分支判斷、左分支和右分支。 當分支判斷執(zhí)行完畢后,根據(jù)分支判斷的結果,放棄沒有被轉向的分支,繼續(xù)執(zhí)行保留的分支。這樣就避免了由于分支預測錯誤造成的流水線清空這種大大影響系統(tǒng)執(zhí)行效率的操作

32、。,16.3 多核處理器簡介,16.3.1 復雜單處理器結構所遇到的挑戰(zhàn) 在過去幾十年里,處理器的設計主要采用復雜單處理器結構,設計人員一直通過不斷提高處理器結構的復雜度和提升工作頻率來改進處理器的運算能力。 隨著半導體制造工藝的不斷發(fā)展,硅片上能夠利用的晶體管和連線資源越來越多。同時,隨著晶體管特征尺寸的不斷減小,晶體管本身的延遲越來越小,而硅片上的互聯(lián)線延遲相對于門延遲則不斷加大,因此設計人員越來越傾向于將片上的晶體管資源分開管理,借此平衡門電路的延遲和互聯(lián)線的延遲。,,另一方面,處理器晶體管數(shù)量的不斷增長及運行頻率的提升導致了處理器的功耗越來越大,甚至已經(jīng)到了無法容忍的程度。芯片的功耗在

33、很大程度上影響著芯片的封裝、測試及系統(tǒng)的可靠性。對于目前的主流處理器來說,芯片產(chǎn)生的熱量已經(jīng)嚴重影響到處理器工作頻率的提高,這個問題甚至被業(yè)界人士認為是對摩爾定律的一大挑戰(zhàn)。,16.3.2 多核處理器的出現(xiàn),在公元2000年以前,由于功耗問題還沒有特別嚴重地影響到處理器的設計,所以設計人員利用晶體管的方案一直是復雜的單處理器結構,并在此基礎上相繼推出了多種復雜的微體系結構設計,如指令轉移預測、寄存器重命名、動態(tài)指令調度和復雜的Cache結構等。然而,這種復雜的單處理器結構所帶來的性能上的提高相比以前已經(jīng)大大降低了。 事實說明,必須采用新的處理器設計思路,即通過在單個芯片上放置多個相對簡單的處理

34、單元,通過片上互聯(lián)網(wǎng)絡將這些處理單元連接起來,充分利用應用程序的并行性來提高處理器的運算能力,而不是單純地依靠提升單個處理器的硬件復雜度和工作頻率來提高處理器性能。這就是多核處理器的基本設計理念,并由此導致了多核處理器的出現(xiàn)。,,產(chǎn)生多核處理器設計理念的基本原因: 復雜單處理器結構提高性能的途徑通常是充分地利用負載程序內在的指令級并行性(ILP),采用的方法是加大流水線的發(fā)射寬度、采用更加激進的推測執(zhí)行和更為復雜的Cache結構。這樣做的結果是使處理器的硬件復雜度越來越高,從而導致消耗龐大的晶體管資源和大量的設計驗證時間。 目前負載程序的ILP的利用已漸漸逼近極限,而負載程序的另一種并行性線程

35、級并行性(TLP)則無法在復雜單處理器結構中得到有效利用。 雖然晶體管特征尺寸的減小會使晶體管的延遲進一步縮小,但片內互連線延遲占每一級流水線的延遲比重則越來越大。,, 目前一些高性能的復雜單處理器的功耗已經(jīng)高達上百瓦特了,這樣巨大的能量密度對于晶體管工作的可靠性和穩(wěn)定性帶來極不利的影響。 上述原因導致了設計人員必須把目光轉向新型的處理器結構單芯片多核處理器結構(Single-Chip Multi Processor),簡稱CMP結構。 CMP結構在單芯片上放置多個彼此獨立的處理器核心,并且通過片上互聯(lián)網(wǎng)絡將這些核心連接起來,使得這些處理器單元之間可以高帶寬、低延遲地交換數(shù)據(jù)。CMP的結構特點

36、可以很好解決前述復雜單處理器結構的技術瓶頸,給現(xiàn)代處理器的設計展現(xiàn)出一片光明前景。,16.3.3 多核處理器結構的主要特點,1. 降低了硬件設計的復雜度 CMP可以通過重用先前的單處理器設計作為處理器核,這樣可以僅需微小的改動就可以搭建起一個高效的系統(tǒng)。而復雜單處理器的設計為了達到很少的性能上的提高就需重新設計整個控制邏輯和數(shù)據(jù)通路,這些控制邏輯由于緊密耦合而異常復雜,因此需要耗費設計人員大量時間和精力。 2. 充分利用應用程序的并行性 復雜單處理器結構通過多發(fā)射和推測執(zhí)行來利用ILP以提高處理器性能,但它無法利用應用程序的線程級并行性(TLP)。相反,CMP將注意力集中于TLP的有效利

37、用,通過多處理器核并行執(zhí)行應用程序的多個線程來提高處理器的整個性能。,,3.降低全局連線延遲 晶體管特征尺寸的縮小導致了互連線延遲占據(jù)處理器周期延遲的比例在增大。在復雜單處理器結構中,由于各個功能模塊緊密地耦合在一起,運算部件的結果總線需要把運算結果傳遞到許多模塊,由于多發(fā)射的原因,造成模塊之間頻繁地交換數(shù)據(jù),從而導致處理器整體性能下降。 相反,CMP結構的各處理器核是松散地耦合在一起的,處理器核之間的數(shù)據(jù)交換通過片上互聯(lián)網(wǎng)絡來完成,雖然全局連線延遲的增大同樣會損失CMP的性能,但是相比復雜單處理器結構,這種交換共享數(shù)據(jù)的行為并不是經(jīng)常發(fā)生的,因此性能損失相對較小。 另外,通過軟件的方

38、法仔細地分配各處理器核上的數(shù)據(jù)也可以減少需要在核間交互共享數(shù)據(jù)的頻度,從而獲得處理器整體性能的提升。,,4. 具有良好的功耗有效性 復雜單處理器的緊密耦合結構及頻繁的全局數(shù)據(jù)交換使其受到了難以逾越的功耗制約。而CMP結構利用多個處理器核并發(fā)執(zhí)行多個線程,這樣就減輕了每個處理器核的性能壓力,所以CMP不需要設計象復雜單處理器那樣明顯高功耗的復雜硬件。 CMP也不需要象復雜處理器那樣竭力提高運行頻率來換取高性能。相反,可以適當降低空閑處理器核的工作頻率,這樣雖然犧牲了單處理器核的性能,但CMP的整體性能并不會受到明顯影響,即CMP結構具有較好的功耗有效性。,16.4 現(xiàn)代PC機主板典型結構,

39、主板(Motherboard)是PC機系統(tǒng)的核心組成部件,它包括了構成現(xiàn)代PC機的一系列關鍵部件和設備,如CPU(或CPU插座)、主存、高速緩存、芯片組(Chipset)及連接各種適配卡的擴展插槽等。 采用先進的主板結構及設計技術,是提高現(xiàn)代PC機整體性能的重要環(huán)節(jié)之一。 圖16.5給出了一個PC機主板的外觀圖示。,,圖16.5 PC機主板外觀圖示,16.4.1芯片組、橋芯片及接口插座,在微型計算機系統(tǒng)中,芯片組實際上就是除CPU外所必需的系統(tǒng)控制邏輯電路。在微型計算機發(fā)展的初期,雖然沒有單獨提出芯片組的概念和技術,但已具雛形,如IBM PC/XT 系統(tǒng)中的各種接口芯片,如并行接口芯片8255

40、A、串行接口芯片8251、定時/計數(shù)器8253、中斷控制器8259及DMA控制器8237等。 現(xiàn)代微型計算機中的芯片組就是在這些芯片的基礎上,不斷完善與擴充功能、提高集成度與可靠性、降低功耗而發(fā)展起來的。用少量幾片VLSI芯片即可完成主板上主要的接口及支持功能,這幾片VLSI芯片的組合就稱為芯片組。,,采用芯片組技術,可以簡化主板的設計,降低系統(tǒng)的成本,提高系統(tǒng)的可靠性,同時對今后的測試、維護和維修等都提供了極大的方便。 芯片組有的由一塊大規(guī)模集成電路芯片組成,有的由兩塊芯片組成,有的由三塊或更多芯片組成。它們在完成微型計算機所需要的邏輯控制的功能上是基本相同的,只是在芯片的集成形式上有所區(qū)別

41、。 在現(xiàn)代微型計算機中,芯片組多數(shù)是由兩塊稱為“北橋”及“南橋”的橋芯片組成的。,,北橋芯片也稱為系統(tǒng)控制器,負責管理微處理器、高速緩存、主存和PCI總線之間的信息傳送。該芯片具有對高速緩存和主存的控制功能,如Cache的一致性、控制主存的動態(tài)刷新以及信號的緩沖、電平轉換和CPU總線到PCI總線的控制協(xié)議的轉換等功能。 南橋芯片的主要作用是將PCI總線標準(協(xié)議)轉換成外設的其他接口標準,如IDE接口標準、ISA接口標準、USB接口標準等。此外,還負責微型計算中一些系統(tǒng)控制與管理功能,如對中斷請求的管理、對DMA傳輸?shù)目刂?、負責系統(tǒng)的定時與計數(shù)等,即完成傳統(tǒng)的中斷控制器8259、DMA控制器8

42、237以及定時/計數(shù)器8253的基本功能。,,早期通常是將微處理器直接焊在主板上,而現(xiàn)代微處理器則往往是通過一個焊接在主板上的符合一定標準的接口插座與主板相連,這樣便于在不更換主板的前提下就可以升級微處理器,以提高整機的性能價格比。 常見的微處理器接口插座的主要類型有Socket5、Socket7、Socket8、Socket370等。 Pentium/ 微處理器則采用了與過去微處理器不同的封裝形式,在主板上采用了Slot1接口標準,該接口標準一改過去將微處理器貼在主板上的方法,而是通過SEC封裝形式將微處理器模塊插接到主板的Slot1插槽內,該插槽在外形上類似PCI總線插槽,但引腳定義、內部

43、連接則完全不同。,16.4.2 Pentium PC主板結構,Pentium PC主板結構框圖如圖16.6所示。該圖中插在Socket7插座上的是Pentium 75200或Pentium MMX處理器。 由該圖可見,整個主板結構是由CPU總線、PCI總線及ISA總線構成的三層次總線結構。,,圖16.6 Pentium PC主板結構框圖,,CPU總線是一個64位數(shù)據(jù)線、32位地址線的同步總線,總線時鐘頻率為66.6MHz。該總線連接4128MB的主存。 擴充主存容量是以內存條的形式插入主板SIMM或DIMM插座來實現(xiàn)的。另外,CPU總線還接有256512KB的第二級Cache。主存與Cache

44、控制器芯片用來管理CPU對主存和Cache的存取操作。CPU是這個總線的主控者,實際上可以把該總線看成是CPU引腳信號的延伸。 PCI總線用于連接各種高速的I/O設備模塊,如圖形顯示適配器、硬盤控制器、網(wǎng)絡接口控制器等。通過“橋”芯片上面與更高速的CPU總線相連,下面與低速的ISA總線相連。,,Pentium PC使用ISA總線與低速I/O設備相連。在“南橋”芯片的控制下,ISA總線可支持7個DMA通道和15級可屏蔽硬件中斷。此外,南橋控制邏輯還通過主板上的X總線(也稱片級總線)與時鐘/日歷、CMOS RAM電路和鍵盤、鼠標控制器(8042微處理器)以及ROM BIOS芯片相接。 支持這種Pe

45、ntium PC主板的芯片組是Intel 82430系列(簡稱430系列)。該系列的芯片組已先后開發(fā)出LX、NX、FX、HX、VX、TX六個版本,每個版本的芯片組都是由北橋芯片和南橋芯片組成。,16.4.3 Pentium-1GHz處理器典型主板布局,圖16.7給出的是使用Pentium-1GHz處理器的典型主板布局圖。從中可以直觀地看到現(xiàn)代PC機主板及微型計算機系統(tǒng)的組成結構情況。,,圖16.7 Pentium-1GHz處理器典型主板布局圖,,Pentium-1GHz處理器主板采用VIA Apollo Pro266芯片組,包括VT8633(北橋)和VT8233(南橋),提供了性能優(yōu)越、功能強

46、大、性價比優(yōu)良的PC機硬件操作平臺。 該系列主板還采用了ITE IT8712F I/O芯片,提供了一個智能卡讀寫器(SCR)接口。該系列主板還提供其他先進的功能,如網(wǎng)絡喚醒功能、調制解調器喚醒功能、ACPI電源管理模式及AGP Pro插槽等。 本系列主板提供了靈活多樣的性能組合方式,可選配置包括:AC97軟件音效Codec(編碼解碼器)、高級音效和板載網(wǎng)絡接口。另外,該系列主板還提供了防止電腦病毒(如CIH病毒)保護BIOS免遭破壞的功能、加快電腦啟動速度的Boot Easy等新型技術。,,該系列的主板中的北橋芯片(VT 8633)負責管理CPU、高速緩存(Cache)、主存和PCI總線之間的信息傳輸,并具有對主存和高速緩存的控制功能,如維持Cache的一致性、控制主存的動態(tài)刷新以及CPU總線到PCI總線的控制協(xié)議轉換等功能。另外,由圖16.12可見,VT8633還提供了一個32位、66MHz的高級圖形端口AGP,用以支持高性能的視頻顯示。 南橋芯片(VT8233)的基本功能是將PCI總線標準轉換成其他類型的外設接口標準,如ISA總線接口標準、USB接口標準、IEEE1394以及IDE接口標準等。 另外,VT8233還負責完成系統(tǒng)中的中斷請求的管理、DMA傳送的控制以及定時/計數(shù)等功能。,第16章 作業(yè),P498 1題 2題 3題 4題 8題 9題,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!