《《計算機原理》PPT課件》由會員分享,可在線閱讀,更多相關《《計算機原理》PPT課件(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、計算機原理 第四章 評估和理解計算機性能 2 本講簡要說明 目的 與要求:掌握計算機中的 性能評價 授課重點: 計算機性能指標 授課難點: 如何合理評價計算機的性能 閱讀章節(jié): Computer Organization and Design 第 4章, 計算機原理和設計 第 1 章第 4節(jié) 作業(yè)安排: Computer Organization and Design P272 4.1、 4.2、 4. 3 (選做 ) 、 4.10 、 4.11和 4.14 (選做 )題 3 制造成本( manufacturing cost) 衡量計算機性能的基本指標 響應時間( Response Time)
2、 執(zhí)行時間( Execution Time)、等待時間( Latency) 吞吐量( Throughput ) 帶寬( Bandwidth) 指令執(zhí)行速度( MIPS、 MFLOPS) 計算機性能評估 CPU Time=cycle time CPI Instructions / program 基準程序( Benchmark) 主要內(nèi)容 4 單晶硅錠 圓形薄片 / 硅拋光片 ( 6/8/12寸 ,厚度不足 1mm) IC小片 / 芯片 不合格的用磁 漿點上記號 封裝:將芯片固定在塑膠或陶瓷基座上,把芯片上蝕刻出來 的引線與基座底部伸出的引腳連接,蓋上蓋板并封焊成芯片 約需 400多道工序! “
3、晶圓” / 大芯 片 Integrated Circuits Costs manufacturing process 在考察性能前,先考察成本! 5 Integrated Circuits Costs 公式 Die cost = Dies per wafer = Die Yield = 每個圓晶片上的小片數(shù)、集成電路成本都與芯片面積有關! a r e aD ie a r e aw a f e r _ _ Y ie ldw a f e rp e rD ie w a f t e rp e rC o s t __ __ 小片合格率 與芯片成本有關的因素 圓晶價格 圓晶所含小片數(shù) 小片合格率 2 )
4、_ _ _ ( 1 ( 1 area Die area per Defect x + 6 IC cost = Die cost + Testing cost + Packaging cost Final test yield 封裝成本( Packaging cost) : 取決于引腳數(shù)、散熱性等 Other Costs Chip Die Package Test 序列 2 有 6條 . 序列 1 需 2 1+1 2+2 3=10 cycles; 序列 2 需 4 1+1 2+1 3=9 cycles 序列 1 的 CPI=10/5=2; 序列 2 的 CPI=9/6=1.5 雖然序列 2的指令
5、條數(shù) 更多,但速度更快! 26 Marketing Metrics (產(chǎn)品宣稱指標) MIPS = Instruction Count / Execution Time 106 = Clock Rate / CPI 106 一種用來代替執(zhí)行時間的指標 Million Instructions Per Seconds 因為每條指令執(zhí)行時間不同,所以 MIPS是一個平均值 不同機器的指令集不同 程序由不同的指令混合而成 指令使用的頻度動態(tài)變化 Peak MIPS(不實用) MIPS數(shù)不能說明性能的好壞? MFLOPS = FP Operations / Execution Time 106 Mil
6、lion Floating-point Operations Per Second 與機器相關性大 并不是程序中花時間的部分 用 MIPS數(shù)表示性 能有沒有局限 ? 用 MFLOPS數(shù)表示 性能也有局限! 27 Example: MIPS數(shù)不可靠! Consider the computer with three instruction classes and CPI measurements from the example 4. Now suppose we measure the code for the same program from two different compilers
7、 and obtain the following data: Assume that the computers clock rate is 4GHz. Which code sequence will execute faster according to MIPS? According to execution time? CPU clock cycles 1 = (5 1+1 2+1 3) 109 = 10 109 CPU clock cycles 2 = (10 1+1 2+1 3) 109 = 15 109 Execution time 1 = 10 109 / 4 109 = 2
8、.5 seconds Execution time 2 = 15 109 / 4 109 = 3.75 seconds MIPS 1 = (5+1+1) 109 / 2.5 106 = 2800 MIPS 2 = (10+1+1) 109 / 3.75 106 = 3200 結論: 來自 compiler2 產(chǎn)生代碼的 MIPS高, 而 來自 compiler1產(chǎn)生 的代碼的執(zhí)行時間快 。 28 選擇性能評價程序( Benchmarks) 用基準程序來評測計算機的性能 基準測試程序是專門用來進行性能評價的一組程序 不同用戶使用的計算機用不同的基準程序 基準程序通過運行實際負載來反映計算機的性能
9、 最好的基準程序是用戶實際使用的程序或典型的簡單程序 基準程序的缺陷 現(xiàn)象:基準程序的性能與某段短代碼密切相關時,會被利 用以得到不當?shù)男阅茉u測結果 手段:硬件系統(tǒng)設計人員或編譯器開發(fā)者針對這些代碼片 段進行特殊的優(yōu)化,使得執(zhí)行這段代碼的速度非???例 1: Intel Pentium處理器運行 SPECint時用了公司內(nèi)部使用的特 殊編譯器,使其性能極高 例 2:矩陣乘法程序 SPECmatrix300有 99%的時間運行在一行語句 上,有些廠商用特殊編譯器優(yōu)化該語句,使性能達 VAX11/780的 729.8倍 ! 29 用于性能評估的程序 (Toy) Benchmarks(短小基準程序)
10、 程序短小容易編譯,便于仿真或手工編譯,因而可用于對新 開發(fā)的機器進行性能評測 . (因為新機器往往沒有配編譯器) 大?。?10-100 line 例: sieve, puzzle, quicksort 缺陷:不是實際使用的程序,只用于新開發(fā)的計算機。 Synthetic Benchmarks(綜合基準程序) 目的:試圖用一個基準程序去涵蓋一系列基準程序的特征 做法:使各種語句的執(zhí)行頻度與一系列基準程序中的頻度一 致 例: Whetstone(Algol 60Fortran), Dhrystone(AdaC) 缺陷:不是實際用的程序,可特殊優(yōu)化使評測結果優(yōu),但實 際并不如此 Kernels(核
11、心程序段) 實際程序中的耗時較多的關鍵片斷 通常用在科學計算領域測試某個特殊功能的性能 例: Livermore loops(21 loops), Linpack(linear algebra) Real programs(頻繁使用的實際程序) e.g., gcc, spice 30 Successful Benchmark: SPEC 1988年, 5家公司( Sun, MIPS, HP, Apollo, DEC )聯(lián)合 提出 Systems Performance Evaluation Committee (SPEC) SPEC給出一組標準的測試程序、標準輸入和測試報告。 它們是一些實際的
12、程序,包括 OS calls、 I/O等 版本 89: 10 programs = 4 for integer + 6 for FP, 用每個程 序的執(zhí)行時間求出一個綜合性能指標 版本 92: SPECInt92 (6 integer programs) and SPECfp92 (14 floating point programs) 整數(shù)和浮點數(shù)單獨提供衡量指標: SPECInt92和 SPECfp92 增加 SPECbase: 禁止使用任何與程序有關的編譯優(yōu)化開關 版本 95: 8 int + 10fp 較新版本: include SPEC HPC96, SPEC JVM98, SPEC
13、 WEB99, SPEC OMP2001. SPEC CPU2000 http:/www.spec.org for more details benchmarks useful for 3 years Base machine is changed from VAX-11/780 to Sun SPARC 10/40 31 如何給出綜合評價結果 ? Program 1: 1 sec on machine A, 10 sec on machine B Program 2: 1000 sec on A, 100 sec on B What are your conclusions? A is 10
14、 times faster than B for program1. B is 10 times faster than A for Program2. 一種簡單的綜合評價指標 Total execution time B is 1001/110=9.1 times faster than A 實際上,須考慮每個程序在作業(yè)中的使用頻度,即加權平均 問題:如果用一組基準程序在不同的機器上測出了 運行時間,那么如何綜合評價機器的性能呢? 例: 無法比較 A和 B的 好壞,須用一個 綜合的值來表示 32 綜合性能評價的方法 可用兩種平均值來評價性能 Arithmetic mean(算術平均 ):求和
15、后除 n Geometric mean(幾何平均 ):求積后開根號 n 根據(jù)算術平均執(zhí)行時間能得到程序總平均執(zhí)行時間 根據(jù)幾何平均執(zhí)行時間不能得到程序總的執(zhí)行時間 執(zhí)行時間的規(guī)格化 (測試機器相對于參考機器的性能 ) time on reference machine time on measured machine 平均規(guī)格化執(zhí)行時間不能用算術平均來計算,而應 該用幾何平均 program A going from 2 seconds to 1 second as important as program B going from 2000 seconds to 1000 seconds.
16、(算術平均值不能反映這一點?。?算術平均和幾何平均各有長處,可靈活使用! 33 Impact of Means on SPECmark89 for IBM 550 Ratio to VAX: Time: Weighted Time: Program Before After Before After Before After gcc 30 29 49 51 8.91 9.22 espresso 35 34 65 67 7.64 7.86 spice 47 47 510 510 5.69 5.69 doduc 46 49 41 38 5.81 5.45 nasa7 78 144 258 140
17、3.43 1.86 li 34 34 183 183 7.86 7.86 eqntott 40 40 28 28 6.68 6.68 matrix300 78 730 58 6 3.43 0.37 fpppp 90 87 34 35 2.97 3.07 tomcatv 133 138 20 19 2.01 1.94 Mean 54 72 124 108 54.42 49.9 Geometric Arithmetic Weighted Arith. Ratio 1.33 Ratio 1.16 Ratio 1.09 注: “ After 表示 加了特 殊編譯 開關后 的結果 。 好的評 價標準 應
18、該對 特殊處 理不敏 感! 該表反映了不同的均值計算法得到的結論可能不同。 34 性能、功耗及能量效率 功耗: 能耗 =C V2 f 功耗逐漸成為處理器性能的主要限制 電源的消耗通常是與性能及價格同樣重要的因素 CMOS電路可以通過降低頻率來降低電能消耗 最大時鐘頻率 可調時鐘頻率 相對性能 相對效率 35 計算機某方面改進,系統(tǒng)的性能能成比例提高嗎? 例:假設某個程序在某臺計算機上運行時所需的時間是 100秒, 其中 80秒是用來執(zhí)行乘法操作。若希望使該程序的速度提 高到原來的 5倍,乘法部件的速度應該是原來的多少倍呢? 若其中 90秒用來執(zhí)行乘法操作,結果又會如何? 受改進影響部分的執(zhí)行時
19、間 改進后程序的執(zhí)行時間 = ( Amdahl定律) 改進部分性能提高的倍數(shù) + 未受改進影響部分的執(zhí)行時間 因為系統(tǒng)性能提高到原來的 5倍,故新的執(zhí)行時間應該是 20秒 20秒 = 80秒 /n +(100-80)秒, 0 = 80秒 /n 說明如果乘法只是占到總計算量的 80%的話,無論對乘法 部件做何種改進,系統(tǒng)性能都不可能提高到原來的 5倍。 硬件設計的基本策略:使最常用的部分變得更快 36 小結 性能的定義:一般用程序的響應時間或系統(tǒng)的吞吐率表示機 器或系統(tǒng)整體性能 CPU性能的測量(用戶程序的 CPU執(zhí)行時間) 一般把程序的響應時間劃分成 CPU時間和等待時間, CPU時間又分成
20、用戶 CPU時間和系統(tǒng) CPU時間 因為操作系統(tǒng)對自己所花費的時間進行測量時,不十分準確,所以, 對 CPU性能的測算一般通過測算用戶 CPU時間來進行 各種性能指標之間的關系 CPU執(zhí)行時間 =CPU時鐘周期數(shù) x 時鐘周期 時鐘周期和時鐘頻率互為倒數(shù) CPU時鐘周期數(shù) = 程序指令數(shù) x 每條指令的平均時鐘周期數(shù) CPI MIPS數(shù)在有些情況下不能說明問題,不具有可比性! 性能評價程序的選擇 采用一組基準測試程序進行綜合 (算術 (加權 )平均 /幾何平均 )評測 有些制造商會針對評測程序中頻繁出現(xiàn)的語句采用專門編譯器,使評 測程序運行效率大幅提高。因此有時基準評測程序也不能說明問題 對某種特定指令集體系結構,提高計算機性能的主要途徑有 提高時鐘頻率(第七章 流水線) 優(yōu)化處理器中數(shù)據(jù)通路結構以降低 CPI(第六章 處理器 ) 用編譯優(yōu)化措施來減少指令條數(shù)或降低指令復雜度 (第二章 指令系統(tǒng) ) 37 謝謝!