【評測】緩存真有那麼神？Haswell GT3e架構深究熊蓋站 - 論壇【我的網路入口網址導航讓您的網路生活更方便快捷】上網~從熊蓋站開始

《》

» 您尚未登入 | 註冊 | 說明 | 娛樂中心 | 點歌 | 聊天留言 | 最新 | 精華 | 論壇 | 資訊 | 首頁 | 影音模式

以文本方式查看主題

- 熊蓋站 (http://localhost/phpwind//index.php)
-- 硬體資訊 (http://localhost/phpwind//thread.php?fid=20&page=)
-- 【評測】緩存真有那麼神？Haswell GT3e架構深究 (http://localhost/phpwind//read.php?fid=20&tid=39240)

-- 作者：andy6989
-- 發佈時間：2013 06 7 3:06 PM

-- 【評測】緩存真有那麼神？Haswell GT3e架構深究

Intel集成顯卡一直是個比較糾結的話題。它佔據著全球最大的圖形市場份額(常年60％以上)，但性能卻被大多數玩家嗤之以鼻；每一代都宣傳進步神速，但結果只是PPT制勝；硬件規格就算上來了，驅動程序卻始終糟糕透頂。

不過說實話，至少這三年來，Intel集顯的進步還是有目共睹的，規格、性能都有了長足的進步，聯合AMD APU已經真的讓低端獨顯失去了意義。Haswell這一代更猛，直接祭出了eDRAM嵌入式緩存，一時間被吹得神乎其神，什麼秒殺APU、媲美GT650M。

從實測成績看，帶緩存的頂級型號GT3e Iris Pro 5200的確已經具備了叫板AMD APU、GeForce GT 650M/640的資本，表現搶眼，但問題在於，配備它的處理器目前只有區區幾款型號，其中三款是筆記本上的Core i7-4x50HQ系列，價格高達468-657美元(約合人民幣2870-4000元)，只有高端筆記本才會用它，另一半是R系列，BGA整合封裝，僅供OEM而不零售。

這樣一來，GT3e的牛逼很大程度上就沒什麼意義了，因為一般用戶，尤其是主流級別的消費者，根本就買不到它，或者說買不起，而捨得銀子買遊戲本的又怎麼好意思用集顯？再者說，價格上也完全不可同日而語，APU和低端獨顯只要幾百塊錢，GT3e是它們的好幾倍。

按說低端和入門級用戶才需要更好的集顯，不過Intel的做法恰恰相反，越高端集顯越強，歷代都是如此，顯得不可理喻。Intel對此從來沒有明確闡述過，想來是出於成本、利潤方面的考慮，畢竟越強大的集顯越耗費晶體管、核心面積，成本也越高，自然不可能放在奔騰、賽揚上，而在高端型號上增加一些成本可以接受(儘管GT3e據傳需要50美元)，利潤空間也大得多。

好了，開始說「正事兒」。

Haswell GPU的底層架構其實和Ivy Bridge上是完全一樣的，只是做了一些增強和擴充，尤其是執行單元數量大增。就像AMD CU(計算單元)、NVIDIA SMX(流處理器陣列)那樣，Intel Haswell GPU也有自己的基礎模塊「Sub-Slice」(子切片)，由10個執行單元(UE)組成，而每個執行單元都是雙發射的SIMD，有兩個四寬度的矢量ALU，遠遠沒有A/N的那麼寬。

而且Intel的這種架構還存在著並發(co-issue)問題，上一代的Ivy Bridge在此做了大量改進但依然存在不少局限。

Haswell GPU架構圖

Intel、AMD、NVIDIA GPU基礎模塊對比
Haswell GPU的規模也大大擴充了。此前的HD 4000只有16個執行單元，現在的HD 4600就有兩個子切片、20個執行單元，GT3 Iris 5200/5100、HD 4600更是翻番為四個子切片、40個執行單元，1.3GHz加速頻率下峰值浮點性能可達832GFlops，已經超過了GeForce GT 750M。

峰值浮點性能對比

帶寬對比
但畢竟是集成顯卡，在像素填充率、紋理填充率、三角形生成率方面還是沒法和獨立顯卡相比，距離GeForce GT 650M都差距不小，不過總體上基本超過了Trinity A10-5800K。

峰值理論性能對比

【嵌入式緩存解決帶寬問題】
無論什麼整合GPU，都必須面臨內存帶寬不足的問題。這一次，Intel的終極解決方案是128MB eDRAM嵌入式緩存，代號「Crystalwell」。這是由Intel自己設計的，採用P1271 22nm SoC工藝製造。注意這不同於P1270 CPU工藝，因為Intel需要更低的晶體管漏電率，而不是一味的高頻率——最高為1.6GHz。

這些緩存並沒有直接和CPU整合在一起，而是一顆獨立的Die，共同封裝在一起。這麼做的原因也很簡單，首先是工藝不完全一樣，其次是可以很容易根據需要做調整。如果大家都很喜歡這種緩存配置，Intel就可以多造一些，反之亦然。

下一代的14nm Broadwell上仍然會有這種緩存，但可能還會是22nm SoC工藝製造，畢竟既能利用老工廠產能，還沒必要急著擴大容量。

那麼會不會有一天跟處理器徹底整合到一起呢？Intel說現在碳這個還為時過早(84平方毫米確實不容易放進去)，但可能會有16-32MB eDRAM的整合版本，用於特定目的。

但是不同於以往遊戲主機中的eDRAM，Crystalwell又是內存體系中真正的四級緩存，扮演三級緩存替補緩衝器的角色，任何從三級緩存中被趕出來的數據都會到這裡邊來。

因為是緩存而非緩衝，Intel發現Crystalwell的命中率很少低於95％。三級緩存未命中後的訪問延遲為30-32納秒，介於三級緩存和系統內存之間。

內存延遲：GT3e確實低很多

它可以同時處理CPU、GPU緩存，還能在二者之間動態定位。如果你安裝了獨顯，完全不需要使用整合GPU，Crystalwell就會去全力處理CPU請求。

對於Crystalwell和其它部分的互連，Intel語焉不詳，只說是一條很窄的串行總線，雙向帶寬50GB/s，再加上128-bit DDR3-1600內存的25.6GB/s，還是很可觀的。GT 650M 128-bit 5GHz GDDR5也才不過80.3GB/s。

事實上，eDRAM容量超過32MB之後就用處不是很大了(微軟Xbox One裡就是32MB eSRAM)，Crystalwell卻有多達128MB，而且就這一個版本。Intel的意圖是先翻番來應對任何可能的遊戲複雜度，再翻番以確保萬無一失。借用Intel自己的話說就是「要麼128MB，要麼就沒有」。
至於為什麼選擇eDRAM，Intel看重了它的高帶寬和低功耗。Intel宣稱，Crystalwell的帶寬曲線非常平穩，不像GDDR5那樣依賴於負載。待機狀態下，Crystalwell只需要簡單地刷新已存儲數據，功耗0.5-1W，全帶寬負載下則是3.5-4.5W。

它還和其它所有模塊一樣，受到了電源控制單元(PCU)的監控。根據散熱、負載甚至是eDRAM的命中率，PCU可以在CPU、GPU、eDARM之間平衡功耗。

很可惜，Crystalwell只會搭配高端四核心，出現在H、R系列部分型號中，要是K系列也有肯定會大受追捧。至於為何不用於低端，主要是GT1/GT2用不著那麼多帶寬。Intel還解釋說，一旦熱設計功耗達到18W，GT3e就會很有用，但又必須顧及內核面積。

緩存/內存帶寬

【小機箱裡的移動平台】

看到這個你肯定認為不過是個普通的中塔小機箱，但事實上，它裡邊是醜Intel的移動客戶參考主板(CRB)，裡邊是完全針對移動平台優化的，只是為了方便測試診斷而做成了這樣。

處理器是頂級的Core i7-4950HQ 47W，圖形核心正是待緩存的Iris Pro 5200。

因為Intel對內核面積數據捂得很嚴實，AnandTech在跑完測試後就把散熱器拿了下來，發現Intel並未使用散熱頂蓋。這就好說了，擦掉硅脂，就可以看到處理器、緩存的真容了。右邊那個小點的Die就是緩存。

經過測量，Crystalwell緩存的面積大約為7×12＝84平方毫米，而四核心加GT3的面積為16.2×16.3＝264平方毫米，合計328平方毫米。

Intel官方公佈的四核心加GT2的內核面積為177平方毫米，所以GT3相比於GT2多了87平方毫米，乘以2應該就是40個執行單元GPU的大致面積了：174平方毫米。

這就意味著，四核心GT3內核裡會有大約65％的面積用在了GPU上，遠遠大於四核心GT2 33％左右。Intel對待GPU也是越來越認真了。

v 最新文章 熊蓋站為自由討論論壇，所有個人行為或言論不代表本站立場。文章內容如有涉及侵權請聯絡我們，將立即刪除相關文章資料 v 精華文章

完全比對或模糊比對

線上收看： 景點即時影像 | 線上查詢： 火車時刻表

Powered by 熊蓋站 Code © 2005-2017	讀取秒數Time 0.015063 second(s),query:2 Gzip enabled
現在時間是 2024-11-27 19:36	廣告刊登、聯絡我們