熊蓋站 - 首頁

  Plurk Twitter    

» 您尚未 登入註冊 | 說明 | 娛樂中心 | 點歌 | 聊天留言 | 最新 | 精華 | 論壇 | 資訊 | 首頁 | 影音模式

以文本方式查看主題

-  熊蓋站 (http://localhost/phpwind//index.php)
--  硬體資訊 (http://localhost/phpwind//thread.php?fid=20&page=)
--  【評測】緩存真有那麼神?Haswell GT3e架構深究 (http://localhost/phpwind//read.php?fid=20&tid=39240)


--  作者:andy6989
--  發佈時間:2013 06 7 3:06 PM

--  【評測】緩存真有那麼神?Haswell GT3e架構深究


Intel集成顯卡一直是個比較糾結的話題。它佔據著全球最大的圖形市場份額(常年60%以上),但性能卻被大多數玩家嗤之以鼻;每一代都宣傳進步神速,但結果只是PPT制勝;硬件規格就算上來了,驅動程序卻始終糟糕透頂。

不過說實話,至少這三年來,Intel集顯的進步還是有目共睹的,規格、性能都有了長足的進步,聯合AMD APU已經真的讓低端獨顯失去了意義。Haswell這一代更猛,直接祭出了eDRAM嵌入式緩存,一時間被吹得神乎其神,什麼秒殺APU、媲美GT650M。



從實測成績看,帶緩存的頂級型號GT3e Iris Pro 5200的確已經具備了叫板AMD APU、GeForce GT 650M/640的資本,表現搶眼,但問題在於,配備它的處理器目前只有區區幾款型號,其中三款是筆記本上的Core i7-4x50HQ系列,價格高達468-657美元(約合人民幣2870-4000元),只有高端筆記本才會用它,另一半是R系列,BGA整合封裝,僅供OEM而不零售。

這樣一來,GT3e的牛逼很大程度上就沒什麼意義了,因為一般用戶,尤其是主流級別的消費者,根本就買不到它,或者說買不起,而捨得銀子買遊戲本的又怎麼好意思用集顯?再者說,價格上也完全不可同日而語,APU和低端獨顯只要幾百塊錢,GT3e是它們的好幾倍。

按說低端和入門級用戶才需要更好的集顯,不過Intel的做法恰恰相反,越高端集顯越強,歷代都是如此,顯得不可理喻。Intel對此從來沒有明確闡述過,想來是出於成本、利潤方面的考慮,畢竟越強大的集顯越耗費晶體管、核心面積,成本也越高,自然不可能放在奔騰、賽揚上,而在高端型號上增加一些成本可以接受(儘管GT3e據傳需要50美元),利潤空間也大得多。


好了,開始說「正事兒」。

Haswell GPU的底層架構其實和Ivy Bridge上是完全一樣的,只是做了一些增強和擴充,尤其是執行單元數量大增。就像AMD CU(計算單元)、NVIDIA SMX(流處理器陣列)那樣,Intel Haswell GPU也有自己的基礎模塊「Sub-Slice」(子切片),由10個執行單元(UE)組成,而每個執行單元都是雙發射的SIMD,有兩個四寬度的矢量ALU,遠遠沒有A/N的那麼寬。

而且Intel的這種架構還存在著並發(co-issue)問題,上一代的Ivy Bridge在此做了大量改進但依然存在不少局限。


Haswell GPU架構圖

Intel、AMD、NVIDIA GPU基礎模塊對比
Haswell GPU的規模也大大擴充了。此前的HD 4000只有16個執行單元,現在的HD 4600就有兩個子切片、20個執行單元,GT3 Iris 5200/5100、HD 4600更是翻番為四個子切片、40個執行單元,1.3GHz加速頻率下峰值浮點性能可達832GFlops,已經超過了GeForce GT 750M。

峰值浮點性能對比

帶寬對比
但畢竟是集成顯卡,在像素填充率、紋理填充率、三角形生成率方面還是沒法和獨立顯卡相比,距離GeForce GT 650M都差距不小,不過總體上基本超過了Trinity A10-5800K。

峰值理論性能對比

【嵌入式緩存解決帶寬問題】
無論什麼整合GPU,都必須面臨內存帶寬不足的問題。這一次,Intel的終極解決方案是128MB eDRAM嵌入式緩存,代號「Crystalwell」。這是由Intel自己設計的,採用P1271 22nm SoC工藝製造。注意這不同於P1270 CPU工藝,因為Intel需要更低的晶體管漏電率,而不是一味的高頻率——最高為1.6GHz。



這些緩存並沒有直接和CPU整合在一起,而是一顆獨立的Die,共同封裝在一起。這麼做的原因也很簡單,首先是工藝不完全一樣,其次是可以很容易根據需要做調整。如果大家都很喜歡這種緩存配置,Intel就可以多造一些,反之亦然。

下一代的14nm Broadwell上仍然會有這種緩存,但可能還會是22nm SoC工藝製造,畢竟既能利用老工廠產能,還沒必要急著擴大容量。

那麼會不會有一天跟處理器徹底整合到一起呢?Intel說現在碳這個還為時過早(84平方毫米確實不容易放進去),但可能會有16-32MB eDRAM的整合版本,用於特定目的。

但是不同於以往遊戲主機中的eDRAM,Crystalwell又是內存體系中真正的四級緩存,扮演三級緩存替補緩衝器的角色,任何從三級緩存中被趕出來的數據都會到這裡邊來。

因為是緩存而非緩衝,Intel發現Crystalwell的命中率很少低於95%。三級緩存未命中後的訪問延遲為30-32納秒,介於三級緩存和系統內存之間。


內存延遲:GT3e確實低很多

它可以同時處理CPU、GPU緩存,還能在二者之間動態定位。如果你安裝了獨顯,完全不需要使用整合GPU,Crystalwell就會去全力處理CPU請求。

對於Crystalwell和其它部分的互連,Intel語焉不詳,只說是一條很窄的串行總線,雙向帶寬50GB/s,再加上128-bit DDR3-1600內存的25.6GB/s,還是很可觀的。GT 650M 128-bit 5GHz GDDR5也才不過80.3GB/s。

事實上,eDRAM容量超過32MB之後就用處不是很大了(微軟Xbox One裡就是32MB eSRAM),Crystalwell卻有多達128MB,而且就這一個版本。Intel的意圖是先翻番來應對任何可能的遊戲複雜度,再翻番以確保萬無一失。借用Intel自己的話說就是「要麼128MB,要麼就沒有」。
至於為什麼選擇eDRAM,Intel看重了它的高帶寬和低功耗。Intel宣稱,Crystalwell的帶寬曲線非常平穩,不像GDDR5那樣依賴於負載。待機狀態下,Crystalwell只需要簡單地刷新已存儲數據,功耗0.5-1W,全帶寬負載下則是3.5-4.5W。

它還和其它所有模塊一樣,受到了電源控制單元(PCU)的監控。根據散熱、負載甚至是eDRAM的命中率,PCU可以在CPU、GPU、eDARM之間平衡功耗。

很可惜,Crystalwell只會搭配高端四核心,出現在H、R系列部分型號中,要是K系列也有肯定會大受追捧。至於為何不用於低端,主要是GT1/GT2用不著那麼多帶寬。Intel還解釋說,一旦熱設計功耗達到18W,GT3e就會很有用,但又必須顧及內核面積。


緩存/內存帶寬

【小機箱裡的移動平台】


看到這個你肯定認為不過是個普通的中塔小機箱,但事實上,它裡邊是醜Intel的移動客戶參考主板(CRB),裡邊是完全針對移動平台優化的,只是為了方便測試診斷而做成了這樣。


處理器是頂級的Core i7-4950HQ 47W,圖形核心正是待緩存的Iris Pro 5200。

因為Intel對內核面積數據捂得很嚴實,AnandTech在跑完測試後就把散熱器拿了下來,發現Intel並未使用散熱頂蓋。這就好說了,擦掉硅脂,就可以看到處理器、緩存的真容了。右邊那個小點的Die就是緩存。




經過測量,Crystalwell緩存的面積大約為7×12=84平方毫米,而四核心加GT3的面積為16.2×16.3=264平方毫米,合計328平方毫米

Intel官方公佈的四核心加GT2的內核面積為177平方毫米,所以GT3相比於GT2多了87平方毫米,乘以2應該就是40個執行單元GPU的大致面積了:174平方毫米。

這就意味著,四核心GT3內核裡會有大約65%的面積用在了GPU上,遠遠大於四核心GT2 33%左右。Intel對待GPU也是越來越認真了。


v 最新文章        熊蓋站為自由討論論壇,所有個人行為或言論不代表本站立場。文章內容如有涉及侵權請聯絡我們,將立即刪除相關文章資料        v 精華文章

               

奇摩搜尋
完全比對 模糊比對

線上收看: 景點即時影像 | 線上查詢: 火車時刻表最上方

    Powered by 熊蓋站  Code © 2005-2017 Plurk Twitter 
讀取秒數Time 0.015063 second(s),query:2 Gzip enabled
   現在時間是 2024-11-27 19:36