熊蓋站 - 首頁

  Plurk Twitter    

» 您尚未 登入註冊 | 說明 | 娛樂中心 | 點歌 | 聊天留言 | 最新 | 精華 | 論壇 | 資訊 | 首頁 | 影音模式

熊蓋站  -> 硬體資訊  -> 【資訊】Xeon Phi前路如何,探秘TACC的Stampede計算機

--> 本頁主題: 【資訊】Xeon Phi前路如何,探秘TACC的Stampede計算機 加為IE收藏 | 收藏主題 | 上一主題 | 下一主題 | 可列印版本
andy6989


終身成就獎
頭銜:論壇執行長論壇執行長

∷ 職務: 站長 該帥哥目前不在線
∷ 編號: 1
∷ 級別: 天使會員
∷ 發帖: 8098
∷ 威望: 6189
∷ 財富: 36813 蓋幣
∷ 貢獻: 173
∷ 配偶: 單身
∷ 家族: 無門無派
∷ 註冊: 2005-01-30
∷ 上次: 2019-03-27
鮮花(55)
寵物資料

寵物狀態:生存
寵物級別:287 -最終進化-
寵物PK:開(接受挑戰)
HP:7275/7275
MP:674/674
SP:4800/5000
EXP:86%
  【字體: Plurk Twitter 
【本站推薦】:
 【資訊】Xeon Phi前路如何,探秘TACC的Stampede計算機

Intel的Xeon Phi前兩天在SC 12會議上正式發佈了,商品化的產品主要是60核心的5110P和57核心(預測)的3100系列,前者將在明年1月份出貨,後者還要等到明年年中。

  其實在這兩款產品之前,Intel的Xeon Phi產品中就已有SE10P和SE10X兩款,而且這兩款產品目前已經用在了TACC德克薩斯高級計算中的Stampede超級計算機上,因為它們還是測試樣品,所以Intel給出的價格極具誘惑力,每塊只有400美元,當然實際產品售價在2000美元以上。

Anandtech網站又對TACC所用的Xeon Phi做了一番解析,來瞭解一下Xeon Phi到底有什麼秘密吧。



  Xeon Phi品牌其實早在6月份就宣佈過了,不過直到現在才有詳細的信息。從核心圖上看,它的MIC內核總計有50億個晶體管,甚至比安騰9500系列還多,幸好有了22nm 3D晶體管,不然製造這樣大規模的芯片可不容易。

  每個核心最多有62個內核,512位SIMD陣列,每個核心都是一個X86架構的順序指令體系的微內核,來源於原始的Pentium,看起來跟Atom有些相似。

  雖然是順序指令體系,不過每個內核可以執行4個同步線程,而Nehalem之後的Intel處理器大都也支持SMT多線程,不過他們支持多線程只是為了更好地利用執行資源。

  在Xeon Phi中,4線程更可能是一種隱藏(hide)內存延遲的方法,最好的情況下並行處理也只有2條線程而已。



  每個內核都是一個64位X86核心,不過只有2%的邏輯電路(包括L2緩存在內)是用於X86的,Xeon Phi的SIMD不支持MMX、SSE及AVX指令,它有自己的矢量格式。

  所有內核都是通過一個雙向環形總線連接的,類似於Intel在Xeon E7及SNB-EP處理器中用過的那樣。



  Xeon Phi有8條內存通道,位寬512-bit,支持8GB GDDR5內存,並整合了PCI-E控制器。
Xeon Phi卡規格

  Xeon Phi使用PCI-E接口,看起來像是一塊顯卡,不過該架構最早就是面向GPU應用的,所以以顯卡的形式出現也沒什麼意外的。而且跟其他加速卡一樣,Xeon Phi也沒有顯示輸出接口,它純粹就是一個計算卡。

  Xeon Phi運行的是開源的、經過修改的Linux系統,每個Xeon Phi卡都有自己的IP地址,但是它不能獨立運行,還需要搭配CPU使用,也就是說正常版的Xeon依然是作為主處理器,Xeon Phi的作用跟AMD/NVIDIA的GPU加速卡類似,不能獨立使用。

  下面是Intel的Xeon Phi卡的規格。


  TACC的Stampede超級計算機使用的Xeon Phi是特定的版本,有61個內核,頻率也略微提高到1.1GHz。正常商用的的5110P是60個內核,頻率也低了50MHz,實際頻率為1.053GHz,同樣搭配8GB GDDR5 ECC內存。5110P名稱中的P後綴意味著它是被動散熱的,主要依賴主機的散熱系統。

  另外,5110P 2699美元的價格不算便宜,不過相比NVIDIA Tesla K20的3199美元報價還算適當,其主要優勢在於超高的帶寬,51bit內存位寬、5GHz頻率下總帶寬達到320GB/s,高於K20及K20X。

  明年年中才會發佈的3110系列售價低於2000美元,搭配6GB GDDR5內存,5GHz頻率,位寬也縮減到384bit,不過核心頻率可能會略有提高,可提供超過1TFLOPS的雙精度浮點性能。

  另外,Xeon Phi的PCI-E雖然是2.0標準,但是頻率為7GHz,要高於PCI-E 2.0正常的5GHz,因為Intel發現升級到PCI-E 3.0標準會導致代價過高,所以才有這個折衷方案。

TACC中心的Stampede計算機

  位於TACC中心的Stampede計算機是世界上第一款使用Xeon Phi架構的超級計算機,它由6400個戴爾PowerEdge C8220X及C8220服務器機櫃組成,每個服務器包含2個8核Xeon E5處理器,32GB內存以及一塊Xeon Phi加速卡。



  每間房子裡有並排放置的2個C8000 4U機櫃,每個機櫃內有8個PowerEdge服務器。



  這些服務器通過FDR無限連接技術連接成為一個超級計算機。

  先期組建的Xeon E5部分可以通過2PteaFlips(千萬億次)的能力,使用Xeon Phi之後還可以提供額外的8PetaFlops計算能力。

  不過Xeon Phi還不能完全取代GPU,因為它沒有紋理單元,所以這台計算機的遠程虛擬化功能是由128個NVIDIA Tesla K20加速卡完成的。

  Stampede的其他部分還有272TB容量的內存,14PB的存儲容量。整個計算機及冷卻系統總計需要600萬瓦的電力供應。

Xeon Phi的編程特性 

  Xeon Phi的一大吸引力就是它可以直接運行為Xeon編寫的多線程代碼。為了更好地發揮Xeon Phi的性能,開發者可以使用Intel C或者Fortan的編譯器來運行代碼。這樣一來,Intel宣稱在Xeon Phi上運行典型的應用性能都可以提高2-2.5倍,部分應用提升幅度還會更多。



  不過Xeon Phi也不是沒有問題,相比較而言,目前廉價的四核解決方案更有效率。在Intel E5架構之前,AMD憑借廉價的四核處理器在HPC市場已經獲得不小的成功。對比這樣的廉價四核解決方案與Intel主推的CPU+Xeon Phi方案的每瓦性能、每美元性能就會很有趣了。

  重點是Xeon Phi編程花費的時間要比NVIDIA的Tesla K20要少得多,雖然後者的CUDA環境已經日趨成熟,不過還是能聽到不少廠商抱怨CUDA下的debug太麻煩。而對Intel來說,良好的編譯器支持、通用的高性能軟件是Xeon Phi的一大優勢。

  總之,Xeon Phi更具彈性,因為它本質上還是一個通用的Xeon內核,而GPU加速方案主要用於極限的並行環境,因為後者通常都有數百個流處理器。

  目前還不能對Xeon Phi作出最終判斷,因為Anandtech目前還沒有拿到實卡測試,他們對Xeon Phi的第一印象就是它可以做為一個低成本、易使用的HPC解決方案。


※ ※ ※ 本文為 andy6989 與 熊蓋站 共同所有,未經同意,請勿轉載 ※ ※ ※

 



≡熊蓋站管理團隊≡--共勉之--



[樓 主] |
發表於:2012-11-15 07:21

  熊蓋站 -> 硬體資訊

v 最新文章        熊蓋站為自由討論論壇,所有個人行為或言論不代表本站立場。文章內容如有涉及侵權請聯絡我們,將立即刪除相關文章資料        v 精華文章

               

奇摩搜尋
完全比對 模糊比對

線上收看: 景點即時影像 | 線上查詢: 火車時刻表最上方

    Powered by 熊蓋站  Code © 2005-2017 Plurk Twitter 
讀取秒數Time 0.013397 second(s),query:4 Gzip enabled
   現在時間是 2024-11-27 19:35