熊蓋站 - 首頁

  Plurk Twitter    

» 您尚未 登入註冊 | 說明 | 娛樂中心 | 點歌 | 聊天留言 | 最新 | 精華 | 論壇 | 資訊 | 首頁 | 影音模式

熊蓋站  -> 硬體資訊  -> 【資訊】開普勒架構全解析 GeForce GTX 680震撼首測

--> 本頁主題: 【資訊】開普勒架構全解析 GeForce GTX 680震撼首測 加為IE收藏 | 收藏主題 | 上一主題 | 下一主題 | 可列印版本
andy6989


終身成就獎
頭銜:論壇執行長論壇執行長

∷ 職務: 站長 該帥哥目前不在線
∷ 編號: 1
∷ 級別: 天使會員
∷ 發帖: 8098
∷ 威望: 6189
∷ 財富: 36813 蓋幣
∷ 貢獻: 173
∷ 配偶: 單身
∷ 家族: 無門無派
∷ 註冊: 2005-01-30
∷ 上次: 2019-03-27
鮮花(55)
寵物資料

寵物狀態:生存
寵物級別:287 -最終進化-
寵物PK:開(接受挑戰)
HP:7275/7275
MP:674/674
SP:4800/5000
EXP:86%
  【字體: Plurk Twitter 
【本站推薦】:
 【資訊】開普勒架構全解析 GeForce GTX 680震撼首測

序言:翹首以盼的「開普勒」終於來了

「終於……Fermi來了、GF100來了、GeForce GTX 480/470來了……」,這是我們在Fermi架構問世,GeForce GTX 480到來之際喊出的第一句話。不知不覺已近兩年,一樣的的陽春三月,值此GeForce GTX 680發佈之際,我們不禁同樣要感慨一聲:「Kepler,你終於來了!
之所以發出這樣的感慨,是因為此情此景與當時是那麼的相似。彼時AMD憑借Radeon HD 5870在DX11上奪得先手,在半年內陸陸續續發佈了近20款新品之多,從高端到低端、從移動到桌面佈置了一道完整的DX11產品陣線。而NVIDIA緊趕慢趕才在半年之後拿出當時紙面上已經放置很久的Fermi架構,讓眾多N飯甚是苦等一番。此役過後,NVIDIA雖然憑借GF100龐大的規模、出色的曲面細分和通用計算穩定住軍心,但隨之而來就是玩家對GeForce GTX 400駭人的高溫高耗怨聲連連。
留給NVIDIA的任務還很多,擁有美好憧憬的GF100並未實現叫好又叫座的目標,直到其簡化版本GF104 GeForce GTX 460問世後,憑借極佳的性價比,才幫助NVIDIA扳回一城。但此時的AMD已經在迅速著手第二代DX11產品的佈局,Radeon HD 6000又如洪水般一併洩來。好在此時NVDIIA已經準備好應對措施,吸取了上次的經驗教訓,加快了研發步伐。隨著台積電良品率的提高,GF100將512個CUDA核心補充完整,經過優化之後變衍生出了Fermi第二代產品:GeForce GTX 580,並一舉超越對手,順利登上單芯顯卡王座。
雖然之後的一年左右時間內兩家都未有換代產品的出現,但在去年年底新官上任三把火的AMD CEO一到任就迅速拿出了全面革新的GCN架構,而傳聞已久的「南方群島」以及Radeon HD 7970正式到來。此招一出,又將數個「第一」的稱號加冕。之後的兩個月裡又接連推出了Radeon HD 7950、HD 7800以及HD 7700系列等數款型號。面對如此狂轟濫炸,NVIDIA顯然又處在了十分被動的境地,沒有新產品予以應對,新一代Kepler架構很長時裡都是神龍見首不見尾,像極了當初Fermi發佈之前的情景。
好在,經過一番苦等和召喚之後,Kepler終於來到我們面前。今天晚上21點整,代表著NVIDIA新一代最新圖形架構Kepler GK104核心的GeForce GTX 680正式發佈。設計目標上,NVIDIA稱之為史上最快、最有效率的GPU。而設計初衷上,GeForce GTX 680將會以最低的功耗代價換來最為極致的性能。但無論如何,經歷長時間的閉關修煉,擺在GeForce GTX 680面前的任務依然比較艱巨,除了要成功打敗對手Radeon HD 7970之外,還要讓世人看到Kepler較Fermi架構的提升和改進之處,而更重要的是它將決定NVIDIA今後是否能重新奪回市場主動權,甚至會影響到未來A/N兩家的競爭勢態走向。
好了,說了這麼多,話歸正題。在下面的文章裡,我們會用較多的篇幅深入解析Kepler全新架構的細枝末節以及全新特性的點點滴滴,之後則是最直接的性能測試和遊戲比拚,一起見證吧!
開普勒的蛻變:更快、更平滑、更豐富
在正式進入架構解析和性能實測之前,這裡有必要介紹一下兩個代號。正如上一代「Fermi」,「Kepler」同樣是NVIDIA最新CUDA圖形計算架構的開發代號,它的取名來自16世紀德國著名的物理學家、數學家、哲學家約翰尼斯•開普勒(Johannes Kepler)。開普勒是把力學的概念引進天文學的第一人,並且是是現代光學的奠基者,製作了著名的開普勒望遠鏡,發現了行星運動三大定律,為哥白尼創立的「太陽中心說」提供了最為有力的證據,被後世譽為「天空的立法者」。連續以兩位擁有偉大成就的科學家作為自己GPU架構的代號,也充分顯示了NVIDIA對自己產品的信心。

同樣的,「GK104」和之前的「GF100」一樣為NVIDIA下一代GPU圖形處理器核心代號,其中G代表GPU、K代表Kpler、104代表該系列的中端產品,對應顯卡型號GeForce GTX 680。和Fermi首發之時以最高端型號GF100打頭陣不同的時,Kepler則是以104這樣一個相對主流的型號作為先鋒。按照以往的經驗,再次之後還會陸陸續續分別衍生出數款針對高端以及低端市場的產品。NVIDIA這裡將旗艦級產品雪藏,究竟適合緣故?是良品率不行,是Radeon HD 7970性能低於預期,是用來對付對手下一代Radeon HD 8000系列,亦或是有其它更為深謀遠慮的打算?各位看官不妨自己揣摩一番。
當然,經歷長時間的醞釀之後選擇GK104作為排頭兵,NVIDIA自然是有足夠的信心。GK104在個人桌面級消費領域最重要的使命依然是在DX11市場上躍馬揚鞭、大步前進,不僅性能方面要全面超過競爭對手,在新特性上也要帶來上代產品前所未有的體驗。為此,GK104採用了以第二代Fermi為基礎全面革新的Kepler架構,以及專為遊戲性能和視覺體驗優化的新特性,包括SMX架構、GPU動態提速技術(GPU Boost)、全新的抗鋸齒技術TXAA、自適應垂直同步(Adapitive Vsync)以及單芯3D立體幻鏡環繞等等。
據NVIDIA稱,GK104的設計初衷主要包括以下三個方面:速度更快(Faster)、圖像更光滑(Smoother)、畫面效果更豐富(Richer)。這裡僅作簡單介紹,下面的文章會一一詳細闡述。
1、 速度更快:SMX架構、GPU動態提速技術

對於顯卡來說速度更快就意味著性能更強,這是每一代新架構產品都要完成的使命,所以提供最頂級的遊戲性能自然是GK104的首要任務。為此,GK104採用了全新的SMX架構,裝備多達1536個CUDA核心。相比之前的SM架構,SMX架構在指令吞吐、紋理渲染以及幾何處理、曲面細分性能等方面都更進一步。同時,GK104特別強調了「能耗比」,即以最小的功耗代價換來最為出色的性能。此外,GK104還增加了一項全新的技術:GPU動態提速(GPU Boost),可使顯卡GPU核心頻率根據實際負載情況動態提速,在每一款遊戲中都表現到最好。
2、圖像更光滑:TXAA全新抗鋸齒、自適應垂直同步

除了更好的性能表現之外,GK104還帶來了全新的抗鋸齒技術TXAA,該技術可看做原有MSAA的加強版本,不僅可提供更加出色的抗鋸齒效果,還能將抗鋸齒的代價降到最低。另一方面,GK104還將為遊戲實際的流暢度做出優化,提出了全新的自適應垂直同步(Adapitive Vsync)技術,該技術會根據遊戲運行的實際情況,動態開啟或關閉垂直同步,最大程度的減小遊戲畫面的撕裂、跳幀和延遲問題,保證遊戲畫面的流暢度。
3、畫面效果更豐富:單芯三屏3D立體幻鏡環繞


GeForce 500系列及之前的產品因為核心集成的顯示輸出芯片問題,一張單芯顯卡最多只能實現兩屏輸出,要想組建卡三屏系統只能通過SLI或者雙芯顯卡,這一點跟對手AMD的Eyefinity技術相比遜色不少。不過這一局面已經改觀,GK104可以原生支持單芯三屏3D立體幻鏡環繞,並可通過DisplayPort接口另外連接一台顯示器獨立於三屏之外,從而實現「3+1」四屏輸出系統。
開普勒排頭兵:GK104架構深入解析(1)
雖然之前有Kepler、GK104零零星星的測試成績和少量細節曝光,不過作為NVIDIA未來1-2年最重要的新圖形架構,鑒於保密協議對外公開的資料非常有限,很多報道都是基於早先費米架構猜想以及延伸推理而來,不夠全面也沒有絲毫的準確性。如今開普勒正式面世,諸多有關GPU架構的細節和全新特性都已正式公佈,所以下面我們會用較大的篇幅,進一步全面系統地介紹一下有關開普勒的點點滴滴,看看它和之前的費米到底有何相同和不同之處。

1、 設計目標
作為NVIDIA兩年磨一劍的全新圖形架構,Kepler的目標就是繼續突破圖形計算性能的極限,打造出世界上最有效率的GPU。從架構設計上來看,Kepler是在上代Fermi架構上全面優化而來。眾所周知,兩年前的Fermi堪稱NVIDIA圖形架構歷史上最重要的變革之一,使得圖形渲染和通用計算都到了一個全新高度。而Kepler會在此基礎上更進一步,除了更強的性能表現,還將輔以諸多前所未有的新特性,為玩家提供「更快」、「更平滑」、「更豐富」的遊戲體驗。當然,只有實際表現才能說明一切,我們十分期待。
2、突出能耗比
按照NVIDIA的說法,在設計上一代Fermi架構之時,NVIDIA工程師的主要精力大部分都放在了較Tesla(GT200)的性能提升方面,包括幾何處理、曲面細分以及通用計算等DX 11的主要幾個部分。儘管功耗管理在Fermi研發過程中同樣是一個重要問題,但提升顯卡DX 11的性能表現才是主要目標。(ps:的確,性能是大幅提升了,但龐大的核心規模也讓我們也見識了GTX 400系列恐怖的功耗和發熱量,儘管在GTX 500系列所有改善,但這一點一直是NVIDIA近兩代顯卡的軟肋之一,也是Fermi最為人詬病的地方,看來NVIDIA也非常有自知之明,接著往下說。)
到了最新的Kepler,NVIDIA設計之處選擇了一條不同的道路。提供頂級的性能表現依然是主要任務,但Kepler更加著重性能/功耗比,也就是現在比較流行的「能耗比」。降低功耗方面,台積最新的28nm工藝也扮演了重要角色,但在降低功耗的同時提升性能還是要看核心架構。主要是指Kepler吸取了Fermi研發上的經驗和教訓,從而改進和優化。NVIDIA方面也非常強調,Kepler的每一個硬件單元都是為最大程度地提升能耗比而設計的。


設計方面,對於提升功耗比最為明顯的例子就是新架構中的新一代SM(Streaming Multiprocessor,流式多處理器),NVIDIA稱之為SMX(Streaming Multiprocessor Extreme,極致流式多處理器),每個SMX有192個CUDA核心,8組SMX為GK104提供了多達1536個CUDA核心,詳細內容下文會具體講解。根據NVIDIA官方提供的數據,基於GK104核心的GTX 680平均能耗比可達上一代旗艦級GF110 GTX 580的2倍。
開普勒排頭兵:GK104架構深入解析(2)
3、GK104架構概覽
和Fermi一樣,Kepler核心架構同樣由眾多不同的功能單元組成。首款型號GK104核心主要包括主接口(Host Interface,已升級到PCI-E 3.0)、GigaThread引擎、四個圖形處理器集群(GPC)、四個64位GDDR5顯存控制器、四個ROP分區(包含32個ROP單元)、512KB二級緩存。其中每個GPC包含兩組極致流式多處理器(SMX)、兩個PolyMorph 2.0引擎、一個Raster引擎。而SMX內又有多達192個CUDA核心(相比之下Fermi中的SM僅有32個),8組SMX共計提供1536個CUDA核心

GK104核心架構圖
8組SMX都是高度並行的多處理器,1536個CUDA核心都是統一的處理器核心,能夠執行頂點、像素、幾何學和計算內核等不同任務。32個ROP單元可用於像素混合、抗鋸齒、原子存儲等操作,每組8個由一個64位顯存控制器進行控制。統一的二級緩存則能夠提供載入、存儲、紋理操作等服務。
GPU工作方式上也和Fermi一脈相承,首先通過主接口讀取中央處理器指令,GigaThread引擎從系統內存中獲取特定的數據並拷貝到顯存中,為顯存控制器提供數據存取所需的高帶寬。GigaThread引擎隨後為各個SMX創建和分派線程塊(Wrap),SMX則將多個Warp調度到各CUDA核心以及其他執行單元。在圖形流水線出現工作超載的時候,GigaThread引擎還負責進行工作的重新分配。
下面我們會詳細討論有關SMX、ROP以及其它一些運算單元的細節,要想瞭解以下內容,建議首先參看我們之前Fermi架構的詳細講解,因為很多部分都是由Fermi繼承改進而來,架構原理方面都是想通的。
開普勒排頭兵:GK104架構深入解析(3)
4、極致流式多處理器(SMX)
在正式介紹新一代極致流式多處理器(SMX)之前,還是先說一下GPC。從Fermi第一代GF100開始,GPC的概念正式引入。到了Kepler,GPC被完整繼承下來。和GF100、GF110一樣,GPC依然是GK104中處於支配地位的主要高級硬件模塊,整個核心架構由四組GPC構成。每個GPC包含兩組SM,此外還擁有兩個獨特功能的引擎,分別是用於頂點屬性提取與曲面細分等功能的可擴展PolyMorph引擎(安置在SM中),以及用於三角形設置、光柵化以及Z軸壓縮(Z-Cull)的可擴展Raster引擎(駐留在GPC中)。除此之外,GPC還囊括了著色、紋理以及計算等處理資源,除了ROP功能之外,GPC還完全可以看作是一個自給自足的GPU。
從DX10時代開始,位於GPC(Fermi之前為TPC)之下、CUDA單元之上的SM就一直是NVIDIA統一渲染GPU架構的核心模塊,它囊括了大部分起到關鍵作用的圖形硬件單元,從G80、GT200到Fermi一共經歷了三代演變。在Fermi GF100/110架構中,每個SM都包含32個CUDA處理器核心、2個Wrap調度器(包含4個指令分派單元)、16個載入與存儲單元(LD/ST)、4個指令特殊功能單元(SFU)、1個PolyMorph引擎單元、4個紋理單元以及64KB片上存儲。
而對於GK104核心來說,其中的一個關鍵部分就是SM將會升級到全新的SMX (Streaming Multiprocessor Extreme,極致流式多處理器),SMX包含了許多非常重要的架構轉變,而這些都與GK104的性能表現和效率息息相關,堪稱Kepler架構的精髓所在。

SMX架構圖
可以看到,和SM類似,SMX同樣包含了計算和功能單元,但這些單元的數量和安置方式有了很大變化。具體來說,每個SMX包含192個CUDA核心,是SM的六倍;4個Wrap調度器(包含8個指令分派單元),是SM的兩倍;32個載入與存儲單元(LD/ST),是SM的兩倍;32個指令特殊功能單元(SFU),是SM的八倍;1個PolyMorph 2.0引擎,和SM相同,不過已經升級到第二代;16個紋理單元,是SM的四倍;64KB片上存儲和SM一致,可配置為48KB共享存儲器加16KB一級高速緩存,或者16KB共享存儲器加48KB一級高速緩存。
具體分工方面,CUDA核心負責像素、頂點、幾何著色、物理計算等處理,指令分配單元負責線程群組的調度以及指令發射,載入與存儲單元負責為線程計算源地址和目標地址,特殊功能單元負責執行抽像的指令,比如正弦、餘弦、倒數和平方根,還有圖形插值指令,PolyMorph 2.0引擎單元負責頂點拾取、曲面細分、視口轉換、屬性設定以及流輸出等功能,紋理單元則負責紋理過濾、紋理採樣、計算紋理地址並將數據輸出至顯存,而共享存儲器和一級緩存是互補的作用,能夠廣泛地重複利用片上數據而減少片外通信量,從而提高工作效率。

SMX和SM對比(圖片來自Pcinlife),單元數量和排列方式都放生了改變
為了顯示SMX的改進,NVIDIA在白皮書中特別加入了GK104(8組SMX)和GF110(16組SM)「芯片級別」的具體功能單元的對比

從上面的對比不難看出,有關顯卡每時鐘週期所能提供的吞吐量中,其中幾項關鍵的操作比如FMA32(32bit單精度積和熔加運算)、SPU特殊功指令以及紋理處理等,GK104都全面領先GF110,而其它幾項操作也至少等同於GF110。另外,GK104在核心時鐘頻率上有明顯優勢,這就為其運算能力進一步添磚加瓦。


圖中GF110 SM SPU數量應為4個
另外,考慮到效率的原因,NVIDIA選擇將以上運算功能單元平均分配到GK104的8個SMX中,而非GF100/110的16個SM。綜合以上結果,毫無疑問的是單個SMX處理能力更強,而且更有效率。
開普勒排頭兵:GK104架構深入解析(4)
5、SMX的設計細節
以上我們從宏觀視角瞭解了SMX的功能單元數量、排列方式以及和上一代SM的差別,下面我們從更加微觀的底層角度一探究竟。以下內容比較晦澀難懂,但只有瞭解這些才能真正看到Kepler的改進之處。

正如上圖所示,為了安排SMX的執行單元,每個SMX都配備了4個Wrap調度器具體概念可參看這裡),每個調度器在單位時鐘每可以處理兩路指令,而且可以並行執行。相比之下之前的SM僅有2個Wrap調度器,每個調度器只能處理一路指令,顯然在指令調度方面SMX更有效率。

Kepler和Fermi調度流程對比示意
在指令調度分配上,Kepler和Fermi擁有功能類似硬件單元,包括用於高延遲操作(紋理和載入)記錄的寄存計數器、內部Wrap調度決策單元(比如在待選Wrap之中選擇最佳候補者)以及線程群組級別的調度單元(比如GigaThread引擎)。但是,Fermi用於防止數據通道意外的硬件調度流程過於複雜,多端口寄存計數器會對任何寄存器進行追蹤,即便那些還未填充合法數據的也不例外,而之後的附屬檢測模塊會再次基礎上通過大量完全編碼的Wrap指令流分析該寄存器的用途,最終才決定哪一個會被合法利用。
一般來說,數據管線的延遲不會改變,那麼就有可能在指令排隊等待之前就利用編譯器去確定該指令的去留,並且可以將該信息標記到該指令上。這樣以來,就能使用簡單的硬件模塊去摘取事先決定的延遲信息,利用它在內部Wrap調度階段就挑選出來合法的Warp,從而省去了許多複雜而且耗費功耗的硬件模塊,大大提升調度效率,而這就是Kepler相對Fermi在調度過程中的改進之處
此外,根據NVIDIA的說法,在提升能耗比方面Kepler也針對處理執行單元進行了全新的優化,每一個處理單元都是為最大化頻率處理效率和最小化電路和延時消耗而精心設計的。最明顯的改進之處就是取消了我們以往常見的Shader頻率,Shader頻率在DX10 G80時代隨著統一著色器架構的到來而出現,成為繼核心頻率、顯存頻率之外的另外一個性能指標,後來一直延續到Fermi架構(近兩年一般為核心頻率的兩倍)。(限於時間關係,有關Shader頻率的來龍去脈這裡就不在過多介紹,感興趣的玩家通過參考之前的文章研究。)
一般來說Shader頻率越高,象徵著執行單元的頻率越高,在有限數量的執行單元下可實現既定目標的數據吞吐量。但與此同時,更高的Shader頻率也意味著需要更多的功耗消耗,頻率變為兩倍意味著管線階段也變為兩倍,如果每一個執行單元都以兩倍的頻率運行,那功耗將變為原來的四倍。在這種情況下,即便既定吞吐量只需要半數的執行單元,那管線階段依然會消耗原來兩倍的功耗。
上文中我們就提到,Kepler設計之初就優先考慮能耗比的問題。所以在架構設計上,Kepler進行了諸多關於功耗方方面的優化,即便是在多耗費一些邏輯核心面積(並非實際核心面積)的情況下。下面這個例子就是很好的說明。(ps.關於更多的細節NVIDIA沒有過多透露,僅有圖示一張。)

就目前來說,Kepler架構設計上相比Fermi的重大改進可以簡單歸納為兩點:1、性能/功耗比值大幅提升;2、執行和調度效率上大幅提升
開普勒排頭兵:GK104架構深入解析(5)
6、升級PolyMorph 2.0引擎
在前面的章節我們就提到Kepler SMX中的PolyMorph 引擎已經升級到第二代,這也是另外一個改進之處。兩年前,隨著DX11將曲面細分納入規範,加之新型圖形處理流水線的迫切需求,Fermi GF100架構設計了一種可擴展幾何引擎PolyMorph,並為其配備專用的頂點拾取單元和曲面細分單元(Tessellator),從而極大地提升了幾何性能。而GF100之所以擁有出色的曲面細分性能,主要就歸功於多達16個PolyMorph引擎。

PolyMorph引擎工作流程可分為五個階段:頂點拾取、曲面細分、視口轉換、屬性設置、流式輸出。每個階段中的運算結果都會被發送到一個SM,由其執行遊戲的著色程序並將結果返回到引擎中的下一個階段,而五個階段全部完成後結果就會發送到Raster引擎。

到了Kepler,GK104架構共計設計了8個PolyMorph引擎,每個SMX分配一個,雖然數量上相比GF100/110減少了一半,但這8個PolyMorph引擎都經過重新設計(NVIDIA稱之為PolyMorph 2.0),處理性能方面每時鐘週期可達上代的兩倍。另外,得益於GK104 GTX 680超出約30%的時鐘運行頻率,在曲面細分性能上將會有顯著提升。

根據NVIDIA提供的數據,GTX 680在曲面性能方面大幅超過GTX 580,並將對手HD 7970遙遙甩在身後,而且隨著曲面細分係數的提高,領先幅度也隨之拉大。在此,除了遊戲之外,NVIDIA特別強調了曲面細分性能對於開發者的重要性,尤其是那些經常需要使用曲面細分以及編寫有關曲面細分API的開發人員。
7、更高速的二級緩存
除了前面說的64KB片上存儲(可配置為48KB共享存儲器加16KB一級高速緩存,或者16KB共享存儲器加48KB一級高速緩存)之外,Kepler還提供了大小為512KB的統一二級高速緩存,既能讀又能寫,為所有載入、存儲、紋理請求提供服務,可在整個GPU中提供高效、高速的數據共享。
雖然容量不及Fermi GF100/110(768KB),但GK104的二級緩存帶寬提升了近73%,而且原子存取操作吞吐量同樣有大幅提高,尤其表現在單一普通地址的原子操作。下面的圖標就簡單概括了GK104二級緩存較GF110的提升。

開普勒排頭兵:GK104架構深入解析(6)
8、更加靈活的紋理
在Kepler架構之前,GPU要想引用一個紋理,需要事先在固定「列表」裡安排一個「位置」,而「列表」中「位置」的數目從根本上限制了Shader著色器能夠實時讀取紋理的數量。這就是為什麼Fermi架構中最多只能同時訪問128個紋理的原因。(當然這也與DX11 API的限制保持一致有關係)

在Kepler架構中,紋理訪問就要靈活多了,不在需要事先在固定「列表」裡安排一個「位置」,Shader著色器可以在顯存中直接引用紋理,這樣以來就有效解除了渲染一個場景時紋理數量的限制。NVIDIA也調侃說,如果需要的話,100萬個也是有可能。除了大幅提升可用紋理的數量外,這一改進還有另外一個好處,那就是減少對CPU的利用率。

遺憾的是,目前這種更加靈活的紋理機制還只能出現在OpenGL API中,不過NVIDIA稱未來很有可能通過NVAPI在DirectX API中實現,或者在後續版本的DirectX API中或許能夠看到
9、最快的GDDR5顯存

值得一提的是,在以往的GF100/110產品中,受限於顯存控制器的設計問題,顯卡的顯存頻率一直比較保守,比如上代GeForce GTX 580只有等效4008MHz,而且超頻幅度也相當有限,相比對手差距相當明顯。而Kepler的顯存設計團隊採用了全新了I/O設計,可實現GDDR5的理論最高頻率。為了達成這一目標,最底層的物理電路經過了大量改進,最終反映到實際頻率上也非常可觀,GTX 680默認等效6008MHz的顯存頻率在歷史上算是頭一回。雖然顯存控制器由GF100/110的六組縮減到四組,位寬由384-bit減少到256-bit,但是較高的顯存頻率卻彌補了顯存帶寬的劣勢。而之所以減少顯存控制器數量,估計也是為了在有限的核心面積下容納更多的計算單元。
開普勒全新特性:GPU動態提速技術
在開始這一章節之前,有必要提及幾個相對陌生的名詞:基礎頻率(Base Clock)、GPU動態提速(GPU Boost)以及動態提速頻率(Bost clock)。首先是基礎頻率,它代表GPU核心的基本頻率,是NVIDIA能夠保證的GPU在TDP APP(能使GPU達到TDP的應用程序)中最低的運行頻率,跟目前的核心頻率並無差異(上文中我們已經說到Kepler架構中不再有Shader頻率之說,原來的核心頻率現在也將統一稱之為基礎頻率)。
在衡量新一代GK104 GTX 680 TDP的時候,NVIDIA的工程師在極高的負載下測試了一系列3D程序,並對此時顯卡的功耗進行實時監控,而顯卡的基礎頻率也基於以上測試結果最終才得以確定。以首款GTX 680為例,顯卡默認的基礎頻率為1006MHz。

根據NVIDIA的說法,不同3D遊戲需要不同的功耗負載,但用戶遇到極限負載的情況並不多見,事實上,對於現在的GPU來說目前的3D遊戲很難使其接近真實的TDP。既然GPU在大多數情況下沒有被完全利用,那麼完全可以進一步提升運行頻率以求得更好的性能表現。針對提升GPU的實際性能,NVIDIA除了在架構上做出優化以外,還推出了名為GPU動態提速(GPU Boost)的全新技術
顧名思義,GPU動態提速是一項為GPU動態超頻的技術,原理類似於目前處理器中Intel的睿頻加速(Turbo Boost)以及AMD的動態加速(Turbo Core)。不過對於顯卡來說,GPU動態提速算是頭一遭,NVIDIA也算是開創了這方面的先河。

那麼GPU動態提速技術是如何實現的呢?可能很多人認為是驅動或者第三方軟件提供軟件解決方案,但NVIDIA已經明確表示,該技術是通過硬件底層和BIOS得以實現的,為此還在顯卡設計線路中加入了專門的電路芯片模塊,用以監測GPU的實時功耗以及溫度等,並通過芯片實時調整GPU所能達到的最高運行頻率,以達到動態提速的效果。只要顯卡的實際負載功耗未到達預訂功耗的值(即TDP),就會觸發動態提速機制

而開頭提到的動態提速頻率就表示經過GPU動態提速之後的運行頻率,由於該頻率會不斷變化,所以動態提速頻率沒有設定任何絕對值。不過NVIDIA提供了一個動態提速頻率的平均值作為參考(在典型環境下運行典型3D遊戲的動態提速頻率)。比如GTX 680的動態提速頻率平均為1058MHz,相比基礎頻率提升了5%左右。不過NVIDIA也指出,實際情況中會遇到實際負載功耗和TDP之間還有較大差距,這時GPU會繼續自動提速,可能會達到1.1GHz或者更高。
關於不同負載功耗下動態加速的幅度差異,我們經過測試後發現,在負載較高的3DMark 11 X級別中,動態加速頻率在1058MHz上下浮動,而諸如《使命召喚》中動態加速頻率一般在1100MHz以上。不過,即便使用相同測試軟件也會出現較大誤差,很難重現上次的效果。按照理論來說,負載功耗越低超頻幅度應該越大,是實際測試中並沒有嚴格遵循這一規律。當然,由於測試時間緊迫,也可能是誤差等多種原因造成的,日後會專門針對這一部分進行詳細測試。

或許會有玩家問,GPU動態提速能關閉嗎?答案是不能,由於屬於硬件級別控制,GPU動態提速不受運行程序以及用戶的干預,只要顯卡正常運行與3D圖形有關的程序,就會生效。即便是顯卡超頻,GPU動態提速也不受影響,二者可同時實行,動態提速可在超頻頻率之上再做動態調整,但前提是實際負載不能超過TDP。

EVGA Precision是率先支持Kepler的第三方軟件之一
目前,NVIDIA已經向合作夥伴提供了專門的API,讓第三方軟件新增更多關於動態提速的相關選項,玩家們甚至可以調高TDP的值,以獲得更為出色的加速效果。

在NVIDIA的天堂演示中,GTX 680穩定運行在1.2GHz毫無壓力。
另外有個問題值得關注,由於只要是3D應用程序就會觸發動態提速,而對於一些要求不高的3D遊戲,如果用戶不需要過高幀數,以便更好的節能又該如何呢?NVIDIA方面也給出了解答,今後用戶可以通過第三方軟件提供的幀數鎖定功能來限制顯卡的輸出幀率,從而達到節省功耗的目的。目前提供幀數鎖定功能的軟件僅有EVGA Precision,而NVIDIA會陸續向合作夥伴提供API,以便推出更多不同類型的第三方軟件。
開普勒全新特性:TXAA、自適應垂直同步
1、FXAA和全新TXAA抗鋸齒
說起AA(Anti-Aliasing)抗鋸齒,只要玩過遊戲的人都不會陌生,反映到實際中的作用就是將遊戲圖像邊緣及其兩側的像素顏色進行混合,然後用新生成的具有混合特性的點來替換原來位置上的點以達到柔化物體外形、消除鋸齒的效果,是物體邊緣看起來更加平滑。
經過數十年的發展,AA也衍生出了各種各樣的形態。主要可以分為Hardware AA(硬件AA)和Post Process AA(後處理AA)這兩大類,而這兩種又分別演變中各種子集形態。一般來說,硬件AA要十分依賴於硬件性能,而後處理AA則要輕的多。

硬件AA中比較有代表性的就是比較通用的MSAA(MultiSampling Anti-Aliasing)多重採樣抗鋸齒(其餘還有SSAA、CSAA,這裡限於篇幅就不再介紹了)。相比之下,FXAA (Fast Approximate Anti-Aliasing)快速近似抗鋸齒就算是後處理AA中的後起之秀了,直到去年NVIDIA才將之公之於眾。它是MSAA的一種高性能近似值,從實際效果上來看甚至比MSAA更為出色。但相比MSAA,FXAA對硬件的依賴度更小,資源消耗更低速度更快

說了這麼多,究竟和Kepler有啥關係呢?說來是個好消息,在支持Kepler的R300系列驅動控制面板已經加入了FXX的開關選項,支持的遊戲達上百款之多,以後想用FXAA的玩家不再需要額外打補丁了。不過先別急,NVIDIA還為Kepler加入了另一項全新的抗鋸齒技術:TXAA
按照NVIDIA的說法,TXAA是「CG電影」風格的AA解決方案,屬於硬件AA的一種(FXAA是後處理AA),算是MSAA的加強版本。但和MSAA不同的是,TXAA在提供優秀抗鋸齒效果的同時,消耗的硬件資源成本卻十分低廉。TXAA暫時屬於GeForce GTX 680的獨有技術,但NVIDIA也表示未來會提供對GeForce GTX 500系列的支持。


按照等級劃分,TXAA目前分為TXAA 1和TXAA 2兩種級別。簡單來說,TXAA 1即可提供相當於8x MSAA的抗鋸齒效果,而消耗的資源僅相當於2x MSAA;TXAA 2的抗鋸齒效果要在8x MSAA之上,不過也僅相當於4x MSAA的代價。不過,TXAA需要遊戲支持才能使用,而支持TXAA的遊戲估計至少要到下半年才會露面。
不過據NVIDIA透露,目前《機甲戰士Online》、《神秘世界》、《星戰前夜Online》、《無主之地2》幾款遊戲以及虛幻4、BitSquid、Slant Six Games以及Crytek等遊戲引擎開放商已經確定將會提供對TXAA的支持。
2、自適應垂直同步(Adapitive Vsync)
除了增加新的抗鋸齒技術提升遊戲畫面的平滑度之外,Kepler還將對遊戲的流暢度和實際視覺體驗進行優化,推出了全新的自適應垂直同步(Adapitive Vsync)技術。眾所周知,垂直同步在幾乎每款遊戲中都能見到,開啟該垂直同步之後可將遊戲幀數鎖定在與主流顯示器刷新率相同的60FPS,主要目的就是減少顯卡輸出畫面在不同FPS時所發生撕裂以及跳幀的情況,保持遊戲畫面更為穩定流暢。

不過在實際情況中,並不一定會按照事前預想的情況發生。一般來說,顯卡輸出畫面的幀數會收到遊戲場景變化的影響,比如實際輸出幀數低於60FPS,如果此時開啟垂直同步就會將FPS直接降低到30FPS、20FPS或者15FPS等(一般可被60整除)。而當在從60FPS突然降到30FPS(或者更低)的瞬間,遊戲畫面就會出現明顯卡頓的現象,從而大大影響到遊戲的流暢度和視覺體驗,相信不少玩家都遇到過類似的情況。

而自適應垂直同步技術的推出可有效改善這一問題,當用戶開啟自適應垂直同步功能後,系統會自動偵測實時的FPS,當幀數高於60FPS時便將幀數鎖定在60FPS進行輸出,而低於60FPS時,自適應垂直同步會自定關閉,並以實際的幀數進行輸出,減弱從60FPS突然將至30FPS大跨度的幀數暴跌出現了畫面卡頓現象,對於喜歡開啟垂直同步功能對遊戲流暢度要求較高的玩家非常實用。

和FXAA一樣,自適應垂直同步功能也將出現在R300系列驅動的控制面板中。
開普勒全新特性:單芯3屏3D立體環繞
GeForce 500系列及之前的產品因為核心集成的顯示輸出芯片問題,一張單芯顯卡最多只能實現兩屏輸出,這一點跟對手AMD的Eyefinity技術相比遜色不少。
不過NVIDIA也有也有自己的獨特武器,那就是「3D Vision Surround(3D立體幻鏡環繞)」。它基於此前已有的3D Vision立體幻鏡,配合3D立體眼鏡能在三台顯示器上實現3D立體效果,其中顯示器分辨率單台最高1920×1080(全高清)、刷新率120Hz,每秒鐘需要渲染的像素值高達1920×1080×120×3=7.46億個。NVIDIA宣稱,這種系統可以呈現出完全身歷其境、足以媲美IMAX 3D的遊戲效果。

但要想實現三屏3D立體幻鏡環繞系統就必須實用兩塊單芯顯卡或者一款雙芯卡(比如之前的GTX 590)。不過這一局面已經改觀,GK104已經可以原生支持單芯三屏3D立體幻鏡環繞

GTX 680可以通過的兩個DVI接口以及一個HDMI接口進行三屏輸出,並以3D立體環繞方式顯示,從實現單芯3D立體幻鏡環繞系統。

當然,用戶還是通過另一個DisplayPort接口連接一台顯示器獨立於三屏之外,在玩遊戲的同時用於郵件、聊天以及網絡瀏覽等,從而實現「3+1」四屏輸出系統(獨立屏為非3D)。

為了更好的配合用戶使用多屏系統,驅動控制面板中可對窗口以及任務欄進行設定。

顯示方式上也將更加靈活,比如可將Windows任務欄放到中間的顯示器中顯示、單獨最小化一個窗口等,操作方式更加人性化。

值得一提的是,以往的的多屏邊框修正是將邊框佔據畫面的一部分隱藏到顯示器邊框之後,使其成為遊戲的一部分,這樣在某些時候(比如上圖的物品欄)可能會造成不便。而這裡的邊框補償會將邊框佔據畫面完成顯示出來,更利於玩家在遊戲中進行操作

如果想提升遊戲的幀速和流暢度,還可關閉另外兩個屏幕對中間屏幕進行加速。三屏環繞的支持的分辨率也更加廣泛,玩家可根據喜好自行在驅動面板中設定。
此外,Kepler的全新顯示輸出引擎還將支持下一代4K分辨率、3GHz HDMI輸出、多音頻流以及增強視頻編碼等。
開普勒全新特性:NVENC視頻編碼引擎
最後,Kepler還將提供一個全新的H.264硬件視頻編碼引擎:NVENC。在Kepler之前,GeForce顯卡在處理視頻編碼時主要將工作交由CUDA核心進行處理,這種方式可大大減輕CPU的負擔,不過卻產生了一個問題,那就是GPU將會消耗更多功耗。為此,NVIDIA在kepler架構GPU中增加了專門的硬件芯片:NVENC視頻編碼引擎,相比之前的CUDA編碼H.264更快(據稱可達四倍以上),而且有效減少了顯卡功耗消耗。
在實際的編碼軟件中可以選擇NVENC和CUDA編碼共同協作,而且兩種方式互不影響。不過,一些視頻預處理算法可能會需要用到CUDA核心,這可能會降低CUDA編碼的效率。NVIDIA建議先使用NVENC引擎進行視頻預處理,然後選擇合作方式進行並行編碼,從而實現最佳性能。
就目前來說,NVENC視頻編碼引擎可以提供以下支持:
(1) 支持1080P視頻8倍速率完全編碼,比如一部16分鐘的1080P 30FPS視頻大約只需要2分鐘;
(2) 支持基礎、主流以及高等級(比如藍光標準)的H.264格式視頻編碼;
(3) 支持3D立體視頻的MVC(多視角視頻編碼);
(4) 支持高達4096x4096分辨率的編碼。
除此之外,NVENC視頻編碼引擎還可為消費者提供以下用途:
(1) 在主流的筆記本上實現高清視頻會議;
(2) 通過無線網絡將顯示器畫面(遊戲、視頻)輸出到大屏幕電視上;
(3) 從高清攝像機上刻錄高質量藍光碟片。
據稱,NVIDIA已經向合作開發廠商提供NVENC專用的API以及SDK,預計今年下半年就能看到很多支持該引擎的軟件了。目前,Cyberlink MediaEspersso已經提供了一個Beta版本進行支持,而不久之後Cyberlink PowerDrector以及Arcsoft MediaConverter也會加入對NVENC的支持。
GeForce GTX 680規格、設計及概況
作為kepler的首款產品,GeForce GTX 680隨著新架構的面世正式發佈。說起GeForce GTX 680的命名還別有一番小插曲,倒不是說這個命名和之前的產品有何不同之處,而是在有關其命名的流言蜚語算一波三折吧,就有人戲稱GTX 680的命名可謂「諜戰劇般精彩」。
早期人們普遍認為NVIDIA將跳過GTX 600命名,GK110將直接進入GTX 700序列,後來流言不攻自破。後來又有人GK104將命名為GTX 660 Ti,並有衍生版本GTX 660,但是後來又被證實不靠譜。進入2月之後,GK104的具體名稱鎖定在了GTX 670 Ti身上,隨著實物圖的曝光以及GTX 670 Ti印記,開始有越來越多的人信以為真,認為這就是GK104的首款產品。但是到了最後,我們才發現大家都錯了,原來它叫GTX 680。至於它為何叫680,而不叫670 Ti、660 Ti之類,這裡借用一句話:「Radeon HD 7970性能低於預期。
話歸正題,有關架構解析以及特性介紹前面的文章已經講的比較詳細了,這裡主要看一下GeForce GTX 680顯卡設計方面有哪些改進之處。首先值得一提的是,伴隨著Kepler全新架構的發佈,此前已經沿用多年的GeForce顯卡Logo從此舊貌換新顏,象徵著GeForce GTX 600家族的全新面貌。

全新的GeForce Logo

此前的GeForce Logo
定位方面,GeForce GTX 680將取代上代單芯旗艦GeForce GTX 580的位置,成為NVIDIA目前性能最想的單芯顯卡。規格上,GeForce GTX 680基於台積電28nm全新工藝的GK104核心打造,內建1536個CUDA核心,默認基礎頻率為1006MHz,動態提速頻率為1058MHz(參考值),配備2GB 256-bit GDDR5顯存,顯存頻率高達6008MHz。顯卡TDP設定為195W,相比上代GTX 580已經省電太多了。

輸出接口方面提供了2個雙鏈接DVI接口、1個HDMI接口以及1個DisplayPort接口,可以實現單卡3屏3D立體環繞(包括3+1),總線接口方面也和對手HD 7970一樣升級到PCI-E 3.0。

另外,輔助供電接口為雙6pin,不過設計方式上發生了一些變化,不再是之前普遍的一字排開,而是兩個供電接口一上一下,至於為何這麼設計,NVIDIA官方給出的說明是可以縮短PCB長度。


雖然表面看來,GeForce GTX 680採用的雙槽散熱設計和之前的GeForce GTX 580真空腔均熱板搭配渦輪風扇的方案沒有太大不同,但事實上內藏玄機。按照NVIDIA說法:GeForce GTX 680專門為靜音遊戲設計。為了在高負載遊戲下的靜音表現,顯卡散熱器採用的7cm渦輪風扇使用了特別的降噪材料,而且在散熱鰭片下內置了三根純銅熱管,另外專門定制的散熱鰭片也將更加利於散熱氣流流通。

GeForce GTX 680
GeForce GTX 580
Radeon HD 7970
核心代號
GK-104
GF-110
Tahiti XT
核心架構
Kepler
Fermi 2.0
GCN
工藝製程
28nm
40nm
28nm
晶體管數量
3.54 billion
3.0 billion
4.31 billion
核心面積
294mm
520mm
365mm
預設頻率
1,006MHz
772MHz
925MHz
流處理器單元
1,536
512
2,048
紋理單元
128
64
128
ROP單元
32
48
32
像素填充率(GTexel/s)
128.8
52.4
115.6
顯存位寬
256bit GDDR5
384bit GDDR5
384bit GDDR5
顯存容量
2GB
1.5GB
3GB
顯存頻率
6.0Gbps
4.0Gbps
5.5Gbps
顯存帶寬
192.26GB/s
192.384GB/s
264GB/s
PCI-Express
3
2
3
最大功耗
195W
244W
250W
輔助供電接口
2x 6-pin
6+8-pin
6+8-pin
DirectX
11
11
11.1
OpenGL
4.1
4.1
4.1
通用計算
CUDA, OpenCL
CUDA, OpenCL
OpenCL 1.2
默認多屏輸出
4
2
4
GeForce GTX 680做工用料介紹


GeForce GTX 680整卡長度為10英吋(約25.4厘米),比GeForce GTX 580略短(10.5英吋,約26.7厘米),整體風格較上代GeForce變動不大。從背部PCB來看,相比以往的高端卡用料要遜色一些。

拿掉導風罩後可以看到,GeForce GTX 680和上代GTX 580一樣採用了大尺寸真空腔均熱板,搭配了一體化的緻密散熱鰭片以及一枚7cm PWM渦輪風扇。上面我們也提到了,顯卡散熱器渦輪風扇使用了特別的降噪材料,而且在散熱鰭片下內置了三根純銅熱管,另外專門定制的散熱鰭片也將更加利於散熱氣流流通,在靜音和降噪兩方面都有進步

PCB整體佈局,核心及顯存供電集中在PCB右側,正面安置八顆顯存,雙6pin外接輔助供電設計了一顆扼流電感,DVI接口也採用全封閉試。

GK104核心,編號為「GK104-400-A2」,產自台灣。核心面積由GF 110的520平方毫米銳減到294平方毫米,開始走小核心戰略,將更加突出能耗比。核心默認基礎頻率為1006MHz,成為歷史上首款默認頻率超過1GHz的顯卡。

海力士H5GQ2H24MFR-R0C GDDR5顯存,單顆規格容量為256MB,正面八顆共同組成2GB/256-bit的顯存規格。為了彌補位寬上的劣勢,GK104的顯存控制器重新設計,從而使得等效頻率高達6008MHz。

核心供電主控為RT8802A PWM芯片,最多可支持5相供電回路管理,輸出電壓為0.375V-1.6V,具備過電壓保護,保證顯卡穩定運行。

4相核心+2相顯存的供電方案,客觀來說比較普通。不過正是應為GK104核心著重了功耗優化,所以4+2相即可滿足峰值負載,過度供電反而會消耗更多功耗,浪費成本。不過我們注意到,PCB開始設計了5想核心供電,不過這裡空焊了一相,不知道是不是為更強的型號預留的。
NVIDIA官方GTX 680高清大圖賞
前面的架構分析和特性介紹稍顯枯燥,下面來點輕鬆的。每次NVIDIA給出的官方產品圖都賞心悅目,此次GeForce GTX 680也不例外,以下為無碼高清大圖,未經壓縮,喜歡的朋友可以收藏作為桌面壁紙使用。







測試平台配置及測試說明
為了保證系統沒有瓶頸,最大程度的發揮GeForce GTX 680和對比測試顯卡的性能,我們選擇了目前綜合性能最為加強悍的SNB-E平台進行測試,具體測試平台如下:
測試平台配置
處理器
Intel Core i7-3960X OC 4.2GHz
主板
技嘉X79-UD7
內存
海盜船DDR3 1600 2GB x 4
顯卡
AMD Radeon HD 7970(925/5500MHz)
AMD Radeon HD 7970 OC (1100/6000MHz)
技嘉GV-N580SO-15I(調至公版的772/4008MHz)
NVIDIA GeForce GTX 680(1006/6002MHz,具備動態提速)
硬盤
希捷7200.12 1T
電源
酷冷至尊GX 750
散熱器
超頻三深藍W120
操作系統
Microsoft Windows 7 64bit SP1中文版
測試項目
3DMark Vantage
3DMark 11
Unigine Heaven 2.5
《使命召喚7:黑色行動》
《星際爭霸2》
《孤島驚魂2》
《孤島危機》
《鷹擊長空2》
《孤島危機2》
《塵埃3》
《潛行者:普裡皮亞季的呼喚》
《戰地3》
《異形大戰鐵血戰士》
《地鐵2033》
《失落星球2》
Comepute Mark運算測試
微軟DX11 SDK曲面細分測試
溫度、功耗測試
超頻測試
驅動程序
AMD催化劑8.95.5 For Win7 64bit
NVIDA顯卡驅動程序300.99 For Win7 64bit
www.mydrivers.com
軟硬件安裝完成以後,正確的測試方法是:開機進入到桌面上以後,待系統準備就緒後,才開始運行測試(關閉UAC、屏幕保護程序、系統還原、自動更新等對測試得分有干擾的系統任務)。所有測試項目都運行三遍,在測試成績穩定、可靠的情況下,我們以其中最好的一次成績為準。

GTX 580

Radoen HD 7970

Radeon HD 7970 OC 1100/6000MHz

GTX 680
由於GeForce GTX 680具備GPU動態提速功能,而且不可關閉亦不受人為控制,提速後的頻率隨時變化,所以之前很多玩家呼聲很高的和Radeon HD 7970同頻對比並不能客觀的進行測試。不過我們在測試中發現在大多數情況下,GeForce GTX 680都可動態提速到1100MHz以上,所以這裡加入了Radeon HD 7970 OC至1100/6000MHz頻率的成績對比,僅供參考。
DX10理論性能測試:3DMark Vantage
3DMark Vantage能全面支持多核心處理器、發揮多路顯卡的優勢,能在當前和未來一段時間內滿足PC系統遊戲性能測試的需求。它包括兩個圖形測試項目、兩個處理器測試項目、六個特性測試項目。借助於DX10 API的新技術和高效能,它為玩家帶來了一場絢麗逼真的視覺特效盛宴。並且,3Dmark Vantage還特別加入了對人工智能(AI)和物理加速的專門測試。作為業界採用最多的DX10綜合性基準測試工具,3DMark Vantage必不可少。

3DMark Vantage中,DX10、SM4.0、物理加速這些新技術第一次得以展現得淋漓盡致,3DMark Vantage還為我們帶來了很多新穎的東西,它把測試結果按照畫質等級預設劃分成了入門級(Entry,E)、性能級(Performance,P)、高端級(High,H)、極限級(Extreme,X)四類,測試必須嚴格運行在這四套預設模式下;測試結果得分表達方式也改成了字母加數字的組合形式,從而更細緻地反映系統性能等級,可以更對位、更公平地進行比較,省去了很多對測試結果再進行說明的麻煩。在本次的測試中,我們選用了性能級(Performance,P)、高端級(High,H)以及極限級(Extreme,X)三項項進行測試.結果如下:

3DMark Vantage方面,GTX 680順利登頂,領先默認頻率下的HD 7970接近10%左右。但在HD 7970超頻至1.1GHz以後,這種優勢蕩然無存,GTX 680僅能在P模式中領先1.1GHz的HD 7970 8%左右,但在負載更高一些的H以及X模式中略微落後於後者。
DX11理論性能測試:3DMark 11
3DMark 11是Futuremark在DX11顯卡全面上市一年之後才推出的DX11顯卡性能測試工具。3DMark 11基於原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面細分、計算著色器、多線程。3DMark 11繼承並改良了3DMark Vantage的統計方式,尤其是去掉了較少用戶使用的高端級(H),其他三種也有了新的變化:

- 極限級(X):分辨率固定為全高清的1080p 1920×1080,支持極高負載,適用於高端遊戲PC,尤其是Radeon HD 5970、GeForce GTX 580這種頂級顯卡,並且按照設計在未來幾年內也不會辱沒「顯卡殺手」的榮譽。
- 性能級(P):分辨率固定為高清的720p 1280×720,支持中等級別負載,適用於絕大多數主流遊戲PC,比如Radeon HD 5770、GeForce GTX 460之類的顯卡,不過發佈初期仍然需要高端卡才能跑出流暢的幀率。很顯然,這個級別在今後將依然是我們最常見的評定標準。
- 入門級(E):分辨率固定為標清的1024×600,支持低負載,適用於大多數筆記本和上網本,特別是集成顯卡。結果如下:

3DMark 11測試中,GTX 680優勢更加明顯一些,能夠領先默認頻率下的HD 7970達到16%,在HD 7970超頻至1.1GHz以後也能夠繼續保持領先優勢。
DX11理論性能測試:Unigine Heaven 2.5
遊戲引擎開發商Unigine推出的DirectX 11 GPU測試程序Heaven Benchmark自去年10月推出以來,就憑借對曲面細分等新特性應用的深度和廣度成為媒體和玩家測試DX11顯卡的重要工具,無論AMD還是NVIDIA都對其成績相當看重。其2.0版對測試程序進行了升級改進,增加了更多的DX11特效以及對原有引擎進行優化。而之後的Heaven 2.1又加入了對OpenGL 4.0標準規範的支持,包括OpenGL模式下的硬件曲面細分技術。前不求,最新的2.5版本也伴隨著少許更新正式發佈。

測試方法:內建Benchmark。
測試選項:分辨率為1920x1200,開啟8AA 16AF,曲面細分級別設定為Extreme。結果如下:

曲面細分能力一直N卡的強項,Fermi的曲面細分能力本來就十分強勁,經過優化之後的Kepler自然會更上一層樓。GTX 680大幅領先於默認頻率下的HD 7970,在HD 7970超頻至1.1GHz以後依然能夠領先10%。
DX9遊戲性能測試:《星際爭霸2》
《星際爭霸2》歷經數次跳票,終於來到大家面前。作為《星際爭霸》的續篇,3D化的《星際爭霸2》繼續講述了人族、星靈和異蟲三族的故事,將以三部曲的形式推出,即Wings of Liberty(自由之翼)、Heart of the Swarm(蟲群之心)和Legacy of the Void(虛空之遺),目前,Wings of Liberty(自由之翼)已經正式發售。雖然僅基於DX9技術,但《星際爭霸2》在高畫質下的畫面效果依然相當出色,並且對硬件的要求也不算太高。

測試方法:播放錄像,利用Fraps記錄激烈片段200秒片段內的平均幀數。
測試設置:分辨率設定為1920x1200,超高畫質,關閉垂直同步。結果如下:

《星際爭霸2》對GPU的要求並不高,參測四款顯卡均能夠達到100幀以上,畫面十分流暢。因此單純的成績對比並沒有什麼太大的意義。但值得一提的GTX 680的平均幀數居然是參測四款顯卡最低的,應該是驅動程序還沒有優化到位的緣故。
DX9遊戲性能測試:《使命召喚 黑色行動》
本次測試的DX9遊戲項目中,我們用熱門FPS作品《使命召喚 黑色行動》,仍然沿用原有引擎,但在畫面上又有了進一步優化,使用新作測試也更加符合玩家們的實際應用環境。

測試方法:選擇U.S.D.D.關卡中開始場景,用Fraps記錄遊戲開始後200秒內的幀數。
測試選項:所有畫質均設置最高,分辨率1920x1200,開啟4AA 16AF,關閉垂直同步。結果如下:

《使命召喚7:黑色行動》情況與《星際爭霸2》類似,參測四款顯卡平均幀數都在87幀左右,達到了瓶頸值。但GTX 580與GTX 680在最低幀數方面搖搖領先於HD 7970,即使是HD 7970在超頻至1.1GHz以後也依然不夠看。
DX10遊戲性能測試:《Crysis》
《Crysis》遊戲發生在一個如史前公園般美輪美奐的熱帶小島上,如畫般的沙灘,細緻得令人心動的叢林,清澈得讓人情不自禁想跳下去的水,都在向我們展示著下一代遊戲應有的樣子。《CRYSIS》的遊戲場景,是在夏威夷群島實地取景創作而來。Crytek以毫不吝嗇硬件資源的堅持精神,在這款大作中揮毫潑墨,為我們展現了一幅足以亂真、猶如親歷的細膩熱帶叢林遊戲場景,並在DX10效果、物理技術、槍械系統的合力支持下,將自然還原到了每一個細節。它將靈活刺激的遊戲體驗與驚人的視覺效果相結合,輕鬆成為有史以來最好的射擊遊戲之一。但是它也使廣大玩家的遊戲平台飽受折磨,輕鬆入選有史以來最變態的「機器殺手」排行榜。

測試方法:官方BenchmarkTool。
測試選項:分辨率為1920x1200,4AA,關閉垂直同步,最高畫質,DX10模式。結果如下:

《Crysis》一向都是A卡的強項,這次也不例外,GTX 680落後於默認頻率下的HD 7970接近10%。
DX10遊戲性能測試:《FarCry 2》
相比上代《FarCry》的熱帶風情,《FarCry 2》遊戲場景設定在了廣闊的非洲草原,整個遊戲世界面積達到50平方公里,玩家可以自由在其中馳騁,而遊戲的結局也是開放的。遊戲中的環境可以動態變化,玩家甚至能體驗到一年四季的變化。加上支持DX10 API的DUNIA引擎,令遊戲特效細節表現的非常真實出色,如動態天氣效果、24小時日夜循環以及動態火焰已經成為遊戲中的基本配置。

測試設置:分辨率為1920x1200,8AA,關閉垂直同步,DX10模式,最高畫質。
測試方法:遊戲內置測試工具,多次測試選取平均值。結果如下:

《FarCry 2》中GTX 680輕鬆取得了領先,最低幀數方面參測四款顯卡差距都不大,但在平均幀數方面GTX 680領先超頻至1.1GHz的HD 7970超過10%。
DX11遊戲性能測試:《潛行者:COP》
隨著新世代顯卡的發佈,遊戲的畫質終點將逐漸轉向DX11,《潛行者》最新的資料片《Call of Pripyate》就是其中的代表。《潛行者》系列遊戲對最新的3D技術支持一向很迅速,第一部資料片《切爾諾貝利的陰影》是最早支持DX10特效的遊戲之一,之後的資料片《晴空》又率先垂范DX10.1,而最新的《普裡皮亞季的召喚》迅速靠攏DX11規範。

《普裡皮亞季的召喚》遊戲採用基於X-Ray 1.6引擎,支持DX1110.110中的大量畫質增強技術,比如硬件細分曲面(Hardware Tessellation)、接觸硬化陰影(Contact Hardened Shadows)、高清環境光遮蔽(HDAO)、後期處理(Post Processing)、陡峭視差貼圖(Steep Parallax Mapping)、濕滑表面、動態延遲光照(陽光散射泛光調和映射)、日夜循環等等。
測試方法:遊戲內建測試程序。
測試選項:分辨率1920x1200,4AA,所有畫質最高,DX11模式,開啟Tessellation選項,記錄Rain場景下的平均幀數。結果如下:

《潛行者:COP》A卡也比較佔優勢,但成績方面GTX 680平均領先默頻HD 7970高達20%,與超頻至1.1GHz的HD 7970持平,但在最低幀數方面領先超頻後的HD 790依然超過10%。
DX11遊戲性能測試:《異形大戰鐵血戰士》
由Rebellion開發、世嘉發行的科幻射擊遊戲《異形大戰鐵血戰士》是世界上已經發售的支持DX11的第3款PC單機遊戲,前2款分別為《科林麥克雷的拉力賽塵埃2》和《潛行者:普裡皮亞季的召喚》。《異形大戰鐵血戰士》也是根據電影改編的遊戲。與其它粗製濫造騙錢的同名電影改編遊戲不同,《本作不僅在劇情和遊戲可玩性方面下足了功夫,而且在遊戲畫面方面將取得突破,AVP將會完全採用DX11引擎設計,大量使用最新的技術和特效,力圖營造出接近電影品質的電腦遊戲。

測試方法:《異形大戰鐵血戰士》測試程序。
測試選項:分辨率為1920x1200,4AA 16AF,所有畫質均調至最高,同時關閉垂直同步選項。開啟Tessellation。 結果如下:

《異形大戰鐵血戰士》測試中GTX 680與默認頻率下的HD 7970成績相差無幾,自然也就落後於同頻下的HD 7970。
DX11遊戲性能測試:《鷹擊長空2》
作為育碧飛行模擬流行作品的正統續作,《H.A.W.X 2》延續了第一代追求爽快感的空戰遊戲定位,駕乘戰機鳥瞰依據真實衛星地圖打造的廣闊大地也成為了許多玩家的獨特趣味。二代作品通過引入DX11曲面細分技術,大幅度提升了蜿蜒曲折的地形特效,進一步增加了遊戲畫面的真實性。

測試設置:所有畫質均設置最高,分辨率為1920x1200,8AA,關閉垂直同步,DX11模式。
測試方法:使用遊戲自帶測試程序。結果如下:

《鷹擊長空2》中,各款顯卡幀數都比較高,相對來說GTX 680和HD 7970 OC至1.1GHz比較接近,不過100幀以上也就沒有太大差別了。
DX11遊戲性能測試:《塵埃3》
《Dirt 3》是剛剛發佈不久DX11遊戲的典型作品,基本涵蓋了DX11的各種代表性技術,如硬件曲面細分、多線程、高清環境光遮蔽以及計算著色器等。但其DX11技術應用大多都點到為止,應用範圍也僅限於畫面中的少部分元素,因此對DX11顯卡的要求並不算太高,但是略高於《Dirt2》。

測試方法:遊戲內建測試程序。
測試選項:分辨率為1920x1200,8AA,所有畫質均設置高等,DX11模式。結果如下:

《塵埃3》是去年AMD的主打遊戲,但A卡在此遊戲中的表現也強不到哪裡去。成績方面GTX 680在平均幀數以及最低幀數方面都領先默認頻率下的HD 7970達到15%左右,與超頻至1.1GHz的HD 7970相持平。
DX11遊戲性能測試:《戰地3》
由EA DICE工作室開發的《戰地3》採用了最新的「寒霜2」引擎,完美支持DirectX 11,並且擁有強大的物理效果,最大的亮點還是光照系統,其渲染的場景已近乎亂真的地步,視覺效果堪稱絕贊。遊戲還支持即時晝夜系統,為玩家營造一個親臨現場的真實環境。

《戰地3》的PC版多人模式支持高達64人網絡對戰,主機版則最大支持24人。而且將帶來更多種多樣的武器以及解鎖內容,成為《戰地》系列武器數量之最。另外遊戲的單人戰役模式同樣支持合作模式。
測試方法:使用Fraps記錄遊戲關卡《碎劍者行動》過場動畫幀數。
測試選項:1920×1200,4AA,最高畫質。結果如下:

《戰地3》無愧於新一代顯卡殺手的稱號,兩款新一代的單芯卡皇在最高畫質下成績均不足60幀。從數據方面來看GTX 680在最低幀數與平均幀數方面與默認頻率下的HD 7970相差無幾,距離超頻至1.1GHz的HD 7970還有一定的差距。
DX11遊戲性能測試:《地鐵2033》
《地鐵2033》(Metro 2033)是俄羅斯工作室4A Games開發的一款新作,也是DX11遊戲的新成員。該遊戲的核心引擎是號稱自主全新研發的4A Engine,支持當今幾乎所有畫質技術,比如高分辨率紋理、GPU PhysX物理加速、硬件曲面細分、形態學抗鋸齒(MLAA)、並行計算景深、屏幕環境光遮蔽(SSAO)、次表面散射、視差貼圖、物體動態模糊等等。

測試方法:選擇遊戲開場的一段動畫,用Fraps記錄遊戲開始至人物可以自由活動之間的幀數。
測試選項:分辨率1920x1200,所有畫質調至最高,DX11模式,4AA 16AF選項。結果如下:

《戰地3》無愧於新一代顯卡殺手的稱號,兩款新一代的單芯卡皇在最高畫質下成績均不足60幀。從數據方面來看GTX 680在最低幀數與平均幀數方面與默認頻率下的HD 7970相差無幾,距離超頻至1.1GHz的HD 7970還有一定的差距。
DX11遊戲性能測試:《失落星球2》
卡普空的《失落星球》曾是最早提供DX10支持的遊戲之一,因此也成為熱門的評測用遊戲。而在DX11時代,《失落星球2》雖然沒有拔得頭籌,但對DX11技術的應用也絲毫不落人後。DX11技術將幫助該作提供煙霧容積和景深效果,更真實的爆炸、火焰和液體特效,關卡Boss還會依靠細分曲面技術呈現更多的細節。另外,和NVIDIA一向關係良好的卡普空還會在該作中提供3D Vision和3D Vision Surround立體技術支持。

測試方法:自帶Benchmark。
測試選項:分辨率1920x1200,最高畫質開啟4xMSAA。結果如下:

《失落星球2》對顯卡頻率不是十分的敏感,HD 7970在超頻後平均幀數提升不大,最低幀數居然有了一定程度的下降。數據方面,GTX 680與HD 7970相持平,差距都在誤差之內。
運算能力測試:DX11 SDK
運算測試方面,我們選用了微軟DX11 SDK開發資源正式版中附帶的DirectX 11 Compute Fluid Simulation(流體模擬測試)工具進行測試。

結果如下:

DX 11 SDK CS流體模擬測試中的網絡搜素是微軟基於早期的CUDA而來的,因此在測試中N卡明顯佔據優勢,GTX 680相對於GTX 580有了10%左右的提升,領先HD 7970超過30%。
運算能力測試:Compute Mark
ComputeMark由捷克硬件和遊戲網站CzechGamer.com的Robert Varga開發完成,技術上基於Jan Vlietinck的Fluid3D Demo,號稱是「第一個百分之百的DX11 Compute Shader基準測試工具」,一般情況下能夠調動99%的GPU資源,CPU佔用率只有0-1%,因此在考察GPU通用計算性能的同時,也能考驗顯卡的穩定性,對超頻亦有所幫助,另外測試的時候還可以自行選擇運行時間(單位秒)。

結果如下:

Compute Mark測試中,GTX 680表現有些不給力,比不過默認頻率下的HD 7970,同頻下就更不用說了。
曲面細分能力測試
曲面細分能力除了上文中我們測試的Unigine Heaven 2.5之外,我們還加入了微軟DX11 SDK開發包中的細節紋理採樣測試。曲面細分是NVIDIA宣傳所謂真DX11的利器,AMD也在不斷改進,宣稱Radeon HD 7970性能是上代的四倍。在這個項目中,normal、max級別的曲面細分因素分別是7、15,其中前者是比較正常的普通情況,而後者就比較極限了。

結果如下:

經過多次測試後仍然出現上面的結果,有些讓人大跌眼鏡,著重強調曲面細分性能升級的GTX 680居然不敵上代的GTX 580,跟HD 7970差距就更大了。這裡猜測應該是驅動方面的原因。
溫度、功耗測試
溫度測試方面,選取顯卡待機、遊戲滿載(Furmark極限拷機)兩種狀態,利用GPU-Z實時監控,待連續運行10分鐘峰值溫度穩定後,記錄此時各款顯卡核心的最高溫度。(室溫10℃)

溫度方面,GTX 680公版還算可以,室溫為10度左右,測試平台為開放環境,測得的數據和上代GeForce GTX 560 Ti等主流型號表現相近。而且實測過程中表現相對安靜,即便滿載也沒有明顯的噪音,這一點值得肯定。
功耗測試部分利用功耗儀直接測量整套平台的總功耗,其中包括CPU、主板、內存、硬盤、顯卡、電源以及電路損耗所有在內的整機功耗(不包含顯示器)。選擇顯卡運行3DMrak 11測試,遊戲(Crysis)和滿載(Furmark拷機)三種狀態,穩定運行10分鐘選取期間最大值,測試結果如下:

功耗測試方面GTX 580依然是最猛的,隨著製造工藝的不斷提升,單芯顯卡想要打破這個記錄是真的很難的,或許傳說中TDP接近300W的GK110能夠接過大旗,不過那是今年底甚至明年初的事情了。GTX 680的TDP官方宣稱為195W,但從實際測試中來看其高負載下的功耗比250W TDP的HD 7970低不了多少,基本上處於同一個檔次。
超頻能力測試

超頻能力測試方面首先需要說明的是GTX 680在超頻之後動態加速依然存在,首先我們在默認電壓下將GTX 680超頻至1.1GHz,從軟件監控中發現GTX 680在測試中可以動態加速最高至1.2GHz以上,但耐人尋味的是3DMark 11相比基礎頻率時的成績(此時同樣也有動態提速效果)卻絲毫沒有提升。

隨後我們加壓,將GTX 680默認頻率提升至1.15GHz,此時動態加速最高頻率最高已經達到了1.3GHz左右,但3DMark X模式成績居然出現了接近10%下降,難道GTX 680也有所謂的"頻率牆"?不過按說28nm的能耐不該限於此,目前筆者也未能找到合理的解釋。
總結:開普勒的反擊 NVIDIA的開始

如果單從架構方面來看,Kepler相對於Fermi的變革,並沒有當初Fermi較GT200來得徹底。經過一些系列的深入分析之後,我們發現Kepler更像是第二代費米的優化升級版本。很多功能模塊單元都十分類似,有些則是完全繼承,只是設計方式上有了很大不同。當然,這並不意味著Kepler的改進不夠明顯,簡單來說可以歸納為以下幾點:1、核心規模更為精簡,開始走小核心戰略;2、性能/功耗比值大幅提升,功耗管理有所改善;3、執行和調度效率上大幅提升;4、曲面細分引擎、紋理單元以及顯存控制器有較大改進
相比架構,Kepler帶來的全新特性似乎更能讓人印象深刻,GPU動態提速、自適應垂直同步、TXAA全新抗鋸齒、單芯3屏3D立體環繞、NVENC視頻編碼引擎中的每一項技術都為產品附加值增光添彩。其實仔細來看,這些技術都從側面透露出NVIDIA的對於玩家的用心之處:GPU動態提速用來提升顯卡在遊戲中的性能表現、自適應垂直同步以及TXAA全新抗鋸齒分別用來改善遊戲的流暢度和以最小的代價換來更為出色的畫面平滑度、而單芯3屏3D立體環繞彌補了以往GeForce顯卡在多屏輸出領域的軟肋,至於NVENC視頻編碼引擎則為用戶提供了一項在顯卡較低功耗的條件下效率的編碼途徑。
不過,其中的一些技術都是前所未有首次露面,成熟度和完善度上還稍有欠缺。比如,最為搶眼的GPU動態提速目前客觀來說還不夠人性化,如果能讓玩家參與其中或者能夠根據需要開啟關閉似乎更加合理,所以我們十分期待未來後續產品帶來的改進版本。

說完架構特性,下面就是玩家們最為關心的性能、功耗以及溫度問題了。事實上,在設計之初,Kepler的目標就是繼續突破圖形計算性能的極限,打造出世界上最有效率的GPU,而且相比前代產品額外強調了性能/功耗比率。在實際測試過程中,GeForce GTX 680綜合性能領先AMD Radeon HD 7970約10-15%左右,而相比自家上代單芯旗艦性能飆升達35-40%。總得來說這一性能表現基本符合預期目標,畢竟GK104放在以往來說只能算是主流級別的核心,核心規模相比前二者都要小的多,從這一點來說Kepler的架構優化和設計初衷是成功的。
不過對於功耗表現來說,GeForce GTX 680並沒有達到我們理想的狀況。雖然NVIDIA一再說到GK104中的單元設計和電源管理都為優化功耗而來,但從實際測得的數據來看相比Radeon HD 7970並沒有非常明顯的優勢(前後二者的TDP相差55W之多)。當然,相比上代GeForce GTX 580,GeForce GTX 680的功耗已經改善了太多;而發熱量部分還算不錯,即便核心頻率如此之高,而且存在實時動態提速,測得的數據也大致和之前測過的GeForce GTX 560Ti相差不多,高負載下也沒有明顯的噪音。看來核心面積的減小、28nm工藝的助陣以及散熱器的改進確實起到了不小的作用。
最後說一下價格,直到今天中午,NVIDIA才公開了GeForce GTX 680最終的國內官方定價:3999元。相比Radeon HD 7970發佈之時4299-4699的定價已經便宜了不少。當然,這一定價僅針對公版GTX 680,未來更強的非公版則沒有具體價格限制。可以確定是,GeForce GTX 680全面上市之後,Radeon HD 7970估計會有一定價格下調。
不管怎樣,GeForce GTX 680已經實現了世界最快顯卡的目標,也吹響了Kepler全新架構的反擊號角。但是我們要說的是,這對於目前的NVIDIA來說只能算是一個開始,一個全新的開始,不是嗎?


※ ※ ※ 本文為 andy6989 與 熊蓋站 共同所有,未經同意,請勿轉載 ※ ※ ※

 



≡熊蓋站管理團隊≡--共勉之--



[樓 主] |
發表於:2012-03-23 17:33

  熊蓋站 -> 硬體資訊

v 最新文章        熊蓋站為自由討論論壇,所有個人行為或言論不代表本站立場。文章內容如有涉及侵權請聯絡我們,將立即刪除相關文章資料        v 精華文章

               

奇摩搜尋
完全比對 模糊比對

線上收看: 景點即時影像 | 線上查詢: 火車時刻表最上方

    Powered by 熊蓋站  Code © 2005-2017 Plurk Twitter 
讀取秒數Time 0.015992 second(s),query:4 Gzip enabled
   現在時間是 2024-11-30 20:38