首先我们来看看NVIDIA的公版产品,作为NVIDIA目前最顶级的型号,GTX690在硬件配备方面可以看成是将两片标准规格GTX680合二为一,搭载了两颗GK104显示核心,显存规格也是GTX680的两倍,达到4GB容量,流处理器则达到了史无前例的3072个。
一般来说,NVIDIA的高端产品一般都会搭载一款全覆式散热器,并使用涡轮风扇进行散热,但从GTX590开始,一颗9扇叶风扇取代了涡轮风扇被安置在两颗显示核心中间,同时帮助两颗显示核心完成散热工作,不同是的,GTX690不再是千篇一律的黑色导流罩了。
很多朋友认为普通风扇会由于空气湍流问题在散热效能方面没有涡轮式风扇好,而NVIDIA再次在最顶级型号上采用了普通风扇,其散热效能我们将在后面的满载温度测试中进行验证。
经过精心设计,GTX690不但在游戏性能上达到了全新高度,而且外观也刚劲无比。除了运用豪华材质打造出异乎寻常的设计以外,该显卡还囊括了一系列创新技术。
1.外部框架由铝制成,采用三价铬电镀处理,强度极高、坚固耐用
2.风扇外壳由镁合金以触变成型工艺制成,不但散热效果绝佳而且还能抑制振动l 十相重载型电源采用十层两盎司铜质印刷电路板,不但供电效率高,而且具有电阻小、功耗低和发热量低的特点
3.散热方案采用双均热板、镀镍散热片与中置的轴流式风扇,叶片间距和进气角度均进行了优化,可有效散热
4.低矮型部件设计以及运用管道的底板通道可令气流通畅无阻,最大限度消除了湍流现象、改善了噪音水平
拆掉散热器可以看到整齐排列在黑色PCB上的各种元件,最显眼的就是那两颗GK104显示核心了,每块显示核心周围有8颗三星GDDR5显存颗粒,合计共有4GB显存容量。
默认核心/显存频率为915/6008MHz,比GTX590的608/4860MHz高出很多,比GTX680稍低,而且GTX690的功耗只有300W,比GTX590的365W更低。GTX690显卡依然采用了两个8Pin口辅助供电。
为了同时支持两颗GK104显示核心运作,GTX690在供电模块共配备10相供电,并且使用了大量贴片元件,显卡背面可以看到众多钽电容和多层陶瓷电容,高品质用料保证了显卡工作稳定性。
上图中是显卡背面的元件分布,显卡提供一个SLI接口,支持双卡四核心SLI。
GTX690在接口方面增加了一个DVI口,形成三个DVI加一个Mini DP接口的规格,可以支持4屏显示以及3D立体幻境。
开普勒目前发布了两款显卡:GTX680和GTX690,而这两款显卡都是基于GK104核心。下面我们就介绍一下这款杰出的GPU架构。
尽管AMD的架构在向NVIDIA靠拢,但双方还是有明显区别,而且NVIDIA也在不断的改变。至于NVIDIA和AMD历代产品架构上的变化,之前多篇文章中都已经交代过了,这里就不再重复,我们通过这个简单的数字变化,来了解一下:
先看看AMD方面,从R600一直到Cypress,可以说一直在堆SIMD,动辄翻倍,架构没有任何变化;从Cypress到Cayman变化也不大,只是把矢量单元从5D改为4D;从Cayman到Tahiti可以说是质变,SIMD被GCN取代,4D矢量运算单元改为1D标量运算单元。
而NVIDIA方面,则是不停的对GPU的GPC、SM、CUDA核心等配比进行微调,在微调的过程中经历了两次突变:第一次是GT200到GF100,首次引出了GPC(图形处理器集群)的概念,GPC数量减少但SM数以及流处理器数量增加不少;第二次就是现在了,从GF100到GK104,SM数量减少,但流处理器数量暴增!
改变是为了适应形式的变化,解决此前出现的一些问题,那NVIDIA的架构有什么问题呢?此前我们多次提到过,虽然NVIDIA的GPU在效能方面占尽优势,但也不是完美无缺的——NVIDIA最大的劣势就是流处理器数量较少,导致理论浮点运算能力较低。当然这只是表面现象,其背后的本质则是MIMD(多指令多数据流)的架构,相当一部分比例的晶体管消耗在了指令发射端和控制逻辑单元上面,所以流处理器数量始终低于对手。
GF110和GK104芯片对比图
为了保证GPU性能持续增长,NVIDIA必须耗费更多的晶体管、制造出更大的GPU核心,而这些都需要先进的、成熟的半导体制造工艺的支持。NVIDIA之所以在GF100(GTX480)时代落败,并非架构或者研发端出了什么问题(GF110/GTX580的成功可以证明),而是核心太大导致40nm工艺无法支撑,良率低下漏电流难以控制,最终导致核心不完整且功耗巨大。如此一来,NVIDIA原有的架构严重受制于制造工艺,并非可持续发展之路。
为此,NVIDIA将芯片架构逐步转向了SIMT的模式,即Single Instruction Multiple Threads(单指令多线程),SIMT有别与AMD的SIMD,SIMT的好处就是无需开发者费力把数据凑成合适的矢量长度,并且SIMT允许每个线程有不同的分支。 纯粹使用SIMD不能并行的执行有条件跳转的函数,很显然条件跳转会根据输入数据不同在不同的线程中有不同表现,这个只有利用SIMT才能做到。
SIMT在硬件部分的结构还是要比SIMD复杂一些,NVIDIA还是更注重效率一些,所以NVIDIA的流处理器数量还是要比AMD少,但差距已经没以前那么夸张了。
基于效能和计算能力方面的考虑,NVIDIA与AMD不约而同的改变了架构,NVIDIA虽然还是采用SIMT架构,但也借鉴了AMD“较老”的SIMD架构之作法,降低控制逻辑单元和指令发射器的比例,用较少的逻辑单元去控制更多的CUDA核心。于是一组SM当中容纳了192个核心的壮举就变成了现实!
通过上面这个示意图就看的很清楚了,CUDA核心的缩小主要归功于28nm工艺的使用,而如此之多的CUDA核心,与之搭配的控制逻辑单元面积反而缩小了,NVIDIA强化运算单元削减控制单元的意图就很明显了。
Fermi的硬件相关性检查变为Kepler的软件预解码
此时相信有人会问,降低控制单元的比例那是不是意味着NVIDIA赖以成名的高效率架构将会一去不复返了?理论上来说效率肯定会有损失,但实际上并没有想象中的那么严重。NVIDIA发现线程的调度有一定的规律性,编译器所发出的条件指令可以被预测到,此前这部分工作是由专门的硬件单元来完成的,而现在可以用简单的程序来取代,这样就能节约不少的晶体管。
随意在开普勒中NVIDIA将一大部分指令派发和控制的操作交给了软件(驱动)来处理。而且GPU的架构并没有本质上的改变,只是结构和规模以及控制方式发生了变化,只要驱动支持到位,与游戏开发商保持紧密的合作,效率损失必然会降到最低——事实上NVIDIA著名的The Way策略就是干这一行的!
The Way(游戏之道)计划可以保证NVIDA的GPU架构与游戏完美兼容
这方面NVIDIA与AMD的思路和目的是相同的,但最终体现在架构上还是有所区别。NVIDIA的架构被称为SIMT(Single Instruction Multiple Threads,单指令多线程),NVIDIA并不像AMD那样把多少个运算单元捆绑为一组,而是以线程为单位自由分配,控制逻辑单元会根据线程的任务量和SM内部CUDA运算单元的负载来决定调动多少个CUDA核心进行计算,这一过程完全是动态的。
但不可忽视的是,软件预解码虽然大大节约了GPU的晶体管开销,让流处理器数量和运算能力大增,但对驱动和游戏优化提出了更高的要求,这种情况伴随着AMD度过了好多年,现在NVIDIA也要面对相同的问题了,希望他能做得更好一些。
全新的Kepler相比上代的Fermi架构改变了什么,看架构图就很清楚了:
Fermi GF100/GF110核心架构图
Kepler GK104核心架构图
GK104相比GF110,整体架构没有大的改变,GPU(图形处理器集群)维持4个,显存控制器从6个64bit(384bit)减至4个64bit(256bit),总线接口升级至PCIE 3.0。剩下的就是SM方面的改变了:
GF100和GF104的SM架构图
这里之所以要把GF104这颗中端核心的SM架构图也列出来,是因为GF104相比高端的GF100核心做了一些细小的改动,这些改动也被沿用到了GK104当中。另外从核心代号上来看,GK104其实就是用来取代GF104的,而取代GF100的核心另有他人。
GK104的SMX架构图
NVIDIA把GK104的SM(不可分割的流处理器集群)称为SMX,原因就是暴增的CUDA核心数量。但实际上其结构与上代的SM没有本质区别,不同的只是各部分单元的数量和比例而已。具体的区别逐个列出来进行对比:
1. NVIDIA现在把流处理器称为CUDA核心;
2. SFU(Special Function Units,特殊功能单元)是比CUDA核心更强的额外运算单元,可用于执行抽象的指令,例如正弦、余弦、倒数和平方根,图形插值指令也在SFU上执行;
3. Warp是并行线程调度器,每一个Warp都可以调度SM内部的所有CUDA核心或者SFU;
4. Dispatch Unit是指令分派单元,分则将Warp线程中的指令按照顺序和相关性分配给不同的CUDA核心或SFU处理;
5. LD/ST就是载入/存储单元,可以为每个线程存储运算源地址与路径,方便随时随地的从缓存或显存中存取数据;
6. TMU是纹理单元,用来处理纹理和阴影贴图、屏幕空间环境光遮蔽等图形后期处理;
通过以上数据对比不难看出,GK104暴力增加CUDA核心数量的同时,SFU和TMU这两个与图形或计算息息相关处理单元也同比增加,但是指令分配单元和线程调度器还有载入/存储单元的占比都减半了。这也就是前文中提到过的削减逻辑控制单元的策略,此时如何保证把指令和线程填满一个CUDA核心,将是一个难题。
除了CUDA核心数量大增之外,开普勒架构还有个很明显的改变,那就是CUDA核心的频率不再是GPU频率的两倍,现在整颗GPU所有单元的工作频率都是相同的,GTX680的默认频率达到了1GHz!
NVIDIA的上代产品,比如GTX560Ti,一些AIC的超频版本默认核心频率可达900MHz,CUDA频率是1800MHz。按理说如果新一代架构改变不是很大的话,在28nm的帮助下核心频率到1GHz没有问题,那CUDA频率应该可以到2GHz才对。而现在的情况则是CUDA的频率“被减半了”。
NVIDIA官方对CUDA与核心同频的解释是——功耗原因,为了尽可能的控制GTX680的功耗,不再让CUDA工作在两倍频率下。
对于这种解释,笔者并不理解,如果CUDA频率真能工作在2GHz下,性能提升两倍,此时功耗增长两倍又如何?如此增加功耗是值得的,并不影响GTX680显卡的“每瓦性能”。
所以,笔者猜测此次CUDA与核心同频,应该有别的原因,以下猜测纯属虚构,大家随便看看不要当真:
原因一:此次NVIDIA对SMX的结构进行了大幅度的调整,除了控制逻辑单元削减外,过于密集CUDA单元结构也发生了一些变化,导致CUDA单元或控制逻辑单元上不了更高的频率,所以现在就和AMD一样同频了;
原因二:保留实力。NVIDIA官方发言人在AMD发布HD7970之后曾表示:AMD GCN架构“南方群岛”核心的表现并没有超出NVIDIA的预期,一切尽在掌握之中。而Kepler架构则将比南方群岛要强出许多,因为本来NVIDIA为新架构设计的对手是AMD更强的新产品,但实际上南岛并未达到NVIDIA的设想性能。
原因三:确实是功耗问题,强行让CUDA工作在双倍频率下对GPU的电路设计提出了很高的要求,28nm新工艺目前可能还尚未完全吃透,上高频有一定的难度。
虽然CUDA频率达不到两倍,但NVIDIA通过加入类似Intel睿频的技术,一定程度上提高了工作频率,性能也同比增长,而且高于预期,或者说是对手不如预期。
我们先来回顾一下显存控制器的发展史:
NVIDIA:G80(384bit)-G92(256bit)-GT200(512bit)-GF100(384bit)
AMD:R600(512bit)-RV670(256bit)-RV770(256bit)-Cypress(256bit)-Cayman(256bit)-Tahiti(384bit)
384bit显存应该是高端显卡的标配
● GK104核心为什么只有256bit显存?
大家应该注意到了,NVIDIA近年来的高端显卡,很少有256bit显存的设计,现在就连AMD都升级到384bit显存,256bit已经很难在跻身为高端,为什么NVIDIA新一代的GTX680居然降级到了256bit?
答案在其核心代号上面,GK104的定位就是取代GF104/GF114,它并非是NVIDIA最高端的GPU,显存方面自然不会用最高端的配置。
● GTX680显存频率弥补位宽不足,首次达到6GHz!
另外,之前我们反复提到过,AMD从HD4870开始第一次使用GDDR5显存,GDDR5的标准几乎可以说是AMD的人一手制定的,AMD历代GPU凭借GDDR5超高频率的优势,以较低的显存位宽很好的控制了成本。
而NVIDIA从GTX480开始也使用了GDDR5显存,但频率一直都上不去,GTX400和GTX500系列显卡的显存频率一直在4000MHz上下徘徊。NVIDIA的显卡在GPU频率方面超频能力还不错,但显存的超频空间几乎没有,即便有液氮的助力也无济于事。
现在,随着开普勒的发布,NVIDIA在显存频率上面终于反超AMD,重新设计的显存控制器突破了频率的桎梏,瞬间从4000MHz飙升至6000MHz,带宽提升达50%之多,这个幅度就相当于把256bit免费升级至384bit,显存带宽不再是瓶颈了。
长篇大论的分析相信大家看得都很累,最后我们将Tahiti与GK104这两颗GPU的所有规格都列出来,进行全方位的对比:
下面就通过数据分析一下架构的特性:
1. GK104的晶体管数比GF110减少了,但流处理器数量达到了三倍,NVIDIA改进架构、提高浮点运算的努力效果显著。但是,同为1536个流处理器,GK104的晶体管数要远大于Cayman核心,这就证明了SIMT还是要比SIMD更消耗晶体管;
2. GTX680的核心与显存频率都创新高,但是TDP却不到200W,这都要归功于它小核心的设计、以及不再使用双倍CUDA频率的作法,NVIDIA控制功耗的作法成效显著;
3. Tahiti的晶体管数是GK104的1.22倍,流处理器数量是1.33倍,这两个数字差距不是很大,N/A双方自DX10时代以来头一次达到了相似的晶体管利用率;
4. 从Cayman到Tahiti,AMD用了1.63倍的晶体管数才让流处理器数量达到了原来的1.33倍;从GF110到GK104,NVIDIA减少了晶体管数量却让流处理器达到原来的三倍;可以看出双方都在向对方的架构靠拢,目的只有一个,就是提高GPU的运算效能;
通过之前的测试数据来看,AMD的GCN架构相比上代确实提高了GPU的效能。而NVIDIA方面,GTX680的性能也必定远超GTX580。
在核心面积、晶体管数量、功耗、流处理器数量、显存容量、显存位宽得各方面都不占优势(唯一的优势就是频率)的情况下,GTX680的综合性能是否能够超越HD7970?Kepler与南方群岛的架构孰优孰劣?
全新的GPU Boost动态加速技术
对于显卡来说,核心频率仍然是决定其性能的关键参数,在相同架构和核心数量的情况下,更高的频率意味着更强的性能。而这一次“开普勒”除了架构上的全面改变,GTX680这次引入了一项全新技术:GPU Boost,意思是GPU加速。这种动态超频技术对我们来说并不陌生,Intel在CPU中使用了Turbo Boost(睿频)技术,NVIDIA此次的GPU Boost技术与其极为相似,不过这种技术是首次在GPU中使用,GTX680也是第一款应用了动态加速技术的显卡。
不同应用环境下的GPU功耗有多有少
一块显卡都有热设计功耗(Thermal Design Power,简称TDP),根据大量不同实际应用测试来决定最终GPU频率、电压等参数。不过,测试的时候发现,并非所有应用都可以达到TDP上限,在不同的使用环境下,显卡的功耗有所差异。而在没有达到散热、功耗极限的情况下,GPU核心频率依然有提高的余地,从而可以达到提升性能的目的,因此GPU核心实现动态加速的设计思路被NVIDIA的工程师所提出。
对于负载相对低的应用,执行效率上仍有上升余地
在保证同样功耗的前提下,动态调节GPU核心频率从而挖掘出显卡全部潜能
GPU Boost技术的实现是硬件和软件的完美结合。当应用运行时,硬件电路系统会实时监控功耗的变化,此时在软件控制(笔者注:Bios层面的控制,结合驱动程序,并不需要额外安装软件)下后台会动态调整GPU频率,根据功耗、热量、风扇转速的情况让GPU频率达到最高。
标准频率为1006MHz(因为误差软件显示为1005MHz)
在原本低负载的应用时提高GPU频率,达到1.1GHz以上
以GTX680为例说明,其基本核心频率为1006MHz,也就是运行3D程序时的最低时钟频率,热设计功耗为195W。当运行的应用负载未达到TDP上限时,GPU频率在大多情况下可以提升至1058MHz,甚至一些应用可以达到1.1GHz以上。
在过去,我们在运行3D游戏时经常使用到一种叫做垂直同步(VSync)的技术,该技术在渲染新帧的速率与显示器刷新速率保持一致,从而达到让游戏流畅运行的目的。不过这种技术存在一个问题,当渲染速度降低的时候,瞬间帧率会严重下滑,以我们常用的60Hz刷新率的显示器为例,由于垂直同步技术的使用,瞬间刷新率会降低至30、20或15。
开启垂直同步会发生顿卡(帧率过低时)
关闭垂直同步会导致画面撕裂(帧率过高时)
这种现象可能发生在游戏过程中场景的转换、单位数量增加等计算压力突然发生变化的时候。此时GPU可能无法在理想时间内完成对一帧甚至几帧画面的渲染,从而导致刷新率瞬间大幅降低,这时候玩家会明显的体会到卡顿、延迟。如果想要避免这种卡顿的发生,可以关闭垂直同步,而此时真与帧之间会有一个标记线来区分,这样可以有效避免渲染速度瞬间过慢带来的帧率降低,但是如果渲染速度过快,就会遇到画面撕裂的效果。无论开启或关闭垂直同步,都会有一些意外情况发生,对于游戏体验有着很恶劣的影响。
Adaptive VSync技术完美解决了垂直同步开/关的矛盾
为了避免这些现象的发生,自然不能再使用过去的垂直同步技术,而NVIDIA的软件工程师为此开发了全新的Apdative VSync平滑垂直同步技术,将会在全新的ForceWare 300系列驱动程序中提供,可以让游戏画面更加平滑,不再出现卡顿或撕裂。
这项技术在运行的原理是根据帧率实时开启或关闭原本的垂直同步技术,取两者之长,达到让游戏运行帧率更流畅的目的。具体运行情况是这样:当检测到FPS低于60时,实时关闭VSync,让当前帧能够以能够达到的最高渲染速率进行,不至出现强制降低帧率从而出现严重卡顿的情况,而一旦帧率达到60,随机开启VSync,避免游戏帧率过高从而产生画面撕裂。有了NVIDIA Apdative VSync技术,你不用再纠结与垂直同步的开启或关闭,从而将可以得到更流畅的游戏体验。
在3D图像中,我们不可避免的遇到“锯齿”。锯齿是由于受到显示设备分辨率和图像生成原理制约,不可避免的会出现的一种图像失真现象,具体表现为画面中物体的边缘呈现出三角形的锯齿状。为了获得更好的视觉体验,让物体边缘看起来更柔和、自然,需要进行消除锯齿(Anti-Aliasing,简称AA)处理。
目前比较普遍使用的抗锯齿技术是MSAA(MultiSampling Anti-Aliasing多重采样抗锯齿)技术,这种技术的实现原理较为简单,但是却耗费大量硬件资源。开启4x MSAA之后很多游戏运行效率会大幅降低,有可能让原本可以流畅运行的游戏变为无法流畅运行。这也是的玩家不得不在“更好画面”和“更流畅运行”之间做出一个艰难的选择。
FXAA与4x MSAA效果对比(点击图片可以放大)
而NVIDIA自去年发布了一项全新的锯齿处理技术:FXAA(Fast Approximate Anti-Aliasing,快速近似抗锯齿)。这一项技术属于一种图像后处理技术,处理操作发生在游戏渲染管线后期工作阶段。FXAA并不能彻底解决图像锯齿的问题,但是可以很大程度的改良图像效果,而它最大的优势在于提供不低于MSAA效果的同时执行效率大幅提升,其单帧画面的处理时间仅需1毫秒,而MSAA的处理时间则要高出许多。最后的结果是,使用FXAA在得到与MSAA相近的画面品质时,运行帧率却能高出一倍。
FXAA的执行效率要远高于4x MSAA
目前FXAA用两种实现方法:一种是游戏引擎内自带,比如极度恐慌3、永远的毁灭公爵、战地3等游戏;另外一种则是通过NVIDIA显卡控制面板打开,在全新的ForceWare 300中可以提供,也就是说今后所有的游戏都可以使用这项全新技术了(前提是你使用NVIDIA显卡)。
更为强大的TXAA技术即将来临
TXAA与8x MSAA效果对比(点击图片可以放大)
而如今,又一项新技术诞生了:TXAA。TXAA是全新一代硬件渲染的抗锯齿技术,可以提供电影级别的画面品质,专为发挥GTX680强大的纹理性能而设计。TXAA将会通过HDR后处理管线从硬件层面上提供颜色矫正处理。目前TXAA分为TXAA1、TXAA2两个级别,TXAA1可以实现8x MSAA的效果,执行效率与2x MSAA相当,而TXAA2则会提供更高的画面品质。
与NVIDIA合作的游戏/厂商
支持TXAA技术的游戏将会在今年晚些时候逐渐登场,已经确定要发行的作品包括:机甲战士在线(MechWarrior Online)、神秘世界(Secret World)、星战前夜在线(EVE Online)、无主之地2(Borderlands 2),而BitSquid、Slant Six Games、虚幻4引擎、Crytek(代表作:孤岛危机)也都将推出采用TXAA技术的作品。
GTX680和GTX690都可以实现最多四屏显示
过去NVIDIA的显卡无论高端、主流、低端还是专业卡,单块显卡仅能支持两个屏幕显示,这一传统已经延续多年。而这次NVIDA在GTX680(全部“开普勒”核心的显卡皆能支持该功能)的视频输出接口配置上进行了大刀阔斧的改变:两个Dual-link DVI、一个HDMI和一个DisplayPort接口,其中HDMI接口支持1.4a标准,DisplayPort接口支持1.2标准,从而实现了3860x2160的超高分辨率、更高的数据带宽、多视频/音频流等全新功能。
采用这样的接口配备完全是有原因的:根据调查,DVI依然是目前最流行的显示信号传输方式,两个可以支持高达2560x1600分辨率的DVI接口完全满足绝大多数用户的需求,而这一次HDMI、DisplayPort接口皆为全尺寸标准接口,用户也无需再因为购买转接头而头疼了,支持最新一代的显示标准(HDMI 1.4a、DisplayPort 1.2)也令一张GTX680可以支持最新规范在未来数年内都不会落后。
一块显卡就可以实现3D Vision Surround效果
这样的视频输出配置在显示驱动的支持下最多可以达成四屏幕同时显示,并且使用两个DVI和一个HDMI接口就可以组成三屏系统(AMD Eyefinity技术在实现多屏显示必须要使用一个DisplayPort接口)。此外显示输出可以完美支持立体3D显示,这样一来NVIDIA 3D Vision Surround技术便可以用一张GTX680显卡完美实现,带来最极致的视觉体验。
<p align="le" 得益全新SMX架构、GPU Boost动态加速技术的加入以及更高速的显存频率,GTX680变得无比强大。现在它可以实现更加华丽的PhysX物理效果、拥有更高的执行效率,相比上代旗舰GTX580,GTX680这次可以带来更好的物理效果体验。
马克思·佩恩3
包括最新、最热门的动作、射击、角色扮演类游戏《无主之地2》、《马克思·佩恩3》都将使用PhysX物理加速技术。从而实现更加逼真的效果。
QQ炫舞2
http://player.youku.com/player.php/sid/XMzY5NDEyNzky/v.swf
QQ炫舞2视频
除此之外,即将到来《QQ炫舞2》也将加入PhysX技术的支持,这款游戏在中国相当火爆,拥有超过千万的注册用户。
今年NVIDIA还将推出更多使用PhysX物理加速技术的游戏。
为了让测试平台与今天测试的主角NVIDIA GTX690显卡相配,我们特意选择了目前比较高端的硬件配置与之搭配,确保能够最大化发挥出GTX690的实际性能,测试平台使用了Intel Core i7 3770K,8GB DDR3 1600内存和一块来自技嘉的Z77主板,下面是具体平台配置。
为能够全面衡量GTX690显卡的实际性能,我们不仅采用了多款权威测试软件检测显卡综合效能,还采用不同DirectX版本游戏来检验显卡在不同环境下的适应能力,同时,测试中还专门加入了Physx物理效能和曲面细分效率测试,接下来就一起来看看GTX690显卡在实际测试中的表现吧。
<p align="le" 软件介绍:作为最权威的DX10条件下显卡性能测试软件,3DMark Vantage可以全面衡量显卡真实图形性能,已成为业内最普及的测试软件之一。如果您想知道自家电脑的显示性能,不妨用它来进行测试,和我们的测试成绩进行对比。 3DMark Vantage所使用的引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的性能压力大增。
画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们此次测试选择了Extreme(旗舰级)进行测试。
一片GTX680的性能已经十分惊人,让两块GTX680合体后又会怎样?在专门针对显卡DX10模式下图形性能进行测试的3DMakr Vantage软件对这一问题进行了充分说明,双GK104芯片的GTX690得分比GTX680提高11000多分,Extreme等级GPU测试成绩接近30000,DX10下图形性能比GTX680双卡SLI仅仅少了1000分。HD7970作为AMD的现任单芯卡皇,在本次测试中居然只能排倒数第一!
接下来就是测试的重头戏,DX11性能比拼。时至今日,依然没有任何一个测试软件或者游戏能够取代3DMark在游戏玩家心目中的地位,因为3DMark的魅力就在于它所带来的不仅仅是惊艳的画面,更重要的是向广大玩家提供了一种权威、系统、公正的衡量显卡性能的方式。
● 3DMark 11的特色与亮点:
1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面细分、计算着色器、多线程。
2、原生支持64bit,保留32bit:原生64位编译程序,独立的32位、64位可执行文件,并支持兼容模式。
3、全新测试场景:总计六个测试场景,包括四个图形测试(其实是两个场景)、一个物理测试、一个综合测试,全面衡量GPU、CPU性能。
4、抛弃PhysX,使用Bullet物理引擎:抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库,支持碰撞检测、刚体、软体,根据ZLib授权协议而免费使用。
在主要针对显卡DX11效能的3DMark 11中,GTX690超越GTX680更多,甚至超过了HD7970 CF。没有任何流处理删减的GK104果然非常强悍。
<p align="le" 软件介绍:Unigine Engine最先发布了首款DX11测试/演示程序——Heaven Benchmark,其中大量运用了DX11新增的技术和指令,并主要针对系统Tessellation性能作出测试。
画面设置:新版本进一步强化了Tessellation技术的应用,细分精度更高,画面更上一层楼,为了更好的测试不同Tessellation设置下的性能差异,我们选择了4AA和8AA两种设定,将Tessellation设定为最高Extreme模式,并对2560x1600和1920x1080两种分辨率进行测试。
● 1920x1080分辨率性能测试
● 2560X1600分辨率性能测试
通过测试成绩统计可以看到,单芯片显卡NVIDIA GTX680已经可以和HD6990相抗衡了,GTX690又成功压制了HD7970 CF,这个环节的测试N卡全面领先。
<p align="le" 游戏介绍:游戏引擎开发商BitSquid与游戏开发商Fatshark近日联合公布了一个展示DX11强大技术的DEMO。这个名为《StoneGiant》(石巨人)的DEMO,可以让玩家来测试自己PC显卡的DX11性能。BitSquid Tech即将提供PC平台的引擎,并且大概在今年第三季度将提供PS3和Xbox 360等其他平台的引擎。
画面设置:StoneGiant是一款技术演示Demo,画面做的非常精美,进入之后可以选择开启关闭Tessellation以及DOF(DX11级别景深)进行测试,这两项技术都十分消耗资源,尤其是同时打开时。其中Tessellation技术对画质的改善最为明显,但DOF仔细看也有不小的画质提升,所以我们这里将Tesselation和DOF都开启进行测试。
测试方法:游戏自带Benchmark。
● 1920x1080分辨率性能测试
● 2560X1600分辨率性能测试
这项测试与《Heaven Benchmark》一样,主要针对显卡Tessellation能力进行测试,在这个测试中玩家可以根据不同设置直观体验Tessellation技术为游戏画面带来的变化,测试中NVIDIA GTX690依然表现不俗,性能仅次于GTX680 SLI。
<p align="le" 游戏介绍:《Aliens vs. Predator》同时登陆PC、X360和PS3,其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注,是AMD大力推行的游戏之一,但是这样的主题难免让本作有很多不和谐的地方,暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志,表示不会为了通过审查而放弃电子娱乐产品发行商的责任,因为游戏要维持“异形大战铁血战士”这一中心主题,无论画面、玩法还是故事线都不能偏离。
画面设置AVP原始版本并不支持AA,但升级至1.1版本之后,MSAA选项出现在了DX11增强特效当中,当然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算太高,所以笔者直接将特效调至最高进行测试。
测试方法:游戏带Benchmark,其中测试画面颇代表意义,很好的体现了Tessellation异形身体以及HDAO等高级特效,希望这些特效能让系统发挥所有潜力。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
作为A卡的优势项目,AVP测试环节中HD7970终于扬眉吐气,战胜了GTX680,扳回一城。而GTX690依然是单卡无敌状态,事实上从测试开始这一点基本是毋庸置疑的了。
<p align="le"
游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。
画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT。
测试方法:选用第三方Benchmark程序,这是一小段地铁隧道中的战斗场景,场面复杂战斗激烈,对显卡提出了严峻考验。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
游戏打造出了一个阴暗、充满危险的地下世界,复杂的环境让这款游戏在高画质下对显卡性能提出了极高要求,尤其是高分辨率下,即便像GTX690这样的双芯显卡也只能取得每秒28.1帧左右的成绩,而HD6990甚至不能流畅运行!
游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。
画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到。
测试方法:游戏自带Benchmark工具,在1920X1080和2560X1600两种分辨率下,开最高特效分别进行4AA/8AA测试。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
《Farcry2》营造出了广袤的场景,但对硬件的要求却并不是很高,在4XAA+最高特效条件下,参与测试的显卡也都能非常流畅的运行这款游戏。
<p align="le" Crysis(孤岛危机)无疑是DX11出现之前对电脑配置要求最高的PC游戏大作。作为DX10游戏的标杆,Crysis的画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎。
画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今的DX11显卡终于有能力单卡特效全开流畅运行。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,测试了1920X1080、2560X1600两种分辨率和4AA/8AA模式。这个程序会自动切换地图内的全岛风景。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
《Crysis》作为著名的“硬件杀手”,遇到GTX690也是乖乖就范。此外这款游戏中A卡整体表现较好。
<p align="le" 《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作。在游戏内容上与一代也有很大变化,已经从秘密的丛林作战转向了公开、大规模的现城市战争。故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
CE3拥有不逊于CE2的画面表现,并且带来了诸多的新特性和强大的SandBox3编辑器,同时新引擎也能适应目前的PS3/XBOX360家用机平台,带来家用机上的高水准发挥,同时代表作Crysis2将登陆PC/XBOX360/PS3平台,引擎支持DirectX9/DirectX10/DirectX11,DX11版本仅PC,且要下载补丁。由于是一款NVIDIA的THE WAY游戏,所以此游戏DX11版本优化了N卡。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
打上高级纹理补丁,Crysis2的显存占用非常惊人,而本作中双卡CF效率是非常之高。
<p align="le" 赛车游戏中,轰鸣的发动机声、风驰电掣的急速快感,足以让无数玩家肾上腺素飙升。也许正是如此,才使得《科林麦克雷:尘埃3》在众多游戏中备受玩家青睐。
《尘埃3》采用与《F1 2010》同样的Ego引擎,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
相比首款DX11游戏的《尘埃2》,《尘埃3》在诸多DX11游戏特效的力助下,游戏画质表现更加出色。无论是日出还是日落,下雨还是干燥,看上去都非常逼真。背景的烟花和观众让游戏代入感非常强。车身会随着比赛的进行染上泥土或者雪,一辆崭新的赛车或许会在比赛完成之后,变成一辆被泥土覆盖的“垃圾车”。
图像方面,《尘埃3》是该系列至今为止最漂亮的一款。《尘埃3》中的驾驶感相当不错,6种调整选项也足以应付各种地形。而且,在芬兰、密歇根、挪威、洛杉矶、肯尼亚和摩纳哥驾驶赛车狂飙真的是一种享受。赛车会对相当细微的操作做出回应,在雪地或泥地中,这一点尤其重要。而当你的对手把雪花和泥浆弹到你的挡风玻璃上时,你只能依靠自己的直觉和细微的操作不至于翻车。而游戏中,雪花、雨滴和夜晚驾驶不仅仅是外在的装饰而已,和现实生活一样,你需要各种赛车配件来应对这些情况。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
依然是GTX690的showtime,在这些重量级选手面前,尘埃3已经完全难不倒他们了。
<p align="le" 由EA DICE工作室开发的《战地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11,并且拥有强大的物理效果,最大的亮点还是光照系统,其渲染的场景已近乎乱真的地步,视觉效果堪称绝赞。游戏还支持即时昼夜系统,为玩家营造一个亲临现场的真实环境。寒霜2引擎最大的特点便是支持大规模的破坏效果。由于考虑到游戏的画面表现以及开发成本,DICE放弃了以只支持DX9的WINDOWS XP操作系统。另外由于该引擎基于DX11研发,向下兼容DX10,因而游戏只能运行于WINDOWS VISTA以上的的操作系统。
在《战地3》中,“寒霜引擎2”内置的破坏系统已经被提升至3.0版本,对于本作中的一些高层建筑来说,新版的破坏系统将发挥出电影《2012》那般的灾难效果,突如其来的建筑倒塌将震撼每一位玩家的眼球。
《战地3》采用了ANT引擎制作人物的动作效果。在此之前,ANT引擎已在EA Sports旗下的《FIFA》等游戏中得到应用,不过在FPS游戏中使用尚属首次。相较于Havok等物理引擎,用ANT引擎可以花费较少的精力制作出逼真的效果。举例来说,战士在下蹲时会先低头俯身、放低枪口,而不是像以前的游戏那样头、身、枪如木偶般同时发生位移。此外,ANT引擎也可以让电脑AI的行动更加合理。但这款大作目前并不能良好的兼容120Hz3D以及红蓝3D模式。
● 1920X1080分辨率性能测试
● 2560X1600分辨率性能测试
寒霜2引擎年度大作战地三,是为数不多的画面可以挑战Crysis的游戏大作,而对核心和显存的要求已经超越了Crysis!
在经历了两年前阿卡姆疯人院带来的震撼后,Rocksteady终于在今年年底带来了蝙蝠侠的续作——阿卡姆之城。这款游戏也在上市之初让我们见识出了正统版权的威力,有华纳兄弟的赞助与发行,完全再现电影和小说中的原著桥段不再是梦,100%的高还原度让玩家犹如身临其境,再现了一个荧幕上真实的蝙蝠侠或许也是这部游戏的成功所在。
《蝙蝠侠:阿卡姆之城》仍然建立在《阿卡姆疯人院》的气氛上,不过这次上升至阿甘之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。而且新作还汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠前传2:黑暗骑士》一般的终极游戏体验。
阿卡姆之城的画面,绝对是当今次时代游戏中数一数二的,但是其开发引擎却依旧是虚幻3,这着实让许多玩家感叹,到底虚幻3引擎还有多大潜力可以发挥。虽然虚幻3引擎目前来看最大的问题就是画面普遍油腻感十足,但是在阿卡姆之城中,少许的油腻感却成了点睛之笔,让蝙蝠侠更加贴近漫画、电影。
除了虚幻3的引擎外,蝙蝠侠从上一代作品中就加入了NVIDIA的PhysX物理加速引擎。在游戏的细节中,更加贴近真实效果,烟雾、灯光、人物的衣服、报纸等等细节全部通过PhysX物理引擎计算,游戏中的破碎、打击效果随之表现的也不在那么匪夷所思。但是,凡事都有两面,真实的受力表现换来的则是大量的资源占用,这也使得蝙蝠侠这个虚幻3引擎的游戏一下成为了硬件杀手,如果达到最佳游戏表现,恐怕非GTX580这样的旗舰单卡莫属了。
● 1920X1080分辨率、PhysX high性能测试
● 1920X1080分辨率、PhysX off性能测试
● 2560X1600分辨率、PhysX high性能测试
● 2560X1600分辨率、PhysX off性能测试
PhysX的确是个好技术,可惜支持PhysX的游戏大作目前真没几款能拿得出手,Batman系列算是凤毛麟角。虽然这样,我们还是详细的测试了这款争议游戏,以获悉HD7970和GTX690的性能差距。
<p align="le" 对于在一块PCB上集成了两颗GPU核心的顶级显卡来说,散热、功耗与性能的平衡永远都是个问题,而高端显卡恐怖的发热噪音历来为人诟病,这次双芯旗舰GTX690表现如何呢?接下来我们就通过使用Furmark对显卡进行满载来验证一下GTX690的外部特性。
从上面的拷机测试我们可以看到,GTX690待机温度仅仅41度,而满载温度最高位85度,这个成绩在旗舰显卡,尤其是双芯显卡中算是非常出色了。
● 平台闲置功耗测试
虽然GTX690核心默认频率就达到了915MHz,而且可以自动超频到1GHz以上,但功耗控制的非常理想,GTX690+i7 3770K+Z77这样的顶级平台闲置功耗仅仅70W左右!
满载功耗也是控制的非常不错,Furmark程序最高让这个平台达到了363W的功耗,和NVIDIA官方宣称的显卡300W TDP相吻合,相对于GTX680 SLI更是优势明显。
从上面的架构解析和性能测试我们不难发现,开普勒的双芯旗舰——GTX690是目前地球上最强显卡,当之无愧的卡皇。除此之外,新技术的引入让这款旗舰显卡也不再是功耗怪兽,在历代卡皇中,GTX690还拥有更多吸引人的新特性。
● 更智能的超频:NVIDIA动态加速技术
http://player.youku.com/player.php/sid/XMzY5NDY5Nzgw/v.swf
这一代“开普勒”显卡特有的GPU Boost技术动态加速演示
● 更平滑的动作:自适应垂直同步
这项技术在运行的原理是根据帧率实时开启或关闭原本的垂直同步技术,取两者之长,达到让游戏运行帧率更流畅的目的。具体运行情况是这样:当检测到FPS低于60时,实时关闭VSync,让当前帧能够以能够达到的最高渲染速率进行,不至出现强制降低帧率从而出现严重卡顿的情况,而一旦帧率达到60,随机开启VSync,避免游戏帧率过高从而产生画面撕裂。有了NVIDIA Apdative VSync技术,你不用再纠结与垂直同步的开启或关闭,从而将可以得到更流畅的游戏体验。
● 更具效能的抗锯齿技术:FXAA和TXAA
FXAA在得到与MSAA相近的画面品质时,运行帧率却能高出一倍。TXAA是全新一代硬件渲染的抗锯齿技术,可以提供电影级别的画面品质,专为发挥GTX680强大的纹理性能而设计。TXAA将会通过HDR后处理管线从硬件层面上提供颜色矫正处理。目前TXAA分为TXAA1、TXAA2两个级别,TXAA1可以实现8x MSAA的效果,执行效率与2x MSAA相当,而TXAA2则会提供更高的画面品质。
● 更震撼的显示效果:单卡四屏
这样的视频输出配置在显示驱动的支持下最多可以达成四屏幕同时显示,并且使用两个DVI和一个HDMI接口就可以组成三屏系统(AMD Eyefinity技术在实现多屏显示必须要使用一个DisplayPort接口)。此外显示输出可以完美支持立体3D显示,这样一来NVIDIA 3D Vision Surround技术便可以用一张GTX680显卡完美实现,带来最极致的视觉体验。
全文总结:
随着HD7970和GTX680的相继发布,GTX680以其卓越的性能和良好的功控为人称道,GCN、Kepler架构优劣之争也慢慢尘埃落定,而这次GTX690的抢先发布让人们再一次领略了开普勒的实力!
AMD的南方群岛、NVIDIA的开普勒都使用了台积电28nm新工艺,但因为工艺成熟度、发布策略的方面的原因,又不是完全相同的28nm工艺。最开始的时候,两家自然都想使用28nm HKMG HP高性能版本,但可惜这种工艺难度较大,当时仍然很不成熟,于是AMD沉不住气转而采用另外一个版本:28nm HKMG HPL。这种工艺同样使用了HKMG(高K金属栅极)技术,但技术相对来说更容易实现。
NVIDIA开普勒则选择等待28nm HKMG HP高性能工艺。
最后的结果已经非常明显,AMD Radeon HD 7000系列显卡果然得以抢先发布,但却在性能和效率方面难以和GTX600系列抗衡。是做对的事,还是容易的事?我想这次的旗舰交锋给了我们一个鲜活的案例。■