21款最新一代GPU横评回首没有硝烟的战

北京权威痤疮医院 http://pf.39.net/bdfyy/zjft/210630/9125685.html

来源:超能网

大部分玩家买显卡之前都会看看天梯榜,不过由于每次新卡出来测试的时候驱动不一样、平台不一样,会导致不同时间的测试结果都拿在一起比较的话会稍微有些不严谨,尽管仍然能反映出不同显卡的排名等等,但是我们的读者都知道我们的天梯榜单并不仅仅是排名,而是非常量化的数据。

所以这样累计下来难免会与当下的实情略有差异,故而在本世代显卡的英伟达安培架构显卡家族与AMDRDNA2架构显卡家族接近尾声的时间点,我们将这些显卡在同一个驱动、同一个平台下进行一次横评。

这样既是为这一代之争做个总结,也是为近期需要购买显卡的朋友做个参考,毕竟下一代显卡面临高端卡功耗奇高以及中低端卡仍需时日发布的问题,还是有不少人会在当下节点选择这一代显卡的,最后本次横评也用来顺便校准一下我们的显卡天梯榜使之更为准确。由于我们的天梯榜数据是以传统光栅化游戏性能为参考的,所以这次游戏测试只比较传统光栅化游戏性能,而之后会针对N卡最新一代GPU再出一篇光线追踪游戏性能的横评。

SM单元的进化

RTX30系显卡上的SM单元相比RTX20系的,最大变化是加倍了针对传统计算的FP32单元、引入第二代RTCore以及第三代TensorCore。

大家都知道在Turing架构中,NVIDIA整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算。不过现代游戏应用中最为常见的还是FP32,因此为了提高计算效率NVIDIA在NVIDIAAmpere架构上引入了可同时支持INT32或FP32两种数据类型的新ALU。也就是说,现在有两条不同的数据路径,一条能够同时处理整数或者单精度浮点,另一条则单纯处理单精度浮点计算。

负责进行实时光线追踪运算的专用硬件单元RTCore在NVIDIAAmpere架构上也更新到了第二代,最主要是增加了动态模糊的加速运算支持。NVIDIA在其中新加入的插值算法可以在保证动态模糊精确性的同时提高了实时光线追踪效率,官方表示最高可达8倍于上代的速度。另外在基础的BVH计算上,第二代RTCore也可以比第一代快2倍。

TensorCore这个负责运行AI计算的硬件单元在NVIDIAAmpere架构上也升级到了第三代。其实之前发布的A计算卡上已经用上了新的第三代TensorCore,它能够提供比第二代TensorCore高出4倍的效能,不过游戏卡上面的TensorCore进行了一定的精简,其FP16FMA计算的吞吐量只有GA核心中的TensorCore的一半。

而第三代TensorCore带来的更强劲AI运算有些什么用呢?答案就是DLSS。DLSS的全称是DeepLearningSuperSampling,翻译成中文就是深度学习超级采样,它的作用是通过降低游戏内的渲染分辨率,同时以拉伸来提高显示分辨率,例如P的渲染分辨率以及4K(P)的显示分辨率,来达成提升帧数的目的。

此外,将不同类型的计算交给不同的单元去处理是从NVIDIAVolta架构就开始采纳的一种理念,当时引入的TensorCore分流了很多AI相关的运算,而在其后引入的RTCore又将实时光线追踪相关的计算给分流了。但在Turing架构GPU上做不到全部运算都能够并行执行,到了Ampere架构上,NVIDIA提升了GPU内部各种单元之间的并行性,现在传统计算单元、RTCore和TensorCore这三大单元可以同时工作,在原本基础上继续缩短帧渲染时间。

再之后就是HDMI2.1这个备受期待的新输出端口了。在HDMI2.1之下,显卡可以用单线材做到8K60Hz或者4KHz的输出。对于想用大尺寸电视打游戏的玩家来说是一个不错的福音。

NVIDIAReflex

伴随RTX30系显卡一同发布的,有一个对于电竞游戏,或者更仔细地说对于电竞选手来说很重要的新东西,那就是NVIDIAReflex。那么这个NVIDIAReflex到底是什么东西呢?其实它是分为两部分的,一部分是硬件,一部分是软件。

硬件部分是ReflexLatencyAnalyzer,它其实可以视作为LDAT的一个进阶版本,是直接预安装在显示器里的,可以用来测量玩家从点击鼠标直到画面出现变化之间的时间差,也就是整套系统的所有延迟。

而软件部分则是NVIDIAReflexSDK。这个NVIDIAReflexSDK的作用是降低以及测量渲染延迟的,开发者可以直接整合到游戏内。而在开启其低延迟模式后,可以让CPU与显卡同步,大幅度减少渲染序列,从而降低渲染延迟。

三大改进点

RDNA2架构三大改进点:

·高频率设计:RDNA2架构相比RDNA1架构实现了同功耗下30%的MAX频率提升;

·无限缓存设计:可以消除带宽瓶颈,极大的提升了等效带宽并降低功耗,有助于提升能耗比;

·支持DX12U、DSAPI:紧随时代潮流,让A卡支持光追等高级API特性。

RDNA2架构是一个强大的游戏架构,相比RDNA1代架构主要有三个大改进。首先AMD在RDNA2上实现了突破性的高频率设计,在拥有高频率的同时维持较好的能耗表现。其次AMD专门为RDNA2研发了革命性的AMDInfinityCache无限缓存技术,无限缓存在提供非常可观的等效带宽的同时还更节能,能耗表现更上一层楼。第三个改进点就是支持了DX12Ultimate的高级特性,包括DXR、DirectStorage等API,让AMD的显卡也加入到支持DX12Ultimate的大家族中。

先来看频率改进,RDNA2实现了突破性的高频率设计,虽然与RDNA都是相同的7nm制程工艺但是进步巨大(到了RXXT和RX还进一步升级了制程,采用6nm制程,是台积电7nm的改进版)。通过这张图表我们可以看到,以每个计算单元CU为例RDNA2架构实现了相同功耗30%的频率提升,而如果是相同的频率则功耗只有RDNA的一半还少一些,也就是能耗比提升50%以上。

RDNA2上AMD发明了全新的无限缓存技术,RDNA2通过"无限缓存"大带宽、低功耗的帮助实现了IPC的提升、同时提高工作频率,完成每个时钟指令的功耗也下降明显。

RDNA2架构上第三个改进点就是支持更多的高级特性。AMD在RDNA2上终于全面支持了DirectX12Ultimate、DirectStorageAPI等高级特性,让A卡也可以使用诸如DirectX光线追踪、可变速率着色、网格着色器、采样器反馈等技术。

FSR技术的加入

在RXXT和RadeonRXXT发布之间的这段时间,FSR技术终于落地,AMDFSR技术是通过超分辨率来达到拉伸画面,再加上锐化,从而达到提高帧数之余又可以保持不错画面质量的目的,对标的是英伟达的DLSS技术。

AMDFSR总共有超高质量(UltraQuality)、质量(Quality)、平衡(Balance)以及性能(Performance)这几个模式。这4个模式相对应的,就是4个不同的拉伸分辨率。以4K(P)为例,性能模式的输入分辨率是P,平衡模式是P,质量是P,而超高质量则是P。对于定位入门级的显卡来说,FSR技术的加持尤其重要,可以帮助用户获得更好的游戏体验。

我们的测试平台是基于酷睿i9-K搭建,尽量减少CPU瓶颈,显卡选择方面包括所有的NVIDIA的Ampere架构桌面显卡以及AMD这边的所有RDNA2架构桌面显卡,一共是21张。

收集显卡不易,我们优先选用公版显卡或者公版频率的显卡进行测试,其中N卡方面GeForceRTXTi到GeForceRTX之间,除了GeForceRTXGB这一款是用的一张索泰GeForceRTX-12G6XPGFOC显卡之外,其他都是公版显卡,GeForceRTX和GeForceRTX本来就没有公版卡,这两个型号我们都收集到了影驰的金属大师Mini显卡,最后对于GeForceRTXTi,用的是一张影驰GeForceRTXTi名人堂超频实验室限量版。

AMD显卡方面,除了RadeonRXXT是一张技嘉RadeonRXXTGAMINGOC16G显卡之外,其他都是XFX讯景的显卡,大多也是OC版显卡,所以频率相对更高,代表的性能也更好,总得来说AMD这边的代表显卡可能平均有优势一点。

测试方面笔者将通过3DMark理论性能测试、实际游戏测试以及功耗测试三个主要方面进行测试。其中实际游戏测试的情况有必要说明一下,起初打算的是分三个分辨率,然后将所有显卡都分别在三个分辨率下进行实测。

不过这样会导致两个问题,一是低端入门级显卡跑4K分辨率的话会出现极低的帧数,不仅没有实际意义而且极低的帧数会导致误差较大,不能准确的体现出与其他显卡的性能差距;二是高端显卡比如GeForceRTXTi跑p分辨率的话,由于CPU的瓶颈,也不能正确的体现出与入门级显卡的性能差距。

所以本着购买显卡时正确选择显卡的思路——先确定需要什么分辨率的游戏环境,再在一定范围内选择显卡——本次实际游戏测试部分会将显卡分为三组,分别是面向p游戏环境的、面向2K分辨率游戏环境的以及面向4K分辨率游戏环境的。

然后在各种定位的卡只跑其目标分辨率的基础上,将更高一级目标分辨率的显卡中性能最低的一张也参加降一级的分辨率游戏测试,这样就可以以此为锚最后将所有21张显卡的性能准确的统一反映出来。另外,再次强调一下,我们的天梯榜数据是以传统光栅化游戏性能为参考的,所以这里的游戏测试只比较传统光栅化游戏性能。

我们以3DMark作为显卡基准性能测试,测试项目包括FireStrike、FireStrikeExtreme、FireStrikeUltra、TimeSpy、TimeSpyExtreme以及PortRoyal六个项目。其中FireStrike、FireStrikeExtreme、FireStrikeUltra三个项目分别测试的是显卡在DX11游戏中的p分辨率、2K分辨率和4K分辨率下的性能指数,TimeSpy、TimeSpyExtreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,PortRoyal是测试的显卡实时光线追踪的性能指数,具体成绩见下表,表中所列成绩均为3DMark显卡单项的得分。

3DMark基准测试结果主要反映了这么几个情况:一是对于DX11API来说,竞品之间A卡表现更好,对于DX12API来说,竞品之间N卡表现更好,说简单点就是A卡玩老游戏比较占优势,而N卡对于新游戏比较占优势;二是就光追性能来说,N卡这边完全是大大的领先,说简单点就是如果看重光追性能的话无脑选N卡就是了,另外光追性能方面由于显存太小以及本身芯片性能羸弱,RadeonRX和RadeonRXXT这两者卡的光追性能对于游戏应用来说几乎等于没有。

游戏画质设置为预设里面的最高画质,不开启光线追踪,也不开FSR和DLSS,此外默认不是全屏的手动改为全屏,默认开启了垂直同步的手动关闭垂直同步,除此之外其他选项均为默认设置,均采用游戏自带的Benchmark输出结果。

游戏的选择方面,涵盖了代表最新单机大作类的游戏比如《看门狗:军团》、《极限竞速:地平线5》这样的,也有代表网络游戏类的比如《最终幻想14》、《战争雷霆》这样的,还有代表了较老一代的单机游戏比如《孤岛惊魂5》、《极限竞速:地平线4》这样的,以覆盖玩家玩不同游戏的情况。

P分辨率

面向P分辨率游戏环境的显卡中A卡主要是RadeonRXXT及以下的显卡,N卡主要是GeForceRTX和GeForceRTX,这里还加入了一张GeForceRTXTi来对比。

RadeonRX和RadeonRXXT这两张显卡与其他卡有很大的差距,这两张卡要想有较完美的游戏体验,那么只能玩网络游戏类了,比如《最终幻想14》中RadeonRX和RadeonRXXT分别可以达到70帧和97帧。对于压力较大的最新单机大作则很难有较好的体验,比如《看门狗:军团》中RadeonRX和RadeonRXXT分别仅为24帧和34帧,在《极限竞速:地平线5》中更是分别只有23帧和24帧。

不过对于这中间的一些游戏,比如较老的、对配置要求不高单机大作,他们有的也能有较好的游戏体验,比如《孤岛惊魂5》中RadeonRX和RadeonRXXT分别也可以达到63帧和84帧。其实这两张卡最主要的问题还是显存太小,4GB的显存放在如今确实太捉襟见肘了。

其他的几张卡相对来说差距就没有那么大了,不过GeForceRTX还是可以单独拿出来分为一档,GeForceRTX除了压力较大的最新单机大作难以有完美的体验之外(比如《看门狗:军团》47帧),大部分游戏还是可以很流畅的以最高画质运行的。

而如果想在p分辨率下普遍有较好的游戏体验,那么N卡还是起码GeForceRTX吧,A卡则起码是RadeonRX。

2K分辨率

面向P也就是2K分辨率游戏环境的显卡中A卡主要是RadeonRXXT及RadeonRXXT这两张,N卡主要是GeForceRTXTi到GeForceRTXTi这三张,这里还加入了一张RadeonRX来对比。

在P也就是2K分辨率这块市场下,这些卡的差距相比p分辨率下小了很多(除了拿来对比的RadeonRX这张4K守门员),尽管不同游戏中显卡的性能表现排序稍有不同,但是普遍来说GeForceRTXTi是最低的,而即使是最低的GeForceRTXTi也在所有游戏中都至少取得了60帧以上的帧数,最低的帧数是61.7帧,来自《全面战争:三国》这款游戏,而其他的卡更是可以无压力的畅玩2K分辨率。

4K分辨率

面向4K分辨率游戏环境的显卡中A卡主要是RadeonRX及以上的显卡,N卡主要是GeForceRTX及以上的显卡。

说起来,统计的时候才发现4K分辨率的市场是发布型号最多的一块市场,这让我不怀好意的想是不是因为这个市场的附加值最高,所以各家都推出较多型号来增加消费者的选择成本,来赚取更多的消费者剩余。

当然,也可以往好处想就是这个市场如果型号少的话,价格跳跃就太大,往好了说是让这一档中各种预算的消费者都可以买到预算相近的产品,但是说白了也是尽量的榨取消费者剩余。当然,这都是题外话了。

4K分辨率下RadeonRX和GeForceRTXTi这两张是要单独拉出来的,这两张是明显与其他卡差距较大的两张。RadeonRX在每一个游戏的表现中都是这部分性能最低的,然而它并不能满足这部分的所有4K分辨率下的游戏都有超过60帧的流畅度,比如《看门狗:军团》仅有47帧,《全面战争:三国》更是只有37.9帧,考虑到这样的成绩,如果打算体验4K游戏的话,RadeonRX我是比较不推荐的。

GeForceRTXTi在这部分的表现很亮眼,它在很多游戏中都相比仅次于它的第二名有超过10%的领先,与其他显卡之间微弱差距的情况相比,有点鹤立鸡群的感觉,不过这张卡一定程度上算是英伟达炫技的产品,因为它实在售价太高昂了。

将以上的游戏实测结果汇总之后,就可以得到这21张显卡之间相对的性能幅度了,同天梯榜一样,这里将最强的GeForceRTXTi定位参考标准%,可以看到性能最低的RadeonRX仅有其16.6%的性能,最强与最弱之间差距达到了6倍多。而RadeonRX这张卡虽然AMD是宣传为面向4K游戏环境的,但是个人觉得还是把它定位在面向2K游戏环境的得了吧,它与其他4K梯队的差距太远了。

通过我们手中的PCAT套件,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMarkTimeSpy压力测试中获得。

参测显卡的功耗实测如上,不过需要注意的是,由于参测显卡有公版频率方案的和OC版的显卡,其实并不适合代表芯片型号之间的差距,这里列出来只是给大家看看。

同时笔者也汇总了这些型号的官方标称的TGP/TBP,一般来说采用公版频率方案的"丐版"非公显卡实测会是这个功耗左右。

为了尽可能准确,这里能耗比的计算采用的功耗都是官方标称的TGP/TBP,而性能则取自于前面汇总的实际游戏性能指数,总得来说,由于A卡方面几乎都是OC版显卡,所以这样计算的结果对于大部分A卡是有利的,不过如果采用实测功耗则会更加不准确,所以也没办法了,而且对于A卡内部的比较,这个计算还是很有参考性的。

相比较绝对性能的新高度来说,笔者更看重能耗比的进步,认为能耗比高低是比性能高低更能体现一款显卡是否更先进的标志(以实际发售的性能和功耗值,不谈以极低功耗换取高能耗比的方法),因为对于大多数用户来说,绝对性能提升到新高度意义不大,因为那些高端显卡实在太贵了,但是新的架构换来的能耗比提升却是可以收益的。

从能耗比方面可以看到,表现最好的一款型号是RadeonRX,而这在笔者当时首发测试的时候就提到过了——"RadeonRX给我印象最深的是其亮眼的能耗比表现,要知道GeForceRTX可是W的整卡功耗,RadeonRX在仅有其77%的功耗下可以在传统光栅化游戏中达到与GeForceRTX非常相近的游戏表现,凭这一点来说,可以认为针对传统光栅化游戏来说RadeonRX是比GeForceRTX更先进的显卡。"

所以如果你看重能耗比表现,RadeonRX其实是一个非常好的型号。RadeonRX虽然能耗比也几乎一般好,但是RadeonRX性能太差,实用性大大降低,就主流级显卡来说,RadeonRX这款型号确实挺不错的。当然,前提是你不看重光追性能,还是最前面就说过的,如果看重光追性能表现,同样的预算选择N卡才是对的。

说到N卡的话,N卡方面能耗比最好的就是GeForceRTX这个型号了,属于中高端型号,跟RadeonRX不在一个市场区间,其实这样的结果对于消费者挺好的,也就是说如果你预算有限的话,就别追求什么光追这种极致的画面体验了,一张RadeonRX其实挺合适的。而如果你追求光追体验的话,那么建议至少以一套中高端的平台来避免整个游戏体验有短板,所以预算也建议中高级别,这样的话GeForceRTX就挺合适这部分玩家的,这两个型号算是笔者比较推荐的两个型号了,刚好一个N卡一个A卡,一个主流档、一个中高档,其实应该这就覆盖了绝大部分游戏群体了。

最后,笔者搜集了近期电商平台上各款型号显卡的最低的典型价格,这里统计的是最低价格所以就没管什么品牌和频率了,价格方面可以看到以RadeonRX为基准的话,最贵的GeForceRTXTi是它的10.9倍,跨度可以说很大了,而其实从RadeonRX到GeForceRTXTi之间的那么多显卡价格依次增幅还不算很大,而RadeonRXXT、GeForceRTX和GeForceRTXTi这三张则是突然就贵的离谱。

我们对于性价比的计算公式定为:性能1.3/价格0.9*+10。从结果可以看到A卡表现非常亮眼,占据了前三甲,不过这也是因为本次性能方面只

转载请注明:http://www.abuoumao.com/hytd/3872.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7