GPU新天花板亮相iGameGe
年9月,NVIDIA祭出了GeForceRTX,为消费级GPU市场树立了一个无法超越的天花板。一年多时间过去了,当我们还在感慨顶级市场上RTX仍一卡难求、独孤求败之时,NVIDIA却又自己亲手将这天花板打破,直接给出了完整GA核心规格的GeForceRTXTi。这一次动作,既是展现技术实力的“秀肌肉”行动,也为消费级GPU市场带来了最新的性能天花板,更是为NVIDIAAmpere系RTX显卡的Ti系列补上了最顶端的那一块拼图碎片。iGameGeForceRTXTiNeptuneOC正是首批上市的RTXTi显卡之一。
完整版GA,RTXTi成消费级GPU新天花板
在欣赏iGameGeForceRTXTiNeptuneOC之前,先来看看NVIDIA此次发布的RTXTi的参数规格情况。当然,作为RTX30系一脉继承而来的NVIDIAAmpere核心架构自然是必不可少,而且这次RTXTi更是以完整版GA的姿态强势降临消费级市场。
▲完整的GA拥有84组SM,每组SM包含个CUDA核心(其中64个为FP32/INT32混合核心)、4个第三代TensorCore张量核心、一个第二代RTCore光追核心和4个纹理单元,共有个CUDA核心。
当然,关于NVIDIAAmpere核心架构的技术细节,相信经过了从RTX到RTX的市场价沉淀之后,相信消费者对其应该已经非常熟悉,我们在这里只简单总结NVIDIAAmpere核心架构的特点与技术核心,而会先将重点放在RTXTi这颗GPU本身上。
全新的SM模块,CUDA翻倍
SM(StreamingMulti-processer,流式多处理器模块)模块一直是NVIDIAGPU的计算核心,在新的GA核心的安培架构上,由于计算任务的变化,GA的SM模块也有了巨大的变化。和RTX、RTX等完全一致,RTXTi的SM的计算单元内部,依旧配置了1个warp调度单元和1个派遣单元、×32bit寄存器和后端LD/ST、SFU单元,但是在计算的部分却包含了1组16个可自由执行FP32和INT32计算的双功能计算单元(ALU)——它们既可以完成FP32计算,又可以完成INT32计算,另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。这样,同为4个SM计算单元组成的SM模块,GA10X安培架构拥有等效个CUDA核心(极致情况下),相当于图灵核心的两倍。我们知道,图形和计算操作和算法、现代着色器工作负载通常混合使用FP32算术指令。FP32加速也有助于光线追踪降噪着色器。光线追踪渲染工作负载越大,相对于上一代产品的性能提升越大。
第二代RTCore光追核心
图灵架构为游戏引入实时光线追踪,轰动一时,为游戏带来了逼真的光照、图像质量、游戏玩法和沉浸感、阴影和特效,并带来超出想象的游戏画质表现。Ampere架构的第二代RTCore的性能提升一倍,带来2倍于Turing第一代RTCore的吞吐量,同时支持光线追踪和着色,使光线追踪性能达到全新高度。换而言之,光线追踪使用率越高,速度提升越大!同时第二代RTCore还引入了动态模糊等重要特性。NVIDIAAmpere架构的RTCore将光线交汇处理速度提高一倍,同时支持光线追踪与着色。光线三角形吞吐量增加一倍,Ampere架构的RTCore可达39.7RTTFLOPS,Turing架构为23.8RTTFLOPS,提升巨大。
第三代TensorCore张量核心
面向图形的安培架构也加入了第三代张量计算核心,专门为稀疏矩阵优化。RTXTi所配置的TensorCore可加速用于深度神经网络处理功能的线性代数,这是现代AI的基础。全新第三代TensorCore加速AI功能,例如用于AI超分辨率的NVIDIADLSS和用于AI增强的声画处理技术NVIDIABroadcast应用。
从本质上讲,TensorCore让DLSS能够加快游戏速度,同时带来高画质图像,甚至更细致的图像。借助第三代TensorCores的性能,NVIDIAAmpere架构GPU上的DLSS性能得到进一步增强。当前的NVIDIADLSS已经进化到了2.1版本,支持最高9X的游戏帧速率加速,这对于防止在高分辨率下开启光追效果后的游戏帧率下跌有着非常重要的意义。
支持HDMI2.1与AV1解码
支持HDMI2.1将总带宽从18Gigabits/秒提高到48Gigabits/秒,并增加对高动态范围(HDR)的支持,支持更高对比度的明亮图像和更鲜艳的色彩,以及更好的阴影和高光。而AV1解码与现有的H.、HEVC和VP9等编解码器相比,它能提供更好的压缩和质量,比H.节省50~55%的容量;RTXIO,在DirectStorage加持下,下一代游戏将能够在降低CPU负载的同时,充分利用RTXIO硬件,缩短加载时间,打造更宽阔的开放世界。
支持NVIDIAReflex低延迟电竞技术
游戏玩家通过鼠标按键触发的效果最终呈现在显示器画面上之前,按键触发的电信号需要先途径CPU进行逻辑运算,得到详实且准确的信息之后再提交给GPU进行渲染,并且将渲染后的数据最终以像素点填充的方式呈现到显示器上。在这个过程中,电信号从触发、传输再到显示的过程所产生的耗时便被称之为系统延迟。
而NVIDIAReflex低延迟电竞技术便是在这个过程中起到至关重要的作用——它能够通过提升GPU的运行频率和动态的降低渲染队列,并由此降低CPU反压,使得系统能够在最后时刻采样外设的输入数据,从而最大化提高系统的响应速度,进一步提升玩家操作的准确度。通俗来讲,就是它能提高玩家从点击鼠标到显示器画面产生对应变化的速度,从而加快玩家的操作速度,带来更符合玩家水准且更为流畅的游戏体验。
另外,为了帮助玩家直观地查看系统延迟的具体情况,NVIDIA还将系统延迟根据鼠标输入信息到显示器过程拆分为鼠标输入延迟以及PC+显示器延迟两个部分。同时,玩家们可以通过最新版的GeForceExperience开启实验性功能,进而在性能覆盖显示的功能界面中获取游戏延迟和帧率等性能指标,查看当前PC的状态。它通过革命性的GeForce和G-SYNC新技术来优化和测量竞技游戏中的系统延迟,从而更快地获取目标,做出反应,并提高瞄准精度。
支持NVIDIABroadcast
NIDIABroadcast这项AI驱动的声画处理技术的基础是NVIDIAEncoder,支持高质量直播。用户可以通过RTX30系显卡和Broadcast将自己的家改造成直播室,通过AI驱动的噪音消除、虚拟背景和自动取景等将直播和视频聊天提升到一个新水平。通过在GeForceRTX显卡上加速AI驱动的TensorCore,AI网络能够保证高质量直播的实时运行。
首先,GeForceRTXTi的出现可以说是给GA的消费级划分产品画上了一个完美的句号。在规格上,RTXTi首次以完整GA核心的姿态出现,也就是拥有84组SM,每组SM包含个CUDA核心(其中64个为FP32/INT32混合核心)、4个第三代TensorCore张量核心、一个第二代RTCore光追核心和4个纹理单元,共有个CUDA核心。从规格上可以看出,相比此前的N卡之皇RTX,RTXTi的规格提高主要是补足了RTX缺失了的两组SM,也就是多出了个CUDA核心、两个RTCore光追核心以及8个TensorCore张量核心。而相比此前发布不久的Ti旗舰RTXTi,RTXTi则是多出了4组SM,个CUDA核心。
在另一个重要的核心要素显存配置上,RTXTi采用了与RTX一样的容量配置——24GBGDDR6X显存的配置仍然足以令其傲视群雄,而且在频率上也提升到了MHz,等效速率更是达到了21Gbps,相比RTX的19.5Gbps提升不少。在核心频率部分,这次RTXTi同样显得比较激进,MHz(Base频率)~MHz(Boost频率)的频率空间基本是整个RTX30系GPU中跨度最大的(这里指的相对于FoundersEdition公版产品的指导频率)。当然,完整版的GA规格、夸张的频率提升以及显存频率的提升,带来的自然就是功耗的自然上涨。所以我们可以看到GeForceRTXTi的TGP热设计功耗就为W,相比RTX和RTXTi足足提升了W之多。
支持NVLinkSLI,创作应用或许是其最终归属
▲RTXTi配备了NVIDIA第三代NVLink接口,在两个GPU之间可以提供高达.5GB/s的总带宽。当然,你得需要新的上图这种NVLinkSLI桥接器。
和RTX一样,RTXTi也支持传统意义上的SLI双卡互联。但需要注意的是,随着DirectX12和Vulkan等图形API的发展,程序设计员们非常迫切地希望能够在游戏程序中原生支持SLI,而不是像以往一样通过SLI驱动来提供支持。这样程序设计员就能更好地在自己熟悉的游戏程序中对SLI进行优化配置,也能为玩家提供最佳的游戏体验和SLI性能增幅。因此包括RTX和RTXTi在内,以及未来NVIDIA所有支持SLI的GPU,很可能只能在游戏内置了SLI优化设计才能提供双卡互联的性能增强支持,SLI驱动会成为历史,不再需要单独加载,改由游戏原生支持。
从第一代Kepler架构的GTXTITAN开始,到Pascal架构的TITANX再到Turing核心的TITANRTX,每一代的TITAN显卡都有一个重要的特性——显存容量一定位于同等级游戏显卡之冠,也就意味着TITAN显卡始终会提供比GeForce游戏显卡更多的显存。用来干嘛?当然是内容创作创意设计!尤其是在GPU实时光线追踪引入3D设计创作、视频创作编辑产生了4K、8K等高分辨率格式等,新的创意设计工作流程更是要求高性能GPU,还有非常重要的显存容量。现代创作的大量应用都需要显卡提供大容量显存来满足高质量素材的加载及渲染需求。
而说到内容创作专属,相信不少玩家第一时间联想到的应该是NVIDIA此前推出的Turing核心的TITANRTX显卡。这款显卡基于图灵架构,拥有个CUDA核心,比同样基于图灵架构的消费级旗舰显卡RTXTi多个CUDA核心。不过和RTXTi相比,TITANRTX的显存容量优势巨大,前者的总显存容量为11GB,而TITIANRTX的显存总容量则高达24GB。
显然,RTXTi配置了与RTX相同的总容量24GB的GDDR6X显存,它必然在很大程度上也是冲着TITANRTX去的!需要满足严苛负载下内容创作的超大显存容量需求,跟RTX类似。
▲我们认为RTXTi的定位更类似于TITAN,或许从RTX30系开始,90系的出现就是为了取代原有的TITAN系列。
因此,RTXTi的“主修课”很可能也会是提高创作者在超高负载下的效率。这些创作者往往需要在专业创作应用中使用大型模型,详细的场景和高分辨率纹理来创造拥有更高逼真度的图像或动画。这些创作应用不仅需要性能强大的GPU,同时还依赖更多的显存容量做支撑。通常情况下,当创作程序所需显存资源不足时,有可能出现程序崩溃的情况,所以为了保证创作程序能够稳定运行,大容量显存就显得至关重要。而且相比RTX,新的RTXTi更有机会成为设计创作者的新宠,完整规格的GA核心以及更高的核心频率和显存频率,它真正提供了旗舰级的GPU性能和丰富的TITAN类显卡显存容量,足以应对最极端的情况创建者面临的工作负载场景。
同时,我们必须要看到,GPU的光线追踪功能在3D渲染应用程序中提供了巨大的性能改进,并将视频编辑推动到了4K、8K乃至更高的分辨率规格。这些新的创造性工作流程都需要高性能GPU和尽可能多的GPU内存。为了满足这些高端创造性工作负载所需的大显存需求,RTXTi可以说是为此而生。它配备的24GBGDDR6X是上一代GeForceGPU的两倍乃至更多,同时它还拥有超过1TB/s的显存带宽,确实有足够的理由成为需要大量GPU显存的内容创作者的理想解决方案,但却不需要TITAN或QuadroGPU上的额外专业软件优化就能实现高性能、高效率的渲染。
RTXTi亮相,iGameGeForceRTXTiNeptuneOC赏析
Neptune,神秘的海王。其实从名字上我们就能感受到一股浓浓的冰酷味道。作为iGame旗下主打一体式水冷的显卡产品系列,Neptune的身上从一开始就被iGame寄予了诸多的期望。
作为iGame旗下的一体式水冷显卡产品家族,Neptune系列产品的发展已经走过了三代的历史,每一代Netune产品的设计总能让我们感受到满满的未来科技味道,伴随RTXTi而到的这一代产品也不例外。
从整体设计来看,以深海为主题的iGameGeForceRTXTiNeptuneOC(后文简称RTXTiNeptuneOC)浑身上下充满了未来科技的神秘元素,就像是深海中的高级文明亚特兰蒂斯。尤其是在显卡正面安装的那一只独立水泵,就仿佛被誉为海洋之眼的世界奇观——蓝洞,在无限反射的RGB背光衬托下,打造出了极其神秘、深邃的感觉。
RTXTiNeptuneOC显卡采用的是一体式的纯水冷设计,在显卡正面的装甲上泾渭分明地划分出了四个不同纹理质感的区域,通过不同纹理质感的设计,搭配正面外壳凹凸的结构,让RTXTiNeptuneOC展现出了十足的科技力量感,而作为独立水泵装饰的“蓝洞”也很好地延续了系列特色“海洋漩涡”的精髓,展现了“极寒”的符号元素。
在散热结构上,RTXTiNeptuneOC采用了两个定制的mm风扇搭配冷排,定制风扇的流体长浆扇叶对风压有增强作用,而在冷排上的鳍片也是采用的定制排列方式,这会使得风扇更容易吹透冷排,带来更优秀的散热效果。同时,在冷头部分,与GPU核心接触的位置,iGame还采用了精加工的密集水稻直触设计,如水生生物毛细腮管一样的精密纱篇结构大幅度增加了水冷液与热源的接触面积,更有利于快速散发核心热量。
▲正面凹凸造型搭配不同的纹理处理,让显卡整体充满了未来科技感。
▲独立水泵所代表的海洋之眼,用无限反射的RGB灯效营造出了深海的神秘深邃感。
▲/顶部搭配的是可以°调整方向的水管接头,安装兼容性做到了极致。
▲两只定制mm风扇搭配冷排构成了散热结构主体。
▲顶部的logo灯采用了类似裸眼3D的特效设计,如同深海悬浮设计的W+色域多玩法iGameLOGORGB,能充分展现出机箱“冷静”的魅力。
▲iGameCenter软件中可以调节灯效。
▲输出接口为3DP1.4a+1HDMI2.1,同时我们熟悉的iGame一键超频按钮也没落下。
▲RTXTi显卡统一采用12+4Pin的16Pin供电接口,这是基于PCIe5.0规范的供电接口。不过顶部的4Pin是用于检测电源+12V的功率是否能满足RTXTi需求的信号线,没有供电功能。这一检测信号线同样需要电源端的支持,新一代的电源将加入对此定义信号线的支持,但是对于大部分既有电源来说,通常是不具备这一信号检测反馈功能的,所以通常会只用3个标准PCIe8Pin转12Pin的转接头来实现对RTXTi显卡的供电。
▲PCB设计上,RTXTiNeptuneOC采用了RTX类似的“燕尾”设计,整体布局非常紧凑,24+4相的供电设计也是非常豪华。
▲核心代号为GA--A1,不出意外这就是GA的“终极”版本了。
▲显存仍然是N卡高端御用的来自美光的GDD6X颗粒。RTXTiNeptuneOC一共搭载了12颗GDDR6X颗粒,单颗容量2GB。
▲总共24+4相I.P.P纯数字供电系统,充分保证RTXTiNeptuneOC运行的稳定性。
iGameGeForceRTXTiNeptuneOC产品资料
GPU:NVIDIAGeForceRTXTi
核心代号:GA--A1
CUDA数量:
RTCore数量:84
TensorCore数量:
核心频率:MHz(Base)~MHz(Boost)
MHz~MHz(一键OC)
显存容量:24GBGDDR6X
显存频率:MHz(21Gbps)
散热方式:一体式水冷(双mm风扇,冷排)
输出接口:3×DP1.4a+1×HDMI2.1
显卡尺寸:mm×43mm×.5mm(双槽卡)
冷排尺寸:mm×19.2mm×53.8mm
参考价格:待定
实战测试,RTXTi这次是真封神了
终于到了最激动人心的时刻!相信大家和我们一样迫不及待地想要看看RTXTiNeptuneOC在性能上到底会有怎样的表现。别急,下面就让我们走入RTXTi的世界。
▲RTXTiNeptuneOC在频率设置上与NVIDIA官方指导频率一致,Boos频率为MHz,显存频率为等效MHz。
我们的测试分为两个大的部分,分别是游戏应用和设计创作应用。不过考虑到RTXTi的主要核心目标是在8K级应用以及大负荷显存需求环境的3D渲染,因此我们也分别在两类应用中加入了一些有针对性的高需求测试场景,以期探索RTXTi的真实性能。同时,我们也将RTX与RTXTi这个前Ti旗舰加入了对比,这样可以真实地衡量出RTXTi的真正实力。需要说明的是,后文的所有测试都是基于RTXTiNeptuneOC的默认频率,关于它的极限超频性能,我们将在最后单独探讨。
测试平台
显卡:iGameGeForceRTXTiNeptuneOC
NVIDIAGeForceRTXFE
NVIDIAGeForceRTXTiFE
主板:iGameZ
处理器:英特尔酷睿i9-K
内存:DDRGB双通道
电源:鑫谷昆仑W
显示器:戴尔UPK(×)
设计创作应用测试,大负荷应用RTXTi轻松驾驭
Blender
Blender是一个免费的开源3D创作软件。当启动GPU加速的最终帧渲染并打开交互渲染窗口的话,遇到较大的场景,就很容易导致显存需求超过12GB甚至更多。甚至对RTXTi来说,这将消耗掉它的所有可用显存,导致渲染工作直接终止。而对于RTXTi来说,24GB显存的配置则能很好地满足这个需求。在测试中,我们首先用OpendataBenchmark以及Cycles引擎渲染两个模型横向对比了三款显卡的主流渲染处理性能。最后,我们再用Junkshop这个超大模型的渲染,来看看RTXTi面对超大模型渲染是否仍能轻松胜任。
从Blender的基础渲染测试来看,三款显卡都能较好地完成各自的任务。不过在渲染效率上,可以看出得益于更高的规格配置,RTXTiNeptuneOC相对于RTX仍有4%~5%的性能领先幅度,而相对于RTXTi来说,领先幅度达到了7%~8%。
那么在超大模型渲染上,又会如何呢?
▲在Junshop超大分辨率模型渲染上,RTXTiNeptuneOC能顺利完成渲染(上图),而RTXTi则在渲染过程中报告显存溢出而导致无法继续渲染(下图)。
OTOYOctaneRender
OctaneRender是全球最先内置支持硬件RTX光线追踪的GPU加速渲染引擎。在OctaneRender中渲染超大精细度的模型时(通常渲染缓冲需求会超过10GB或更多),如果你使用RTXTi这类显卡,必须设置“Out-Of-Core”的渲染模式,也就是允许应用软件使用系统内存来存储渲染场景、几何体以及超出可用显存缓冲的纹理模型。虽然在这种模式下渲染工作能正常进行,但是使用核心外缓冲数据进行渲染会对渲染性能产生重大影响。而使用RTXTi,24GB显存则能轻松应对,因此不需要核心外渲染。导致的结果就是RTXTi的渲染时间比使用RTX时的渲染时间快得多,甚至达到了10倍或更高的渲染效率提升。
在OctaneRender的一般模型渲染测试中,三款显卡同样都能较好地完成渲染任务。同样RTXTiNeptuneOC在性能上相比RTX领先约5%,相对于RTXTi则领先约10%。
▲在进行超大模型MULTI_HEAD_SCENE的渲染中,必须要通过设置OOC缓存(核外渲染,将部分内存调用作为显存)才能让RTXTi正常工作。
▲RTXTiNeptuneOC能顺利完成渲染,OOC调用为0。
▲RTXTi渲染时,可以看到调用的OOC内存占了相当大一部分。
在OctaneRender中进行超大模型MULTI_HEAD_SCENE的渲染时,RTXTiNeptuneOC全程无需调用内存作为显存使用,能非常顺利地完成渲染,用时约62秒。而RTXTi则必须要调用部分内存作为显存进行核外渲染,同时完成渲染的用时非常夸张,达到了秒。从这里也可以看出,在超大模型的渲染中,RTXTiNeptuneOC的渲染性能达到了RTXTi的5倍。
BlackmagicDesignDavinciResolve17Studio
DaVinciResolve是世界上唯一结合了8KRedcodeRAW源视频生产和编辑创作解决方案的创作软件工具。在对8KREDCODERAW源视频进行编辑创作时,RTXTi显卡可用的12GB显存很可能会被全部占据,尤其是在进行降噪、Speedwarp重定义运动模糊二次渲染等操作时,对显存的要求更高。在这个测试中,我们用了一段8KR3D源视频进行运动模糊渲染播放测试。
▲RTXTiNeptuneOC能顺利完成MotionBlur66设置的8K源视频运动模糊处理回放。
▲在同等设置下,RTXTi则在回放过程中出现了显存不足的错误。
在相同的运动模糊等级下,我们用一段8K视频进行了运动模糊处理的即时回放。结果RTXTiNeptuneOC能够非常流畅地完成视频处理回放,而RTXTi则半路“夭折”。这说明在8K视频的处理上,RTXTiNeptuneOC所拥有的大显存优势的确非常明显。
从最后的IndigoBenchmark、V-RayBenchmark以及D5渲染器的测试情况来看,在一般的模型渲染性能比较上,RTXTiNeptuneOC仍然是领先RTX约4%~5%,而相对于RTXTi则领先约7%~8%。
全新创作征程,NVIDIAOmniverse
设计创作性能测试的最后讲讲NVIDIAOmniverse。众所周知这是面向创作者的NVIDIAStudio工具套件中的3D设计协作平台,专为加快工作流程而打造,将应用程序和用户资源结合起来,快速将您的想法变为现实。NVIDIAOmniverse将NVIDIA20多年来在图形、人工智能、模拟和计算领域的开创性工作整合到一个平台中,以转变传统的3D设计创作工作流程。
通常,在Autodesk3dsMax、EpicGamesUnrealEngine和Substance3DPainter之间工作的环境,创作者通常需要在3dsMax中建模、导出,然后导入到Painter中进行纹理处理再导出,然后导入到UnrealEngine中,最后设计场景。但有了Omniverse,这个过程发生了转变。创作者将他们的应用程序连接到Omniverse,然后在OmniverseCreate中使用每个应用程序的数据编辑组合场景。而OmniversePhysics则可以让创作者直观地构建一个3D世界,因为物体和环境都遵循物理定律。
OmniverseRTX渲染器速度超快,可让您实时可视化场景中的变化,完全依赖于RTX光线追踪或路径追踪。当然,要想完美驾驭NVIDIAOmnivers,一款支持RTX光线追踪的显卡必不可少,而显卡的性能等级将直接决定你能在Omnivers中使用怎样的渲染等级,因此RTXTi堪称当前Omnivers平台的最佳消费级搭档。值得一提的是,NVIDIAOmniverse对个人用户免费,现已在NVIDIA
转载请注明:http://www.abuoumao.com/hyfw/4472.html