您现在的位置:主页 > 新闻动态 >

NVIDIATuring架构解析:追光逐影,成败未定

时期:2011-01-23 00:28 点击数:
本文摘要:属性。如上所述,NVIDIA希望通过混合显卡推动消费级GPU构建的转世变化。 使NVIDIA进入这一步的背景除了“动态光线跟踪是计算机图形的圣杯”之外,还有很多打破图形纯粹主义的其他潜在动机。光线跟踪第1课: whatwhy是NVIDIA用作光线跟踪的RT Core是Turing体系结构的两个技术基础之一,因此在理解Turing体系结构之前,最糟糕的讨论是什么是光线跟踪? 简单来说,光线跟踪是模拟光线在现实世界中的表现(光线、反射等)的图形方式。

乐博体育网址

属性。如上所述,NVIDIA希望通过混合显卡推动消费级GPU构建的转世变化。

使NVIDIA进入这一步的背景除了“动态光线跟踪是计算机图形的圣杯”之外,还有很多打破图形纯粹主义的其他潜在动机。光线跟踪第1课: whatwhy是NVIDIA用作光线跟踪的RT Core是Turing体系结构的两个技术基础之一,因此在理解Turing体系结构之前,最糟糕的讨论是什么是光线跟踪? 简单来说,光线跟踪是模拟光线在现实世界中的表现(光线、反射等)的图形方式。问题是,越是无底的洞,越仅次于滑稽性能的市场需求,如果尝试用最完全的方法计算场景内的各光源接收到的所有光,就不会在场景内跟踪无限的光。多年来,算法工程师们为光线跟踪开发了许多优化措施,其中最重要的是反转“光”这一非常简单的概念,从屏幕上从观察者的角度反向跟踪光线,而不是从光源上跟踪光线。

但是,即使在包括该方法在内的许多优化方式中使用,对光线跟踪性能的市场需求依然很低。除了最基本、最硬的光线跟踪,在任何情况下都远远超出了动态图形的范围。

这些优化技术意味着光线跟踪可以在计算机上比较“合理”的时间。当然,这种“合理”取决于时间或天。

这需要不同场景的复杂性,以及你想超越的图形效果。实质上到目前为止,光线跟踪主要是3D动画电影等“离线”场景。

光栅化图形意味着非光线跟踪的高成本意味着还不能用作视频图形,所以计算机行业从一开始就用于光栅简单的图形方法,名字上有“光”字。光栅化是将3D几何体切换到2D像素的过程,所有屏幕效果仅适用于一个像素的操作者。游戏开始对一帧画面进行图形显示时,首先游戏场景中所有物体的顶点被CPU分解,然后所有顶点的坐标信息被发送到GPU内的几何单元。几何单元以屏幕方位为基准构建空闲空间,将这些顶点按照坐标移动到空间,将顶点连接到线框上构成物体的轮廓,将在表面的展望面积上具有照明信息的基底纹理作为扫描。

在这一步,我们的游戏画面后可以形成几何学的形状。接下来是整个光栅化图形过程的核心,光栅化、GPU内的光栅化器根据线投影关系,将整个空间从三维立体形态压制成一张二维平面。然后,流处理器根据场景中物体之间的几何方位关系,通过各种图形算法,确认哪个像素暗哪个像素暗哪个像素亮,哪个像素低光,哪个像素阴影。

在流处理器忙于计算像素信息的同时,GPU内的纹理单元也开始将预先设定的“整体”纹理材质切割成画面所需的形状。最后,流处理器和纹理单元将分别计算出的像素信息和切出的纹理材质提交到位于GPU后端的ROPs,ROPs将两者混合后嵌入最后的画面中输入。另外,ROPs还实现了游戏中的雾化、景深、动态模糊、抗锯齿等后处理效果。

看这里应该就知道了。我们看到的所有帧的游戏画面都是GPU给你画的3D立体画。3D立体图像看起来真的不现实。各不相同的画画人的水平怎么样? 光栅化图形出现的画面真的不现实,各不相同的图形算法是否与先进的设备完善。

混合图形、光线跟踪返回光栅简化的非常简单慢的要求对现实世界的画面模拟有限制,这也普遍存在光栅化中光、光线和影子不自然等缺失。如果光栅化这么不准确,游戏如何进一步提高画质? 当然,可以这样转过身来,但通过光栅化解决问题的问题不是不可能,性能不会仅通过必要的计算而高速收缩。就像玛丽亚的谎言用10个谎言画圆一样,有时我想用光栅化的图形分解详细的画面。

比光线跟踪的自然过程更简单。换言之,光栅化的本质不是用视觉上愚蠢的图形方式消耗这么多性能,而是不把这些希望投入到能实现另一个正确的图形虚拟世界的技术中吗? 2018年,整个计算机行业都在考虑这个问题。对NVIDIA来说,前进的道路依然是纯粹的光栅化,混合图形:将光栅简化和光线跟踪相结合,其想法是在有意义的地方使用光线跟踪——作为光、影、其他与光的相互作用相关的内容,进行传输这意味着著开发者可以兼顾,为了根据市场需要平衡光栅简化的高性能和光线跟踪的高质量,需要失去从光栅化函数调用到光线跟踪的前者的所有性能优势。

到目前为止,NVIDIA及其合作伙伴展示的案例可以更容易地构建,包括精确的动态灯光和更好的全球灯光,但很明显混合图形可以扩展到与灯光相关的所有工作人员。但是,NVIDIA、微软公司和其他公司也被迫从零开始建立生态系统。

乐博体育网址

他们不仅要向开发人员销售光线跟踪的优点,还必须教开发人员如何高效地构建光线跟踪。但是,我们现在还可以讨论光线跟踪。让我们考虑一下NVIDIA如何通过构建专用硬件单元来实现动态光线跟踪。

边界卷层次使NVIDIA在Turing上下了相当多的赌场,传统的GPU架构可以高速处理栅格化图形,但可以说不擅长光线跟踪这一任务。因此,NVIDIA需要添加专用硬件单元进行光线跟踪,但传统光栅化模式不需要这些额外的晶体管和功耗。这个部分的专用硬件单元相当用于判断解决问题的光线跟踪的最基本问题即光线和物体的共线状况。

这个问题最罕见的解决方案是将三角形存储在称为boundaryvolumehierarchy (BVH )的非常适合光线跟踪的数据结构中。概念上,BVH非常简单,不是检测各多边形来判断是否与光线共线,而是检测场景的一部分来调查是否与光线共线。如果场景的某一部分是与光线相同的线,则将其细分为小部分再次检测,在依次继续以后的单一多边形中,光线检测可以解决问题。

对计算机科学家来说,这听起来像是二元搜索的应用,显然是这样。成为每次检查都可以废弃很多选择项(光线跟踪中为多边形)的答案,之后可以在短时间内到达正确的多边形。

BVH反过来本质上被收纳在树根的数据结构中,每次细分(边界板)都被收纳为其父边界框的子节点。现在BVH的问题是彻底增加了要判别的光线的共射线量,但这些都是用于分离一条光线,在各像素必须通过多条光线的情况下,各光线必须展开大量的检查,其计算量依然不低这也是将硬件加速部署到专用光线跟踪单元的最重要原因。

考虑到继承Volta精神的Turing体系结构这次的Turing体系结构,新的Turing SM看起来和上一代的Pascal SM大不相同,但理解Volta体系结构的人,Turing SM 与Volta一样,Turing SM被分为四个子核(或手动块),每个子核包括一个warp调度器和调度单元,而Pascal的两个分区设置是每个子核的warp调度器广义上,这种变化意味着著Volta和Turing失去了以一个时钟周期从线程接收第二个无关命令的能力。Turing可能与Volta在两个周期内继续执行指令完全相同,但调度程序可以每一个周期接收独立的国家指令,因此Turing最后会这样确保双向指令级别段(ILP ) 正如我们在Volta中看到的,这些变化与新的调度/继续执行模型密切相连,Turing也有独立国家的线程调度模型。与Pascal不同,Volta和Turing具有每个线程的调度资源,程序计数器和每个线程的堆栈跟踪线程的状态,并将活动的相同warp线程智能地分组到SIMT单元中CUDA和ALU (算术逻辑单元)的Turing子核包括16个INT32单元、16个FP32单元和2个Tensor单元,与Volta子核的设置完全相同。

为了集成INT/FP数据路径模型(如Volta ),Turing还可以与RT Core密切相关,同时运行FP和INT命令。Turing和Volta的区别在于,Turing没有FP64单元,FP64的吞吐量只有FP32的1/32。

这些细节在技术上可能更偏向,但Volta的这种设计为了最大化Tensor Core的性能,可能最大限度地增加了破坏性的并行性和与其他计算的动作阻抗的协议。对Turing的第二代Tensor Core和RT Core也是如此,其中四个独立国家调度的子核和粒度线程的处理非常容易以面向混合游戏的动作阻抗构建最低性能。在存储器方面,Turing的各子核有Volta这样的L0命令存储器,具备完全相同大小的64 KB寄存器文件。

在Volta中,增加Tensor Core的延迟是最重要的,在Turing中可能在某种程度上不利于RT Core。Turing SM的每个子核有4个读出/存储单元,Volta中超过8个,但依然维持着4个纹理单元。新的L1数据高速缓存和共享内存(SMEM )进一步向下扩展,改进并集成到Volta的另一个想法——单个可分区内存块中。

对Turing来说,这看起来像一个人组的96 KB L1/SMEM。传统图形的工作阻抗分为64KB专用图形着色器RAM、32 KB纹理缓存和寄存器文件的块区域。另外,关于计算出的动作阻抗,L1/SMEM区分最低64 KB为L1,剩下的32 KB为SMEM,反之亦然(Volta的SMEM最低可以搭载96 KB )。

RT Core :混合图形和动态光线跟踪在Turing上,光线跟踪几乎不能替代传统光栅图形,作为“混合图形”的一部分不存在,“动态”也是每像素少量出于性能上的理由,现阶段的开发者有意识且明确地利用全球光、环境光遮挡、阴影、光线、反射等光栅化无法构筑的部分细微效果。光线跟踪有时会局限于场景中的特定对象。

此外,在光栅简化和z缓冲区中替换主光线传感,仅在副光线中展开光线跟踪。由于光线跟踪在计算机图形领域的重要性,NVIDIA Research在非常宽的时间段内研究了各种BVH构建,探索了光线跟踪加速的体系结构问题。但是,NVIDIA没有透露关于RT Core及其BVH构建的很多细节。

RT Core与Tensor Core不同,Tensor Core看起来像FP和INT核心在一起的FMA阵列,而RT Core看起来像修理IP块的典型。子核中的纹理单元非常近,RT Core的指令路由到子核之外,从SM传递到光线检测器后,RT核自动重复BVH,继续进行光线共线检测。这种类型的“迭代和交叉”是同一函数光线跟踪加速器众所周知的概念,多年来有很多构建。迭代和交叉检测是为了计算密度最低的两个任务。

相反,要在着色器中重复BVH,每个光线必须感知数千个命令槽。所有这些都是用来检测BVH中边界板的交叉。RT Core还处理一些内存操作员的分组和时间表,以最大化跨越多条光线的内存吞吐量。

和许多其他工作阻抗一样,内存比特率是光线跟踪的罕见瓶颈,也是NVIDIA Research多个论文争论的焦点。考虑到光线跟踪不会产生足够的点状和随机的内存采访,SIP块可能有一些内存和光线缓冲区。Tensor Cores :将深奥的自学推理小说作为游戏图形使用的Tensor Cores是Volta的典型特征,但这个Turing搭载的第二代Tensor Core毕竟出自蓝色。

乐博体育网址

第二代Tensor Core的主要变化是减少用作推理小说的INT8和INT4的精度模式,通过新的硬件数据路径完成,执行点累积面上有INT32的乘积。INT8模式的运算速度是FP16的2倍,或每1个时钟2048次整数运算。INT4模式的运算速度是FP16速率的4倍,或每1个时钟4096次整数运算。

第二代Tensor Core仍然具备FP16模式,需要反对在没有FP32累加器的情况下显示FP16模式。CUDA 10还没有出来,但增强的WMMA操作员需要说明其他区别,如操作数的额外可拒绝矩阵大小。GeForce RTX和Turing不仅仅是RTX这个新品牌名称,还没有将Turing的所有功能合并到一个NVIDIA RTX平台中,而是NVIDIA RTX平台:包括所有Turing功能的标准化。

高级着色器NVIDIA RTX光线跟踪技术: RTX平台上光线跟踪技术的名称GameWorks Raytracing :光线跟踪减振模块的GameworkSSD KGEForce RTX:NVIDIA RTX的品牌geforcertx :图形品牌NGX用于DLSS是游戏专用的另外设置的DNN (深度神经网络),在超高品质的64倍超级采样图像和现实画面中展开训练,在Tensor Core中展开高品质在标准模式下,DLSS可以以低输出样本估计高倍抗锯齿的结果,并以目标分辨率超过接近TAA的效果。由于与深度自学有关,NVIDIA将纯粹的计算/专业功能推向了消费者领域。在Turing中,Tensor Core可以加速DLSS等特性,也可以加速基于AI的阻尼器,以清洁和修改动态光线跟踪图形的画面。

总结Turing架构和Geforce RTX的发布表明,计算机图形在消费级市场上开始从欺诈的视觉愚蠢向现实的追光放弃发展。到目前为止,也不惜业界的称赞。Turing架构追加了专用的光线跟踪单元RT Core,与Tensor Core联合开展了AI减振,但根据(公众号:)的理解,在1080P分辨率下,光线跟踪没有基本可用性的入门阈值回顾刚发布的Geforce RTX 2080Ti/2080/2070三个显卡,光线跟踪性能分别是每秒处理100亿/80亿/60亿条光线,NVIDIA是今后更低的GeForce RTA。

不巧,Geforce RTX 2070的光线跟踪性能刚刚被上述没有基本可用性的入门阈值压倒,更低端的显卡也可以不反对光线跟踪。另外,现在的光线追踪算法可能被过度修正,光影关系的复原可能有很多错误。例如,在NVIDIA在战地V这个游戏中表现出RTX效果的情况下,汽车在火光后面错误很多,红框的灯罩背对着车后面的火光,在角度上几乎没有火光。根据最近流入的性能测试,最低的GeforceRTX 2080Ti即使打开光线跟踪,也是唯一的。

由于各种各样的情况,现阶段的光线追踪依然在“有可用性”的门槛边缘游走,Turing和Geforce RTX显卡是否已经迈出这一步,我知道还不好……via:Anandtech着以下,听取刊登的心得。


本文关键词:乐博体育网址,NVIDIATuring,架构,解析,追光,逐影,成败,未定

本文来源:乐博体育网址-www.csbodao.com



Copyright © 2003-2021 www.csbodao.com. 乐博体育网址科技 版权所有 备案号:ICP备89778498号-9