用c语言实现线画、填充图元生成算法多边形_【游戏场景剔除】剔除算法综述...

作者：手机用户2502917905 | 来源：互联网 | 2023-10-16 13:24

之前在做场景优化的过程中，看了不少论文和博客阐述不同剔除算法的原理和过程，自己参照着算法去实现了Hiz和软件剔除。一直想写一篇关于剔除算法的综述

之前在做场景优化的过程中&＃xff0c;看了不少论文和博客阐述不同剔除算法的原理和过程&＃xff0c;自己参照着算法去实现了Hiz和软件剔除。一直想写一篇关于剔除算法的综述&＃xff0c;来总结常用剔除算法的实现原理和过程。

在游戏运行中&＃xff0c;引擎渲染出数以万计的物体&＃xff0c;场景复杂度往往是数千万面的级别&＃xff0c;同时还需要处理千计盏灯光和数百种材质。因此&＃xff0c;如何有效地减少不必要的绘制就显得格外重要。本文将就游戏引擎中用到的各种剔除技术进行概述&＃xff0c;会较少涉及细节&＃xff0c;感兴趣的同学可以去看文末的参考文献&＃xff0c;文献中会有相关剔除算法的原理和具体实现。

我们将分为以下四个方面来介绍&＃xff1a;

1.场景剔除工作原理

2.常用剔除算法

3.总结

4.参考文献

一、场景剔除工作原理

对于场景物体的剔除一般分为可见性剔除和遮挡剔除&＃xff1a;

1.可见性剔除

可见性剔除通过判断物体与相机的距离(距离剔除)或者是否在相机的视锥体内(视锥体剔除)来对物体进行剔除。

如图所示&＃xff0c;不在相机视锥体内部的物体将被剔除不进行渲染。

2.遮挡剔除

遮挡剔除则是在相机可见范围内通过判断物体是否被其他物体遮挡来对物体进行剔除。遮挡剔除有基于整个物体是否被遮挡的剔除(Hiz、硬件遮挡查询等)&＃xff0c;也有基于像素级别的遮挡查询(Early Z)。

图中蓝色虚线的物体被相机前方的物体遮挡&＃xff0c;并将剔除不进行渲染。

二、常用剔除算法

本文将大致介绍以下剔除算法的原理和实现过程&＃xff1a;

(1).距离剔除

(2).视锥体剔除

(3).Occluder剔除(软件剔除)

(4).视口剔除

(5).背面剔除

(6).遮挡查询&＃xff08;Occlusion Query&＃xff09;

(7).Early Z Culling

(8).Hiz Culling

(9).PVS

1.距离剔除

剔除阶段&＃xff1a;应用程序阶段。

通过物体和相机的距离进行判断物体是否被剔除&＃xff0c;原理比较简单&＃xff0c;剔除效率也相对较高。在UE4中可以通过物体属性设置剔除的最大距离和最小距离(如下图)&＃xff1a;

2.视锥体剔除

剔除阶段&＃xff1a;应用程序阶段。

即简单的判断一个物体是否位于视锥棱台内。裁剪的依据主要是根据摄像机的视野(field of view)以及近裁减面和远裁剪面的距离&＃xff0c;将可视范围外的物体排除出渲染。

上图中1为近裁剪屏幕&＃xff0c;2为裁剪截面体&＃xff0c;3为远裁剪平面

在实践中&＃xff0c;由于模型往往是比较复杂的&＃xff0c;很难精确计算它和视锥体的交集&＃xff0c;因此一般是用轴对齐包围盒&＃xff08;AABB&＃xff09;&＃xff0c;有向包围盒&＃xff08;OBB&＃xff09;或者包围球&＃xff08;BSphere&＃xff09;代替模型本身进行相交计算。

视椎体剔除是减少渲染消耗的最有效手段之一&＃xff0c;可以在不影响渲染效果的情况下大幅减少渲染涉及到的顶点数和面数。

3.occluder剔除(软件剔除)

剔除阶段&＃xff1a;应用程序阶段。

这个方案的思路是&＃xff0c;首先利用CPU构造一个低分辨率的Z-Buffer&＃xff0c;在Z-Buffer上绘制一些场景中较大的遮挡体&＃xff1a;

在构造好的Z-Buffer上&＃xff0c;绘制小物体的包围盒&＃xff0c;然后执行类似于occlusion query的操作&＃xff0c;查询当前物体是否被遮挡&＃xff1a;

由于是纯CPU的&＃xff0c;集成起来也比较简单&＃xff0c;同时不会有GPU stall的问题。缺点是需要美术指定一些大的遮挡体&＃xff0c;对CPU性能有一定的消耗。在UE4中通过物体actor的LOD For Occluder设置遮挡体。

4.视口剔除

剔除阶段&＃xff1a;投影变换之后屏幕映射之前。

发生在几何阶段(Geometry Stage)后期&＃xff0c;投影变换之后屏幕映射之前&＃xff0c;是渲染管线的必要一环。只有当图元完全或部分存在于规范立方体内部的时候&＃xff0c;才将其返送到光栅化阶段。其中&＃xff0c;对于完全位于规范立方体内部的图元&＃xff0c;则直接进行下一阶段&＃xff1b;完全处于规范立方外部的图元则完全被舍弃&＃xff1b;部分处于规范立方体内部图元&＃xff0c;则会根据视口进行对应的裁剪&＃xff0c;在这一过程中可能会产生新的顶点。通过视口剔除可以将视口外的图元舍弃掉&＃xff0c;减小光栅化阶段的消耗。

5.背面剔除

剔除阶段&＃xff1a;在光栅化阶段进行。

当我们观察场景中对象时&＃xff0c;一般只能以一定角度来观察&＃xff0c;那么对象的某些面我们是看不到的&＃xff0c;例如你观察一个立方体&＃xff0c;最多只能同时看到3个面&＃xff0c;有时只能看到1个面&＃xff0c;而我们绘制时如果不采取剔除背面的措施&＃xff0c;则要绘制6个面&＃xff0c;其中包括一些我们根本看不到的面。对于立方体这个面较少的几何对象&＃xff0c;性能开销不明显&＃xff0c;但是对于复杂的模型&＃xff0c;开启背面剔除则能明显改善渲染性能。背面剔除&＃xff0c;就是早点丢弃对观察者来说是背面的片元的一种方法。

剔除的基本原理是先判定多边形的朝向&＃xff0c;并和当前的观察方向进行比较。opengl中设置背面剔除相关函数&＃xff1a;

glFrontFace(GL_CW); 设置顺时针或者逆时针为正面

glCullFace(GL_BACK); 设置剔除正面或者背面

背面剔除在光栅化阶段进行&＃xff0c;执行在Vertex Shader 之后&＃xff0c;在Fragment Shader片元着色器之前。

6..遮挡查询&＃xff08;Occlusion Query&＃xff09;

剔除阶段&＃xff1a;在深度测试时得到待剔除物体&＃xff0c;在应用程序阶段执行。

参考步骤和代码&＃xff1a;

https://developer.download.nvidia.cn/books/HTML/gpugems/gpugems_ch29.html

https://www.cnblogs.com/mazhenyu/p/5083026.html

简单来说&＃xff0c;occlusion query允许你在绘制命令执行之前&＃xff0c;向GPU插入一条查询&＃xff0c;并且在绘制结束之后的某个时刻&＃xff0c;从GPU将查询结果回读到系统内存里。这条查询命令得到的是某次DrawCall中通过Depth Test的Sample数量&＃xff0c;当这个Sample的数量大于0时&＃xff0c;就表示当前模型是部分可见的&＃xff0c;否则当前模型完全被遮挡。

opengl中实现API接口&＃xff1a;

//生成查询物体ID

glGenQueries(GLsizei n, GLuint *ids);

//开始遮挡查询

glBeginQuery(GL_SAMPLES_PASSED, 1);

//结束遮挡查询

glEndQuery(GL_SAMPLES_PASSED);

//根据Sample值param是否大于0判断查询号为id的物体是否被遮挡

glGetQueryObjectiv(GLenum id, GLenum pname, GLint *param);

对于复杂的场景&＃xff0c;一个显而易见的优化策略就是用包围盒代替模型本身去做渲染&＃xff0c;为了更加精确&＃xff0c;我们也可以用多个紧贴的包围盒或者相对原模型更简单的Proxy Mesh去做occlusion query。基于这些API&＃xff0c;我们就可以得到一个比较简单的遮挡剔除策略&＃xff1a;

首先为这些物体生成查询对象ID 调用glGenQueries
调用glBeginQuery开始遮挡查询
渲染包围体
调用glEndQuery 结束遮挡查询
调用glGetQueryObjectiv&＃xff0c;根据ID提取遮挡查询的结果&＃xff0c;并根据结果绘制相应的物体。
glDeleteQueries 删除ID&＃xff0c;回收资源。

Occlusion query的另一个缺点&＃xff08;也是最致命的缺点&＃xff09;是&＃xff0c;它需要将查询结果回读到系统内存里&＃xff0c;这就意味着VRAM->System RAM的操作&＃xff0c;走的是比较慢的PCI-E。

为了解决这个问题&＃xff0c;比较常用的的方法是让CPU回读前一帧的occlusion query的结果&＃xff0c;用来决定当前帧某个物体是否visible&＃xff0c;对于相机运动较快的场景&＃xff0c;用上一帧的结果可能会导致出错&＃xff0c;但由于一般是用包围盒&＃xff0c;本身就是保守的剔除&＃xff0c;所以总体来说影响不明显&＃xff0c;UE4默认使用的就是这样的遮挡剔除方案。

7.Early Z Culling

剔除阶段&＃xff1a;在光栅化阶段后&＃xff0c;片元shader执行前。

我们知道传统的渲染管线中&＃xff0c;深度测试是发生在Pixel/Fragment Shader之后的但是&＃xff0c;如果我们仔细想下&＃xff0c;在光栅化的时候我们已经知道了每个片断(fragment)的深度&＃xff0c;如果这个时候我们可以提前做测试就可以避免后面复杂的Pixel/Fragment Shader计算过程。

提到Early-Z就必须提对应的Late-Z&＃xff1a;在图形管线中&＃xff0c;逻辑上Depth Test和Stencil Test是发生在Pixel Shader的执行之后的&＃xff0c;因为Pixel Depth在Pixel Shader阶段还有可能被修改&＃xff0c;所以Pixel Shader->Depth Test的流程顺序就是Late-Z。但由于Pixel Depth修改的需求非常少&＃xff08;基于深度混合的Impostor和某些粒子效果&＃xff09;&＃xff0c;所以绝大部分情况下&＃xff0c;Pixel Depth在Rasterization之后、Pixel Shader执行之前就可以被确定下来&＃xff0c;如果我们能够把Depth Test放在Pixel Shader之前&＃xff0c;对那些没通过Depth Test的像素不执行Pixel Shader&＃xff0c;就能够一定程度上减少SM的压力&＃xff0c;这就是Early-Z这个优化策略的初衷&＃xff0c;现在已经是GPU的标配了。默认在Pixel Shader里没有修改Depth的操作时&＃xff0c;这个优化就会开启。

UE4在Prepass中生成earlyZ Depth,然后在光栅化后执行EarlyZ Culling

8.Hiz Culling

剔除阶段&＃xff1a;在几何shader得到待剔除物体&＃xff0c;在顶点shader执行。

参考步骤和代码&＃xff1a;

https://github.com/nvpro-samples/gl_occlusion_culling

Hiz Culling同样是基于GPU但不同于EarlyZ Culling的剔除算法&＃xff0c;Hiz Culling使用几何着色器先生成对应物体的包围盒&＃xff0c;然后根据物体的包围盒选择对应层级的depth map。利用depth map 对应像素值对包围盒进行剔除&＃xff0c;得到物体可见性并作标记。为了避免GPU返回标记到内存而造成时间消耗&＃xff0c;通常使用Transform feedback将此数据流式传回到顶点shader中&＃xff0c;也就是常使用的2-pass。

具体算法过程如下&＃xff1a;

(1)拿到上一帧场景深度buffer&＃xff0c;利用深度buffer构造分层深度图像&＃xff0c;我们将其称为Hi-Z map。这些分层的深度图是对深度缓冲区进行mip-map得到&＃xff0c;其中mip级别i中的每个像素包含mip级别i-1中的对应像素块的最大深度。

(2)将当前待绘制的场景物体分为两个集合&＃xff1a;集合1.上一帧已有的物体集合(这里不一定和上一帧已有物体数量相同&＃xff0c;有可能上一帧在相机可视范围而当前帧不在等情况)。集合2.当前帧新增的待渲染物体

(3)处理集合1&＃xff1a;在构建Hi-Z map后&＃xff0c;根据集合1物体的包围盒大小取对应级别的Hi-Z map深度图&＃xff0c;并通过比较物体的包围盒深度值和存储在对应深度图深度信息来执行遮挡剔除&＃xff0c;通常我们比较包围盒六个顶点深度值与对应位置周围的四个像素的深度值判断物体是否被遮挡。

(4)根据(3)剔除的结果绘制集合1&＃xff0c;更新深度buffer

(5)处理集合2&＃xff1a;利用新的深度buffer建立mipmap深度图&＃xff0c;对集合2进行剔除。

(6)绘制集合2中物体&＃xff0c;更新深度buffer。

值得注意的是&＃xff1a;我们对剔除的判断是在几何shader中进行&＃xff0c;完成物体可见性判断后&＃xff0c;利用transform feedback 将可见性数据流传回到顶点shader中&＃xff0c;这样可以避免数据从GPU写回到内存。

9.PVS

剔除阶段&＃xff1a;应用程序阶段。

像其他剔除方法一样&＃xff0c;预计算可视性体积用于实现中小型场景的性能优化&＃xff0c;通常用于因为硬件问题而使动态遮挡剔除受到限制的移动平台。预计算可视性体积根据玩家或摄像机的位置&＃xff0c;将Actor位置的可视性状态存储在场景中。

由于预计算可视性是在线下生成的&＃xff0c;因此可以省去用于硬件遮挡查询的渲染线程时间&＃xff0c;但代价是会增加运行时内存和照明构建时间。基于这一点&＃xff0c;建议仅在玩家或摄像机可访问区域放置体积来保持可视性剔除。

　　标准 PVS分为两步&＃xff1a;

　　1. 先求解简易模型&＃xff1a;减面&＃xff0c;枚举模型上每个顶点&＃xff0c;找到一个点使得删除该顶点&＃xff0c;模型变形最小&＃xff0c;不停的寻找并删除影响最小的点直到模型变形超过一定阀值。最终求解出简易场景模型&＃xff0c;为第二步计算做准备。

　　2. 划分成小的三维格子&＃xff0c;在格子里面均匀或随机选取 N个采样点做为摄像机位置&＃xff0c;每个采样点 360度全方向做一定数量的射线出去&＃xff0c;和场景中的模型判断交点&＃xff0c;求解出该采样点的PVS&＃xff0c;然后合并格子里N个采样点的结果为该格子的PVS。有离线计算好的&＃xff0c;也有实时计算摄像机周围空间未计算格子的&＃xff0c;等摄像机移动到那里时已经计算好了&＃xff0c;无外乎精度不同。实际绘制时将所在格子的PVS提取出来再做一次视锥剔除就行。

三、总结

本文主要对当前引擎常用的一些剔除算法做了综述。剔除的本质是消耗少量的计算剔除尽可能多的物体&＃xff0c;如果场景物体不复杂或者说互相遮挡不多&＃xff0c;此时用一些计算复杂的剔除算法反而可能使帧率降低。因此&＃xff0c;需要根据不同的情况选择合适的剔除方法&＃xff0c;例如对于有大量植被实例场景可以考虑设置距离剔除&＃xff0c;场景中有比较大的遮挡物则可以考虑occluder剔除&＃xff0c;在手机平台我们可以考虑基于预计算剔除PVS等&＃xff0c;通过这些剔除算法来提升游戏场景帧率。

四、参考文献

1.https://docs.unrealengine.com/en-US/Engine/Rendering/VisibilityCulling/CullDistanceVolume/index.html

2.https://blog.csdn.net/game_fengxiaorui/article/details/79958722

3.https://zhuanlan.zhihu.com/p/48163037

4.https://software.intel.com/en-us/articles/software-occlusion-culling

5.https://bazhenovc.github.io/blog/post/gpu-driven-occlusion-culling-slides-lif/

6.https://developer.nvidia.com/gpugems/GPUGems2/gpugems2_chapter06.html

7.https://www.gamedev.net/articles/programming/graphics/coverage-buffer-as-main-occlusion-culling-technique-r4103/

8.https://gameinstitute.qq.com/community/detail/119431

9.https://www.khronos.org/opengl/wiki/Early_Fragment_Test

10.http://rastergrid.com/blog/2010/10/hierarchical-z-map-based-occlusion-culling/

11.https://zhuanlan.zhihu.com/p/47615677

12.https://www.zhihu.com/question/38060533

推荐阅读

tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
shell
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
get
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
timestamp
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
timestamp
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
get
Android 模拟用户交互：点击与滑动操作的实现

本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作，包括参数说明、事件生成及处理逻辑。详细解析了视图（View）对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]

蜡笔小新 2024-12-28 12:12:22
get
深入理解KMP算法中的next数组：北大OJ 2406题解

本文详细探讨了KMP算法中next数组的构建及其应用，重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现，帮助读者更好地理解KMP算法的核心原理。 ... [详细]

蜡笔小新 2024-12-28 11:30:01
byte
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
replace
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
request
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
get
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
install
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
get
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18

手机用户2502917905

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章