|
来自公众号:CSDN程序人生- f5 P7 z, i: e3 S
译者 | 郑丽媛4 B$ m: k- W0 w- l6 r2 D/ x* v
使用 C++ 中的 final 关键字,到底能否提升性能?不少开发者认为可以,却没能给出数据依据。为此,本文作者进行了一次测试,亲自验证这个说法的真实性。
+ f: R5 ]0 y; V! |" J0 R原文链接:https://16bpp.net/blog/post/the-performance-impact-of-cpp-final-keyword// _7 G# @ j. F! i
如果你选择用 C++ 写代码,一定是有理由的,而这个理由很可能就是性能。
' u6 d7 q) C8 ~9 k- T2 Y在很多有关 C++ 的文章中,我们经常会看到各种“性能提示和技巧”或“这样做效率更高”的建议。有时这些建议会给你一个合理的详细解释,但更多时候,你会发现没有任何实际数据支持这些说法。
" A3 o8 k% J! ^% H9 x1 ]最近我发现了一个奇怪的东西,那就是 final 关键字。说起来有些惭愧,我之前没怎么了解过这个关键词。许多博客文章都说,使用 final 可以提升性能,而且是免费的,只需进行微小改动。% k4 O3 K3 J$ N, t4 ?1 l
但是,读完这些文章后,你会发现一个有趣的事实:没有人给出任何相关数据,基本上就纯靠一个“相信我吧,兄弟”。' j0 R. S- @, m3 C2 f* \
从我的经验来看,除非有数据支持,否则任何性能提升的说法就全是空谈,甚至就算有了数据也得能够复现才行——因此,作为一名有着高性能 C++ 项目的优秀工程师,我真的很想验证这个说法。% x+ y/ X: t) T* H u
有一个我认为非常适合测试 final 关键字的绝佳项目:PSRayTracing(https://github.com/define-private-public/PSRayTracing)。0 Z' f$ W. E% y8 j4 [# X5 Z+ O- _
简单介绍一下这个项目:这是一个用 C++ 实现的光线追踪器,源自 Peter Shirley 所写的光线跟踪系列书籍。它主要用于学术目的,但也结合了我编写 C++ 时的专业经验。项目目标是向读者展示如何(重新)编写 C++,使其性能更强、更简洁、结构更合理,因此在 Shirley 博士原始代码的基础上进行了补充和改进。PSRayTracing 有一个重要特性,能通过 CMake 切换代码的更改,还可以提供其他选项,如随机种子、多核渲染。0 H% J% _) i2 F; U* m8 _
1、这是如何做到的?/ b" c- @+ c+ ~
利用构建系统,我在 CMakeLists.txt 中添加了一个额外选项:
: s% { P) R5 f9 L' Coption(WITH_FINAL "Use the `final` specifier on derived classes (faster?)" OFF) # ... if (WITH_FINAL) message(STATUS "Using `final` spicifer (faster?)") target_compile_definitions(PSRayTracing_StaticLibrary PUBLIC USE_FINAL) else() message(STATUS "Turned off use of `final` (slower?)") endif()然后在 C++ 中,我们可以使用预处理器来创建一个 FINAL 宏:
7 F! t- Q* G* Y: g#ifdef USE_FINAL #define FINAL final #else #define FINAL #endif而且,它可以轻松地添加到任何你感兴趣的类中:. a+ f& S ? c3 M
$ rg FINAL RandomGenerator.hpp 185:class RandomGenerator FINAL : public _GeneralizedRandomGeneratorstd::uniform_real_distribution, rreal, RNG_ENGINE> { Materials/Lambertian.hpp 8:class Lambertian FINAL : public IMaterial { ... Materials/SurfaceNormal.hpp 7:class SurfaceNormal FINAL : public IMaterial { ... PDFs/HittablePDF.hpp 7:class HittablePDF FINAL : public IPDF { ... Objects/Sphere.hpp 19:class Sphere FINAL : public IHittable {这样,我们就可以在代码库中随时开始和停止对 final 关键字的使用了。% Q+ J( V1 x9 R% F ]
当然,你可能会说这个方法太过繁琐,我也这么觉得。但不得不说,这很适合用来做对照试验:将 final 关键字应用到代码中,并根据实验需要使用或关闭它。( S! N4 E- w8 K
几乎每个接口都有 final 关键字。在架构中,我们有 IHittable、IMaterial、ITexture 等。在 Peter Shirley 光线跟踪系列的第二本书中,最后一个场景有很多超过 10K 个虚拟对象:" V8 u4 {# L* G- D+ l
53t524zbrvw64073943722.png
# v8 ]( p! k5 }% b- ~) x另外,有些场景的数量并不多(可能只有 10 个):6 D; u* N8 W. h' @1 k. H
qxkvxdn0j5u64073943823.png
/ d" c0 Y9 u& B2 g( C J! }* s4 S
2、最初的担忧
9 E2 f9 A6 f+ Y& k3 }! C+ Y对于 PSRT 来说,在测试可能提高性能的东西时,我首先使用的是默认场景 book2::final。启用 final 后,控制台报告如下:, z- X# C# z+ `/ S1 c9 D, _! ?
$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 58.587 seconds可随后又恢复了更改:1 c! f V. M; a" m! Y4 Q3 R, V1 B
$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 57.53 seconds我有点困惑,用了 final 反而更慢了?又跑了几次后,我发现性能下降得非常小,那些博客文章一定是在忽悠我……
: C5 v. U% O ]+ u不过在完全放弃之前,我想最好还是把验证测试脚本拿出来看看。在之前的版本中,这个脚本主要用于对 PSRayTracing 进行模糊测试,版本库中已经包含了一套小型的知名测试用例。. `# {/ o/ C# |4 y. V; Q
这套脚本最初运行大约需要 20 分钟,此时情况开始变得有趣:脚本报告称,使用 final 时速度稍快,运行时间为 11 分 29 秒;不使用 final 则为 11 分 44 秒。
) J) r; r( i1 k9 A: b看似只相差了 2% 的时长,实际上却很重要——我决定,要进一步调查。
, d; E; o: B0 t+ R% X$ B3、大型测试
. K8 Q6 }' A: i E由于对以上结果不满意,我创建了一个“大型测试套件”,主要提高了一些测试参数以加强测试强度。在我的开发机器上,它需要运行 8 个小时。以下是调整后的详情:3 U C: a+ @: ^% f5 _0 C
● 场景测试次数:10 → 30
9 ~8 i3 O, O) R6 O● 图像尺寸:[320x240, 400x400, 852x480] → [720x1280, 720x720, 1280x720]
5 I, [& }9 A! t● 光线深度:[10, 25, 50] → [20, 35, 50]
, r) `7 l) w4 D8 f T● 每像素采样次数:[5, 10, 25] → [25, 50, 75]5 g/ S l- A9 o7 g6 i8 H3 T( G
我认为这样更全面:现在有些测试用例只需 10 秒就能完成,有些则需要 10 分钟才能完成;小型测试套件在 20 多分钟内完成了约 350 个测试用例,而这个套件在 8 多小时内完成了 1150 多个测试用例。7 l, a( K. G: V
考虑到 C++ 程序的性能与编译器(和系统)密切相关,因此为了更加彻底,我们在三台机器、三种操作系统和三种不同的编译器上都进行了测试;一次使用了 final,一次没使用。经过计算,这些计算机累计运行了 125 多小时。
3 C% k4 o0 ^1 ? _ x1 X1 n$ L具体情况请参见下表,另外配置如下:
( J: `- W+ [0 ~8 |( Q& D, h7 J● AMD Ryzen 9:3 p- ]+ p$ i' X. [. |
Linux:GCC & Clang
8 O2 T) g1 H4 @0 F* f Windows:GCC & MSVC
0 N* `$ h G$ k: ]● Apple M1 Mac:GCC & Clang
3 c; M* r; Q3 C9 [5 A! I' i● Intel i7:Linux GCC$ l L" Z( `2 F& Y6 I% l- M8 t5 n( N
例如,一种配置是“AMD Ryzen 9,使用 Ubuntu Linux 和 GCC”,另一种是“Apple M1 Mac,使用 macOS 和 Clang”。注意,并非所有编译器的版本都相同,有些很难获得。另外在我发文的时候,Clang 还发布了一个新版本。下面是测试结果的总体摘要:
1 [+ f) T6 ^& L: }7 `5 N) t/ ?
f5xvj2lwoef64073943923.png
" q6 Z _- E, Y/ o. W* V1 N+ b通过对比测试,我们可以看到一些有趣的结论,同时也告诉了我们一件事:从整体上看,使用 final 不能保证总是提速,甚至某些情况下速度还会更慢。2 \9 U/ g" C# L7 z% O# D
虽然在这个测试中对编译器进行比较可能也很有趣,但认为这样做并不公平:仅把“使用 final”和“不使用 final”进行比较才是公平的。如果想要比较编译器(以及不同系统),需要更全面的测试系统。
( h8 c% r* [; U9 R2 `6 Q* L尽管如此,我们还是观察到了一些有趣的结果:
# S; M; t4 e) J. h0 jx86_64 上的 Clang 运行速度较慢。! D0 K: v. p! M6 @0 F" R0 F, ~$ o |" e
Windows 性能较差,微软自己的编译器也很落后。
% l4 x) m/ d* q( S苹果公司的芯片则是绝对的强者。
. Q7 e' j$ h; N- x) E8 I9 M但每个场景都不同,包含的标记为 final 的对象数量也不尽相同。按百分比来看,有多少测试用例在使用 final 后更快或更慢都很有趣。将这些数据列表,我们可以得到以下结果:
% w% I1 _4 E* n( O0 }; n
uwek2y1ppwk64073944023.png
/ `. ]; ]0 |+ x. h) C( c( L6 k
对于某些 C++ 应用程序来说,那 1% 的性能提升非常令人期待(例如,高频交易)。如果我们 50% 以上的测试用例都能达到这一点,那我们似乎应该考虑使用 final。但另一方面,我们还需要看看相反的情况:例如速度慢了多少?又有多少测试用例变慢了?
# A0 E* [% j2 a2 p
hggrl0mzzhj64073944123.png
4 S4 W9 T2 W' V5 d6 D9 |. l
在 x86_64 Linux 上的 Clang 就绝对是一个典型:超过 90% 的测试用例在使用 final 后至少慢了 5%!!还记得我说过,对于某些应用程序来说,1% 的速度提升是件天大的好事吗?所以相对的,就算只慢了 1% 也绝不能容忍。此外,使用 MSVC 的 Windows 也表现不佳。4 r9 G+ m6 C7 o! C3 b) a4 O, ^1 N8 e
如上所述,这与场景有很大关系。有些场景只有少量的虚拟对象,有些则有一大堆。下面平均来看,使用 final 后一个场景的速度快了/慢了多少:
9 d' \4 K. h$ ]: A3 K9 c! f. R
g3jmiqvrfla64073944224.png
. | G1 U7 Q4 N+ x& a我对 Pandas 不是很了解,在创建一个多级索引表格(从数组中创建)并使其具有良好的样式和格式方面遇到了一些问题。因此,我在每一列名称的末尾都附加了一个配置编号。以下是每个数字的含义:6 `! W1 }: h8 P# }1 K
0 - GCC 13.2.0 AMD Ryzen 9 6900HX Ubuntu 23.10
" u. f9 L/ g: B& I& i! `: P( F, u1 - Clang 17.0.2 AMD Ryzen 9 6900HX Ubuntu 23.10
. }5 H$ O7 y4 A8 P$ U2 j: R2 - MSVC 17 AMD Ryzen 9 6900HX Windows 11 Home (22631.3085)
, @4 Q! J+ X6 q3 - GCC 13.2.0 (w64devkit) AMD Ryzen 9 6900HX Windows 11 Home (22631.3085); o8 g4 k* e9 a; C! }* R# h. h
4 - Clang 15 M1 macOS 14.3 (23D56)" _; u' O1 N2 r) u5 I9 u
5 - GCC 13.2.0 (homebrew) M1 macOS 14.3 (23D56)3 s- i* e9 e: X6 u" K8 l4 T
6 - GCC 12.3.0 i7-10750H Ubuntu 22.04.3; k/ z( `8 G7 M( U
这就是让人眼前一亮的地方:在某些配置和特定场景下,性能可能会提升 10%!例如,在 AMD 和 Linux 上使用 GCC 的 book1::final_scene。但其他场景(在相同的配置下)仅有 0.5% 的提升,比如 fun::three_spheres。' m m6 b# o" s+ R8 H7 H) O; I. g
但是,只是将编译器切换到 Clang(仍在 AMD 和 Linux 上运行)后,这两个场景的性能就分别下降了 5% 和 17%!MSVC(在 AMD 上)的情况有点复杂,有些场景在使用 final 时性能更高,有些场景则受到了很大影响。
0 r8 q/ K, a5 g0 S8 q5 \' q& `! A苹果的 M1 有点意思,提速和降速幅度看起来都非常小,但 GCC 在两个场景上有显著优势。; ~9 y' J+ {) |8 c
另外,使用 final 后性能的提升或降低,几乎与虚拟对象数量是多是少没有关系。7 ]) m) O& d6 c( D8 H
4、我比较关注 Clang 的情况
: t2 W- k7 n4 R. {- W# g4 XPSRayTracing 也可在 Android 和 iOS 上运行。在这两个平台上,可能只有一小部分应用程序为了性能是用 C++ 编写的,而 Clang 正是用于这两个平台的编译器。
5 R/ _* e( o) O, d5 J! S不幸的是,我没有像在桌面系统上那样的性能测试框架,但我可以做一个简单的“使用相同参数渲染场景,一个使用 final,一个不使用 final”的测试,因为应用程序会报告进程耗时。- M) V! l; F0 c8 C2 j+ l0 g) F; T
根据上面的数据,我的假设是,这两个平台在使用 final 后性能会变差,但具体变差多少不清楚。以下是测试结果:- t, D. m/ E" V5 S# u
iPhone 12:我认为没有区别;无论使用 final 与否,渲染相同的场景都需要大约 2 分钟 36 秒。
' J& O% @- C# W4 p/ kPixel 6 Pro:使用 final 后速度变慢了。渲染时间分别为 49 秒和 46 秒,3 秒的差异可能看起来不是很大,这相当于 6% 的减速,意义相当重大。* X9 A( B2 Y6 T: h- I5 M
我不知道这是 Clang 的问题还是 LLVM 的问题。如果是后者,这可能对其他 LLVM 语言(如 Rust 和 Swift)也有影响。; a- v5 ]* z% ?0 c7 e" U& d. q
5、未来的计划(以及我希望自己做的事情)
8 F. ^1 Z9 D5 i1 V总的来说,我对这次测试发现的东西非常满意。如果我能重做一些事情(或得到一笔钱来做这个项目),我希望能做到以下几点:
: u0 m+ i& d& J# B! V- S让每个场景都能报告一些元数据。例如,对象数量、材质等。0 M4 V2 J, N3 } P0 h& l1 V
对 Jupyter+Pandas 有更好的了解。虽然我是一位 C++ 开发者,不是数据科学家,但我希望能了解如何更好地转换测量结果,使其看起来更美观。
# P0 j% k/ V( a找到一种在 Android 和 iOS 上运行自动化测试的方法。目前这两个平台都不容易测试,这是一个很明显的问题。
. @) E( o0 f6 @run_verfication_tests.py 更像是一个应用程序(而不是一个小脚本)。3 D; }3 R' _% f/ X) P
PNG 开始变得有些庞大,有一次我磁盘空间都不足了。无损 WebP 作为渲染输出可能更好。
* R {6 t/ g u) a3 s3 l6 g比较更多的英特尔芯片,并使用更多的编译器。( v0 N- T! j& x0 p
6、结论0 m8 z p: U$ B6 C' i
如果你只是匆匆翻到结尾,以下是总结:
7 \5 X& j- a2 c使用 GCC 可能会得到一些好处。
4 @7 y- G0 t+ t3 q; U S对苹果芯片的影响不大。
* Y7 p' E1 y9 V. k$ Q8 _9 S不要在 Clang 和 MSVC 上使用 final。
0 M. J9 V8 W3 i. D# P1 O$ z* @这完全取决于你的配置/平台,请自主测试并衡量是否值得。" L6 @5 v; i1 H; U# @0 p# o' {
最后,就我个人而言,我应该不会用 C++ 的 final 关键字来提升性能,本文的测试结果说明了这种方式并不稳定。$ X9 `# e7 {: V: m
——EOF——你好,我是飞宇,本硕均于某中流985 CS就读,先后于百度搜索、字节跳动电商以及携程等部门担任Linux C/C++后端研发工程师。
) C4 \) U4 y& z' t6 y5 w最近跟朋友一起开发了一个新的网站:编程资源网,已经收录了不少资源(附赠下载地址),如果屏幕前的靓仔/女想要学习编程找不到合适资源的话,不妨来我们的网站看看,欢迎扫码下方二维码白嫖~
: G' H) d/ C+ k; K% A2 y
R: t# v/ }: y5 U* I
u2s1jt45ssa64073944325.gif
: ~% z# T" |' U
. g( n9 F, w) t; L* u8 |同时,我也是知乎博主@韩飞宇,日常分享C/C++、计算机学习经验、工作体会,欢迎点击此处查看我以前的学习笔记&经验&分享的资源。
! q) @+ s: Q8 J D2 A我组建了一些社群一起交流,群里有大牛也有小白,如果你有意可以一起进群交流。( y9 j; u7 v0 \1 p
plbwgkfl01v64073944425.png
+ d W; N' R! ~! s L/ r- W) T欢迎你添加我的微信,我拉你进技术交流群。此外,我也会经常在微信上分享一些计算机学习经验以及工作体验,还有一些内推机会。4 A! z s7 b, A+ z% j: I3 _
; r! U0 V( ?7 N- D
m1jhqh4gegj64073944525.png
4 I, Q' H! Z& @/ C加个微信,打开另一扇窗
. d" g4 F3 I7 t, q4 k5 j z: i
2onm4lgyrgw64073944625.gif
|
|