Keil MDK 编译器 AC5 和 AC6 优化选项重要内容和区别 0 e5 U1 P& J5 e) r 使用过Keil MDK (Arm Compiler 6)编译器V6版本的读者应该发现了一个问题,V6版本速度比V5版本编译速度快很多。 8 c( |0 S9 M# Q' B 3 ^0 E) i6 b: T0 ] (说明:是V6版本编译器,不是V6版本MDK)9 E. [) U; H3 @5 { " ^1 H- x5 m' _8 Q. ` 那你发现了Arm Compiler V6和V5有什么区别吗? 集成在MDK中的优化选项又有哪些区别?! E" \# r1 U; e: }% j; M1 K 2 I( o1 w6 p9 O7 | 一、关于Arm Compiler 6/ T$ y" ~$ x- `/ S ) s( E$ n# D. u$ {* G( W Arm Compiler 6(简称AC6)是用于Arm处理器的编译工具链,目前最新版本:Arm Compiler V6.14。7 W1 }2 K* B/ [6 O% ^2 {* s 0 S! z: C. i4 o" G% u9 \% W ; o9 W$ U T% I) u H, Z, X 用于编译Coterx-M处理器的编译器很多,Arm Compiler就是其中一个,常用于Keil MDK、 Arm Development Studio(DS-5)中,还可用作独立工具链安装。$ h8 w# r( [9 a4 N' f3 G! T$ x# n Arm Compiler 6工具链包括: armclang:基于LLVM和Clang技术的编译器和集成汇编器。5 V, F3 i' ~4 {; w armasm:armasm语法汇编代码的旧版汇编程序。将armclang集成汇编程序用于所有新的汇编文件。 armar:使ELF目标文件集可以一起收集。 armlink:将对象和库组合在一起以生成可执行文件的链接器。/ _) J+ Y4 [9 L" g1 ^9 h0 Z8 u fromelf:镜像转换程序和反汇编程序。 Arm C libraries:嵌入式系统的运行时支持库。 Arm C ++libraries:基于LLVM libc++项目的库。 更多参考内容和地址: 编译器Clang会代替GCC吗? ( J; f$ b* F( X3 r& F% r( ~. X http://www2.keil.com/mdk5/compiler/6/ https://developer.arm.com/tools-and-software/embedded/arm-compiler/downloads/version-6( B; R# [5 | C" M+ \ ( v1 i4 x- W. L; O2 P$ v0 F 二、AC5和AC6 4 \ I4 N4 K+ z- E$ n Arm Compiler 5(AC5)算是用的比较多的一代编译器,在Keil MDK V4版本及V5早期的版本都是使用AC5。+ d |% g& @" ~9 ~( T* O7 O9 R2 e 在2015年的时候,AC6发布了,并在随后新版本的MDK中集成了AC6,直到现在最新版本的MDK集成了AC6.13(可以修改版本): 3 a. a: v9 i5 s& o. E5 r. B AC6相比之前版本的编译器做了很多改动,大家最为直观的感受就是编译速度提高了很多,还有代码大小。 当然除了速度和大小,还有其他很多优势,比如:支持C ++ 14标准、使用TrustZone for Armv8-M为设备创建安全和非安全代码、兼容基于GCC创建的源代码,也就是GCC可以编译的源码它也能编译。 这是官方提供的代码大小对比: 2 Z: ?* w4 z# h1 X9 k0 w& Q + i) k6 h2 l& b2 ? AC5和AC6是不同的编译器,兼容性方面还是有差异,需要迁移。这个迁移过程官方提供有文档:, k* f) N5 E2 u7 Z4 h) z: a / G O6 s. S3 P1 D V* c. g + Q1 d z& {" v0 Z; k. l4 k' S0 \ https://developer.arm.com/docs/100068/0614/migrating-from-arm-compiler-5-to-arm-compiler-6 9 O/ v( [; _$ {" l0 y 当然,也可以参看我之前分享的文章: $ _- E; i+ o2 T& Y MDK-ARM编译器从V5升级到V6需要做哪些工作? 三、Keil MDK 优化选项 在Keil MDK中,相比AC5,使用AC6会增加几个优化选项:代码大小、速度、平衡等。 9 Q5 I! U6 u ~1 J2 E5 y4 `' j. n 优化选项包含: -O0禁用所有优化。此优化级别是默认设置。使用-O0 结果可以加快编译和构建时间,但比其他优化级别生成的代码要慢。与-O0其他优化级别相比,代码大小和堆栈使用率明显更高 。生成的代码与源代码紧密相关,但是生成的代码量更大,包括无用的代码。% x b9 L7 B0 \0 Q 优化级别-O18 A9 b+ _0 O' M% A. b -O1在编译器中启用核心优化。此优化级别提供了良好的调试体验,并具有比-O0更好的代码质量,堆栈使用率也提高了。Arm建议使用此选项以获得良好的调试体验。 7 G, W7 |& a8 m& m + O* {7 c0 F* a; P9 T* ` -O1与-O0相比,使用时的区别是:) I5 P/ u. ]2 {; I& R, H; T0 h6 b ; K# p3 k3 M1 S( [" Z# g: A 启用优化,这可能会降低调试信息的完整度。, Y7 ~0 @( {- G2 @! ], ~ 4 g9 ]3 [5 F+ H0 g5 n, v% O 启用了内联和尾调用,这意味着回溯可能无法提供打开功能激活的堆栈。! f t$ ^2 S' B+ n# o6 {" r 5 T1 c# G9 B6 r1 n5 A 0 G4 P& @+ m# E 不会调用没有使用,或没有预期调用的函数,代码量更小。 3 ^4 D$ r3 T2 Q& M9 i " x6 k8 m& L6 M. Q0 u* u4 b 变量的值在不使用后可能在其范围内不可用。例如,它们的堆栈位置可能已被重用。。8 \0 U! f- k8 X8 T4 U$ J 优化级别-O23 I0 p! {$ K# h& i: `9 V2 ` -O2与-O1相比,有更高的性能优化。增加了一些新的优化,并更改了优化的启发式方法。这是编译器可能生成矢量指令的第一个优化级别。它还会降低调试体验。: ?( ]8 w2 J/ a$ }" {2 j! N7 k$ d , j" x: W9 f) v T -O2与-O1相比使用时的差异是: 6 h( a3 N+ D( B% J3 j# m+ L" S 编译器认为内联调用站点可获利的阈值可能会增加。 执行的循环展开数量可能会增加。5 q/ l C- O8 D% o$ p( V4 G 2 |& [' A, i# V$ Q- _: g' l; S* X 可以为简单循环和独立标量运算的相关序列生成矢量指令。* M& Z, t& K+ \! s; v3 x& X; r, r / r8 Q, \6 q ^" F. _- H1 O6 H" I 可以使用armclang命令行选项禁止创建矢量指令-fno-vectorize。" r% K: |# q' J3 H8 |# e 9 _8 O: v& h3 l5 k) u8 l4 Q 4 N/ C r$ s7 `+ C/ F 优化级别-O37 X. W4 D, }( c( x -O3与-O2相比,有更高的性能优化。此优化级别允许进行需要大量编译时分析和资源的优化,并且与-O2相比更改了优化的启发式方法。-O3指示编译器针对生成的代码的性能进行优化,而忽略生成的代码的大小,这可能会导致代码大小增加。 . g9 `# L- Q- m -O3与-O2相比使用时的差异是:9 }4 h8 k* {, J: n9 I: u ) A& L9 L7 ]5 w( S6 l 编译器认为内联调用站点是有利可图的阈值增加。8 C* x6 q Z3 ?/ ?! T9 X4 U8 A* F 1 n" _& Y$ k& H2 a 执行的循环展开量增加。 ( Y4 T3 ?7 p) O2 b" L 在编译器管道中启用更积极的指令优化。/ A" x) h7 E" M2 ~ . B. r/ |: t% m) u$ @ 优化级别-Os -Os目的是在不显着增加代码大小的情况下提供高性能。根据你的应用程序,提供的性能可能类似于 -O2或-O3。 }7 W( U+ {+ o4 }9 }9 _2 l -Os与-O3相比,可减少代码大小。但会降低调试体验。9 B5 ]3 l0 M9 G. E$ L, L - I8 e* G8 Q! ~2 G4 S* j2 V' ]: e -Os与-O3相比使用时的差异是:2 {7 v" _9 N8 I: T: d6 C 5 D; B8 S8 o; E" u 降低编译器认为内联调用站点可获利的阈值。 显着降低了执行的循环展开量。 ; v) y1 g3 R6 `% K* P7 o5 Y 优化级别-Oz -Oz目的是提供尽可能小的代码量。Arm 建议使用此选项以获得最佳代码大小。此优化级别会降低调试体验。 -Oz与-Os相比使用时的差异是:. D$ H; m" {4 \% K) X 4 ]9 P& k V7 R* r3 v* f+ X & d" v" Y$ W0 {8 w( ^, N 编译器仅针对代码大小进行优化,而忽略性能优化,这可能会导致代码变慢。 + ?$ h, v8 K3 }+ H 9 x( \% R3 m* h& l6 a8 b 未禁用功能内联。在某些情况下,内联可能会整体上减少代码大小,例如,如果一个函数仅被调用一次。仅当预期代码大小会减小时,才将内联启发式方法调整为内联式。- B& E" [& {) F9 I 禁用可能会增加代码大小的优化,例如循环展开和循环矢量化。2 g/ h& t( e/ v! W. m3 ?7 s) a/ Z + E& z! j5 Q6 \ 循环是作为while循环而不是do-while循环生成的。* h8 l4 r/ L( N a5 @) s. D 优化级别-Ofast: z8 ?6 |9 d: G0 A: x' w& ] -Ofast从级别执行优化,包括使用 -ffast-math armclang选项执行的优化。 3 b7 E: C# W- V/ M- j 该级别还执行其他进一步的优化,可能会违反严格遵守语言标准的要求。 与-O3相比,该级别会降低调试体验,并可能导致代码大小增加。3 @9 F# @8 s" j" p8 f! g: S; J0 y 5 v+ \& t4 ~( t- a 优化级别-Omax3 H! r+ W; ^, w* B6 l+ J8 X O' ] -Omax是最大程度的优化,并专门针对性能优化。它支持从级别进行的所有优化,以及链接时间优化(LTO)。 * A) ?. I7 s+ M# i9 N 在此优化级别上,Arm Compiler可能会违反严格遵守语言标准的规定。使用此优化级别可获得最快的性能。 9 c- t: b: x7 r$ R 与-Ofast相比,该级别会降低调试体验,并可能导致代码大小增加。. |0 F( o# q7 @1 { g ! g$ ]0 t0 z7 }/ R: J# m6 R! ` 如果你使用-Omax进行编译,并具有单独的编译和链接步骤,你还必须在armlink命令行中包括-Omax。 : N4 v0 A1 S1 E0 D( I8 o |