你的浏览器版本过低,可能导致网站不能正常访问!
为了你能正常使用网站功能,请使用这些浏览器。

【经验分享】浮点 DSP 运算效率不高

[复制链接]
STMCU小助手 发布时间:2022-2-26 15:49
问题:
/ i5 o6 y2 _) h- K! I( a/ @该问题由某客户提出,发生在 STM32F407IGT6 器件上。据其工程师讲述:由于在其产品中,需要使用STM32 进行大量的浮点数以及浮点 DSP 运算,所以针对 STM32 的浮点数运算能力及 DSP 运算能力做了相关的测试,但测试结果不理想。STM32F407 在 144MHz 主频下,对于表(一)程序的运算耗时为:9105uS。没有体现出硬件浮点运算应有的运算能力。
. [% f* f- s7 G- h" J
: R( i6 B$ d- `1 |2 [) C  A O[XBED$]RI]EA`QC3}{}`UP.png " @% Y# U7 a3 ~
7 Y4 ?0 {0 ?$ P( M7 g- [
调研:: |" b3 v8 J' P0 I& E  H" w
使用 Keil MDK4.21 创建工程对表(一)的程序进行测试。在工程设置中,选择支持浮点运算指令。将编译器的优化等级设置为 LEVEL1,然后编译运行。通过示波器测量主程序在调用该函数之前和在该函数返回之后在 I/O 管脚上所发出的脉冲之间的时间差,来判断 STM32 运行该函数所花费的时间。
$ w! i& Q# ~& b0 `" c4 B
1 t" D2 ?/ a$ d1 d) r5 I. {1. 当 STM32 的主频为 168MHz,使用 SRAM2 存贮变量的条件下,测得时间消耗为:7840uS。修改工程设置,将内存的使用由 SRAM2 转成 CCM,重新编译、下载、运行,测得时间消耗为:7840uS。
% z9 W8 Y$ q8 [3 J/ t0 f, Y1 C" g8 n2. 修改工程设置,将优化等级由 LEVEL1 换成 LEVEL3。为了避免编译器把整个测试函数优化掉,修改该函数如表(二)。重新编译、下载、运行,测得时间消耗为:7660uS。5 _5 t$ @6 }- D7 {& V: m1 B
3. 修改程序代码,将序函数 sin()和 cos()分别替换成 ARM DSP library 中的 arm_sin_f32()和arm_cos_f32(),如表(三)所示。重新编译、下载、运行,测得时间消耗为:748uS。2 n: B$ M4 N4 \) g* w
4. 修改代码,将计算中所用到的小数常量,表示成单精度,如表(四)所示。重新编译、下载、运行,测得时间消耗为:130uS。
3 p9 y. ^1 @* J) |5 k' Q  l; u   
" @8 s* \# `2 i {EP_WQI$WLFMRVKW5Z6G~ES.png ' I9 |" _! B3 t' f! [4 c/ j
3 R4 R( |3 L1 A$ a  P2 ~( y5 F* A" G
[5BV~NS3U)LZ82334K@J9L7.png
1 s3 u9 O, ?% b" P% C7 z& r# w- f, I2 Q1 H

! \: _; {* t' r结论: 7 c! N! n$ J+ H3 ^7 c+ f: ^$ D
三个方面的原因导致了计算效率降低:
: q0 O7 M# v0 [4 j1. 编译器的优化等级不够,以至生成的代码本身的效率低下;
" N& H! w6 e0 ?6 m2. 表达式上的漏洞,造成部分计使用了双精度浮点运算;0 I) X+ W: m; Q4 l9 L: A# F& E
3. 三角函数库的选取不当,导致在计算正弦、余弦过程中引入了大量的双精度浮点运算;
- G8 w# K5 a% U) J, v% s   + ^! |: d% c9 O9 ~+ ]
处理:' a* w# |, Y( G
1. 合理选用编译器的优化等级,提高代码的执行效率;
8 _, b8 }2 D0 d$ F. Q" N  h( m2. 在计算表达式中,强制常量为单精度浮点数,以避免引入双精度浮点数动算;
3 P! H1 C: ^, }6 ]1 z# h5 }/ F7 H3. 选用 ARM 公司提供的,采用单精度浮点数优化的三角函数库,以避免由普通的数学函数库引入的双精度浮点数运算;
2 _5 c- D* Q- r5 [# B9 o" _( Z$ f" u0 M8 q$ S7 o
建议:" Z/ y: e% ~" O1 m
从应用角度看,Cortex-M4 可以认为是 Cortex-M3 的加强版。相对 Cortex-M3,Cortex-M4 主要从两个方面进行了改进:+ M1 i+ }! A( O# j
1. 增加了 DSP、SIMD 指令;7 m" N% E2 G# J5 n$ R' C8 B! d' G( M
2. 增加了单精度浮点运算单元;  i& F3 k- L2 ^
第 1 点使得 Cortex-M4 拥有高速的定点 DSP 处理能力,第 2 点则使得 Cortex-M4 拥有强大的数学运算能力。受益于 Cortex-M4 的优异的处理性能,以及高效的总线与存贮器接口,STM32F4 系列 MCU在数据处理方面有着非凡的表现。不过,要使硬件上的性能得以充分的发挥,除了对算法本身进行优化以外,对一些相关因素也要仔细斟酌:
5 f# _4 l& J+ K2 Q0 N1. 恰当的设置 Flash 缓冲区的参数。在 STM32F4 中,为了匹配 Flash 存贮器与 CPU 之间的对数据、指令的吞吐速率,设有指令缓冲区和数据缓冲区。复位后缓冲区是不工作的,需要软件予以开启,并设置恰当的等待周期数。没有缓冲区的参与,运行在 Flash 中的程序,在运效率上会大幅度的降低。
$ |3 v# A; g, H* N, U# L2. 选择高效的存贮器来存放数据。快速的数据存取是保证 CPU 不间断的执行指令的前提。这一点上,不仅要考查存贮器本身的速率,还要看是否有其它的处理单元与 CPU 分享该存贮器。比如,在STM32F4 中,将数据放在 CCM 存贮器中,要比放在 SRAM1 中更能保证 CPU 对数据的存取速率,因为CCM 存贮器是 CPU 独享的,而 SRAM1 还可能被 DMA 访问。' _( M' u# L0 H  f
3. 根据 CPU 指令集的特点,合理的选取计算的数据类型。比如,要计算 16 位的 DSP 运算,最好把变量和常量定义成 16 位数据,这样有利于编译器使用 SIMD 指令对代码进行优化。在单精度浮点数能够满足要求的情况下,将变量或常量定义成单精度类型,有利于编译器使用单精度浮点运算指令,对代码优化。
2 C+ X/ x# {* P' K5 E1 `, L3 q4. 选择针对 Cortex-M4 进行优化的数学函数库。ARM 公司为 Cortex_M4 的提供了一整套的 DSP、浮点数运算库,其效率远高于编译器自带的函数库。
0 s$ S, _6 s1 s' `, \: i' u5. 编译器的优化等级是一个重要的设置选项,不同的优化等级下,所生成的代码的效率是有很大差别的。
" L7 v+ K6 N6 ^7 C3 Z) {$ p0 H6. 对于高频次使用的数据,要考虑放在寄存器类型的变量中。通常,CPU 存取操作数的最快捷的方式是寄存器寻址,可以做到零时钟花费。
3 P3 Q; J4 f4 L# Y, _5 Q8 j& Q7. 合理安排计算次序,考虑是否可以以乘法代替除法。在数学中,乘法和除法是一对逆运算,除以一个数与乘于这个数的倒数可以等同起来。然而在 CPU 的指令实现中,乘法和除法的计算速度上是有很大差别的,通常乘法的计算速度远高于除法的计算速度。所以,有必要在运算中,使用乘法来代替除法。比如: 可以使用 来代替。; z, V" S$ H3 }2 e# R  y+ G
8. 找出算法中的重复计算,将其合并,只计算一次。对这样的计算,完全可以在第一次计算之后将结果放在中间变量中,而在后面的计算中直接引用。
& k& e( C6 ~6 b2 b( o9. 对于复杂的计算,考虑是否能用查表来代替。查表是一种快速得出结果的好方法,它以牺牲存贮器空间来换取速度。在存贮器空间不是很紧张的情况下,用查表代替计算还是很划算的。
" l  ^# [; P0 d8 v6 J: ]# U% ^  @+ _0 Y8 Y  i
_P~216{ZTLVY$S[ISQWN~AA.png
RRN_8LIMI}I9%8JJ$G~X)TS.png
收藏 1 评论0 发布时间:2022-2-26 15:49

举报

0个回答

所属标签

相似分享

官网相关资源

关于
我们是谁
投资者关系
意法半导体可持续发展举措
创新与技术
意法半导体官网
联系我们
联系ST分支机构
寻找销售人员和分销渠道
社区
媒体中心
活动与培训
隐私策略
隐私策略
Cookies管理
行使您的权利
官方最新发布
STM32N6 AI生态系统
STM32MCU,MPU高性能GUI
ST ACEPACK电源模块
意法半导体生物传感器
STM32Cube扩展软件包
关注我们
st-img 微信公众号
st-img 手机版