【实战经验】关于ST库函数的代码性能对比

[复制链接]

zero99 发布时间：2016-11-18 16:18

技术帖
文章封面:	-
文章简介:	-

关于ST库函数的代码性能对比

前言
ST已经推出了三种库函数，用以方便客户快速开发STM32系列的MCU。从最早的标准外设驱动库，到后来的Cube HAL，再到 Cube LL，还有直接写寄存器。这几种库的代码效率到底如何呢？本文将针对这个问题进行分析和对比，最后提供对比数据供大家参考。

问题分析

我们以GPIO翻转、TIM PWM 输出、ADC DMA 数据采集和DMA M2M这四个常用功能，通过不同的库函数来实现，最终来对比各个库函数的性能。四个工程代码的内容简述如下：
GPIO翻转：切换GPIO的输出电平，其中包含了系统时钟初始化和GPIO翻转的代码。
TIM PWM输出：通过TIM1 的通道1输出频率是36KHz的PWM，循环修改其占空比从25%到50%，其中包含了系统时钟初始化、TIM1的初始化和切换占空比的代码。
ADC DMA数据采集：通过ADC的模拟通道1，采集100次ADC的结果，并使用DMA传输到到用户缓冲区，其中包含了系统时钟初始化、ADC初始化和DMA的初始化的代码。
DMA M2M:使用DMA1的通道1，从Flash中传输100字节的数据到片内的SRAM中。其中包含了系统时钟的初始化和DMA的初始化代码。
主要对比三个参数：Flash 占用量、SRAM占用量和执行代码的效率。
Flash和SRAM的占用量可以通过查看IAR生成的*.map文件了解到。

在*.map文件中，会有如上图的内容，其中的readonly code memory加上readonly data memory的和，就是Flash的占用量。而Readwrite data memory的大小即为SRAM的占用量。那么上图所示的Flash占用量即为3204=3174+30，SRAM占用量即为1032。因用户堆（Cstack）我们设置的为1024，所以真正应用代码所占用的SRAM量为8=1032-1024.
代码的运行效率部分，我们是通过IAR提供的内核运行周期数（CYCLECONTER）来计算的。在功能函数的开始处和结束处分别设置断点，两次内核运行周期数的差值，就是此处代码的运行周期。

测试硬件选用了Nucleo-F302评估板。
软件环境和库函数详情如下：
• IAR V7.60
• Optimizations Level High (Size)
• STM32CubeMX V4.17
• Create Project with Copy the necessary library files
• STM32CubeF3 V1.60
• STM32F30x_DSP_StdPeriph_Lib_V1.2.3
• STM32F3xx CMSIS V2.3.0
测试结果如下：