【实战经验】RMW(Read-Modify-Write)对 STM32F7xx内核运行速度的影响

[复制链接]

zero99 发布时间：2016-11-18 16:35

技术帖
文章封面:	-
文章简介:	-

RMW(Read-Modify-Write)对 STM32F7xx内核运行速度的影响

前言
在客户使用STM32F7xx（Cortex-M7内核）实际测试中，会发现同等主频下STM32F4xx（Cortex-M4）执行同样一段简单程序在时间上要快于STM32F7xx，这个会影响到客户切换到STM32F7xx的信心，也对ST以及ARM宣传上Cortex-M7内核执行时间远快于Cortex-M4内核的说法提出质疑，本文将针对具体案例说明这一情况的产生以及解决办法。

问题描述
客户测试复杂程序运行时间，比如同样180MHz主频下，STM32F7xx执行Coremark测试程序时间远小于STM32F4xx的执行时间；也就是STM32F7xx的性能更佳，运算执行效率更好。但当客户程序顺序执行程序，尤其是简单程序时发现STM32F7xx执行时间大于STM32F4xx的执行时间，比如运行下面的同样的测试代码，就有明显差距：

为方便量化时间，使用Timer2计数方式对这段时间进行计数，Timer2运行在90MHz，向上计数，Test_Counter数据用于输出计数数值，增加后代码如下：

通过上面的修改后测试下来，Test_Counter数据分别为：
STM32F446 数据为 1543
STM32F746 数据为 1836
如果使用Keil自带的States cycles计算方法得到如下数据，后面会按照这个来计算执行时间数据。
STM32F446 数据为 3009
STM32F746 数据为 3635

产生上述问题的原因：
上面的测试都是在使用了Cache以及ART加速方法测得，如果针对STM32F7xx的性能优化可以参考AN4667 "STM32F7 Series system architecture and performance"这篇应用文档的描述，本例已经对文档描述部分做过优化，但问题依然是STM32F7xx速度慢于STM32F4xx。两颗芯片运行同样代码，比较两颗芯片汇编代码也是相同的：

通过查看ARM Cortex-M7内核文档发现下面描述：

反映到本例中发现定义的i数据为16-bit数据，同样也在汇编代码上发现了STRB这个汇编代码；这样在RMW（read-modify-write）机制下，当定义为byte以及half-word数据时将有一个先读取数据，修改后再写入数据的过程，这个读取-修改-写入的过程正是能够影响到内核执行效率的问题点，如果定义为32-bit就避免了这个问题的发生。

问题解决
按照文档说明，我们将16-bit定义数据，改为32-bit的定义数据，即：

测试下来结果如下：
STM32F446 数据为 2102
STM32F746 数据为 1807
可以看到不管是STM32F4xx还是STM32F7xx，当数据定义为32-bit时都有显著的速度提升，当然STM32F7xx的提升更加明显，同样测试条件下STM32F7xx执行时间小于STM32F4xx的执行时间。

深入内核修改
因为32-bit数据定义会增加内存，并且有时候定义为byte或halfword更方便，还需要提升速度的话我们看到同样是内核文件给出的说明，可以将RMW机制屏蔽掉：

实际上就是对CM7_ITCMCR寄存器的第1位写0，即可以在程序中有下面的操作：

禁止RMW后测试下来数据如下：
16-bit定义数据STM32F746 测试cycles数据为 3022
32-bit定义数据STM32F746 测试cycles数据为 1808
可以对比上面的测试数据也可以看到当禁止RMW后STM32F7xx性能也是优于STM32F4xx的。

具体测试数据如下：