【STM32N6570-DK评测】1.你好N6

[复制链接]

奇迹发布时间：2024-12-21 16:44

技术帖
文章封面:
文章简介:	对STM32N6的介绍与功耗和AI性能测试

STM32N6预热了2年半，在这段时间我是一直翘首以盼，终于等到正式发布了，也是非常高兴能得到这次N6试用的机会，毕竟能轻松跑AI的STM32谁不想试一试。

STM32N6采用了M55核，而不是最强的M85核，从下图我们可以看到，虽然STM32N6主频已经达到800MHz，但从DMIPS跑分来看N6性能并不是最强，还是在双核的H74/H75双核系列与新出的H7R/H7S系列之下。

但是换个角度想，M85作为当前最强的Cortex-M内核，超标量、7级流水线带来了无以伦比的性能，也带来了较大的功耗。在使用最新的Armv8.1-M架构的M52、M55、M85三兄弟中，M55在功耗和性能中，找到一个比较好的平衡，增强了STM32N6的泛用性；64bit AXI系统总线轻松保障了高速外设数据的吞吐；引入的Helium - M-Profile向量扩展(MVE)，强化了DSP和机器学习计算的能力。

性能方面：STM32N6主频高达800MHz(需要提高一点内核电压，使用片内SMPS只能跑到600MHz)，跑分1280 DMIPS/ 3360 CoreMark；内部嵌入的ST Neural-ART Accelerator™(NPU)，其主频为 1 GHz，具有INT8 0.6TOPS的算力，可实现计算机视觉和音频应用的实时神经网络推理，也是这次N6系列的主要卖点——低功耗边缘AI应用。

功耗方面：在SMPS的全面使用与16nm FinFET工艺的加持之下STM32N6的低功耗性能也是相当可观，在CPU 800MHz、NPU 1GHz的情况下，内核电压仅需0.89V，而内部的NPU可达3TOPS/W的效率。在全功率运行的情况下，完全不需要使用任何散热手段。主要电压也可全部使用1.8V供电，进一步降低了设备整体的功耗。如果你的产品有机器视觉、低功耗、高性能的需求，那么STM32N6将是你目前最好的选择。

安全方面：目标通过SESIP 3级和PSA 3级认证，符合最新安全标准，支持TrustZone和租户感知防火墙(RIF)，细化了特权安全资源的管理，实现更多隔离和多应用目的，支持防边信道攻击AES/PKA和快速AES/SHA，有效保护系统关键安全参数。

外设方面：STM32N6具有ST最豪华的外设配置，4.2MB的连续RAM，支持外扩PSRAM、SDRAM、NOR、NAND，Hexa-SPI接口速度800 Mbytes/s(200MHz 16线PSRAM)，FMC接口664 Mbytes/s(166MHz SDRAM)；支持XGA(1024x768)分辨率显示，具有Chrom-ART、Chrom-GRC、NeoChrom GPU、JPEG codec，使N6具有无比强大的图像性能；具有MIPI CSI-2双通道接口、16位并行接口的摄像头接口，支持500万像素30FPS摄像头，支持ISP，可灵活处理采集的图像；支持720p/1080p @ 30 fps的H.264编码器；其他外设更是拉满，2个USB 2.0 HS/FS、1个千兆以太网、5个UART、1个LPUART、4个I2C、2个I3C、6个SPI、2个SDMMC、3个FDCCAN、2个ADC(最大支持20通道，5Msps采样率、12位分辨率)。下一步ST还将推出不带NPU的STM32N6x5系列，进一步填充STM32N6产品线，满足了对神经网络没需求，但是很需要强大图像处理能力的客户。

今天就让我们以功耗和AI性能作为切入点，与STM32N6来一场初步交流。

本次测试主要关注STM32N6在运行机器视觉模型时的内核功耗，CPU运行在800MHz，NPU运行在1GHz，程序运行在内部RAM里，内核电压为0.89V。

功耗测试方式：去掉R31和R35两个电阻，串入电流表(注意，该方式会使DCDC反馈回路变长，可能导致引入噪声、产生振荡，从而使DCDC工作不稳定)，实时测量VDDCORE电流，计算出功耗。

性能评测方式：以单帧图像的处理时间作为性能指标，核心代码如下：

ts[0] = HAL_GetTick();
/* run ATON inference */
LL_ATON_RT_Main(&NN_Instance_Default);
ts[1] = HAL_GetTick();
Network_Postprocess();
Display_NetworkOutput(ts[1] - ts[0]);

1.图像识别

模型：efficientnet_v2B1_240_fft_qdq_int8.onnx

模型大小：8.716MiB

数据集：food-101

输入图像：240x240x3

测试结果：平均电流约为255mA，内核功耗约为226.95mW，单帧推理时间约为73ms