STM32N6预热了2年半,在这段时间我是一直翘首以盼,终于等到正式发布了,也是非常高兴能得到这次N6试用的机会,毕竟能轻松跑AI的STM32谁不想试一试。 STM32N6采用了M55核,而不是最强的M85核,从下图我们可以看到,虽然STM32N6主频已经达到800MHz,但从DMIPS跑分来看N6性能并不是最强,还是在双核的H74/H75双核系列与新出的H7R/H7S系列之下。 但是换个角度想,M85作为当前最强的Cortex-M内核,超标量、7级流水线带来了无以伦比的性能,也带来了较大的功耗。在使用最新的Armv8.1-M架构的M52、M55、M85三兄弟中,M55在功耗和性能中,找到一个比较好的平衡,增强了STM32N6的泛用性;64bit AXI系统总线轻松保障了高速外设数据的吞吐;引入的Helium - M-Profile向量扩展(MVE),强化了DSP和机器学习计算的能力。 性能方面:STM32N6主频高达800MHz(需要提高一点内核电压,使用片内SMPS只能跑到600MHz),跑分1280 DMIPS/ 3360 CoreMark;内部嵌入的ST Neural-ART Accelerator™(NPU),其主频为 1 GHz,具有INT8 0.6TOPS的算力,可实现计算机视觉和音频应用的实时神经网络推理,也是这次N6系列的主要卖点——低功耗边缘AI应用。 功耗方面:在SMPS的全面使用与16nm FinFET工艺的加持之下STM32N6的低功耗性能也是相当可观,在CPU 800MHz、NPU 1GHz的情况下,内核电压仅需0.89V,而内部的NPU可达3TOPS/W的效率。在全功率运行的情况下,完全不需要使用任何散热手段。主要电压也可全部使用1.8V供电,进一步降低了设备整体的功耗。如果你的产品有机器视觉、低功耗、高性能的需求,那么STM32N6将是你目前最好的选择。 安全方面:目标通过SESIP 3级和PSA 3级认证,符合最新安全标准,支持TrustZone和租户感知防火墙(RIF),细化了特权安全资源的管理,实现更多隔离和多应用目的,支持防边信道攻击AES/PKA和快速AES/SHA,有效保护系统关键安全参数。 外设方面:STM32N6具有ST最豪华的外设配置,4.2MB的连续RAM,支持外扩PSRAM、SDRAM、NOR、NAND,Hexa-SPI接口速度800 Mbytes/s(200MHz 16线PSRAM),FMC接口664 Mbytes/s(166MHz SDRAM);支持XGA(1024x768)分辨率显示,具有Chrom-ART、Chrom-GRC、NeoChrom GPU、JPEG codec,使N6具有无比强大的图像性能;具有MIPI CSI-2双通道接口、16位并行接口的摄像头接口,支持500万像素30FPS摄像头,支持ISP,可灵活处理采集的图像;支持720p/1080p @ 30 fps的H.264编码器;其他外设更是拉满,2个USB 2.0 HS/FS、1个千兆以太网、5个UART、1个LPUART、4个I2C、2个I3C、6个SPI、2个SDMMC、3个FDCCAN、2个ADC(最大支持20通道,5Msps采样率、12位分辨率)。下一步ST还将推出不带NPU的STM32N6x5系列,进一步填充STM32N6产品线,满足了对神经网络没需求,但是很需要强大图像处理能力的客户。 今天就让我们以功耗和AI性能作为切入点,与STM32N6来一场初步交流。 本次测试主要关注STM32N6在运行机器视觉模型时的内核功耗,CPU运行在800MHz,NPU运行在1GHz,程序运行在内部RAM里,内核电压为0.89V。 功耗测试方式:去掉R31和R35两个电阻,串入电流表(注意,该方式会使DCDC反馈回路变长,可能导致引入噪声、产生振荡,从而使DCDC工作不稳定),实时测量VDDCORE电流,计算出功耗。 性能评测方式:以单帧图像的处理时间作为性能指标,核心代码如下:
1.图像识别 模型:efficientnet_v2B1_240_fft_qdq_int8.onnx 模型大小:8.716MiB 数据集:food-101 输入图像:240x240x3 测试结果:平均电流约为255mA,内核功耗约为226.95mW,单帧推理时间约为73ms 2.实例分割 模型:yolov8n_256_quant_pc_uf_seg_coco-st.tflite 模型大小:3.35MiB 数据集:COCO-Person 输入图像:256x256x3 测试结果:平均电流约为245mA,内核功耗约为218.05mW,单帧推理时间约为38ms 3.对象检测 模型:quantized_tiny_yolo_v2224.tflite 模型大小:10.55MiB 数据集:COCO-Person 输入图像:224 x 224 x 3 测试结果:平均电流约为247mA,内核功耗约为219.83mW,单帧推理时间约为30.5ms 4.姿态检测 模型:st_movenet_lightning_heatmaps_192_int8_pc.tflite 模型大小:2.97MiB 数据集:COCO-Person 输入图像:192 x 192 x 3 测试结果:平均电流约为208mA,内核功耗约为185.12mW,单帧推理时间约为18ms 5.语义分割 模型:deeplab_v3_mobilenetv2_05_16_320_fft_qdq_int8.onnx 模型大小:0.977MiB 数据集:person COCO 2017 + PASCAL VOC 2012 输入图像:320 x 320 x 3 测试结果:平均电流约为204.8mA,内核功耗约为182.3mW,单帧推理时间约为45ms |
【资料合集】STM32N6超全资料合集(定期更新)
【直播回放】STM32N6与ST边缘AI生态系统技术研讨会
【STM32N6真来了!还热乎】看直播、猜特性、领板卡!
【新品发布】STM32N6,在工业和消费类应用中实现全新性能水平
【STM32H7S78-DK评测】-5 LVGL&DMA2D DEMO测试
【STM32H7S78-DK评测】移植AI框架TensorFlow【DSP指令加速篇】
【STM32H7S78-DK评测】移植AI框架TensorFlow【下篇】
【STM32H7S78-DK评测】移植AI框架TensorFlow Lite【上篇】
【STM32H7S78-DK评测】移植边缘AI推理框架——TFLM(TensorFlow Lite for Microcontrollers)上篇
【STM32H7S78-DK评测】步进电机控制介绍一与tensorflow安装与测试