Edge AI与机器学习的硬件类型与开发套件

2024年12月02日 14:33 发布者：eechina

来源：Digikey

因为Edge AI和机器学习的计算主要发生在设备边缘，通常需要处理实时数据并在资源有限的情况下做出快速决策，因此对于硬件类型有其特殊的需求，市场上也有其相应的开发套件可供选择。本文将为您介绍一些市面上常用于Edge AI和机器学习的硬件类型与硬件开发套件，以便于协助你们选购与加速开发流程。

常见的Edge AI和机器学习硬件类型

Edge AI和机器学习使用的硬件类型包括微控制器（MCU）、单板计算机（SBC）、专用AI加速器、FPGA（现场可编程逻辑门阵列）等。

1. 微控制器

在Edge AI和机器学习中，微控制器扮演着关键角色，特别是在资源有限、需要低功耗、实时计算和简单推理任务的应用场景中，可应用于传感器数据处理、边缘设备控制等，常见的选择包括ARM Cortex-M系列、ESP32、Raspberry Pi Pico等。

ARM Cortex-M系列如Cortex-M0/M3/M4/M7是业界广泛使用的低功耗微控制器，适合嵌入式系统和物联网（IoT）设备，Cortex-M4和Cortex-M7支持数字信号处理（DSP）指令集，适合进行基本的AI推理，可应用于小型机器学习推理、传感器数据处理、设备控制等。

ESP32则是由Espressif开发，内建Wi-Fi和蓝牙功能，广泛应用于IoT和边缘设备，支持TensorFlow Lite Microcontrollers，适合运行简单的机器学习模型，如语音识别和手势识别，常见于物联网应用、智能家居、可穿戴设备等。

Raspberry Pi Pico使用RP2040微控制器，为Raspberry Pi基金会的首个微控制器产品，可支持TensorFlow Lite Microcontrollers，具备双核ARM Cortex-M0+，适合入门级的Edge AI应用，如基本机器学习推理、物联网设备控制等。

STM32系列是由STMicroelectronics提供的微控制器，特别是STM32F4和STM32H7系列，支持丰富的计算资源和DSP，可支持使用Cube.AI工具来将AI模型部署到微控制器上，常应用于工业自动化、医疗设备、物联网等。

nRF52系列则是由Nordic Semiconductor开发，内建蓝牙低功耗（BLE）功能，适合低功耗应用，支持机器学习推理，常用于可穿戴设备和物联网应用，如智能穿戴、传感器融合、远程监控等。

由Renesas公司推出的Renesas RA系列支持ARM Cortex-M内核，具有强大的计算能力和低功耗特性，适合Edge AI。Renesas RX系列则使用Renesas自家内核，针对高效嵌入式应用进行优化，可使用于工业应用、智能城市、智能家居等。

Texas Instruments的MSP430以超低功耗著称，适合需要长期运行且电池供电的设备，虽然MSP430的计算能力有限，但可以处理轻量级的机器学习应用，如传感器融合、简单的边缘推理、低功耗应用等。

Arduino Nano 33 BLE则内建ARM Cortex-M4内核，支持TensorFlow Lite，适合Edge AI应用的开发者和爱好者，由于包含蓝牙功能，适合物联网和可穿戴设备开发，可应用于手势识别、语音识别、简单的推理任务。

这些微控制器因其低功耗、易于开发和与各种AI开发工具的兼容性，广泛应用于Edge AI和机器学习领域。选择合适的微控制器时，需根据应用场景的计算需求、功耗限制和数据处理要求进行考虑。

2. 单板计算机

在Edge AI和机器学习应用中，单板计算机提供了相对较高的计算能力与计算资源，以及多样化的开发环境，适合处理更为复杂的机器学习任务和推理工作，支持更高性能的AI模型，适合工业自动化和边缘设备。常见的单板计算机包括Raspberry Pi、NVIDIA Jetson Nano、BeagleBone Black等。

Raspberry Pi系列中的Raspberry Pi 4是最受欢迎的单板计算机之一，具有ARM Cortex-A72 64位处理器和多核处理能力，支持TensorFlow Lite、PyTorch等AI开发框架，能够运行轻量级的机器学习模型，适合应用于图像识别、语音处理和智能物联网设备，可应用于小型物联网设备、智能家居、AI辨识应用等。

NVIDIA Jetson系列相当受到市场欢迎，其中的Jetson Nano是针对入门级AI应用，配备128核的NVIDIA Maxwell GPU，支持TensorFlow、PyTorch和NVIDIA自家的深度学习软件开发套件（SDK），适合运行较大的AI模型。Jetson Xavier NX则提供更高的计算能力，拥有384个CUDA内核和48个Tensor内核，适合需要高效推理的应用。Jetson Orin则适合高阶AI和边缘计算应用，拥有更强大的GPU和AI加速功能。NVIDIA Jetson系列可应用于自主机器人、智能监控系统、医疗设备等。

Google Coral Dev Board内建Google Edge TPU，专为高效、低功耗的AI应用设计。TPU是专门用于加速深度学习推理的处理器，适合TensorFlow Lite模型，能够处理图像分类、对象检测等AI任务，并且功耗非常低，可应用于物联网设备、智能城市应用、图像和语音识别等。

BeagleBone Black则使用AM335x 1GHz ARM Cortex-A8处理器，支持Linux，具备较高的扩展性，虽然性能不如Raspberry Pi和Jetson系列，但它的开源硬件和软件支持使其非常灵活，适合初学者和开发者使用，可应用于工业自动化、嵌入式系统、智能城市应用等。

这些单板计算机依据不同的计算能力、功耗需求和AI开发框架支持，适合各种Edge AI和机器学习应用场景。选择合适的单板计算机需考虑AI模型的复杂度、资源需求以及功耗等因素。

3. 专用AI加速器

在Edge AI和机器学习应用中，专用AI加速器（AI Accelerators）则可提供专门用来加速深度学习推理和其他AI工作负载的硬件设备，这些加速器可以显著提高计算效率，同时降低功耗，以支持深度学习模型，适用于边缘设备的高效率推理。常见的专用AI加速器包括Intel Movidius Myriad X、Google Coral Edge TPU、NVIDIA Jetson Xavier NX等。

Google的Edge TPU是专门为边缘设备设计的AI推理加速器，能够高效处理TensorFlow Lite模型，尤其适合图像识别、对象检测等任务，可支持每秒进行数兆次计算（TOPS），且功耗极低，适合物联网设备和其他资源受限的应用，如图像分类、语音识别、智能监控系统等。其可提供Coral Dev Board和Coral USB Accelerator开发套件，可轻松地将Edge TPU集成到各种嵌入式系统中。

NVIDIA的Jetson系列专注于提供GPU加速，特别适合于边缘设备的AI计算，每个Jetson模块都搭载了CUDA内核和Tensor内核，用来加速AI模型推理，其支持完整的NVIDIA开发工具生态，如TensorRT、CUDA和深度学习SDK，适合运行复杂的深度学习模型和计算密集型应用，如自主机器人、医疗诊断、智能工厂。其提供Jetson Nano、Jetson Xavier NX、Jetson Orin开发套件，从入门级到高阶应用都有对应的硬件。

Intel Movidius Myriad X是一款高度专用的视觉处理单元（VPU），针对图像识别和其他AI推理工作进行优化，集成了神经计算引擎（NCE），能加速深度学习推理，同时支持低功耗的应用。这款VPU被广泛应用于无人机、智能相机和机器人，可应用于对象识别、智能监控、计算机视觉应用。其开发套件Intel Neural Compute Stick 2是一款便捷的USB加速器，允许开发者将Myriad X集成到嵌入式系统中。

Xilinx AI Engine（Vitis AI）是Xilinx FPGA和AI引擎，支持高度灵活的AI推理加速，特别适合需要高度可定制的应用场景，如工业控制和汽车自动驾驶，Vitis AI开发平台针对Xilinx FPGA进行优化，能加速各种神经网络模型，并提供极高的性能和灵活性，可应用于自动驾驶、边缘计算、医疗图像处理。开发套件是Zynq UltraScale+ MPSoC和Alveo加速卡，可在各种高效嵌入式系统中部署AI模型。

Apple开发的Neural Engine（ANE）是其移动设备（如iPhone和iPad）中的专用AI加速器，用来加速机器学习推理，特别是在iOS生态系统中执行高效的本地AI模型，可提供每秒数万亿次计算，并针对苹果自家的AI框架（如Core ML）进行深度优化，可应用于增强现实（AR）、图像处理、语音识别。开发套件中的Apple Core ML框架和Xcode开发环境深度集成，适合开发者进行移动AI应用的开发。

Kneron KL520是一款低功耗AI加速器，专为边缘设备设计，支持深度学习推理的加速，适合物联网和智能家居设备，支持多种神经网络架构如CNN和RNN，并针对低功耗应用进行优化，可应用于图像处理、智能摄像机、语音识别。Kneron提供多种开发模块和工具，使得开发者可以轻松地集成AI加速功能。

Huawei的Ascend 310是一款AI专用加速芯片，针对移动设备和边缘设备进行AI推理优化，特别是在智能城市和自动驾驶等应用中，可提供高效、低功耗的AI推理能力，并支持多种神经网络框架，可应用于智能城市、边缘计算、自动驾驶，其采用基于Ascend 310的Atlas 200开发模块，是常见的Edge AI开发套件。

这些专用AI加速器根据性能、功耗和应用需求的不同，提供了多种选择。它们在Edge AI和机器学习的应用中，能够显著提升推理速度，减少计算资源消耗，并且在不同的硬件和软件环境中提供灵活的开发支持。选择合适的AI加速器取决于具体的应用需求，例如计算性能、功耗以及目标平台的限制。

4. FPGA

在Edge AI和机器学习应用中，FPGA（Field-Programmable Gate Array，现场可编程逻辑门阵列）提供了高度灵活和可配置的硬件加速能力，特别适合那些需要在边缘进行高效率AI推理的应用，可进行实时数据处理和推理。与GPU或专用AI加速器不同，FPGA能够根据特定任务进行硬件层面的优化，从而实现低延迟和高能效比，常用于Edge AI计算的FPGA包括Xilinx Zynq、Intel Stratix等。

Xilinx是FPGA市场的领导者之一，其提供的FPGA解决方案专门针对人工智能和机器学习应用进行了优化，尤其是Zynq UltraScale+ MPSoC和Versal ACAP系列。Xilinx FPGA提供了Vitis AI开发平台，能够加速深度学习推理，并支持各种框架如TensorFlow和Caffe。Zynq UltraScale+ MPSoC结合了ARM处理器与可编程逻辑，提供灵活的计算平台，适合嵌入式和边缘设备。Versal ACAP是一种自适应计算加速平台，结合了FPGA的灵活性和专用AI加速功能，适合高效AI应用如自动驾驶、智能医疗、工业自动化、智能城市。开发工具包括Vitis AI、Vivado、TensorFlow Lite for Microcontrollers。

Intel并购了Altera，进一步扩展其在FPGA领域的影响力。Intel FPGA（如Arria和Stratix系列）针对AI和边缘计算进行了优化，特别是Intel的OpenVINO工具套件支持FPGA上的AI推理加速。Arria 10 GX FPGA是中高阶FPGA，提供高效和灵活性，适合高效计算应用。Stratix 10系列适合更高阶的应用，支持复杂的神经网络推理任务。其支持OpenVINO工具套件，可以加速如TensorFlow、Caffe等模型的推理过程，可应用于高效边缘计算、深度学习推理、视觉处理、网络边缘应用。开发工具包括Intel OpenVINO、Quartus Prime、TensorFlow Lite。

Lattice Semiconductor的FPGA是针对低功耗和小尺寸应用而设计，尤其是其ECP5和iCE40系列，适合边缘AI设备和物联网应用。iCE40 UltraPlus是一款超低功耗FPGA，适合用于需要极低功耗的物联网设备、智能家居应用等。ECP5系列支持神经网络推理加速，适合Edge AI设备，并且与TensorFlow Lite for Microcontrollers集成，适合小型机器学习模型的推理，如物联网设备、可穿戴设备、边缘设备的AI推理。开发工具有Lattice Diamond、Radiant、TensorFlow Lite。

QuickLogic提供的FPGA以低功耗著称，特别是其针对AI和边缘推理优化的产品。其QuickAI平台专门为边缘设备提供灵活的AI加速解决方案。QuickAI开发平台基于其低功耗的FPGA，能够加速边缘设备上的神经网络推理，并支持物联网和智能传感器应用，可支持神经网络加速，并且能够在能量受限的设备中进行高效计算，可应用于智能传感器、智能家居、工业物联网，开发工具有QuickLogic开发套件、SensiML工具集。

Microchip的FPGA（前身为Microsemi）提供了低功耗和高安全性解决方案，尤其是其PolarFire系列，适合于Edge AI和深度学习应用。PolarFire FPGA是一款低功耗、高安全性的FPGA，能够在功耗受限的情况下实现高效的AI推理。其支持开源工具，如OpenVINO和TensorFlow Lite，用于加速AI应用，如工业自动化、智能医疗设备、Edge AI设备。开发工具包括Libero SoC、PolarFire SoC开发套件。

FPGA可以根据不同的AI模型和应用进行高度定制，适合于不同场景中的专用AI加速任务，具有灵活性，且由于FPGA的硬件级别并行处理能力，可以实现极低的延迟，这在实时AI推理中尤为重要，并使其在Edge AI计算中具有更高的效能与功耗比，FPGA的适应性强，可能够灵活应对不同的应用需求，从物联网设备到高效计算平台，适合各种不同的边缘应用场景。

FPGA是Edge AI和机器学习应用中的理想硬件平台，特别适合那些需要高度灵活、低功耗、高效能的场景。Xilinx、Intel、Lattice等公司提供的FPGA平台，结合专门的AI开发工具，使得FPGA能够在边缘环境中处理复杂的深度学习模型和AI推理任务。选择合适的FPGA平台应根据应用需求、资源限制和功耗考虑进行决策。

常见的Edge AI和机器学习开发套件

在Edge AI和机器学习领域，开发套件能帮助开发者快速设计、测试和部署AI解决方案。这些开发套件通常包括硬件平台、软件工具和预先训练的模型，能简化开发过程。以下是一些常见的Edge AI和机器学习开发套件。

1. 入门级开发套件

Arduino Nano 33 BLE Sense这款开发板由Arduino提供，内建了多种传感器，特别适合使用TensorFlow Lite for Microcontrollers进行开发。Arduino Nano 33 BLE Sense采用ARM Cortex-M4 32位、64 MHz的主处理器，具有256 KB SRAM内存，内建的传感器包括加速度计、陀螺仪、磁力计、温度计、气压计、湿度计和光传感器。开发者可以通过Arduino IDE将TensorFlow Lite模型部署到开发板上，用于智能感应设备、图像分类、语音识别、手势识别、环境监测等应用。

2. 中级开发套件

MCX N系列微控制器是由NXP半导体推出的新一代低功耗微控制器系列，专为物联网、智能家居、工业控制等应用设计。该系列具备强大的处理性能和节能特性，并且支持安全功能，使其成为嵌入式AI和边缘计算的理想选择。MCX N系列微控制器具有高效能，基于ARM Cortex-M33内核，支持浮点计算和DSP扩展，低功耗设计适合电池供电的应用，支持多种省电模式，在安全性上支持NXP TrustZone技术，内建加密加速器，支持安全引导和安全存储，具有灵活的扩展性，提供多种通信接口，如I2C、SPI、UART和CAN，适合各类应用。MCX N系列开发套件则包括NXP MCX N1110-EVK开发板、NXP MCX N1040-EVK开发板、NXP MCX N9xx-EVK开发板等，开发环境和工具则有MCUXpresso IDE、MCUXpresso SDK，以及加密和安全功能的软件支持，包括TrustZone和加密加速器的API等安全工具。

Wio Terminal是Seeed Studio推出的一款多功能开发套件，基于ATSAMD51内核，专为物联网、机器学习、Edge AI和嵌入式系统设计。它是一款结合了多种传感器、显示器、无线通信模块的开发平台，适合快速原型设计和开发智能应用。Wio Terminal的内核处理器为ATSAMD51P19，基于ARM Cortex-M4F架构，主频可达120 MHz，支持浮点计算，以及192 KB RAM、4 MB闪存，足够进行嵌入式应用的开发，具有2.4吋LCD TFT屏幕，分辨率为320x240，便于显示实时数据和图形接口，内建环境光传感器、加速度计、温度和湿度传感器，便于进行环境监控和感知，支持内建Wi-Fi和蓝牙模块，适合IoT和无线连接应用。Wio Terminal提供多种I/O接口，包括40-pin GPIO、I2C、SPI和UART接口等，便于外接其他传感器和模块。支持Arduino和MicroPython，还支持TensorFlow Lite和Edge Impulse来进行Edge AI和机器学习开发。

Seeed Studio的XIAO ESP32S3 Sense则是一款超小型开发套件，专为Edge AI和物联网设计，集成了ESP32-S3芯片，提供强大的计算能力和多种传感器，非常适合物联网应用和AI开发者使用。该开发套件强调小尺寸、低功耗和高效能，支持Wi-Fi和蓝牙双模通信，并具备Edge AI加速功能。其内核处理器采用ESP32-S3，是双核的Xtensa LX7 32位处理器，主频可达240 MHz，内建AI加速器，支持矢量指令集，专为AI模型运行进行优化，以提升推理效能。内存为512 KB SRAM，支持外部8 MB PSRAM，支持Wi-Fi 802.11 b/g/n和Bluetooth 5.0 LE，内建IMU 6轴陀螺仪和加速度计与PDM麦克风，适合语音识别、手势识别和动作跟踪等应用，并支持Arduino IDE、MicroPython、Espressif SDK、TensorFlow Lite等开发工具。

Raspberry Pi 4 Model B是Raspberry Pi基金会推出的高性能单板计算机，专为教育、物联网、嵌入式系统和边缘计算应用设计。这款开发板具备更快的处理器、更多的内存和丰富的接口，是目前Raspberry Pi系列中性能最强的一款，适合用于从学术研究到工业应用的各种场景。Raspberry Pi 4 Model B的处理器采用Broadcom BCM2711，四核ARM Cortex-A72（ARMv8）64位处理器，主频1.5GHz，提供多个内存选项，包括2 GB、4 GB、8 GB LPDDR4 SDRAM，可满足不同工作负载的需求，支持双4K显示输出，通过两个micro-HDMI埠可以同时连接两个显示器，支持4Kp60分辨率，板载千兆以太网，同时支持2.4GHz和5GHz双频Wi-Fi 802.11ac，以及蓝牙5.0，提供2个USB 3.0和2个USB 2.0埠，支持高速存储和外设连接，可通过microSD卡进行操作系统和数据存储，具有40-pin GPIO接口，支持各种外设、模块和传感器的扩展，适合原型设计和开发。在开发上支持Raspberry Pi OS官方的操作系统，还支持Ubuntu、Windows 10 IoT Core等多种操作系统，以及Python、TensorFlow Lite开发环境。

3. 高阶开发套件

MAX78000评估板是Maxim Integrated（现为Analog Devices）推出用于评估MAX78000微控制器的开发板。MAX78000是一款专为低功耗神经网络处理设计的AI微控制器，集成了ARM Cortex-M4F内核和一个专用的神经网络加速器，适合Edge AI应用，如图像识别、语音识别和其他需要实时处理的应用。MAX78000评估板搭载了一个专用的神经网络加速器，支持多种神经网络架构（如CNN），能够在超低功耗下高效运行AI推理工作负载，内存为512 KB SRAM，存储空间为2 MB闪存。开发上可支持MAX78000 SDK，以及TensorFlow Lite、PyTorch生成的模型，并且有专门的工具来将这些模型转换为MAX78000可以运行的格式。此外，还支持GCC编译工具链和Maxim的IDE，适合专业开发者使用。

STM32F7 Discovery评估板是STMicroelectronics推出的功能强大的开发板，专为基于STM32F7系列微控制器的开发和原型设计而设计。STM32F7系列微控制器具有基于ARM Cortex-M7内核的高效能，适合应用于物联网、工业控制、多媒体处理和嵌入式系统等领域。评估板上搭载STM32F746NGH6微控制器，运行频率高达216 MHz，提供强大的计算能力，具有1 MB闪存和340 KB SRAM，满足大多数嵌入式应用对内存的需求，配备一个4.3英寸的TFT LCD电容式触摸屏幕（480x272分辨率），板载数字MEMS麦克风、音频编译码器、耳机插孔，集成以太网接口，支持有线网络通讯。开发上可支持STM32CubeMX ST官方提供的配置工具，以及STM32CubeF7，还有FreeRTOS和其他实时操作系统（RTOS），适合多任务处理的应用场景。STM32F7 Discovery评估板支持多种开发环境，包括STM32CubeIDE、Keil MDK、IAR Embedded Workbench等，板载显示和触摸面板支持TouchGFX，用于开发嵌入式GUI应用。

4. 专家级开发套件

NVIDIA Jetson Nano开发套件是一款专为嵌入式人工智能应用设计的低功耗开发平台，适合在边缘设备上进行高效率的AI推理和深度学习应用。这款开发套件提供了高性能的GPU计算能力，支持TensorFlow、PyTorch等深度学习框架，适合应用于物联网、机器人、自主设备和智能视频分析等领域。板载NVIDIA Maxwell架构的GPU，拥有128个CUDA内核，64位四核ARM Cortex-A57处理器，以及4 GB LPDDR4 RAM，支持microSD卡插槽做为主要存储设备，拥有丰富的接口包括USB 3.0、HDMI、DisplayPort、CSI相机界面、GPIO、I2C、SPI等，具备千兆以太网接口。软件支持NVIDIA JetPack SDK，支持TensorFlow、PyTorch、Caffe、MXNet等常用的深度学习框架，支持视频编码和解码功能。

Himax WE-I Plus评估板是一款专门设计用于Edge AI应用的开发板，适合在资源有限的环境下执行AI任务。这款开发板面向低功耗的嵌入式系统设计，能够运行机器学习模型，特别是适合在电池供电的设备上进行实时的数据处理和AI推理。Himax WE-I Plus评估板主要应用于物联网、智能家居、可穿戴设备等需要低功耗的应用场景。Himax WE-I Plus评估板搭载Himax HX6537-A SoC，这是一个专为Edge AI设计的低功耗处理器，内建AI加速器，提供512 KB SRAM和2 MB闪存，板上集成了多个传感器，包括加速度计、陀螺仪、数字麦克风等，并特别针对电池供电的设备设计。软件支持TensorFlow Lite for Microcontrollers、Himax SDK，其RISC-V架构提供了灵活的开发环境，并且能够充分利用板上的硬件资源来执行AI推理。

5. 其他产品

除了上述的开发套件之外，还有像是TensorFlow开发板、FPGA板等产品，像是SparkFun Edge开发板、Adafruit TensorFlow Lite Kit、Espressif ESP32、Micro v2、Nordic nRF52840 DK等，以及Google Coral、Intel Neural Compute Stick 2、OpenMV Cam H7、Kneron KL520 AI开发板、Huawei Atlas 200开发模块，还有针对FPGA架构的Xilinx Kria KV260 Vision AI Starter Kit等，产品种类众多，可提供开发者更多样化的选择。

结语

在当今快速发展的科技环境中，Edge AI与机器学习的硬件类型与开发套件日益受到重视。这些技术不仅能够提升数据处理效率，还能减少延迟和带宽消耗，让智能应用更加灵活和高效率。从小型化的微控制器到高性能的GPU加速平台，各种开发套件提供了多样的选择，适应不同的应用需求与场景。

这些开发套件的广泛应用涵盖了物联网、智能城市、智能家居、计算机视觉等领域，使得边缘计算成为可能。随着技术的进步，未来的硬件将更加专注于低功耗、高效及易于开发的特性，进一步促进Edge AI和机器学习的发展。无论是初学者还是专业开发者，选择合适的硬件平台和开发套件，都将为创新提供强有力的支持，推动智能技术向更高水平发展。

Gartner发布塑造AI基础设施未来的三大主要技术趋势

Gartner评选出25家处于AI应用前沿的中国领先企业

芯瞳半导体发布TokenClaw AI 系统：给企业量身做的【本地专属私人 AI 整套系统】

Gartner发布三大AI价值实现路径

边缘 AI 加速的 Arm Cortex‑M0+ MCU 如何为电子产品注入更强智能

Edge AI与机器学习的硬件类型与开发套件

相关文章