Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Industrial Internet of Things >> Embarqué

Les processeurs spécialisés accélèrent les charges de travail de l'IA des points de terminaison

Bien que l'accélération des applications d'IA et de ML soit encore un domaine relativement nouveau, il existe une variété de processeurs pour accélérer presque toutes les charges de travail des réseaux neuronaux. Des géants des processeurs à certaines des startups les plus récentes du secteur, tous offrent quelque chose de différent, qu'il s'agisse de cibler différents marchés verticaux, domaines d'application, budgets d'alimentation ou niveaux de prix. Voici un aperçu de ce qui est sur le marché aujourd'hui.

Processeurs d'application

Intel Movidius Myriad X
Développé par la startup irlandaise Movidius qui a été rachetée par Intel en 2016, le Myriad X est l'unité de traitement de la vision de troisième génération de l'entreprise et le premier à disposer d'un moteur de calcul de réseau neuronal dédié, offrant 1 téra d'opérations par seconde (TOPS) de calcul du réseau de neurones profonds (DNN). Le moteur de calcul neuronal s'interface directement avec une structure de mémoire intelligente à haut débit pour éviter tout goulot d'étranglement de mémoire lors du transfert de données. Il prend en charge les calculs FP16 et INT8. Le Myriad X comprend également un groupe de 16 cœurs SHAVE propriétaires et des accélérateurs de vision améliorés et étendus.

Le Myriad X est disponible dans le Neural Compute Stick 2 d'Intel, en fait une plate-forme d'évaluation sous la forme d'une clé USB. Il peut être branché sur n'importe quel poste de travail pour permettre aux applications d'IA et de vision par ordinateur d'être opérationnelles très rapidement sur le matériel Movidius dédié.

NXP Semiconductors i.MX 8M Plus
L'i.MX 8M Plus est un processeur d'application hétérogène doté d'une IP d'accélérateur de réseau neuronal dédiée de VeriSilicon (Vivante VIP8000). Il offre 2,3 TOPS d'accélération pour l'inférence dans les terminaux de l'Internet des objets grand public et industriel (IIoT), suffisant pour l'identification d'objets multiples, la reconnaissance vocale de 40 000 mots ou même l'imagerie médicale (MobileNet v1 à 500 images par seconde).

En plus du processeur de réseau neuronal, l'i.MX 8M Plus comprend également un sous-système Arm Cortex-A53 quadricœur fonctionnant à 2 GHz, ainsi qu'un sous-système temps réel Cortex-M7.

Pour les applications de vision, il existe deux processeurs de signal d'image qui prennent en charge deux caméras haute définition pour la vision stéréo ou une seule caméra de 12 mégapixels (MP). Pour la voix, l'appareil comprend un processeur de signal audio numérique (DSP) HiFi4 à 800 MHz pour le pré-traitement et le post-traitement des données vocales.

Le i.MX 8M Plus de NXP est le premier processeur d'application de la société avec un accélérateur de réseau neuronal dédié. Il est conçu pour les applications IoT. (Image :NXP Semiconductors)

XMOS xcore.ai
Le xcore.ai est conçu pour permettre le contrôle vocal dans les applications d'intelligence artificielle des objets (AIoT). Processeur croisé (avec les performances d'un processeur d'application et le fonctionnement en temps réel à faible consommation d'un microcontrôleur), cet appareil est conçu pour l'inférence d'apprentissage automatique sur les signaux vocaux.

Il est basé sur l'architecture Xcore propriétaire de XMOS, elle-même construite sur des blocs de construction appelés cœurs logiques qui peuvent être utilisés pour les E/S, le DSP, les fonctions de contrôle ou l'accélération de l'IA. Il y a 16 de ces cœurs sur chaque puce xcore.ai, et les concepteurs peuvent choisir le nombre à allouer à chaque fonction. Le mappage de différentes fonctions aux cœurs logiques du micrologiciel permet la création d'un « SoC virtuel », entièrement écrit dans un logiciel. XMOS a ajouté une capacité de pipeline vectoriel à Xcore pour les charges de travail d'apprentissage automatique.

Le xcore.ai prend en charge les réseaux 32 bits, 16 bits, 8 bits et 1 bit (binarisés), offrant 3 200 MIPS, 51,2 GMACC et 1 600 MFLOPS. Il dispose d'1 Mo de SRAM intégrée et d'une interface DDR basse consommation pour l'extension.

Xcore.ai de XMOS est basé sur une architecture propriétaire et est spécialement conçu pour les charges de travail d'IA dans les applications de traitement de la voix. (Image :XMOS)

SoC automobile

Texas Instruments Inc. TDA4VM
Faisant partie de la série Jacinto 7 pour les systèmes automobiles avancés d'aide à la conduite (ADAS), le TDA4VM est le premier système sur puce (SoC) de TI avec un accélérateur d'apprentissage en profondeur dédié sur puce. Ce bloc est basé sur le DSP C7x plus un accélérateur de multiplication matriciel développé en interne (MMA), qui peut atteindre 8 TOPS.

Le SoC peut gérer un flux vidéo à partir d'une caméra frontale jusqu'à 8 MP ou une combinaison de quatre à six caméras de 3 MP plus des capteurs radar, LiDAR et à ultrasons. Le MMA peut être utilisé pour effectuer une fusion de capteurs sur ces entrées dans un système de parking avec voiturier automatisé, par exemple. Le TDA4VM est conçu pour les systèmes ADAS entre 5 et 20 W.

L'appareil est toujours en pré-production, mais des kits de développement sont disponibles dès maintenant.

Le TI TDA4VM est destiné aux systèmes ADAS automobiles complexes qui permettent aux véhicules de percevoir leur environnement. (Image :Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
Le célèbre Jetson Nano de Nvidia est un module d'unité de traitement graphique (GPU) petit mais puissant pour les applications d'IA dans les terminaux. Construit sur la même architecture Maxwell que les membres plus importants de la famille Jetson (AGX Xavier et TX2), le GPU sur le module Nano a 128 cœurs et est capable de 0,5 TFLOPS, assez pour exécuter plusieurs réseaux de neurones sur plusieurs flux de données de haute qualité. capteurs d'image de résolution, selon la société. Il consomme aussi peu que 5 W lors de son utilisation. Le module dispose également d'un processeur Arm Cortex-A57 quadricœur.

Comme d'autres pièces de la gamme Nvidia, le Jetson Nano utilise CUDA X, la collection de bibliothèques d'accélération de Nvidia pour les réseaux de neurones. Les kits de développement Jetson Nano bon marché sont largement disponibles.

Le module Jetson Nano de Nvidia abrite un puissant GPU avec 128 cœurs pour l'IA à la périphérie. (Image :Nvidia Corp.)

Co-processeurs consommateurs

Kneron Inc. KL520
La première offre de la startup américano-taïwanaise Kneron est le processeur de réseau neuronal KL520, conçu pour le traitement d'images et la reconnaissance faciale dans des applications telles que les maisons intelligentes, les systèmes de sécurité et les appareils mobiles. Il est optimisé pour exécuter des réseaux de neurones convolutifs (CNN), le type couramment utilisé dans le traitement d'images aujourd'hui.

Le KL520 peut exécuter 0,3 TOPS et consomme 0,5 W (équivalent à 0,6 TOPS/W), ce qui, selon la société, est suffisant pour une reconnaissance faciale précise, étant donné que l'efficacité MAC de la puce est élevée (plus de 90 %). L'architecture de la puce est reconfigurable et peut être adaptée à différents modèles CNN. Le compilateur complémentaire de la société utilise également des techniques de compression afin d'aider à exécuter des modèles plus grands dans les ressources de la puce afin d'économiser de l'énergie et des coûts.

Le KL520 est disponible dès maintenant et peut également être trouvé sur une carte accélératrice du fabricant AAEON (le M2AI-2280-520).

Le KL520 de Kneron utilise une architecture reconfigurable et une compression intelligente pour exécuter le traitement d'image dans les appareils mobiles et grand public. (Image :Kneron Inc.)

Gyrfalcon Lightspeeur 5801
Conçu pour le marché de l'électronique grand public, le Lightspeeur 5801 de Gyrfalcon offre 2,8 TOPS à une consommation électrique de 224 mW (équivalent à 12,6 TOPS/W) avec une latence de 4 ms. L'entreprise utilise une technique de processeur en mémoire qui est particulièrement économe en énergie, par rapport à d'autres architectures. La consommation d'énergie peut en fait être compensée par la vitesse d'horloge en faisant varier la vitesse d'horloge entre 50 et 200 MHz. Lightspeeur 5801 contient 10 Mo de mémoire, de sorte que des modèles entiers peuvent tenir sur la puce.

Cette partie est la quatrième puce de production de la société et se trouve déjà dans le smartphone de milieu de gamme Q70 de LG, où elle gère l'inférence pour les effets de caméra. Un kit de développement de clé USB, le 5801 Plai Plug, est disponible dès maintenant.

Ultra-faible consommation

Eta Compute ECM3532
Le premier produit de production d'Eta Compute, l'ECM3532, est conçu pour l'accélération de l'IA dans les conceptions alimentées par batterie ou de récupération d'énergie pour l'IoT. Des applications toujours actives dans le traitement d'images et la fusion de capteurs peuvent être réalisées avec un budget de puissance aussi bas que 100 µW.

La puce a deux cœurs :un cœur de microcontrôleur Arm Cortex-M3 et un DSP NXP CoolFlux. La société utilise une technique propriétaire de mise à l'échelle de la tension et de la fréquence, qui ajuste chaque cycle d'horloge, pour extraire chaque dernière goutte de puissance des deux cœurs. Les charges de travail d'apprentissage automatique peuvent être traitées par l'un ou l'autre cœur (certaines charges de travail vocales, par exemple, sont mieux adaptées au DSP).

Des échantillons de l'ECM3532 sont disponibles dès maintenant et la production en série devrait démarrer au deuxième trimestre 2020.

Syntiant Corp. NDP100
Le processeur NDP100 de la startup américaine Syntiant est conçu pour l'inférence d'apprentissage automatique sur les commandes vocales dans les applications où l'alimentation est restreinte. Son silicium basé sur un processeur en mémoire consomme moins de 140 µW de puissance active et peut exécuter des modèles pour le repérage de mots clés, la détection de mots de réveil, l'identification de locuteurs ou la classification d'événements. La société affirme que ce produit sera utilisé pour permettre le fonctionnement mains libres des appareils grand public tels que les écouteurs, les prothèses auditives, les montres intelligentes et les télécommandes. Les kits de développement sont disponibles dès maintenant.

Le périphérique NDP100 de Syntiant est conçu pour le traitement de la voix dans les applications à très faible consommation. (Image :Syntiant Corp.)

GreenWaves Technologies GAP9
GAP9, le premier processeur d'application ultra basse consommation de la startup française GreenWaves, dispose d'un puissant cluster de calcul de neuf cœurs RISC-V dont le jeu d'instructions a été fortement personnalisé pour optimiser la puissance consommée. Il dispose d'interfaces audio multicanaux bidirectionnelles et de 1,6 Mo de RAM interne.

GAP9 peut gérer les charges de travail du réseau neuronal pour les images, les sons et la détection des vibrations dans les appareils IoT alimentés par batterie. Les chiffres de GreenWaves ont GAP9 exécutant MobileNet V1 sur des images 160 × 160, avec une mise à l'échelle du canal de 0,25 en seulement 12 ms et avec une consommation électrique de 806 μW/image/seconde.


Embarqué

  1. Renesas met l'accent sur l'intelligence des terminaux au salon Embedded World 2019
  2. CEVA :processeur IA de deuxième génération pour les charges de travail des réseaux de neurones profonds
  3. Les MCU ciblent les conceptions sécurisées de points de terminaison et de périphérie IoT
  4. Les technologies améliorées accéléreront l'acceptation des assistants vocaux
  5. Processeur multicœur intégrant une unité de traitement neuronal
  6. Les processeurs prennent en charge la convergence de l'IoT et de l'IA
  7. La puce radar de faible puissance utilise des réseaux de neurones à pointes
  8. La conception de référence prend en charge les charges de travail d'IA gourmandes en mémoire
  9. La solution Edge AI s'appuie sur un processeur neuronal et une plate-forme de développement ML