Les SoC compatibles avec l'IA gèrent plusieurs flux vidéo
Ambarella lance deux appareils pour la vision par ordinateur et le traitement de l'IA à partir de plusieurs ou entrées uniques dans les caméras de sécurité et les systèmes de ville intelligente.
Le spécialiste du traitement d'images Ambarella a lancé deux nouveaux SoC pour les caméras de sécurité à capteur unique et à capteurs multiples, chacun doté de nouvelles capacités d'IA activées par le moteur d'accélérateur CVflow AI de l'entreprise. Les deux prennent en charge l'encodage vidéo 4K et le traitement avancé de l'IA, comme la reconnaissance faciale ou la reconnaissance de plaque d'immatriculation.
Le SoC CV5S cible les systèmes de caméras multi-capteurs, encodant quatre canaux d'imageur d'une résolution allant jusqu'à 8MP/4K, chacun à 30 images par seconde (ips) tout en effectuant une IA avancée sur chaque flux d'images 4K. Il peut gérer jusqu'à 14 entrées. La famille SoC double la résolution d'encodage et la bande passante mémoire de la génération précédente de produits d'Ambarella tout en consommant 30 % d'énergie en moins. Il consomme <5 W et fournit 12 eTOPS (TOPS équivalents au GPU, la mesure d'Ambarella de la puissance du GPU requise pour exécuter les mêmes tâches de traitement de l'IA).
L'autre nouveau SoC, CV52S, cible les caméras à capteur unique et prend en charge la résolution 4K à 60 ips. Par rapport aux générations précédentes de SoC Ambarella, ce nouvel appareil quadruple les performances de l'IA, double le débit du processeur et offre 50 % de bande passante mémoire en plus. Il consomme <3 W et fournit 6 eTOPS.
L'amélioration des performances découle de la migration vers le nœud de processus 5 nm ainsi que des améliorations et de l'élargissement du bloc d'accélérateur interne CVflow AI d'Ambarella.
"Vous voyez toutes ces startups venant de partout, disant qu'elles ont les meilleures performances d'IA par watt, et elles ont peut-être raison", a déclaré Jérôme Gigot, directeur principal du marketing d'Ambarella. « Mais cela ne fait pas un appareil photo, cela ne fait pas un produit. Si vous n'avez qu'un accélérateur d'IA, vous n'avez qu'un accélérateur d'IA. »
Gigot a noté qu'un pipeline d'imagerie pour la vidéo 4K ou 8K est complexe, manipulant une grande quantité de données, encodant de gros volumes de données, transférant ces données vers un bloc spécial pour le traitement de l'IA tout en exécutant probablement une pile Linux par-dessus. C'est difficile à réaliser avec des budgets d'alimentation faibles tout en conservant la qualité vidéo.
Le CV52S cible les conceptions à capteur unique comme celles trouvées dans la surveillance du trafic et d'autres applications de ville intelligente (Source :Ambarella)
Outre l'accélérateur CVflow AI, les deux nouveaux SoC incluent le processeur de signal d'image (ISP) d'Ambarella qui gère des fonctionnalités telles que le traitement des couleurs, l'exposition automatique, la balance des blancs automatique et le filtrage du bruit.
"Ce bloc que nous développons depuis 16 ans", a déclaré Gigot. « C'est pourquoi nous pensons que les startups ont encore un long chemin à parcourir. Ils pourraient licencier [un bloc ISP d'ailleurs] mais alors ce n'est pas vraiment intégré au reste du système en termes d'accès à la mémoire et tout le reste. "
Le système de mémoire fait partie des éléments clés de la propriété intellectuelle de l'entreprise.
« Nous avons un contrôleur de mémoire et nous organisons le tout pour que lorsque nous obtenons des données sur puce. Nous essayons de ne faire aucune copie », a déclaré Gigot. « Nous déplaçons les pointeurs, nous ne déplaçons pas les données. Cela n'est possible que si vous concevez l'ensemble de l'architecture à partir de zéro, en sachant exactement ce que la puce va faire. »
Moteur accélérateur
L'accélérateur d'IA est un processeur vectoriel qui peut accélérer la convolution et d'autres fonctions d'IA courantes, ou être utilisé pour les charges de travail classiques de vision par ordinateur. Les utilisateurs peuvent également choisir d'exécuter des parties d'un réseau de neurones (comme des algorithmes de tri dans un réseau de détecteurs à un seul coup) ou via un processeur Arm Cortex-A76 à double cœur sur puce.
La pile logicielle permet aux applications de tirer parti de la rareté des coefficients, une technique selon laquelle les coefficients de réseau dont les valeurs sont proches de zéro sont arrondis à zéro. L'approche peut « élaguer » des « branches » entières de calculs de l'algorithme afin de réduire considérablement les besoins de calcul.
La sparsification « est une technique vraiment efficace pour nous car lorsqu'il y a un coefficient nul, dans notre architecture, nous ne faisons pas l'opération, nous avons un saut [fonction] », a-t-il déclaré. « Donc, nous ne calculons pas le résultat pour ce coefficient. Cela nous prend à peu près zéro cycle. »
Le processus identifie généralement 50 à 80% des coefficients comme cibles de sparsification, a déclaré Gigot. Un recyclage mineur est généralement nécessaire après la sparsification afin de regagner la précision de prédiction perdue au cours du processus. Selon Gigot, le recyclage peut généralement apporter une précision à moins de 1% du modèle d'origine - un compromis acceptable pour la plupart des clients, en particulier compte tenu d'une réduction de la taille du modèle jusqu'à 5 fois. Ambarella travaille également sur des outils de sparsification et de quantification plus sensibles à l'architecture.
cliquez pour l'image en taille réelle
Le SoC CV5S pour les systèmes de caméras multi-capteurs comprend la dernière génération de CVflow AI et d'accélérateur de vision par ordinateur d'Ambarella (Source :Ambarella)
Avec la possibilité d'accepter jusqu'à 14 flux vidéo, puis d'effectuer l'IA sur ces flux simultanément, les clients exécuteront-ils plusieurs réseaux de neurones simultanément ? Une sorte de schéma de multiplexage sera-t-il nécessaire ?
Jérôme Gigot (Source :Ambarella)
Oui aux deux, répondit Gigot. « Le CVflow est un moteur vectoriel très rapide, un moteur de convolution très rapide. Tout est multiplexé dans le temps. Nous avons différents chemins dans le matériel afin que nous puissions paralléliser les opérations, mais nous ne le lions pas à un réseau spécifique [qui est] totalement différent du traitement par lots sur un GPU. »
Le traitement par lots, technique souvent employée par les gros GPU, regroupe les images et les envoie pour traitement en parallèle. Les GPU ont d'autres paramètres déjà chargés. Cette approche réduit les coûts de calcul en n'ayant pas à basculer entre les opérations.
Pour les moteurs plus petits comme CVflow, les plus gros réseaux de neurones doivent être divisés en morceaux pour être traités, car la mémoire de la puce ne peut pas stocker tous les paramètres à la fois. Des morceaux consécutifs peuvent provenir du même réseau de neurones, ou d'un autre réseau, ou d'une autre entrée de canal. L'utilisation matérielle typique sur CVflow se situe entre 70 et 80 %, a déclaré Gigot, ajoutant que la commutation de réseaux/canaux n'affecte pas l'efficacité.
Le CV5S et le CV52S devraient commencer l'échantillonnage en octobre 2021.
>> Cet article a été initialement publié sur notre site frère, EE Fois.
Contenus associés :
- Le processeur de vision AI permet une vidéo 8K à 30 ips en moins de 2 W
- Ambarella cible la détection intelligente des bords avec un nouveau SoC de caméra
- Les FPGA remplacent les ASIC dans les ADAS basés sur la vision Subaru Eyesight
- Arm ajoute un processeur, un processeur graphique et un fournisseur de services Internet pour une sécurité autonome et visuelle
- La carte de vision AI à faible consommation dure « des années » sur une seule batterie
Pour plus d'informations sur Embedded, abonnez-vous à la newsletter hebdomadaire d'Embedded.
Embarqué
- Java intercepte plusieurs exceptions
- Micropuce :la solution PolarFire basée sur FPGA permet la vidéo et l'imagerie 4K au plus petit facteur de forme
- Rutronik :SoC et modules sans fil multiprotocoles de Redpine Signals
- Renesas :contrôleur vidéo LCD Full HD avec entrée MIPI-CSI2
- L'utilisation de plusieurs puces d'inférence nécessite une planification minutieuse
- Les SoC avancés apportent un changement radical dans les conceptions IoT médicales
- Le processeur vidéo permet le codage vidéo 4K pour les conceptions alimentées par batterie
- Systèmes Abaco :carte graphique et vidéo XMC robuste
- Portwell :le système 19" cible les applications de mur vidéo