Le groupe d'ingénierie cherche à pousser l'IA de 1 mW à la limite

Lorsque le groupe TinyML a récemment convoqué sa réunion inaugurale, les membres ont dû s'attaquer à un certain nombre de questions fondamentales, à commencer par :Qu'est-ce que TinyML ?

TinyML est une communauté d'ingénieurs qui se concentre sur la meilleure façon de mettre en œuvre l'apprentissage automatique (ML) dans les systèmes à très faible consommation d'énergie. La première de leurs réunions mensuelles était consacrée à la définition de l'enjeu. L'apprentissage automatique est-il réalisable pour les appareils à faible consommation tels que les microcontrôleurs ? Et faut-il des processeurs d'apprentissage automatique spécialisés à ultra-faible consommation ?

Evgeni Gousev de Qualcomm AI Research a défini TinyML comme une approche d'apprentissage automatique (ML) qui consomme 1 mW ou moins. Gousev a déclaré que 1 mW est le « nombre magique » pour les applications toujours actives dans les smartphones.

« On parle beaucoup du cloud ML, tandis que le ML au niveau des smartphones devient de plus en plus sophistiqué », a-t-il déclaré. « Mais si vous regardez les données, 90 % des données sont dans le monde réel. Comment connecter toutes ces caméras, IMU et autres capteurs et faire du ML à ce niveau ?"

"Tiny ML va être énorme, et il y a un besoin réel et urgent de piloter l'ensemble de l'écosystème du minuscule ML, y compris les applications, les logiciels, les outils, les algorithmes, le matériel, les ASIC, les appareils, les usines et tout le reste", a déclaré Gousev. .

L'ingénieur Google Nat Jefferies présente au premier meetup TinyML (Image :TinyML)

TensorFlow Lite

L'ingénieur Google Daniel Situnayake a présenté un aperçu de TensorFlow Lite, une version du framework TensorFlow de Google conçue pour les appareils de périphérie, y compris les microcontrôleurs.

"TensorFlow Lite cible les téléphones mobiles, mais nous sommes ravis de l'exécuter sur des appareils toujours plus petits", a-t-il déclaré.

Après avoir construit un modèle dans TensorFlow, les ingénieurs peuvent l'exécuter via le convertisseur Tensor Flow Lite, qui "le rend plus petit et fait des choses comme la quantification, ce qui vous permet de réduire la taille et la précision du modèle à une échelle où il s'adaptera confortablement sur l'appareil que vous ciblez », a-t-il déclaré.

Situnayake a décrit une technique qui pourrait être utilisée pour augmenter l'efficacité énergétique, ce qui implique de chaîner des modèles ensemble.

« Imaginez un modèle en cascade de classificateurs où vous avez un modèle à très faible puissance utilisant à peine toute puissance pour détecter s'il y a un son, puis un autre modèle qui prend plus d'énergie pour fonctionner, qui détermine s'il s'agit de la parole humaine ou non. » il expliqua. « Ensuite, un réseau plus profond qui ne se réveille que lorsque ces conditions sont remplies, qui utilise plus de puissance et de ressources. En les enchaînant, vous ne réveillez celui [à forte intensité énergétique] que lorsque vous en avez besoin, ce qui vous permet de faire de grosses économies sur l'efficacité énergétique. »

Les modèles d'apprentissage automatique en cascade peuvent aider à économiser de l'énergie (Image :Google)

Nat Jefferies, ingénieur de l'équipe "TensorFlow Lite pour microcontrôleurs" de Google, a décrit la tendance à des exigences strictes en matière de consommation d'énergie dans les gadgets grand public modernes, malgré des fonctionnalités sophistiquées et des systèmes de capteurs sophistiqués. Ces gadgets peuvent fonctionner avec des piles qui doivent durer des mois ou des années, ou utiliser la récupération d'énergie.

"Nous pensons que la meilleure solution pour cela est Tiny ML - l'apprentissage en profondeur sur les microcontrôleurs", a-t-il déclaré. « Cela nous permet d'effectuer des cycles CPU et des lectures de capteur, qui [ne prennent pas beaucoup d'énergie], au lieu d'envoyer toutes les informations hors puce… TinyML peut être utilisé pour condenser les données du capteur en quelques octets, que vous peut alors envoyer… pour seulement une fraction de la puissance », a-t-il déclaré.

Un récent défi Google où les participants ont développé des modèles de 250 ko pour effectuer la détection de personnes a reçu de nombreuses soumissions impressionnantes, et "valide que ce que nous faisons est significatif", a déclaré Jefferies.

"Actuellement, nous sommes en mesure de réduire les modèles TensorFlow au point où nous pouvons les installer sur des microcontrôleurs, et c'est pourquoi le moment est venu d'être dans ce domaine", a-t-il déclaré. "Nous sommes ravis de lancer ce processus."

La feuille de route de Google pour TensorFlow Lite sur les microcontrôleurs comprend l'open source de certaines des démos de Google, la collaboration avec des fournisseurs de puces pour optimiser les noyaux, l'optimisation de l'utilisation de la mémoire de TensorFlow Lite pour exécuter des modèles plus sophistiqués sur les mêmes appareils et l'activation de plus de plates-formes de développement (SparkFun Edge est le seul carte prise en charge jusqu'à présent, mais la prise en charge des cartes Arduino et Mbed arrive bientôt).

Appareils spécialisés
Martin Croome, vice-président du développement commercial, GreenWaves Technologies, a présenté le cas des processeurs d'application spécialisés à faible consommation pour le ML. Croome a convenu que la discussion de l'industrie sur la façon de procéder avec l'apprentissage automatique à très faible consommation était en retard.

"Nous avons désespérément besoin de plus de concentration dans ce domaine, à la fois du point de vue algorithmique et de notre monde [matériel] également", a-t-il déclaré.

GreenWaves a développé un processeur d'application RISC-V, GAP8, qui se concentre sur l'inférence dans les dispositifs de périphérie qui consomment des milliwatts d'énergie et offre des courants de veille ultra faibles. La société cible les appareils fonctionnant sur batterie ainsi que les appareils utilisant la récupération d'énergie (en savoir plus sur le fonctionnement de la puce de GreenWaves dans notre article précédent).

L'accélérateur d'apprentissage automatique à très faible consommation de GreenWaves possède neuf cœurs RISC-V (Image :GreenWaves Technologies)

Diverses techniques sont utilisées pour réduire la consommation d'énergie. Cela inclut la parallélisation, mais pas pour accélérer les choses ; 8 cœurs sont utilisés pour permettre une vitesse d'horloge plus lente, ce qui permet à la tension du cœur de chuter, ce qui économise de l'énergie (en pratique, la fréquence d'horloge est ajustée dynamiquement, en fonction de la charge de travail).

La puce est orientée vers les réseaux de neurones convolutifs (CNN), avec un accélérateur matériel effectuant une convolution 5 × 5 sur des données 16 bits en un seul cycle d'horloge (sans compter la réécriture). La gestion explicite de la mémoire repose sur la nature des CNN, qui sont largement utilisés pour le traitement d'images; les capteurs d'image ont une taille fixe, l'inférence nécessite le même nombre de poids et le résultat est toujours de la même taille. Un outil peut donc générer du code pour tous les mouvements de données au moment de la compilation.

Croome a reconnu que se spécialiser suffisamment pour traiter efficacement les charges de travail de ML tout en conservant suffisamment de flexibilité pour répondre aux avancées technologiques est un équilibre délicat.

« La portée de l'IA progresse à un rythme incroyablement rapide. La grande idée d'aujourd'hui sur la façon de faire les choses n'est probablement pas ce que sera la grande idée de demain », a déclaré Croome. « Si nous nous spécialisons trop, nous serons très doués pour accélérer ce que tout le monde faisait l'année dernière, ce qui n'est pas bon pour une entreprise. Nous essayons donc d'équilibrer la différence entre flexibilité, programmabilité et accélération. »

La puce de GreenWaves échantillonne depuis un an, la production commencera ce mois-ci et elle sera expédiée en volume aux clients d'ici la fin du troisième trimestre, a déclaré Croome.

Les rencontres TinyML ont lieu le dernier jeudi de chaque mois dans la Bay Area et sont ouvertes aux participants de l'industrie et du monde universitaire.

Moins d'oreilles intégrées, plus d'appareils à commande vocale 10 facteurs pour trouver le commutateur parfait pour votre application

Technologie de l'Internet des objets

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets