Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Industrial Internet of Things >> Capteur

Considérations relatives à la conception des systèmes de commande vocale à faible consommation et toujours actifs

Les assistants vocaux et l'intégration sont mis en œuvre dans la plupart des produits, appareils et technologies introduits sur le marché. Cela étant dit, ce n'est un secret pour personne que ces assistants vocaux utiles sont toujours à l'écoute des mots d'activation/de réveil (tels que « OK Google » ou « Alexa »), qui utilisent souvent une grande quantité d'énergie. Dans un monde où la technologie progresse rapidement, il est impératif de prendre en compte l'impact que cela a sur la consommation d'énergie.

Cet article fournit des considérations de conception pour les systèmes de commande vocale à faible consommation et toujours actifs utilisant la détection d'activité vocale (VAD). Il explore les compromis et les considérations lors du choix des composants requis pour créer une interface utilisateur vocale (VUI) conviviale et économe en énergie.

La fonction VAD détecte la voix humaine dans l'environnement avant d'écouter un mot de réveil, ce qui signifie que lorsque personne n'est à la maison, votre assistant vocal ne gaspillera pas d'énergie inutile. On estime qu'il y a 4,2 milliards d'assistants vocaux numériques utilisés dans le monde, et ce nombre devrait doubler d'ici 2024. La mise en œuvre de cette technologie dans un logiciel d'assistant vocal et d'autres produits qui reposent sur l'intégration vocale réduirait considérablement la consommation d'énergie de ces derniers. qui utilisent des assistants vocaux.

Il existe plusieurs architectures matérielles pour la mise en œuvre d'un système VUI. En général, une implémentation d'interface utilisateur vocale typique se compose de microphones, soit un microphone unique, soit un réseau de microphones connectés à un processeur audio pour la capture et le traitement de la voix.

Le flux audio entrant peut être traité sur un processeur Edge audio Edge, un microphone intelligent avec processeur audio Edge intégré ou sur un processeur d'applications standard (AP). Les processeurs audio Edge sont optimisés pour le traitement à faible consommation et à faible latence des signaux audio. En plus de fournir un traitement spécialisé de l'audio d'entrée, un processeur audio Edge peut également être utilisé pour le post-traitement des signaux de sortie audio. Si le système VUI est connecté au cloud, le processeur de périphérie audio peut également communiquer avec l'interface cloud VUI via le système sur puce (SoC) principal avec connectivité sans fil. Deux implémentations différentes pour les systèmes VUI sont présentées dans cet article avec leurs compromis respectifs.

VAD ultra basse consommation (détection d'activité vocale)

L'architecture illustrée à la figure 1 prend en charge le VUI ultra-basse consommation utilisant un chemin de signal analogique, y compris un microphone analogique et un comparateur analogique pour fournir un déclencheur de réveil. Lorsqu'une activité acoustique est détectée, la chaîne de signaux analogiques génère une interruption pour réveiller le processeur audio pour la capture vocale. L'appareil pourrait également inclure une fonction « push-to-talk », par laquelle l'utilisateur appuie sur un bouton pour réveiller le processeur audio.

Le microphone de réveil analogique doit toujours être à l'écoute de l'environnement et, par conséquent, ce microphone, ainsi que le comparateur, doivent consommer très peu d'énergie. Le Knowles IA8201. Bien que l'approche illustrée dans la figure 1 fournisse une approche AAD (détection d'activité acoustique) simple à faible consommation pour une VUI toujours active dans des appareils tels que des télécommandes et des appareils portables, elle a ses limites. Cette mise en œuvre réveille le processeur audio pour tout signal acoustique et peut entraîner une consommation électrique globale élevée du système dans des situations bruyantes. De plus, les systèmes d'interface utilisateur vocale connectés au cloud nécessitent des données audio pendant une période juste avant le mot de réveil pour être capturées pour une précision accrue de la détection du mot de réveil. Ceci est communément appelé pré-roll et est une exigence indispensable pour les appareils compatibles Alexa et autres haut-parleurs intelligents.

La figure 2 montre une architecture qui prend en charge la mise en mémoire tampon pré-roll pour les appareils tels que les haut-parleurs intelligents. Ces appareils ont généralement des batteries plus grosses et/ou peuvent ne pas avoir besoin de plusieurs mois d'autonomie sur une seule charge. Le système VUI est toujours allumé, écoutant l'environnement et enregistrant le pré-roll dans une mémoire tampon circulaire. La durée du pré-roll est typiquement de l'ordre de 500 ms de données audio et sert à calibrer le niveau de bruit ambiant.

Il existe plusieurs approches différentes pour concevoir l'architecture frontale permanente. Le choix du processeur audio dépend du nombre de microphones utilisés, et s'ils sont analogiques ou numériques.

L'architecture illustrée ci-dessus utilise un Knowles IA611 pour la détection d'activité vocale, des microphones numériques SPH0655LM4H-1 Cornell II pour la formation de faisceau et Knowles IA8201 pour le traitement audio. Le Knowles IA611 est un microphone intelligent offrant des avantages à un concepteur de système, comme indiqué dans la section suivante.

Sélection du microphone

Pour l'architecture illustrée à la figure 1, un seul microphone analogique et un comparateur sont utilisés comme entrée de déclenchement pour réveiller le processeur audio lorsqu'une activité acoustique est détectée. Le micro de réveil doit être un microphone analogique de faible puissance avec un rapport signal/bruit (SNR) de préférence supérieur à 62 dB. La gamme de microphones Knowles SiSonic MEMS offre plusieurs choix pour le microphone de réveil. Par exemple, le microphone analogique SPV1840LR5H-B Kaskade est un bon choix ne consommant que 45 µA lorsqu'il est allumé. Le chemin analogique toujours actif, comprenant un microphone, un amplificateur et le comparateur, consomme moins de 67 µA. Il existe des microphones piézoélectriques disponibles sur le marché avec une puissance très faible et toujours allumée (10 µA), mais ils ont généralement un faible SNR, ce qui peut affecter les performances du système.

Pour l'architecture capable de mise en mémoire tampon pré-roll illustrée à la figure 2, les microphones avec un processeur audio intégré et une mémoire suffisante pour capturer en continu les données vocales dans une mémoire tampon circulaire de 2 secondes, comme le Knowles IA611, sont des options viables pour une activité vocale toujours active. détection. Il est également livré avec un écosystème de déclencheurs et de commandes vocaux portés, tels que Alexa d'Amazon. Lorsqu'un mot-clé est détecté, le tampon de pré-roll et l'audio vocal prononcé sont envoyés au moteur de reconnaissance vocale automatique (ASR) du cloud. La puissance de réveil vocal toujours allumée de l'IA611 est de 0,39 mA à une batterie de 1,8 V et une efficacité de 90 %, ce qui en fait un bon choix pour l'interface utilisateur vocale dans les appareils fonctionnant sur batterie tels que les haut-parleurs Bluetooth. L'appareil accepte également l'entrée PDM d'un microphone numérique et peut être utilisé pour prendre en charge la formation de faisceau sur le processeur BT-SoC hôte en transmettant l'audio une fois le système réveillé.

Bien que cette alimentation permanente soit acceptable pour les applications de pré-roll, elle vaut également la peine d'être envisagée pour une architecture sans pré-roll, comme illustré dans la figure 1. Comme décrit précédemment, un microphone de réveil analogique se déclenchera pour tout son entrant et activera le processeur audio. Cela peut être problématique dans un environnement bruyant, comme lorsque le téléviseur est allumé, où il y aura de nombreux sillages parasites entraînant un gaspillage d'énergie important. Si la détection d'activité vocale est utilisée à la place du microphone de réveil analogique à faible puissance, le système ne s'allumera que lorsqu'un mot clé est détecté. Il est logique de voir pourquoi l'utilisation d'un microphone de détection d'activité vocale pourrait être plus efficace qu'un simple microphone de réveil analogique dans un environnement bruyant.

La figure 3 montre des données de simulation qui comparent le nombre de jours d'autonomie de la batterie d'une télécommande de téléviseur type utilisant le VAD sur IA611 par rapport à un microphone AAD piézoélectrique à faible consommation concurrent et à un processeur audio pour une durée variable d'activité acoustique ON. L'activité acoustique peut être présente lorsque le téléviseur ou d'autres appareils électroménagers sont allumés, ou dans d'autres situations lorsqu'il y a du babillage, etc. sur le microphone d'un concurrent par rapport à la détection d'activité vocale sur IA611 disparaît.

À cinq heures d'activité acoustique ON, la solution de détection d'activité vocale offre huit jours d'autonomie supplémentaires par rapport à la solution concurrente basée sur AAD. Pour mettre cet avantage dans son contexte, les adultes américains regardaient près de huit heures de télévision par jour, selon une étude Nielsen publiée en 2017. Avec la demande croissante d'appareils connectés à Internet, tels que les téléviseurs intelligents, les consoles de jeux et autres appareils multimédias, le Le nombre d'heures d'activité acoustique dans un foyer américain typique continuera probablement d'augmenter également. L'utilisation d'un réveil intelligent basé sur VAD aidera les concepteurs de systèmes à développer des systèmes VUI plus économes en énergie.

Conclusion

De la maison intelligente à l'hôtellerie, en passant par les lieux de travail numériques, les paiements vocaux, la gestion intelligente de l'énergie, la voix à la périphérie et les soins de santé, jusqu'aux applications IoT industrielles modifiant l'usine, la voix ajoute flexibilité, efficacité, durabilité et acceptation de l'adoption aux nouvelles technologies.

Les différentes architectures matérielles pour la conception d'une interface utilisateur vocale, ainsi que la section microphone, répondent chacune à un besoin légèrement différent en fonction des applications de l'appareil final et des préférences du concepteur ; Par exemple, les appareils compatibles Alexa et les haut-parleurs intelligents nécessitent une architecture compatible avec la mise en mémoire tampon pré-roll.

Il est important que les ingénieurs et les concepteurs en électronique évaluent soigneusement la manière dont l'appareil final tirera parti de la voix, des capacités auxquelles ils souhaitent accéder et, à partir de là, déterminent l'architecture et les composants du microphone appropriés en conséquence.


Raj Senguttuvan a plus de 15 ans d'expérience dans le développement de nouvelles technologies pour les applications grand public et industrielles, le développement commercial à un stade précoce et la gestion de projets pour des entreprises telles qu'Analog Devices et Texas Instruments. Dans son rôle de directeur du marketing stratégique pour Knowles, il dirige le développement au niveau du système, dirige les investissements et les partenariats en capital-risque, ainsi que la stratégie marketing pour l'IoT et les technologies grand public, notamment les processeurs audio, les algorithmes, les microphones, les capteurs et les récepteurs. Raj est titulaire d'un MBA de l'Université Cornell et d'un doctorat en génie électrique du Georgia Institute of Technology.


Contenus associés :

Pour plus d'informations sur Embedded, abonnez-vous à la newsletter hebdomadaire d'Embedded.

Capteur

  1. 6 considérations de conception importantes pour l'impression 3D métal
  2. Avantages des technologies embarquées pour la conception modulaire
  3. Considérations sur la disposition des circuits imprimés
  4. Conception pour la fabrication de PCB
  5. Considérations relatives à la conception de l'éclairage pour les systèmes de vision en chirurgie robotique
  6. Pourquoi la traçabilité est une base essentielle pour les systèmes de fabrication compatibles IIoT
  7. Une conception inspirée de l'araignée ouvre la voie à de meilleurs photodétecteurs
  8. Considérations importantes pour l'assemblage de PCB
  9. Considérations relatives à la conception de l'impédance pour les PCB flex-rigides