Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Industrial Internet of Things >> Technologie de l'Internet des objets

Comment les processeurs audio Edge permettent l'intégration vocale dans les appareils IoT

Processeurs audio Edge dédiés avec un accent sur la fidélité audio et avec des cœurs optimisés pour l'apprentissage automatique sont la clé pour fournir aux appareils IoT des interfaces utilisateur vocales sans avoir besoin d'une connexion Internet à haut débit.
Les capacités de traitement de la voix émergent rapidement dans les produits grand public tels que l'iOttie Aivo Connect. (Source :Knowles)

De la domotique et du commerce électronique aux soins de santé et à l'automobile, de plus en plus d'industries combinent désormais les capacités IoT avec l'intégration vocale pour répondre aux demandes changeantes et libérer des avantages commerciaux. Pourtant, la voix en est encore aux premières phases d'adoption et commence tout juste à s'étendre au-delà des appareils mobiles et des haut-parleurs. La voix deviendra la méthode standard d'interaction entre les utilisateurs et leurs appareils IoT. Ce passage à la voix d'abord est étayé par plus que la simple idée qu'il augmente le niveau de confort des consommateurs avec la technologie. La mobilité mondiale des appareils à commande vocale pour la recherche vocale en déplacement, les progrès du traitement du langage naturel (NLP) et les progrès de l'intelligence artificielle et de l'apprentissage automatique permettront aux nouvelles applications d'évoluer rapidement.

Une interaction vocale agréable et engageante est limitée par une qualité sonore constante en présence de bruit et d'autres distracteurs. La capacité de votre appareil à gérer intelligemment le son est ce qui fait ou brise votre capacité à communiquer. On s'attend à ce que l'interface utilisateur vocale permanente (VUI) devienne courante dans davantage de produits de consommation, y compris les appareils audio et vidéo, les appareils électroménagers, ainsi que dans une large gamme d'appareils alimentés par batterie, tels que les télécommandes, les appareils portables, Bluetooth haut-parleurs, caméras de sécurité et d'activités de plein air. Bien qu'il y ait des défis de conception à surmonter, il existe une grande opportunité pour les fournisseurs de composants et les OEM de fournir des produits qui satisfont ces besoins d'application.

Pour tirer pleinement parti des opportunités d'intégration vocale à mesure qu'elles mûrissent, de plus en plus de technologies de traitement se déplacent vers la périphérie, loin du cloud. Les résultats sont des interfaces utilisateur améliorées avec une latence et un coût réduits, à la fois en dollars et en bande passante. Les fabricants qui conçoivent des solutions CE compatibles IoT pour demain doivent considérer l'intégration vocale comme une condition préalable aux fonctionnalités du produit. Les OEM qui peuvent déployer un traitement vocal dédié à la périphérie pourront faire évoluer ces applications et étendre leurs portefeuilles.

Cet article traite des défis les plus courants liés à la mise en œuvre de VUI pour les appareils IoT toujours activés/toujours à l'écoute. L'article passe en revue les exigences associées et les capacités de conception nécessaires pour répondre efficacement à ces exigences, notamment l'intégration avec les interfaces de contrôle, les piles logicielles, le développement d'algorithmes et le développement d'applications dans l'espace utilisateur.

Intégrer les processeurs Audio Edge dans les appareils IoT

Des processeurs audio de pointe dédiés, axés sur la fidélité audio et dotés de cœurs optimisés pour l'apprentissage automatique, sont la clé pour prendre en charge des appareils de communication audio de haute qualité. Ces processeurs peuvent fournir une puissance de calcul suffisante pour traiter l'audio à l'aide d'algorithmes traditionnels et ML tout en utilisant un petit pourcentage de l'énergie d'un processeur générique. Et comme le traitement s'effectue sur l'appareil, il est nettement plus rapide que l'envoi et le retour de ces informations vers le cloud.

Les appareils IoT intègrent des processeurs audio pour ajouter des fonctionnalités riches comme le réveil vocal. Bien que le cloud puisse offrir de grands avantages, le traitement à la périphérie permet aux utilisateurs d'exploiter toutes les capacités de leur appareil à tout moment sans avoir besoin d'une connexion Internet à haut débit. Par exemple, les processeurs audio Edge permettent une expérience utilisateur supérieure dans la communication virtuelle grâce à un traitement audio à faible latence avec des données contextuelles tout en gardant les données contextuelles locales et sécurisées.

Défis avec l'intégration de la voix

Les possibilités d'application pour les appels vocaux, le contrôle et l'interaction continuent d'augmenter. Cependant, avec plus d'appareils, plus de fragmentation est introduite, ce qui rend plus difficile l'intégration de la voix. La manière dont vous intégrez la commande vocale dans chaque application, qu'il s'agisse de haut-parleurs Bluetooth, d'appareils électroménagers, d'écouteurs, de dispositifs portables ou d'ascenseurs, sera différente. L'ajout d'un déclencheur de réveil vocal peut être simple, mais la conception d'un haut-parleur et d'un casque Bluetooth de qualité professionnelle est beaucoup plus complexe. Si ce haut-parleur inclut une véritable intégration stéréo sans fil (TWS), la complexité augmente à nouveau.

De plus, diverses applications nécessitent des intégrations vocales avec différents écosystèmes. Par exemple, vous devez travailler dans un écosystème Linux pour implémenter la voix sur la plupart des téléviseurs intelligents, mais pour obtenir la voix sur un appareil ménager, il faudra travailler dans un écosystème de microcontrôleurs (MCU). Pour toutes ces intégrations, il existe une manière commune et recommandée de procéder, mais il existe toujours des variations, ce qui ajoute à la complexité.

Des solutions de développement grand public de haute qualité sont essentielles pour surmonter ces défis et mettre rapidement sur le marché de nouvelles technologies afin de prendre en charge l'évolution rapide de la manière dont nous travaillons, vivons et communiquons. Pour relever ces défis, des solutions adaptées doivent répondre à de multiples exigences de conception.

Répondre aux exigences de conception clés

Consommation d'énergie

Pour qu'un périphérique VUI reçoive des commandes, il doit être toujours activé/toujours à l'écoute des commandes. Que ces appareils soient branchés, et surtout s'ils fonctionnent sur batterie, la restriction de la consommation électrique peut être un défi de conception majeur.

Dans un système de commande vocale, au moins un microphone doit toujours être actif, et le processeur chargé de reconnaître le mot de réveil doit également être actif. Les processeurs de périphérie audio conçus avec des architectures propriétaires, des accélérateurs matériels et des jeux d'instructions spéciaux peuvent exécuter de manière optimale des algorithmes audio et ML. Ces optimisations contribuent à réduire la consommation d'énergie.

Latence

Il n'y a aucune tolérance pour la latence avec les appareils à commande vocale. Même s'il y a un retard perçu de plus de 200 millisecondes, les humains commencent à se parler lors d'appels vocaux ou répètent leurs commandes à l'assistant vocal. Pour développer des dispositifs intégrés vocaux qui seront acceptés par les consommateurs, les ingénieurs et les concepteurs de produits doivent fournir des chaînes audio optimisées dans tout le système pour se conformer aux spécifications de l'industrie et aux meilleures expériences utilisateur. Le traitement à faible latence dans les processeurs de périphérie est donc une exigence critique pour garantir une communication vocale de haute qualité.

Intégration

Étant donné qu'il existe de nombreuses options en ce qui concerne le choix du matériel et des logiciels pour différentes implémentations VUI, certaines exigences peuvent devenir un défi à différents stades de la phase d'intégration. Certaines considérations de conception clés à prendre en compte en cours de route incluent celles décrites ci-dessous.

Intégration matérielle

Il existe différentes architectures matérielles pour la mise en œuvre d'un système VUI en fonction de l'utilisation de l'appareil, de l'application et de l'écosystème. Chaque appareil VUI comprendra des microphones, soit un microphone unique, soit un réseau de microphones, connectés à un processeur audio pour capturer et traiter l'audio. Dans ce récent article sur Embedded de Knowles, mon collègue passe en revue les considérations d'architecture matérielle pour la mise en œuvre d'un système VUI et les avantages et les inconvénients de chacun.

Intégration du logiciel hôte

Comme mentionné ci-dessus, il existe différents systèmes d'exploitation et pilotes parmi lesquels choisir. Idéalement, le processeur audio sera livré avec un micrologiciel et un ensemble de pilotes qui se configurent pour se connecter au processeur hôte. Le système d'exploitation, tel qu'Android ou Linux, s'exécute généralement sur le processeur hôte.

Les composants logiciels du pilote qui s'exécutent dans l'espace noyau interagissent avec le micrologiciel via l'interface de contrôle et les données audio du processeur audio Edge peuvent être lues dans l'espace utilisateur via l'interface standard Advanced Linux Sound Architecture (ALSA).

Pour intégrer le logiciel au reste du système hôte, la connexion du pilote de processeur audio fourni dans le package de version du logiciel à l'image du noyau peut devenir une tâche complexe. Cela implique de copier le code source du pilote dans l'arborescence des sources du noyau, de mettre à jour certains fichiers de configuration du noyau et d'ajouter des entrées d'arborescence de périphériques en fonction de la configuration matérielle appropriée.

Une solution à cela serait d'utiliser des conceptions de référence standard pré-intégrées avec des configurations exactes ou similaires.

Dans une situation idéale, le processeur de bord audio fournirait des piles logicielles rationalisées pour l'intégration et serait livré avec des algorithmes pré-intégrés et vérifiés en tant que solution au niveau du système pour simplifier davantage le processus.

Intégration d'algorithmes

Alors que nous sommes sur le sujet de l'intégration d'algorithmes. Il existe généralement plusieurs algorithmes en cascade pour basculer entre différents cas d'utilisation à un moment donné. Même pour le réveil vocal, une conception a besoin de formateurs de faisceaux multi-micros, d'un moteur de réveil vocal de périphérie et d'une vérification basée sur le cloud. Cela signifie qu'au moins trois algorithmes travaillent ensemble pour optimiser les performances. Pour tout appareil intégrant des mots-clés Alexa ou Google Home, il doit y avoir plusieurs algorithmes, provenant souvent de différents fournisseurs, qui doivent être optimisés ensemble dans un seul appareil.

Une solution consiste à choisir un processeur audio Edge pré-intégré avec des algorithmes vérifiés, développés et testés indépendamment du système hôte.

Intégration du facteur de forme

Il existe de nombreux facteurs de forme que les appareils peuvent prendre aujourd'hui. Chacun a sa propre configuration de plusieurs microphones installés. La distance et l'emplacement des microphones et des haut-parleurs jouent un rôle important dans les performances. Le réglage et l'optimisation des performances doivent changer en fonction du facteur de forme final et des cas d'utilisation cibles. Il existe également des variantes de fabrication qui ont un impact sur les performances telles que l'étanchéité du microphone, les traitements acoustiques sur l'appareil, l'amortissement des vibrations, etc.

Confidentialité

De nombreux processeurs audio détectent le mot d'activation puis envoient immédiatement les informations au cloud où elles sont interprétées et traitées. Un gros problème est qu'une fois les données audio dans le cloud, l'utilisateur n'a aucun contrôle sur les données et est donc exposé à un risque élevé de confidentialité. La solution à ce défi consiste à choisir des processeurs IA de périphérie capables d'effectuer l'interprétation des commandes et la logique de réponse sur l'appareil, localement, « à la périphérie ».

Cela permet aux données audio personnelles sensibles de rester locales, sans être envoyées dans le cloud où elles peuvent être utilisées contre notre gré. L'implémentation VUI est désormais non seulement beaucoup plus privée, mais elle peut également répondre plus rapidement, rendant les interactions des utilisateurs beaucoup plus naturelles. C'est un excellent exemple de la façon dont les processeurs Edge AI peuvent faire progresser les cas d'utilisation existants pour maximiser l'utilité des appareils que nous utilisons et auxquels nous faisons confiance chaque jour.

L'interface matérielle et logicielle

Les exigences de conception pour les implémentations VUI peuvent être complexes et peuvent rendre difficile la commercialisation rapide d'appareils avec intégration vocale. Les OEM et les intégrateurs de systèmes peuvent réduire considérablement les risques en travaillant avec des kits de développement de solutions standard tels que le kit de solution standard Bluetooth AISonic de Knowles. Ces kits offrent des points de départ préconfigurés pour les prototypes qui permettent aux concepteurs de développer leurs propres innovations sans avoir à se soucier des défis de conception dont nous avons parlé ci-dessus. Les concepteurs doivent rechercher des kits de développement dotés d'algorithmes pré-intégrés et vérifiés, de microphones préconfigurés et de pilotes compatibles avec le processeur hôte et les systèmes d'exploitation.

Les processeurs de périphérie audio qui ouvrent leurs architectures et environnements de développement accélèrent l'innovation en fournissant aux développeurs d'applications audio les outils et l'assistance nécessaires pour créer de nouveaux appareils et applications. Les futurs appareils audio seront un effort de collaboration.


Technologie de l'Internet des objets

  1. Comment la 5G accélérera l'IoT industriel
  2. Pourquoi l'informatique de pointe pour l'IoT ?
  3. Comment l'IoT connecte les lieux de travail
  4. IoT offrant des avantages mondiaux
  5. Comment l'IoT façonne-t-il la mobilité d'entreprise ?
  6. Faire payer l'IoT :comment créer un modèle économique IoT rentable
  7. À quel point la menace d'attaques par chaîne de mort sur l'IoT est-elle dangereuse ?
  8. Comment l'IoT révolutionne la sécurité au travail ?
  9. Comment l'IoT améliore l'expérience client