Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Industrial Internet of Things >> Technologie de l'Internet des objets

Algorithmes et montée en puissance matérielle de la commande vocale

La commande vocale et les interfaces vocales ont commencé leur infiltration inexorable dans à peu près toutes les catégories d'appareils grand public. Les progrès des algorithmes de reconnaissance vocale et du matériel d'accélérateur d'IA signifient que la technologie est accessible même aux applications à faible consommation d'énergie et de coûts telles que les appareils domestiques intelligents (et même certains stupides).

Les pilotes derrière la commande vocale dans les appareils domestiques intelligents du côté de l'utilisateur sont clairs.


Alireza Kenarsari-Anhari (Source :PicoVoice)

"La facilité d'utilisation et la commodité sont les principaux moteurs en ce moment", a déclaré à EE Times Alireza Kenarsari-Anhari, PDG de PicoVoice. Il est facile d'imaginer crier à une cafetière dans votre bureau à domicile depuis votre bureau lorsque vous voulez un café, ou dicter des ordres à un sèche-linge tout en tenant un panier de linge humide.

Nous supposons que les appareils intelligents comme ceux-ci, qui ne sont pas portables, ont un accès permanent à la connexion Wi-Fi de la maison - alors pourquoi ne pas effectuer ce traitement vocal dans le cloud ?

La tendance à l'IA de pointe dans cette situation est principalement motivée par la confidentialité, qui, selon Kenarsari-Anhari, est une préoccupation pour les consommateurs mais un must pour certaines entreprises. La fiabilité est un autre facteur :« Est-il logique que votre lave-linge s'arrête de fonctionner si votre Wi-Fi ne fonctionne pas ? » dit-il.

La latence est également importante dans certaines situations; certaines applications ont besoin de garanties en temps réel pour le traitement de la charge de travail vocale, comme les jeux.

Le coût est un autre facteur important pour le traitement de la voix en périphérie, car le traitement de ces données vocales dans le cloud coûte de l'argent. Le modèle commercial consistant à payer chaque fois que vous utilisez une API cloud ne fonctionne pas pour les cas d'utilisation tels que les appareils électroménagers et l'électronique grand public, qui ont un faible coût et peuvent être utilisés plusieurs fois par jour.

PicoVoice, dont le moteur d'inférence parole-texte AI est conçu pour fonctionner indépendamment du cloud sur des microcontrôleurs inférieurs à 1 $, vise à permettre le contrôle vocal dans des applications où cela ne serait pas possible autrement. Cela pourrait inclure les appareils portables et audibles grand public, qui sont à la croisée des besoins de l'efficacité énergétique et de la rentabilité qui pourraient être rendues possibles par une solution vocale basée sur un microcontrôleur. Une solution optimisée en termes de puissance et de coûts pourrait également ouvrir des opportunités dans les applications industrielles, de sécurité et médicales, déclare Kenarsari-Anhari.

La société a récemment lancé Shepherd, une plate-forme sans code pour la création d'applications vocales sur des microcontrôleurs, qui fonctionne avec le logiciel de création de modèles de la société, PicoVoice Console. Shepherd prend en charge les microcontrôleurs Arm Cortex-M populaires de ST et NXP avec la prise en charge d'autres appareils en cours de route.

"Je considère la voix comme une interface - si vous pouvez créer votre interface graphique ou votre site Web sans coder, peut-être en utilisant WordPress, la prochaine étape logique est de créer des interfaces vocales de la même manière", a déclaré Kenarsari-Anhari. « Shepherd permet aux chefs de produits et aux concepteurs UX de créer des prototypes et d'itérer rapidement, mais nous visons à élargir sa base d'utilisateurs cible. Et si chacun pouvait créer son propre assistant ? Nommez-le comme ils veulent, pas Alexa ! — et lui donner la personnalité qu'ils veulent. »

S'il est parfaitement possible de développer des modèles de traitement du langage naturel et de les implémenter sans logiciel spécialisé, cette voie n'est pas pour tout le monde.

"On peut certainement – ​​Apple, Amazon, Google et Microsoft l'ont fait", a-t-il déclaré. "Il s'agit vraiment de savoir si une entreprise a les ressources, s'engage à construire une organisation autour d'elle et peut se permettre d'attendre quelques années."

Tendances futures

La voix est en train de devenir l'interface préférée de la prochaine génération d'utilisateurs de technologies, a déclaré Kurt Busch, PDG de Syntiant à EE Times dans une interview l'été dernier.


Kurt Busch (Source :Syntiant)

Busch a décrit comment son plus jeune enfant, qui savait lire mais était encore un peu trop jeune pour écrire et épeler, pouvait envoyer des SMS à ses amis à l'aide de l'interface vocale d'un smartphone.

"Ses frères et sœurs plus âgés envoient des SMS, mais sa génération a eu des téléphones quelques années plus tôt qu'eux", a déclaré Busch. "Au fil du temps, pour sa génération et les plus jeunes, leur interface par défaut est de lui parler."

Le point de vue de Busch est que la voix deviendra « l'écran tactile du futur », avec un traitement intégré à l'appareil fournissant des interfaces rapides et réactives d'abord dans les appareils dotés d'un clavier ou d'une souris, puis dans les appareils électroménagers.

Les puces de Syntiant sont des accélérateurs d'IA spécialisés conçus pour gérer les charges de travail de l'IA vocale dans les appareils électroniques grand public avec des budgets d'alimentation faibles à extrêmement faibles. La startup a livré plus de 10 millions de ses puces dans le monde à ce jour, dont la plupart ont été intégrées aux téléphones portables pour permettre une détection de mots clés toujours active. La dernière puce Syntiant, NDP120, peut reconnaître des mots chauds tels que « OK Google » pour activer l'assistant Google en moins de 280  µW.

À l'avenir, Busch envisage également la commande vocale permettant la connectivité et l'accès à la technologie pour tous.

"Nous considérons la voix comme le grand démocrate de la technologie", a déclaré Busch. « Il y a 3 milliards de personnes dans le monde qui vivent avec 2 dollars par jour. Mon hypothèse est que ces personnes n'ont pas accès à Internet et n'ont peut-être pas été par le système éducatif. L'interface naturelle ici est [la parole]. C'est ainsi que vous introduisez la technologie dans le tiers du monde qui n'interagit pas avec la technologie aujourd'hui. Nous avons constaté beaucoup d'intérêt dans les pays en développement pour les applications Voice First, pour obtenir ces segments de la société qui n'avaient peut-être pas accès auparavant, non seulement du point de vue des dépenses, mais aussi du point de vue du confort. »

Fragmentation du marché

Le danger avec un marché qui se développe aussi rapidement que la voix est qu'il peut rapidement devenir extrêmement fragmenté, a déclaré à EE Times Vikram Shirastava, directeur principal de l'IoT chez Knowles - et pas seulement en termes de matériel.


Vikram Shrivastava (Source :Knowles)

« Le marché se fragmente en fonction, par exemple, du moteur de reconnaissance vocale utilisé ? » dit Shirastava. « Le marché se fragmente selon que vous l'intégrez à un SoC TV ou s'il s'agit d'un simple MCU à l'intérieur, par exemple, d'un micro-ondes. Vous obtenez une fragmentation basée sur les systèmes d'exploitation ou basée sur l'environnement acoustique - est-ce juste la maison ? Est-ce une sonnette à l'extérieur ? Il ne peut pas y avoir de solution unique. Vous devez en quelque sorte trouver les dénominateurs communs dans chacun de ces secteurs verticaux et essayer d'aborder l'intégration de la voix en conséquence. »

Knowles a une solution de commande vocale basée sur DSP dont il a l'intention d'introduire des versions pour différents secteurs verticaux. Son approche consiste à regrouper des fragments du marché dans ceux qui ont un dénominateur commun – les commandes domestiques, les barres de son TV et les télécommandes peuvent appartenir au même groupe, par exemple – puis à développer une solution optimisée pour ce groupe d'applications. Shirastava appelle cette approche "un niveau en dessous du clé en main", qui offre l'évolutivité du clé en main mais avec une certaine flexibilité supplémentaire.

"Nous devons avoir quelques versions différentes qui traitent d'un certain aspect de cette fragmentation pour nous permettre de couvrir les secteurs verticaux que nous voulons poursuivre", a-t-il déclaré.

La version récente de Knowles, la solution standard Bluetooth AISonic, est un kit de développement pour la reconnaissance vocale dans les appareils connectés Bluetooth tels que les haut-parleurs intelligents, les appareils domestiques intelligents, les appareils portables et les assistants vocaux embarqués. Le kit est basé sur le silicium DSP double cœur IA8201 de Knowles, conçu spécifiquement pour le traitement des réseaux neuronaux à une puissance bien inférieure à celle d'un processeur d'application. Par exemple, la puce peut gérer simultanément des modèles d'IA distincts pour le repérage des mots clés, la classification des sources, la formation de faisceaux, l'annulation de l'écho acoustique (AEC) et l'estimation de la direction de la source, en moins de 50 mW. Ceci est rendu possible par une extension du jeu d'instructions de près de 400 instructions personnalisées pour le traitement audio et AI sur les cœurs Tensilica DSP, ce qui permet à son tour de réduire la fréquence d'horloge afin d'économiser de l'énergie.


Le support de smartphone pour véhicule iOttie Aivo Connect de Sugr utilise l'IA8201 de Knowles pour les capacités vocales embarquées. Il intègre la fonction d'assistant vocal Alexa. (Source :Knowles)

La voix deviendra-t-elle finalement l'interface utilisateur par défaut pour la plupart des catégories d'électronique grand public ? Cela ressemble certainement à cela. Une combinaison d'algorithmes avancés et efficaces de commande vocale d'IA, d'environnements de développement qui permettent aux développeurs d'intégrer facilement la voix et d'un écosystème croissant de solutions matérielles économes en énergie et en coût a émergé pour rendre tout cela possible.

>> Cet article a été initialement publié sur notre site frère, EE Fois.


Technologie de l'Internet des objets

  1. Circuits permissifs et de verrouillage
  2. Transformateurs et applications spéciaux
  3. Alimentation dans les circuits CA résistifs et réactifs
  4. Puissance réelle, réactive et apparente
  5. Contrôle du capteur et de l'actionneur Raspberry Pi
  6. L'essor des entreprises et des consommateurs ruraux intelligents
  7. La puissance et les pièges des jumeaux numériques dans la fabrication
  8. Les bases des panneaux de commande électriques
  9. Électricité et CVC/Contrôle de la climatisation