L'argot des as :termes courants pour les passionnés de big data

Les mégadonnées sont chargées de gros mots. Avoir une bonne compréhension des termes de données courants vous aide non seulement à comprendre, mais aussi à participer et à influencer les conversations autour des initiatives de données. Consultez les discussions essentielles sur l'évolution et la révolution des données sur www.datamakespossible.com.

D'accord, commençons par démystifier certains termes que vous avez déjà entendus et présentons-en quelques-uns qui sont peut-être tout nouveaux.

Data scientist

Combinant à parts égales la science, les affaires et l'art, le Data Scientist utilise la connaissance des algorithmes, des outils et des processus pour extraire de la valeur des données. Un data scientist exécutera souvent l'apprentissage automatique ou l'intelligence artificielle pour extraire, regrouper ou analyser des ensembles de données.

Hétéroscédasticité et données hétéroscédastiques

HétéroQUOI ? C'est peut-être un nouveau terme pour vous, alors passons en revue un exemple très basique de ce que cela signifie.

Certaines données sont constantes et ne change jamais. Les blogs d'hier sont une constante. Tant que nous n'aurons pas inventé le voyage dans le temps, vous ne pourrez pas revenir en arrière et changer ce que quelqu'un a fait hier.

Le prochain niveau de complexité des données est linéaire . Une file d'attente ou une messagerie vocale est un exemple de croissance linéaire. Si un travailleur peut traiter dix messages par heure, nous aurions besoin de cinq travailleurs pour traiter 50 messages par heure. Des données qui croissent en quadratique la mode augmenterait à 4x (ou plus) le taux. Un exemple de ceci pourrait être les médias sociaux. Lorsque vous écrivez un article, 4, 10, 100, voire des millions de personnes peuvent le lire. Ces personnes peuvent partager votre publication, la commenter ou générer des métadonnées qui changent à chaque seconde. C'est là que nous commençons à entrer dans l'hétéroscédasticité. Il est défini par une vitesse élevée (il se déplace et change rapidement) avec une grande variabilité (c'est-à-dire qu'il n'y a pas de moyen facile de prédire qui commente, partage et aime une publication, ou quelle sera la vitesse de réponse).

Une autre grande analogie est la cuisine. Lorsque nous préparons un repas, nous combinons les ingrédients de différentes manières pour essayer de créer quelque chose de (espérons-le) délicieux. Comme le savent tous ceux qui ont essayé de cuisiner, un certain nombre de petits changements - ajouter un peu de sel, cuire 2 minutes trop longtemps, hacher les tomates trop grosses ou trop petites - peuvent avoir un impact profond sur le résultat et sur la convergence de la recette finale. pour ce plat signature.

Même si vous n'avez jamais utilisé ce terme auparavant, l'hétéroscédasticité est quelque chose que vous rencontrerez de plus en plus avec les charges de travail IoT industrielles. Cela est particulièrement vrai lorsqu'il s'agit de données à grande vitesse (comme le streaming) ou fréquemment lorsqu'il s'agit de données non structurées et changeant rapidement, telles que des pages HTML que le robot d'exploration de Google parcourt.

Apprentissage automatique

Machine Learning (ML) est un domaine de l'informatique qui permet aux ordinateurs de reconnaître et d'extraire des modèles à partir de données brutes grâce à un entraînement rigoureux des modèles de données.

ML permet « les trois C du Big Data » :la classification, le clustering et le filtrage collaboratif.

La classification est le problème d'identifier à quel ensemble de catégories/sous-catégories ou population/sous-population un nouveau modèle appartient aux ensembles de données d'apprentissage qui contiennent ce modèle ou des instances où la catégorie est déjà identifiée et connu. Par exemple, la classification peut impliquer la formation d'un algorithme pour qu'il reconnaisse les tumeurs dans un ensemble d'examens IRM, puis demande à l'algorithme d'identifier d'autres examens présentant des tumeurs.

Le clustering consiste à regrouper des points de données brutes en ensembles ou « clusters ». Un exemple ici pourrait être un algorithme de ML qui s'exécute sur des journaux Web en temps réel, regroupant le trafic valide (à autoriser) dans une catégorie et les attaques possibles (à bloquer) dans une autre.

Le filtrage collaboratif n'est qu'un mot sophistiqué pour "recommandations". Un exemple consiste à déterminer et à afficher des produits qui présentent une certaine affinité les uns avec les autres.

Une grande partie de ce que nous faisons en ML s'appelle « apprentissage superficiel ». L'apprentissage en profondeur est généralement une composante de la véritable intelligence artificielle.

Intelligence artificielle

L'intelligence artificielle (IA) englobe et étend le ML en offrant aux ordinateurs la possibilité d'effectuer une analyse cognitive approfondie.

Alors que le ML implique généralement une sorte d'intervention humaine initiale dans le cadre de la création, du réglage ou de la formation d'algorithmes (comme l'alimentation d'analyses de tumeurs sur l'ordinateur), l'IA permet à l'ordinateur de sélectionner, régler et s'entraîner à exécuter une fonction spécifique. En fin de compte, l'IA utilise l'apprentissage en profondeur pour émuler la prise de décision humaine et les processus d'apprentissage.

Vous ne le réalisez peut-être pas, mais l'IA fait probablement partie de votre vie quotidienne. Plus d'informations à ce sujet dans la définition de la PNL ci-dessous.

Réalité virtuelle

La réalité virtuelle (VR) permet aux utilisateurs d'entrer dans des mondes virtuels dont l'apparence et le son sont complètement différents de leur environnement physique.

La réalité virtuelle permet des expériences de divertissement telles que des montagnes russes virtuelles, mais a également d'importantes applications commerciales. La réalité virtuelle nécessite généralement un casque à affichage numérique.

Réalité augmentée

La réalité augmentée (AR) s'efforce de superposer des artefacts numériques au-dessus du monde réel, permettant l'interaction. Récemment, la réalité augmentée a connu un grand succès grâce à la popularité des applications de jeu.

Traitement du langage naturel

Le traitement du langage naturel (NLP) permet aux ordinateurs d'analyser et de comprendre le langage humain écrit ou parlé. Si vous parlez à votre téléphone ou à votre domicile, vous avez probablement fait l'expérience de la PNL.

La PNL est un excellent endroit pour expliquer la différence entre l'apprentissage profond et superficiel. La PNL (apprentissage superficiel) de première génération s'est concentrée sur la décomposition d'une phrase en jetons (mots), puis sur l'application de certaines règles aux jetons. Cependant, la PNL d'apprentissage en profondeur d'aujourd'hui examine l'ensemble du contexte d'une déclaration et en trouve le vrai sens.

Imaginez une critique Web écrite. Un apprentissage superficiel examinerait simplement un nombre limité de jetons de données comme le « nombre d'étoiles de notation des avis » et « l'analyse des sentiments » de base. Cela peut impliquer de compter le nombre de mots positifs par rapport aux mots négatifs. Ces points de données sont alimentés par un ensemble de règles souvent fragiles pour arriver à une conclusion quant à savoir si l'examen était positif ou négatif.

Un moteur d'apprentissage en profondeur applique plus d'intelligence à cette analyse, presque comme ce qu'un humain pourrait supposer s'il lisait la même critique. Par exemple, si un avis avait beaucoup de « positifs », comme des notes cinq étoiles, un bon rapport de comptage positif/négatif, etc., un moteur de PNL peu profond pourrait conclure qu'il s'agissait d'un avis positif. Un moteur d'apprentissage en profondeur de la PNL, cependant, pourrait interpréter (comme le ferait un humain) que la critique était en fait négative à la lecture de "Je n'achèterai plus jamais ce produit". Cette phrase à elle seule nie tous les sentiments positifs qu'un utilisateur peut avoir fournis.

Reconnaissance d'images

La reconnaissance d'images donne aux ordinateurs la possibilité de trouver du sens à partir d'une simple image visuelle. Il est fréquemment regroupé dans les offres de ML ou d'IA d'un fournisseur (avec la PNL).

La reconnaissance d'images permet aux ordinateurs d'identifier des objets comme le langage écrit à l'aide de la reconnaissance optique de caractères ou de l'OCR (texte dans les panneaux d'affichage), des objets de balise (comme "montagne", "arbre", "voiture", "gratte-ciel") et même effectuer une analyse faciale (comme dessiner des cadres de délimitation autour des visages).

La reconnaissance d'images est actuellement portée à un tout autre niveau par l'industrie automobile avec son application d'analyse faciale pour détecter et alerter les conducteurs qui pourraient se sentir fatigués.

Données structurées, non structurées, semi-structurées

Historiquement, la plupart des données avec lesquelles nous avons travaillé étaient fortement structurées. Cela signifie qu'il s'intègre parfaitement dans un format de ligne / colonne (comme les bases de données). En conséquence, de nombreux systèmes informatiques ont été conçus pour ingérer et générer cette forme de données.

Les humains sont une bête différente. Nous excellons dans la génération et la consommation de données non structurées telles que du texte fluide, de la voix et des images telles que des instantanés de caméra. Toutes ces données n'ont par nature aucune « structure ». Nous ne pouvons pas « dépendre » de certaines langues, mots, intonations, etc.

Les données semi-structurées se situent quelque part au milieu. Un bon exemple est le courrier électronique. Il a une structure comme "sujet", "à", "de", "date", mais la charge utile principale est une goutte de texte non structuré dans le "corps" de l'e-mail.

Ce n'est qu'au cours des 10 dernières années que nos systèmes informatiques sont devenus suffisamment puissants pour effectuer des analyses sur des données non structurées.

Lac de données

Tout moteur d'analyse, comme Hadoop, fournira à la fois du stockage et du calcul, souvent dans un agencement étroitement couplé. Chaque fois que vous ajoutez plus de traitement, vous ajoutez intrinsèquement plus de stockage.

De nombreuses organisations sont cependant assises sur des montagnes (pétaoctets) de données qu'elles souhaitent conserver durablement, mais pas analyser immédiatement. L'une des raisons du retard est le pré-traitement et le nettoyage des données avant l'analyse.

Un lac de données fournit un stockage à faible coût, très durable, accessible de n'importe où avec un calcul limité. Il permet une rétention des données beaucoup plus importante que ce qui est traité en une seule fois.

En regardant un paradigme de recette, un lac de données est comme votre garde-manger d'ingrédients crus (légumes, riz, bouillon). Ce n'est que lorsque vous voulez cuisiner que vous sortez le bon sous-ensemble d'ingrédients, selon la recette, et que vous les préparez pour ce repas.

Base de données

Ce que nous appelons communément « une base de données » est également connu sous le nom de système de gestion de base de données relationnelle (SGBDR) ou de système OLTP (traitement de transaction en ligne). Oracle, MySQL, SQL Server en sont tous des exemples courants.

De nombreuses petites « transactions » provenant (généralement) des utilisateurs finaux caractérisent les SGBDR.

Pensez aux sites Web de commerce électronique de détail. À un moment donné, plusieurs centaines de milliers d'utilisateurs effectuent de petites lectures (requêtes) et écritures (insertions) lorsqu'ils recherchent des produits, lisent des avis, génèrent des commandes, etc. On s'attend à ce que ces systèmes effectuent ces requêtes très rapidement.

Entrepôt de données

Un entrepôt de données (également appelé entrepôt de données d'entreprise ou EDW) est l'endroit où l'entreprise exécute des analyses pour répondre à plusieurs questions commerciales importantes. Quelle est notre gamme de produits qui connaît la croissance la plus rapide ? Quelles catégories de produits ont le meilleur retour sur investissement ? Quelles sont nos régions, catégories, vendeurs, etc. les moins performants ?

Les EDW ne sont généralement utilisés que par une poignée (peut-être une douzaine ou quelques dizaines) d'utilisateurs internes, exécutant des requêtes de longue durée sur des ensembles de données massifs (peut-être des centaines de To ou des dizaines de Po).

Visualisation

Un outil de visualisation fournit une interface visuelle pour effectuer des analyses complexes.

À l'aide d'un simple glisser-déposer, même les stagiaires non qualifiés peuvent créer de nombreux rapports complexes tels que les ventes trimestrielles, les produits les plus vendus, la croissance, etc.

Ces systèmes nécessitent généralement que le moteur auquel vous les connectez dispose d'une interface SQL, que (pas par hasard) chaque SGBDR et EDW fournit. Si vous êtes comme beaucoup d'analystes de données, 95 % de votre interaction avec vos systèmes se fera via l'un de ces outils de visualisation.

J'espère que vous avez apprécié cette présentation rapide des termes courants que nous trouvons dans le Big Data. N'hésitez pas maintenant à impressionner les gens de la fontaine à eau en discutant de la façon dont la visualisation d'une croissance de données sans précédent, les avantages de la création d'un lac de données, la libération de la valeur des données hétéroscédastiques via le ML et l'IA changent en profondeur le monde. Curieux de connaître l'impact des données sur le monde ? Maintenant que vous parlez le jargon, veuillez vous joindre aux discussions sur datamakespossible.com.

Cet article a été réalisé en partenariat avec Western Digital.

L'auteur est membre et scientifique en chef des données, Western Digital, et conçoit, pilote et implémente la plate-forme, les produits et les technologies Big Data, en utilisant des analyses avancées et une correspondance de modèles avec la fabrication de semi-conducteurs données à l'entreprise.

Industrie 4.0 – Construire correctement l'écosystème IIoT Comment les centres d'innovation d'entreprise rendent les entreprises compétitives

Technologie de l'Internet des objets

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets