Préparation des données de fichiers pour les lacs de données cloud

Une stratégie de lac de données cloud est une évolution naturelle pour les organisations informatiques d'entreprise gourmandes en données qui migrent vers le cloud, car elle élève le cloud d'un casier de stockage de données bon marché à un endroit où les données peuvent être exploitées pour une nouvelle valeur et monétisées.

Si 2020 et 2021 ont été les années d'accélération rapide du cloud, 2022 sera l'année où les entreprises commenceront à prendre au sérieux l'introduction de données de fichiers non structurées dans des lacs de données cloud. Il y a quelques raisons derrière cette tendance. Premièrement, les entreprises sont assises sur des pétaoctets de données non structurées, qui représentent au moins 80 % des 64 zétaoctets de données (et qui ne cessent d'augmenter) stockées dans le monde aujourd'hui. Il s'agit principalement de données de fichiers, des images médicales aux vidéos en streaming, des données de capteurs des voitures électriques et des produits IdO et des documents que les gens utilisent dans tous les secteurs pour collaborer et faire des affaires.

Deuxièmement, les données des fichiers deviennent ingérables, coûteuses à stocker et les DSI savent qu'ils sont assis sur une mine d'or potentielle d'informations s'ils pouvaient déterminer comment les placer aux bons endroits pour l'analyse. Enfin, les principales plates-formes cloud investissent massivement dans des outils d'analyse de données/ML/IA et des niveaux de stockage d'objets à moindre coût pour prendre en charge les projets de lac de données.

Voir aussi : Lacs de données, données de séries chronologiques et analyses industrielles

La maturation des lacs de données vers le cloud

L'activation des lacs de données est l'un des principaux objectifs auxquels les responsables informatiques accordent la priorité, avec la sécurité, la gestion des coûts et la visibilité, selon une étude récente que nous avons menée. Le cloud a bouleversé les stratégies traditionnelles de lac de données, qui ont commencé lorsque les entreprises voulaient analyser des données semi-structurées telles que les fichiers CSV et les fichiers journaux. En 2006, Hadoop est né et a été largement adopté juste au moment où les conversations sur le Big Data commençaient à circuler. Pourtant, Hadoop s'est finalement avéré plus lent et plus coûteux que prévu, compliqué à configurer, à faire évoluer et à gérer et principalement conçu pour le traitement par lots. Pour résoudre ces problèmes, Apache Spark est entré en scène, fonctionnant jusqu'à 100 fois plus vite pour certaines charges de travail et bien adapté à l'analyse en temps réel. Il est important de noter que l'objectif d'entreprises comme Databricks était d'exécuter Spark dans le cloud, alors que Hadoop était principalement implémenté sur site.

Au cours des dernières années, les plates-formes de lac de données basées sur le cloud ont mûri et sont maintenant prêtes pour les heures de grande écoute. Le stockage d'objets scale-out moins cher des fournisseurs de cloud offre une plate-forme pour des projets massifs à l'échelle du pétaoctet qui n'est tout simplement pas viable sur site. Les lacs de données de nouvelle génération sont construits sur Apache Spark pour prendre en charge le stockage de données S3 ou objet, ce qui permet d'ingérer et de traiter des données semi-structurées et non structurées. Le stockage de fichiers est également en cours de transition vers le cloud et doit être exploité dans le cadre d'un lac de données cloud, de sorte que toutes les données ne se trouvent peut-être pas dans le stockage d'objets.

Comment apprivoiser le lac de données cloud

Bien que les lacs de données cloud n'en soient qu'à leurs débuts, il est impératif d'inclure des données de fichiers dans votre lac de données, car les modèles d'apprentissage automatique en nécessitent de grandes quantités pour générer des résultats significatifs. Pourtant, ces données non structurées ne sont pas standardisées entre les types de fichiers :fichiers vidéo, fichiers audio, données de capteurs, journaux ne partagent pas une structure commune. Et vider toutes ces données de fichiers bon gré mal gré dans la plate-forme de lac de données cloud n'est pas une stratégie sage, mais un gâchis à nettoyer plus tard. Malgré leurs promesses, les lacs de données comportent de nombreux risques, allant des coûts de gestion élevés, des lacunes en matière de compétences, des problèmes de sécurité et de gouvernance, des problèmes de portabilité lors du déplacement des données entre les nuages et les plates-formes de stockage et la crainte de longue date que le lac de données ne devienne un marécage lorsque les données devient trop gros et emmêlé pour être recherché et analysé.

Voici quelques éléments à prendre en compte lorsque vous vous lancez dans l'intégration de données de fichiers dans un lac de données cloud afin d'éviter ou de minimiser les conflits .

Optimiser le lac de données. Avant de pouvoir être analysées, les données doivent être nettoyées, normalisées et classées, ce qui peut être un processus hautement manuel contribuant aux dépassements de coûts et au ralentissement du délai de valorisation. Cela a toujours été un défi pour une initiative d'entrepôt de données et il en va de même pour les lacs de données et les data lakehouses. Les lacs de données sont attrayants car ils peuvent ingérer des données dans leur format natif ; exiger une optimisation avant de mettre des données dans le lac détruit cette facilité d'utilisation. Comment pouvez-vous optimiser automatiquement les données des fichiers sans modifier le comportement de l'utilisateur ? La clé de l'optimisation des données de fichiers réside dans les métadonnées :les informations sur les types de fichiers, les dates de création et de dernier accès, les propriétaires, les projets et l'emplacement. La possibilité d'indexer et de baliser automatiquement les fichiers sur les propriétés des métadonnées évitera les problèmes de submersion de données et facilitera la recherche et la segmentation ultérieures, au lieu de simplement laisser les lacs de données non gérés.
Utilisez l'indexation des métadonnées pour trouver des ensembles de données précis pour des besoins spécifiques. Les outils capables d'indexer les fichiers et de rechercher des métadonnées dans l'ensemble du stockage (y compris les emplacements sur site, en périphérie et dans le cloud) peuvent réduire des milliards de fichiers à quelques milliers afin que vous n'envoyiez que les fichiers précis que vous souhaitez analyser dans le cloud.
Étiquetez les données au fur et à mesure pour améliorer la recherche et la convivialité . Une fois que vous avez trouvé les fichiers dont vous avez besoin, vous pouvez ensuite utiliser un système d'apprentissage automatique pour affiner davantage la recherche avec plus de balises. Ce processus doit être continu et automatisé, de sorte qu'au fil du temps, une structure supplémentaire est développée et une facilité de recherche est fournie à votre lac de données avec une meilleure qualité globale.
Accommodez le bord. À mesure que l'informatique de périphérie se développe en raison de nouveaux cas d'utilisation des données de capteurs, le streaming de données depuis la périphérie va devenir intenable. Comment pouvez-vous traiter plus de données à la périphérie et transférer uniquement ce dont vous avez besoin dans un lac de données cloud ? Le prétraitement en périphérie deviendra plus critique à mesure que les volumes de données en périphérie augmenteront.
Créer des taxonomies par secteur. Il n'y a pas de nomenclature d'étiquetage standard pour chaque industrie. Le fait de disposer de classifications de marquage communes par secteur facilitera la recherche et l'extraction des données, en particulier dans les environnements collaboratifs tels que la recherche et les sciences de la vie.
Répondez à la mobilité des données. Pour être véritablement mobiles, les données doivent pouvoir résider dans différents systèmes dans des environnements de cloud hybride tout en accédant de manière native aux services de ces environnements. Le déverrouillage des données des systèmes de stockage propriétaires redonne le contrôle au service informatique et élimine les frais et les tracas liés au déplacement des données d'une plate-forme à l'autre. La façon dont les données sont utilisées et consultées et leur valeur changent avec le temps. En pérennisant vos données, vous pouvez vous adapter aux changements et aux nouvelles exigences. Des solutions indépendantes de mobilité et de gestion des données peuvent vous aider ici.
Développez la bonne culture. Les principales organisations informatiques continuent d'identifier la culture - les personnes, les processus, l'organisation, la gestion du changement - comme le plus grand obstacle à devenir des organisations axées sur les données, selon une étude de 2021 réalisée par New Vantage Partners. Une culture axée sur les données doit englober non seulement les analystes et les secteurs d'activité, mais aussi les équipes d'infrastructure informatique. Les responsables informatiques devront jouer un rôle en aidant les professionnels du stockage de données, des serveurs et des réseaux à réorienter leurs responsabilités et leurs tâches quotidiennes vers un cadre décisionnel centré sur les données. Les outils et les processus doivent être interfonctionnels, permettant une vue globale des actifs de données de l'organisation et une collaboration autour de stratégies de gestion de ces actifs pour un gain organisationnel.

Les lacs de données cloud ont gagné en popularité car les données peuvent être ingérées dans leur format natif sans le prétraitement approfondi nécessaire aux entrepôts de données. Le revers de la médaille est que les lacs de données sont devenus des marécages de données, en particulier pour les données de fichiers non structurées, car ces données n'ont pas de structure commune. L'analyse des données de fichiers devient de plus en plus critique avec l'augmentation des moteurs AI/ML qui en dépendent. Les lacs de données cloud peuvent être optimisés pour les données non structurées sans détruire leur intérêt à ingérer des données au format natif en automatisant l'indexation, la recherche, la collecte et l'optimisation des données de fichiers.

Sortir de la poêle à frire et entrer dans la cuisine connectée 4 tendances du métaverse industriel :hyperbole ou révolution ?

Technologie de l'Internet des objets

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets