Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Manufacturing Technology >> Technologie industrielle

The Modern Data Estate :Data Lake vs. Data Warehouse

27 juillet 2021  

Source :MCA Connect | Fabrication de demain

Les données nous parviennent rapidement et sous de nombreuses formes. Ces différentes formes peuvent inclure des données structurées, semi-structurées et non structurées et de nombreuses personnes ne réalisent pas qu'un entrepôt de données et un lac de données traitent les données différemment.

Un parc de données moderne doit fournir plusieurs méthodes d'ingestion et de stockage des différentes données générées par les entreprises. Les données nous parviennent rapidement et sous de nombreuses formes. Ces différentes formes peuvent inclure des données structurées, semi-structurées et non structurées et de nombreuses personnes ne réalisent pas qu'un entrepôt de données et un lac de données traitent les données différemment. Regardons plus loin ces différents types de données :

  1. Structured - bases de données traditionnelles telles que la base de données transactionnelle pour votre système ERP ou CRM avec des définitions formelles de colonnes et de tables
  2. Semi-structuré – fichiers tels que XML ou JSON qui s'auto-description avec des balises pour les éléments et les hiérarchies
  3. Non structuré :images, vidéo, audio et autres données binaires

Les conceptions traditionnelles d'entrepôts de données existent depuis de nombreuses décennies, tandis que le concept, ou du moins le terme, lac de données est une construction un peu plus récente. Chacun de ces éléments a sa place dans le parc de données de votre organisation.

L'entrepôt de données

Comme nous pouvons le voir ci-dessus, les sources de données peuvent être très diverses et avoir des représentations différentes des données, ce qui peut conduire à des informations divergentes. De plus, la grande variété de schémas et de structures dans les sources de données rend difficile l'obtention d'informations consolidées lorsqu'un instantané complet des données est requis à partir de tous les sous-systèmes de l'entreprise. En général, c'est la principale raison de l'émergence des solutions Data Warehouse.

Un entrepôt de données est une conception formelle, souvent basée sur des directives de conception qui implémentent un processus ETL (Extract-Transform-Load) formel pour consommer des ensembles de données brutes et structurées et les charger dans un modèle conçu pour le reporting. Les entrepôts de données sont construits sur des bases de données relationnelles comme Azure Synapse, anciennement Microsoft SQL Server. Azure Synapse est conçu pour stocker des données structurées dans des tables avec des lignes et des colonnes traditionnelles, mais a la capacité de stocker des données semi-structurées telles que XML et JSON.

Le lac de données

Un lac de données renverse le concept d'ETL et implémente un processus ELT (Extract-Load-Transform). L'ingestion de données dans le lac de données consiste essentiellement à jeter tout ce que vous pensez pouvoir être précieux à un moment donné dans une grande zone de stockage, quel que soit le type ou la structure des données. Les lacs de données peuvent stocker des données structurées, semi-structurées et non structurées. Les lacs de données fournis dans Microsoft Azure sont construits sur des comptes de stockage avec Data Lake Storage Gen2 activé lors de la création du compte de stockage.

L'idée derrière un lac de données est que vous souhaitez consommer toutes les données et les trier ultérieurement, tandis que l'entrepôt de données nécessite d'identifier la valeur au départ avec un investissement important pour développer l'ingestion. En raison du lourd investissement initial généralement requis pour développer un entrepôt de données, s'il est déterminé par la suite que vous avez besoin de données qui n'ont pas été importées initialement, il existe un risque que les données source ne soient plus disponibles et potentiellement perdues pour toujours.

Objectif :indéterminé vs en cours d'utilisation

L'objectif des éléments de données individuels dans un lac de données n'est pas fixe. Les données brutes affluent dans un lac de données, parfois avec une utilisation future spécifique en tête et parfois juste pour avoir sous la main. Cela signifie que les lacs de données ont moins d'organisation et moins de filtrage de données que leurs homologues.

Les données traitées sont des données brutes qui ont fait l'objet d'un usage spécifique. Étant donné que les entrepôts de données ne contiennent que des données traitées, toutes les données d'un entrepôt de données ont été utilisées à des fins spécifiques au sein de l'organisation. Cela signifie que l'espace de stockage n'est pas gaspillé sur des données qui ne seront peut-être jamais utilisées.

Accessibilité

L'accessibilité et la facilité d'utilisation font référence à l'utilisation du référentiel de données dans son ensemble, et non aux données qu'il contient. L'architecture du lac de données n'a pas de structure et est donc facile d'accès et facile à modifier. De plus, toute modification apportée aux données peut être effectuée rapidement, car les lacs de données ont très peu de limitations.

Les entrepôts de données sont, par conception, plus structurés. L'un des principaux avantages de l'architecture d'entrepôt de données est que le traitement et la structure des données rendent les données elles-mêmes plus faciles à déchiffrer, les limites de la structure rendent les entrepôts de données difficiles et coûteux à manipuler.

Les avantages des deux

Les lacs de données sont un moyen rentable de stocker de grandes quantités de données provenant de nombreuses sources. Autoriser les données de n'importe quelle structure réduit les coûts car les données sont plus flexibles et évolutives car les données n'ont pas besoin de s'adapter à un modèle spécifique. Cependant, les données structurées sont plus faciles à analyser car elles sont plus propres et ont un schéma uniforme à partir duquel interroger. En limitant les données à un schéma, les entrepôts de données sont très efficaces pour analyser les données historiques pour des décisions de données spécifiques. Un entrepôt de données approprié et un lac de données sont essentiels au succès futur de votre organisation et font partie de votre parc de données moderne.

Qu'est-ce qu'un domaine de données ?

L'établissement d'un parc de données moderne est une étape fondamentale vers la transformation numérique. Un domaine de données moderne permet des informations et une prise de décision en temps opportun sur toutes vos données et jette les bases de l'IA. Un domaine de données est l'ensemble des données qu'une organisation possède. Lorsque vous migrez ces données vers le cloud ou que vous modernisez votre environnement sur site, vous pouvez obtenir des informations importantes pour stimuler l'innovation.

Entrepôt de données pré-construit Microsoft Dynamics 365, DataCONNECT

Construire un entrepôt de données peut être très coûteux et prendre beaucoup de temps pour examiner correctement vos systèmes sources, concevoir un modèle de données et créer l'ETL nécessaire pour le traiter. MCA Connect a développé notre solution d'entrepôt de données DataCONNECT pour Microsoft Dynamics AX, Dynamics 365 Finance et Customer Engagement. Cette solution accélère considérablement le délai de livraison d'une solution complète d'entrepôt de données tout en réduisant les coûts de mise en œuvre. C'est également un excellent moyen de commencer à créer votre parc de données complet.

DataCONNECT peut alimenter les organisations avec des informations rapides et précises, leur donnant la possibilité de prévoir, d'adapter et de façonner les opérations avec précision. Vous serez en mesure d'extraire rapidement des données validées dans des modèles de prévision, afin de pouvoir commencer vos cycles de planification pour les domaines de votre entreprise. Si vous souhaitez en savoir plus sur la façon dont l'entrepôt de données DataCONNECT ou un lac de données peut aider votre entreprise à stocker des données volumineuses, contactez-nous. Un de nos experts se fera un plaisir de vous guider dans la bonne direction.

Le contenu et les opinions de cet article sont ceux de l'auteur et ne représentent pas nécessairement le point de vue de Manufacturing Tomorrow.


Technologie industrielle

  1. La quatrième révolution industrielle
  2. Rester conforme aux données dans l'IoT
  3. Que dois-je faire avec les données ? !
  4. Le développement des plastiques modernes
  5. Maintenance dans le monde numérique
  6. Démocratiser l'IoT
  7. Maximiser la valeur des données IoT
  8. La valeur de la mesure analogique
  9. L'approvisionnement stratégique en données est le moyen moderne d'éviter les perturbations