Données non structurées :le coût caché pour les industries – Comment les transformer en valeur

Dans tous les secteurs, les ingénieurs et data scientists cherchent à mieux exploiter les données cachées dans les partages de fichiers et verrouillées dans différents systèmes. Ils ont besoin de ces données pour créer des flux de travail pour les outils d'IA et d'analyse afin de pouvoir en savoir plus sur leurs marchés, créer de nouveaux produits et services, ou améliorer les opérations commerciales et les relations clients.

L’autre aspect de cette équation est que les données d’entreprise comportent de nombreux risques qui ne sont pas bien compris par l’entreprise, ni même par le service informatique. Par exemple :

Le stockage et les sauvegardes de données représentent au moins 30 % de la plupart des budgets informatiques lorsque l'argent doit être consacré à l'innovation, à la cybersécurité et à une expérience client exceptionnelle ;
La plupart des données non structurées ne sont pas exploitées à des fins commerciales ;
Un pourcentage important de données non structurées, jusqu'à 80 %, est rarement utilisé et occupe un espace de stockage coûteux ;
De nombreuses organisations ne disposent pas de politiques claires de conservation et de suppression et ne procèdent pas à des exercices réguliers de nettoyage de leurs données, de peur que les services ne réagissent. Les données en double peuvent facilement constituer à elles seules 30 à 40 % de l'empreinte moyenne des données d'une entreprise ;
Les parcs de données non structurés non gérés et inconnus répartis dans des silos informatiques hybrides créent des risques supplémentaires en matière de sécurité et de conformité.

Voici un aperçu de plusieurs secteurs, de leurs exigences et de leurs défis en matière de gestion des données, issus de nos années de collaboration avec des clients sur des stratégies de gestion des données non structurées.

Soins de santé :réduire les coûts sans réduire l'accès aux données vitales

La santé est une bête de données. Selon certaines estimations, les établissements de santé sont les plus grands producteurs de données au monde, en grande partie grâce au volume d’une variété d’images cliniques et de données machine. La maîtrise des coûts est et a toujours été une mission cruciale dans le domaine des soins de santé, et cela l’est encore plus aujourd’hui avec les changements apportés au remboursement de Medicare. Les établissements de santé sont également confrontés à des réglementations strictes en matière de conservation des données et à des difficultés à supprimer des données en raison d'exigences légales et de recherche.

Un système de santé leader, gérant plus de 16 Po de stockage NAS, s’est tourné vers la gestion des données non structurées pour analyser et archiver les données froides sur Azure Blob, réduisant ainsi la pression sur ses systèmes de stockage principaux. Sans interrompre les utilisateurs, le service informatique a déplacé plus de 2 Po de données, contribuant ainsi à retarder les actualisations matérielles coûteuses.

Pour les organisations ayant des exigences en matière de chaîne de traçabilité, courantes dans les secteurs réglementés comme les soins de santé, la visibilité sur l'emplacement des fichiers et les métadonnées est essentielle. Enfin, comme la conformité est un besoin omniprésent étant donné la grande sensibilité des données des patients, une visibilité complète des données non structurées, une recherche et un audit donnent aux directeurs informatiques de la santé un meilleur contrôle pour réduire les risques.

Sciences de la vie :Transformer le chaos des données en accélération de la recherche

Les organisations des sciences de la vie sont également l’un des plus grands secteurs producteurs de données. Ils traitent souvent des millions de fichiers petits mais de grande valeur, des rafales de données imprévisibles et la nécessité d'une conservation à long terme sans politiques de suppression claires. Ces facteurs compliquent la planification de l'infrastructure informatique.

Dans les laboratoires biopharmaceutiques et biotechnologiques, l’explosion des fichiers d’images TIF provenant d’instruments scientifiques crée des défis supplémentaires. Dans un exemple, une entreprise est passée de données de recherche stockées localement à une baie NAS centralisée. Pour suivre le rythme de cette croissance rapide, l’équipe informatique a déployé la hiérarchisation du cloud sur Azure et utilisé l’analyse des données pour identifier et déplacer les données obsolètes. Cela a évité le surprovisionnement et a aidé le service informatique à prendre en charge les pipelines de recherche sans goulots d'étranglement.

Les équipes informatiques d'entreprise ne peuvent généralement pas voir les informations sur leurs données stockées au même endroit, a déclaré Anthony Fiore, expert en solutions de stockage chez AWS. La visibilité détaillée, fournie par les logiciels de gestion des données, est passionnante pour les informaticiens des sciences de la vie et d'autres secteurs : "Nous avons des clients avec des partages NAS qui contiennent de nombreux silos de données dans un seul partage, et il est difficile de savoir comment ils peuvent les diviser par secteur d'activité ou s'ils se soucient même de ces données. Mais une fois qu'ils voient toutes les métadonnées, ils comprennent mieux comment tout fonctionne, et ils peuvent ensuite les marquer et les rechercher plus tard."

Services financiers :éliminez les risques et dynamisez l'IA grâce à des données propres et gouvernées

Les institutions financières fonctionnent sous des contraintes réglementaires strictes (par exemple, SEC, FINRA, RGPD) et sont souvent confrontées à des décennies de croissance du partage de fichiers. La prolifération des données, le contrôle informatique décentralisé et la conformité rendent la gestion des données basées sur des fichiers extrêmement complexe. De plus, les institutions financières doivent garantir que les modèles d’IA utilisés pour le risque de crédit, la détection des fraudes ou les transactions sont régis de manière appropriée et exempts de biais et de données obsolètes. Disposer d'un moyen systématique de comprendre, nettoyer, classer les données et créer des flux de travail de données d'IA sûrs et surveillés est une exigence croissante.

Pour une société d’assurance multinationale, le passage à Azure concernait non seulement des économies de coûts, mais également une modernisation, des analyses et une préparation à l’IA. Ils ont utilisé la gestion des données non structurées pour réduire les besoins en capacité du stockage principal coûteux du centre de données, en hiérarchisant plus de 600 To vers un stockage cloud objet à moindre coût. Ils utilisent également des outils basés sur le cloud pour développer des produits d'assurance améliorés par l'IA, les données non structurées constituant une partie essentielle de ces modèles prédictifs. La capacité de classer et de segmenter les données non structurées avant l'ingestion de l'IA est essentielle pour gérer les coûts et fournir des résultats précis.

Voir aussi : Échapper au piège du stockage des données grâce à l'intelligence visuelle en temps réel

État et administrations locales :prolonger la durée de vie des infrastructures et renforcer la surveillance des données

Les organisations informatiques du secteur public ont tendance à avoir une infrastructure vieillissante et un pourcentage d'applications héritées plus élevé que le secteur privé. Ils souhaitent se moderniser, mais les budgets sont généralement serrés et l'adoption du cloud est minime en raison des politiques de sécurité, ainsi que des mandats légaux qui exigent la conservation des données sans chemins de suppression clairs. Les responsables informatiques doivent équilibrer la prestation de services avec des exigences de conformité strictes.

Pour les agences d'État, l'archivage des fichiers dans le cloud permet de réduire la dépendance à l'égard d'un matériel vieillissant. La visibilité sur les dates de dernière modification/d'accès permet au service informatique de déplacer uniquement les données rarement consultées hors d'un stockage haute performance. Dans le même temps, l’intégration des systèmes de stockage et de gestion des données avec des outils de sécurité et de conformité est essentielle pour garantir un accès sécurisé et vérifiable. Bien que l'adoption de la hiérarchisation des données reste prudente, de nombreuses agences utilisent le reporting pour plaider en faveur de politiques de cycle de vie des données non structurées, en particulier en ce qui concerne les données départementales stagnantes.

Ingénierie et architecture :remportez davantage de projets en libérant la valeur des données cachées

Les sociétés d'ingénierie et de conception génèrent des données non structurées à grande échelle, notamment à partir de fichiers de CAO, SIG et de modélisation 3D. Ces fichiers sont volumineux et difficiles à gérer, en particulier entre les équipes distribuées et les systèmes hérités des activités de fusions et acquisitions. Ces entreprises doivent conserver les données historiques du projet à des fins de référence, de responsabilité et de réutilisation. Une entreprise mondiale, gérant plus de 6 Po, utilise la gestion des données non structurées pour identifier et déplacer les fichiers de projet datant de plus de trois ans vers une archive Cloudian, sauvegardée dans Azure. Cela préserve les performances des baies HPE actives tout en conservant l'accessibilité. Dans un cas, les requêtes dans leurs magasins de données de fichiers leur ont permis de localiser rapidement les données d'analyse de sol pour un projet dans une zone sujette aux tremblements de terre, ce qui leur a permis de gagner du temps et de prendre en charge la conception d'une infrastructure critique.

Alors qu'elle continue d'intégrer ses acquisitions, l'entreprise utilise l'analyse pour évaluer les serveurs de fichiers nouvellement hérités. Cette visibilité leur permet de prioriser les éléments à conserver, migrer ou archiver. Leur objectif est d'indexer à terme toutes les données non structurées, permettant ainsi une modélisation basée sur l'IA et réduisant les silos de connaissances entre les unités commerciales.

Énergie :améliorez l'efficacité et la conformité sur le terrain grâce aux données centralisées

Ces entreprises sont confrontées à des contraintes liées aux sites distants, à une bande passante variable, au respect des réglementations internationales en matière de sécurité et d'exploitation, ainsi qu'à un besoin croissant de prendre en charge les diagnostics à distance basés sur les données et les jumeaux numériques.

Dans une entreprise, la décision d’adopter une gestion des données non structurées est venue de la nécessité d’abandonner le stockage périphérique sur des centaines de sites distants. Avec l'accumulation de journaux vidéo, de dessins et de dossiers de maintenance offshore, ils ont commencé à archiver des données froides sur Azure pour centraliser et contrôler leurs données non structurées.

Avec la mise en place de modèles de rétrofacturation, les informations sur les données des fichiers sont devenues cruciales pour la responsabilité des services. L’objectif à long terme est de prendre en charge les flux de travail de données d’enquête et d’inspection, comme l’imagerie sous-marine ROV, dans des environnements prêts pour l’IA pour la maintenance prédictive et la conformité.

Semi-conducteurs/Industrie manufacturière :protégez la propriété intellectuelle tout en réduisant l'empreinte de stockage coûteuse

Les entreprises de semi-conducteurs doivent protéger la propriété intellectuelle de grande valeur, gérer les données distribuées à l'échelle mondiale et respecter des exigences strictes en matière de contrôle des exportations et de sécurité, tout en garantissant aux ingénieurs un accès hautes performances aux ensembles de données actifs.

Un fabricant mondial de semi-conducteurs utilise des équipements de numérisation hautement spécialisés qui génèrent de grandes quantités de données d'image exclusives. Avec 97 % des données toujours stockées sur site, ils avaient besoin d'une méthode efficace pour archiver les anciennes données numérisées sans compromettre la protection IP ou les performances de récupération. En associant la gestion des données non structurées au stockage Cloudian S3, ils ont mis en œuvre des politiques de données froides pour déplacer tous les fichiers non consultés depuis 12 mois hors des serveurs principaux. Grâce à la préservation des liens symboliques et au suivi des métadonnées, l'entreprise a assuré le respect des protocoles de gestion IP internes et a réduit la dépendance à l'égard d'un NAS principal coûteux.

Conclusion :Transformez les données non structurées en un actif stratégique pour votre entreprise

Dans tous les secteurs, la gestion des données non structurées n’est plus seulement une tactique de réduction des coûts mais un catalyseur stratégique. Qu'il s'agisse de prendre en charge les flux de travail de l'IA dans le domaine de l'assurance, de maintenir la conformité réglementaire dans le secteur de la santé ou de rationaliser l'infrastructure dans le secteur manufacturier, les organisations reconnaissent la nécessité de combiner la gouvernance des données avec un accès et un déplacement flexibles des données.

L'IA souveraine simplifiée :contrôlez vos données, vos décisions et vos résultats grâce au stockage d'objets stratégiques IA visuelle en temps réel basée sur la périphérie :performances et fiabilité inégalées

Cloud computing

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets