À quels défis de gouvernance des lacs de données les organisations sont-elles confrontées ?

Un programme de gouvernance des données réussi applique des politiques, des normes et des processus pour permettre l’utilisation efficace et appropriée de données de haute qualité dans une organisation. Si votre organisation dispose d’un environnement de lac de données et souhaite en tirer des résultats d’analyse de haute qualité, vous devez vous engager dans une gouvernance appropriée du lac de données dans le cadre de votre initiative de gouvernance globale.

Mais les lacs de données posent divers défis dans toutes les disciplines de la gestion des données d’entreprise, y compris la gouvernance des données. Pour commencer la discussion sur les défis de gouvernance, il est nécessaire de définir ce qu’est un lac de données : un type de plate-forme de données qui contient de grandes quantités de données brutes, généralement laissées dans leur format natif jusqu’à ce qu’elles soient nécessaires à des fins d’analyse.

Alors qu’un entrepôt de données traditionnel stocke les données dans des tables relationnelles, un lac de données utilise une architecture plate. Chaque élément de données se voit attribuer un identifiant unique et est étiqueté avec un ensemble de balises de métadonnées. Par conséquent, un lac de données est moins structuré qu’un entrepôt de données. Les données sont classées et organisées lorsqu’elles sont consultées pour analyse, et non lorsqu’elles sont chargées dans le lac de données.

Similaire  3 considérations pour une stratégie de gestion de la conformité des données

Une gouvernance des données efficace permet aux organisations d’améliorer la qualité et la cohérence des données et de maximiser l’utilisation des données pour la prise de décision commerciale, ce qui peut conduire à une meilleure planification des activités et à une meilleure performance financière. Les disciplines de gestion des données complémentaires à la gouvernance des données incluent la qualité des données, la gestion des métadonnées et la sécurité des données, qui sont toutes prises en compte dans la gouvernance des lacs de données.

Voici maintenant cinq défis de gouvernance des données pour la mise en œuvre d’un lac de données.

1. Identification et maintien des bonnes sources de données

Dans de nombreuses implémentations de lac de données, les métadonnées source ne sont pas capturées ou ne sont pas du tout disponibles, ce qui rend la validité du contenu du lac de données discutable. Par exemple, le système d’enregistrement ou le propriétaire commercial des ensembles de données peut ne pas être répertorié, ou des données manifestement redondantes peuvent causer des problèmes aux analystes de données. Au minimum, les métadonnées source de toutes les données d’un lac de données doivent être enregistrées et mises à la disposition des utilisateurs pour fournir un aperçu de leur provenance.

2. Problèmes de gestion des métadonnées

Les métadonnées donnent un contexte au contenu des ensembles de données et constituent un élément important pour rendre les données compréhensibles et utilisables dans les applications. Mais de nombreuses implémentations de lacs de données ignorent la nécessité d’appliquer les définitions de données correctes aux données collectées. De plus, étant donné que les données brutes sont souvent chargées dans un lac de données, de nombreuses organisations n’incluent pas les étapes nécessaires pour valider les données ou leur appliquer les normes de données organisationnelles. Ce manque de gestion appropriée des métadonnées rend les données d’un lac de données moins utiles pour l’analyse.

Comparaison entre lac de données et entrepôt de données
Une comparaison des attributs du lac de données et de l’entrepôt de données

3. Manque de coordination sur la gouvernance et la qualité des données

Ne pas coordonner la gouvernance du lac de données et le travail de qualité des données peut entraîner l’entrée de données de mauvaise qualité dans un lac de données. Cela peut conduire à des résultats inexacts lorsque les données sont utilisées à des fins d’analyse et pour prendre des décisions commerciales, entraînant une perte de confiance dans le lac de données et une méfiance générale à l’égard des données au sein d’une organisation. Les implémentations efficaces de lacs de données impliquent que des analystes et des ingénieurs de la qualité des données travaillent en étroite collaboration avec l’équipe de gouvernance des données et les gestionnaires de données d’entreprise pour appliquer des politiques de qualité des données, profiler les données et prendre les mesures nécessaires pour améliorer leur qualité.

4. Manque de coordination sur la gouvernance et la sécurité des données

Dans ce cas, les normes et politiques de sécurité des données qui ne sont pas appliquées correctement dans le cadre du processus de gouvernance peuvent entraîner des problèmes d’accès aux données personnelles protégées par les réglementations sur la confidentialité et d’autres types de données sensibles. Bien que les lacs de données soient destinés à être une source de données plutôt ouverte, des mesures de sécurité et de contrôle d’accès sont nécessaires, et les équipes de gouvernance et de sécurité des données doivent travailler ensemble pendant les processus de conception et de chargement du lac de données et les efforts continus de gouvernance des données.

5. Conflit entre les unités commerciales qui utilisent le même lac de données

Différents services peuvent avoir des règles commerciales différentes pour des données similaires, ce qui peut entraîner une incapacité à concilier les différences de données pour des analyses précises. Disposer d’un programme de gouvernance des données robuste avec une vue d’entreprise des politiques, normes, procédures et définitions de données, y compris un glossaire métier d’entreprise, peut réduire les problèmes qui surviennent lorsque plusieurs unités commerciales utilisent un lac de données. Si une organisation possède plusieurs lacs de données, chacun doit être inclus dans le processus de gouvernance du lac de données et avoir des intendants de données d’entreprise qui lui sont affectés.

En conclusion, la valeur d’un lac de données peut être considérablement améliorée en incluant des processus solides de gouvernance des données, de gestion des métadonnées, de qualité des données et de sécurité des données dans la conception, le chargement et la maintenance de l’environnement, avec la participation active de professionnels expérimentés dans tous ces domaines. . Sinon, votre lac de données pourrait devenir plus un marécage.