Un entrepôt de données est un référentiel de données générées et collectées par les différents systèmes opérationnels d’une entreprise. L’entreposage de données fait souvent partie d’une stratégie de gestion des données plus large et met l’accent sur la capture de données provenant de différentes sources pour l’accès et l’analyse par les analystes commerciaux, les scientifiques des données et d’autres utilisateurs finaux.

Généralement, un entrepôt de données est une base de données relationnelle hébergée sur un mainframe, un autre type de serveur d’entreprise ou, de plus en plus, dans le cloud. Les données provenant de diverses applications de traitement des transactions en ligne (OLTP) et d’autres sources sont extraites et consolidées de manière sélective pour les activités de Business Intelligence (BI) qui incluent l’aide à la décision, le reporting d’entreprise et les requêtes ad hoc par les utilisateurs. Les entrepôts de données prennent également en charge les technologies de traitement analytique en ligne (OLAP), qui organisent les informations en cubes de données classés selon différentes dimensions pour accélérer le processus d’analyse.

Composants de base d’un entrepôt de données

Un entrepôt de données stocke des données extraites de magasins de données internes et, dans de nombreux cas, de sources de données externes. Les enregistrements de données dans l’entrepôt doivent contenir des détails pour le rendre consultable et utile aux utilisateurs professionnels. Pris ensemble, il existe trois composants principaux de l’entreposage de données :

  1. Une couche d’intégration de données qui extrait les données des systèmes opérationnels, tels qu’Excel, ERP, CRM ou des applications financières.
  2. Une zone de transfert de données où les données sont nettoyées et organisées.
  3. Une zone de présentation où les données sont stockées et mises à disposition pour utilisation.

Une architecture d’entrepôt de données peut également être comprise comme un ensemble de niveaux, où le niveau inférieur est le serveur de base de données, le niveau intermédiaire est le moteur d’analyse et le niveau supérieur est un logiciel d’entrepôt de données qui présente des informations pour le reporting et l’analyse.

Les outils d’analyse de données, tels que les logiciels de BI, permettent aux utilisateurs d’accéder aux données dans l’entrepôt. Un entrepôt de données d’entreprise stocke des données analytiques pour toutes les opérations commerciales d’une organisation ; alternativement, les unités commerciales individuelles peuvent avoir leurs propres entrepôts de données, en particulier dans les grandes entreprises. Les entrepôts de données peuvent également alimenter des magasins de données, qui sont des systèmes décentralisés plus petits dans lesquels des sous-ensembles de données d’un entrepôt sont organisés et mis à la disposition de groupes spécifiques d’utilisateurs professionnels, tels que les équipes de vente ou de gestion des stocks.

En outre, Hadoop est devenu une extension importante des entrepôts de données pour de nombreuses entreprises, car la plate-forme de traitement de données distribuée peut améliorer les composants d’une architecture d’entrepôt de données, de l’ingestion de données au traitement analytique en passant par l’archivage des données. Dans certains cas, les clusters Hadoop servent de zone de transit pour les entrepôts de données traditionnels. Dans d’autres, les systèmes qui intègrent Hadoop et d’autres technologies de mégadonnées sont eux-mêmes déployés en tant qu’entrepôts de données à part entière.

Avantages et options de l’entrepôt de données

Les entrepôts de données peuvent bénéficier aux organisations à la fois d’un point de vue informatique et commercial. Par example:

  • La séparation des processus analytiques des processus opérationnels peut améliorer les performances des systèmes opérationnels et permettre aux analystes de données et aux utilisateurs professionnels d’accéder et d’interroger plus rapidement les données pertinentes à partir de plusieurs sources.
  • Les entrepôts de données peuvent offrir une meilleure qualité et cohérence des données pour les utilisations analytiques, améliorant ainsi la précision des applications BI.
  • Les entreprises peuvent choisir des systèmes sur site, des déploiements cloud conventionnels ou des offres d’entrepôt de données en tant que service (DWaaS).
  • Les entrepôts de données sur site offrent flexibilité et sécurité afin que les équipes informatiques puissent garder le contrôle sur la gestion et la configuration de leur entrepôt de données ; ils sont disponibles auprès d’IBM, Oracle et Teradata à titre d’exemple.
  • Les entrepôts de données basés sur le cloud tels qu’Amazon Redshift, Google BigQuery, Microsoft Azure SQL Data Warehouse et Snowflake permettent aux entreprises de faire évoluer rapidement leurs systèmes tout en éliminant les investissements initiaux dans l’infrastructure et les exigences de maintenance continue du système.
  • DWaaS, une ramification de la base de données en tant que service, fournit un service cloud géré qui libère les organisations du besoin de déployer, configurer et administrer leurs entrepôts de données. De tels services sont proposés par un nombre croissant de fournisseurs de cloud.

Types d’entrepôts de données

Il existe trois approches principales pour mettre en œuvre un entrepôt de données, qui sont détaillées ci-dessous. Certaines organisations ont également adopté des entrepôts de données fédérés qui intègrent des systèmes analytiques séparés déjà mis en place indépendamment les uns des autres – une approche que les partisans décrivent comme un moyen pratique de tirer parti des déploiements existants.

      • Approche descendante : Créée par le pionnier de l’entrepôt de données William H. Inmon, cette méthode appelle à créer d’abord l’entrepôt de données de l’entreprise. Les données sont extraites de systèmes opérationnels et éventuellement de sources externes tierces et peuvent être validées dans une zone intermédiaire avant d’être intégrées dans un modèle de données normalisé. Des magasins de données sont ensuite créés à partir des données stockées dans l’entrepôt de données.
L'approche d'Inmon
      • Méthode ascendante : Le consultant Ralph Kimball a développé une architecture alternative d’entreposage de données qui nécessite la création préalable de datamarts dimensionnels. Les données sont extraites des systèmes opérationnels, déplacées vers une zone intermédiaire et modélisées dans une conception de schéma en étoile, avec une ou plusieurs tables de faits connectées à une ou plusieurs tables dimensionnelles. Les données sont ensuite traitées et chargées dans des magasins de données, chacun d’entre eux se concentrant sur un processus métier spécifique. Les magasins de données sont intégrés à l’aide d’une architecture de bus d’entrepôt de données pour former un entrepôt de données d’entreprise.
      • Méthode hybride : Les approches hybrides de la conception d’entrepôts de données incluent des aspects des méthodes descendantes et ascendantes. Les organisations cherchent souvent à combiner la rapidité de l’approche ascendante avec les capacités d’intégration de données obtenues dans une conception descendante.
L'approche de Kimball

Entrepôts de données vs bases de données vs lacs de données

Les bases de données et les lacs de données sont souvent confondus avec les entrepôts de données, mais il existe des différences importantes entre eux. Alors que les entrepôts de données stockent généralement des données provenant de plusieurs sources et utilisent des schémas prédéfinis conçus pour l’analyse de données, une base de données opérationnelle est généralement utilisée pour capturer, traiter et stocker des données à partir d’une source unique, telle qu’un système transactionnel, et son schéma est normalisé. Ces bases de données ne sont généralement pas conçues pour fonctionner sur de très grands ensembles de données, comme le sont les entrepôts de données.

En revanche, un lac de données est un référentiel central pour tous les types de données brutes, structurées ou non structurées, provenant de plusieurs sources. Les lacs de données sont le plus souvent construits sur Hadoop ou d’autres plateformes de Big Data. Un schéma n’a pas besoin d’être défini à l’avance, ce qui permet plus de types d’analyses que les entrepôts de données, qui ont des schémas définis. Par exemple, les lacs de données peuvent être utilisés pour les recherches textuelles, l’apprentissage automatique et l’analyse en temps réel.

Innovations d’entrepôt de données à travers l’histoire

Le concept d’entreposage de données remonte aux travaux menés au milieu des années 1980 par les chercheurs d’IBM Barry Devlin et Paul Murphy. Le duo a inventé le terme entrepôt de données d’entreprise dans leur article de 1988, « Une architecture pour un système d’entreprise et d’information », qui déclarait :

« Le [business information system] L’architecture est basée sur l’hypothèse qu’un tel service s’exécute sur un référentiel de toutes les informations commerciales requises, connu sous le nom de Business Data Warehouse (BDW). … Une condition préalable nécessaire à la mise en œuvre physique d’un service d’entrepôt de données d’entreprise est un processus métier et une architecture d’informations qui définissent (1) le flux de rapports entre les fonctions et (2) les données requises. »

Bill Inmon, comme on l’appelle plus familièrement, a fait progresser le développement de l’entrepôt de données avec son livre de 1992 Construire l’entrepôt de données, ainsi qu’en écrivant certaines des premières colonnes sur le sujet. La méthode de conception descendante d’Inmon pour la construction d’un entrepôt de données décrit la technologie comme une collection de données orientée sujet, intégrée, variant dans le temps et non volatile qui prend en charge le processus de prise de décision d’une organisation.

La croissance de la technologie s’est poursuivie avec la fondation du Data Warehousing Institute, maintenant connu sous le nom de TDWI, en 1995, et avec la publication en 1996 du livre de Ralph Kimball La boîte à outils de l’entrepôt de donnéesqui a introduit son approche de modélisation dimensionnelle dans la conception d’un entrepôt de données.

En 2008, Inmon a introduit le concept d’entrepôt de données 2.0, qui se concentre sur l’inclusion de données non structurées et de métadonnées d’entreprise.

Similaire  3 questions clés pour les DBA