Collecte des données modifiées

Les données doivent être extraites régulièrement du ou des systèmes source et transformées en entrepôt de données. Ce processus est communément appelé actualisation de l'entrepôt de données. La méthode d'actualisation la plus efficace consiste à n'extraire et à ne transformer que les données qui ont changé depuis la dernière extraction.

La technique de collecte des données modifiées de l'infrastructure Cúram Business Intelligence and Analytics identifie et traite uniquement les données qui ont changé dans chacun des tableaux d'une base de données et les rend accessibles dans l'entrepôt de données. L'infrastructure Cúram Business Intelligence and Analytics a été conçue de manière que l'actualisation ait lieu pendant la nuit. Cependant, sa mise en oeuvre est souple et l'actualisation peut être effectuée à une autre fréquence.

La fonction de collecte des données modifiées inclut l'utilisation d'une table de contrôle qui stocke une date de dernière écriture pour chaque table renseignée. Lors de l'exécution d'un processus ETL, le dernier champ écrit pour cette table est également mis à jour. Lors de son exécution suivante, l'ETL lit d'abord sa table de contrôle, puis extrait les données qui ont été mises à jour depuis sa dernière exécution.

Il convient de souligner que pour que la collecte des données modifiées fonctionne, tous les derniers champs écrits doivent être renseignés dans les tables source dont l'infrastructure de Business Intelligence extrait les données. Comme précédemment indiqué, une ligne de la table de contrôle ETL est mise à jour avant et après chaque exécution de l'ETL pour la table mise à jour. Pour cela, il faut que les ETL invoquent une transformation de pré-mappage pour lire la dernière date d'écriture et définir l'heure d'extraction. Une fois l'ETL exécuté, une transformation de post-mappage mettant à jour la dernière date d'écriture à la date en cours est invoquée.

Après l'alimentation initiale de la table de contrôle ETL en données, la dernière date d'écriture est réinitialisée à une date de début afin d'assurer que les ETL extraient toutes les données mises à jour après cette date. Il est possible de définir manuellement la dernière date d'écriture de toutes les tables de cette base de données au 1er janvier 1934.