De manière schématique, l'agrégation est un processus consistant à calculer les données récapitulatives à partir des enregistrements d'une table de faits au niveau de détail de base. Les agrégats représentent un outil puissant pour augmenter la vitesse de traitement des requêtes dans des magasins de données dimensionnels. La procédure d'agrégation est généralement effectuée à l'aide des attributs d'une dimension qui font partie d'une hiérarchie.
Chaque attribut qui fait partie d'une hiérarchie est associé en tant que parent ou enfant à d'autres attributs de la hiérarchie. Cette relation parent-enfant fournit différents niveaux de regroupement. Les différents niveaux de regroupement permettent à l'utilisateur de naviguer dans le rapport. L'extraction de données agrégées à un niveau élevé est plus rapide que celle de données détaillées, définies au niveau atomique. La table de faits occupe généralement beaucoup plus d'espace que les données agrégées.
Le niveau d'agrégation le plus faible (ou le niveau de détail le plus élevé) est appelé le grain de la table de faits. La granularité de la dimension a une incidence sur la conception du stockage des données et le mode d'extraction des données.
L'agrégation n'est pas une solution pour réduire la taille des tables de faits volumineuses et détaillées. Si les données de la table de faits sont récapitulées, les informations détaillées définies sous forme de dimensions et de mesures sont souvent perdues. Si l'entreprise a besoin des données détaillées d'une table de faits récapitulée, ces données ne sont pas disponibles. L'utilisateur doit rechercher les données détaillées dans le système OLTP source qui fournit les données de la table de faits agrégée. Si l'entreprise doit utiliser les systèmes OLTP source pour obtenir des réponses, déterminez si un modèle dimensionnel est réellement nécessaire.
Evitez de combiner des données agrégées et des données détaillées en incluant des mesures agrégées Cumul à ce jour avec les mesures détaillées. Les mesures Cumul à ce jour s'ajoutent. Si vous combinez les types de données, des calculs erronés risquent d'apparaître.
Lorsque vous partitionnez une table, vous la fractionnez par ligne et/ou par colonne. Si une table est fractionnée par colonne, la table a une partition verticale. Si vous la fractionnez par ligne, la table a une partition horizontale. Le partitionnement de tables de faits volumineuses améliore les performances car chaque partition est plus facile à gérer. Partitionnez une table en fonction de la dimension de date transactionnelle d'un modèle dimensionnel. Par exemple, si une table de faits volumineuse comporte des milliards de lignes, l'idéal serait d'affecter à un mois de données sa propre partition.