Modelo de Depósito de datos de Rational Insight

Depósito de datos de IBM® Rational Insight (RIDW) es el componente que almacena datos de diversos sistemas en un formato que facilita la creación de informes analíticos y proporciona el motor necesario para la optimización de consultas, el análisis multidimensional y las tendencias históricas. La estructura de datos es diferente de la de los sistemas transaccionales en tiempo real, que generalmente almacenan información en un formato normalizado. Mientras que los datos entrantes recorren varias etapas durante las cuales se almacenan temporalmente en tablas normalizadas, el formato final utilizado es un esquema de estrella. En esta sección se describe la estructura básica de RIDW.

Áreas de almacenamiento de datos

RIDW contiene tres áreas de almacenamiento de datos:

Área de configuración

Esta área almacena información de configuración importante sobre entidades como, por ejemplo, orígenes de datos de productos y calendarios. El área de configuración contiene los valores de referencia del depósito. Contiene cuatro tablas principales:
Tabla 1.
Nombre de tabla Finalidad de la tabla
SYS_CONFIG Contiene información de configuración del sistema, como, por ejemplo, el tipo de calendario de dimensión de la fecha.
ETL_INFO Contiene información de configuración de extracción, transformación y carga (ETL), como, por ejemplo, planificación ETL (diaria, semanal o mensual)
Para que haya compatibilidad con varios orígenes de datos, RIDW da soporte tanto a tipos de fecha ISO como gregorianos. Puede seleccionar los valores de configuración cuando se instale el depósito y antes de ejecutar una transacción ETL.

Almacén de datos operativos

Es el área donde se recibe, se consolida y se almacena la información recopilada de los orígenes de datos durante el proceso ETL. RIDW ofrece soporte a los productos siguientes: IBM Rational ClearQuest (esquemas Enterprise y ALM), IBM Rational ClearCase, IBM Rational Requisite Pro, IBM Rational Team Concert, IBM Rational Test Manager, IBM Rational Quality Manager, IBM Rational Team Manager y Microsoft® Project. A continuación, los datos se limpian y se procesan para garantizar la coherencia entre varios orígenes. Los principios de diseño de la base de datos RIDW buscan garantizar lo siguiente:
  • Rastreabilidad de los datos hasta los sistemas operativos de origen
  • Agrupación de elementos basados en asuntos
  • Presentar una área normalizada unificada independiente de los orígenes de datos
Columnas de control
El proceso ETL añade unas cuantas columnas adicionales que contienen información de control utilizada más adelante por RIDW. Por ejemplo, las tres siguientes columnas obligatorias ofrecen información de identificación:
  • EXTERNAL_KEY1 almacena la clave natural si es un entero
  • EXTERNAL_KEY2 almacena la clave natural si es de tipo varchar
  • SOURCE_ID almacena el valor GUI del origen de datos
Los usuarios finales no necesitan configurar GUID ya que se asigna a un origen de datos durante la fase de diseño.

También se añaden dos columnas de control adicionales: ISSOFDELETED y REC_DATETIME.

ISSOFDELETED se utiliza para marcar un registro que se ha suprimido físicamente del origen original. El valor debe establecerse en 1 si se suprime el registro y en 0 si no se suprime nada.
Nota: los registros del área normalizada nunca deben suprimirse físicamente puesto que podrían estar enlazados a medidas en el área de hechos y el área de dimensiones.
REC_DATETIME es una columna de indicación de fecha y hora cuyo valor se establece en la base de datos siempre que se inserta un registro y posteriormente el proceso ETL lo actualiza en caso de que tenga que actualizarse un registro.

Claves sucedáneas

Las claves sucedáneas son las claves primarias creadas por el proceso ETL. Son necesarias para alterar temporalmente las diferencias entre los formatos de las claves primarias desde diferentes orígenes. En cada tabla extraída, RIDW crea sus propias claves primarias y conserva la clave original en las columnas EXTERNAL_KEY1 o EXTERNAL_KEY2. Las claves sucedáneas son enteros basados en 0.

Tablas de clasificación

Son tablas que representan artefactos utilizados habitualmente, como, por ejemplo, proyectos, solicitudes, requisitos, tareas, actividades y componentes. Se reconocen por el nombre, que contiene la palabra “CLASSIFICATION”. Cada tabla de clasificación contiene un tipo de registro definido previamente que representa un conocimiento común del artefacto. El proceso ETL gestiona la conversión de tablas extraídas en tablas de clasificación.

Registro ficticio

Todas las clasificaciones y tablas de artefactos contienen una fila ficticia identificable mediante un valor de clave primaria de -1. Las filas ficticias dan soporte a la normalización de los datos en caso de que se definan valores nulos de las restricciones referenciales.

Área de hechos y dimensiones

El área de hechos y dimensiones implementa un diseño con un esquema de estrella, que es un conjunto de hechos, dimensiones y tablas de rastreabilidad histórica. Una tabla de hechos contiene las medidas o ‘hechos’ de un proceso empresarial determinado. Por ejemplo, si la gestión de proyectos es un proceso que se desea medir, entonces una tabla de hechos correspondiente podría contener el número de requisitos. Las tablas de dimensiones contienen atributos empleados para restringir y agrupar datos cuando se realizan consultas de almacenamiento de datos. Si el número de requisitos es una tabla de hechos, tal vez desee utilizar como dimensión el tipo de requisito.

Convenios de diseño

Los nombres de tablas de dimensiones empiezan por “D_” y tienen teclas sucedáneas para identificar registros. Los nombres de tablas de hechos empiezan por “F_”, mientras que las tablas que ofrecen una visión histórica sobre las medidas encontradas en las tablas de hechos empiezan por “H_”. Normalmente, la clave primaria es una combinación de clave sucedánea de la medida y la clave sucedánea del artefacto que ha contribuido a la medida. Los nombres de tablas de hechos que empiezan por “F_C_” son equivalentes a la tabla de hechos de tendencias originales, salvo que sólo almacenan la instantánea más reciente de los datos, mientras que las otras acumulan datos para que se muestren las tendencias a lo largo del tiempo. La despensa de datos también comprende un conjunto de vistas que ofrecen una ventana al almacén de datos operativos, con la finalidad de profundizar más para obtener más detalles o la posibilidad de ofrecer informes de listas.

Columnas de control

Todas las tablas de hechos tienen una columna que hace referencia a la dimensión de fecha D_DATE. En cuanto a las tablas de tendencias, la fecha en este contexto indica la fecha en que se realizó la instantánea de los datos. Para las otras tablas de hechos, la fecha refleja la aparición de un suceso, como por ejemplo, la creación de un registro. La instantánea de los datos se puede etiquetar en función de si es ‘por día’, ‘por semana’, o ‘por mes’ en función del valor almacenado en la tabla SYS_CONFIG del área de configuración. Otras columnas de control incluyen la columna REC_DATEIME, que sirve de indicación de registro para la inserción o actualización de un registro.

Registro de indicadores NULL

Al igual que en el almacén de datos operativos, las tablas de dimensiones contienen una fila de indicadores NULL identificable con un valor de clave primaria de -1. Representa el valor NULL para tablas con restricciones.


Comentarios