Cattura dati modificati

È necessario che i dati vengano periodicamente estratti dai sistemi di origine e trasformati per il data warehouse. Questo processo viene comunemente definito 'aggiornamento del data warehouse'. Il metodo di aggiornamento più efficace consiste nell'estrarre e trasformare solo i dati che sono stati modificati dal momento dell'ultima estrazione.

La tecnica di cattura dei dati modificati nell'infrastruttura di Cúram Business Intelligence and Analytics identifica ed elabora solo i dati che sono stati modificati in ciascuna delle tabelle di un database e rende disponibili i dati modificati al data warehouse. L'infrastruttura di Cúram Business Intelligence and Analytics è stata progettata in modo tale che l'aggiornamento avvenga ogni notte. Tuttavia, l'implementazione è flessibile ed è possibile eseguire l'aggiornamento a una frequenza diversa.

La cattura dei dati modificati include l'utilizzo di un tabella di controllo che memorizza la data dell'ultima scrittura per ciascuna tabella che viene popolata. Quando viene eseguito un processo ETL, viene anche aggiornato il campo relativo all'ultima scrittura per quella tabella. All'esecuzione del successivo ETL, il processo legge prima da questa tabella di controllo e poi estrae i dati che sono stati aggiornati dal momento del precedente ETL.

È importante notare che, affinché la cattura dei dati modificati funzioni, tutti i campi relativi all'ultima scrittura devono essere popolati nelle tabelle di origine da cui l'infrastruttura di Business Intelligence estrae i dati. Come già descritto, una riga nella tabella di controllo ETL viene aggiornata prima e dopo ogni ETL della tabella da aggiornare. Ciò funziona se i processi ETL chiamano una trasformazione di preassociazione per leggere la precedente data di ultima scrittura e impostando la data di estrazione. Una volta eseguito l'ETL viene chiamata una trasformazione postassociazione che aggiorna la data dell'ultima scrittura alla data corrente.

Dopo che la tabella di controllo ETL è stata popolata per la prima volta con i dati, la data dell'ultima scrittura viene reimpostata su una data iniziale per assicurare che i processi ETL estraggano tutti i dati aggiornati dopo tale data. È impossibile impostare manualmente la data dell'ultima scrittura per tutte le tabelle in quel database sul 1° gennaio 1934.