• etl-schema

    Datawarehousing e strumenti ETL

    I dati in un sistema di Datawarehousing vengono caricato con strumenti ETL (Extract, Transform, Load), che eseguono le seguenti tre operazioni:

    • Estraggono i dati dai sistemi sorgenti, come un sistema RBDMS transazionale o da file flat (fogli di calcolo o CSV);
    • Trasformano i dati eseguendo operazioni di pulizia dei dati;
    • Caricano i dati nel data warehouse.

    Il ruolo degli strumenti ETL nel Datawarehousing

    Il ruolo degli strumenti di ETL consiste nell’alimentare una singola sorgente di dati, per fare in modo che sia dettagliata, esauriente e di alta qualità. Questa a sua volta andrà ad alimentare il data warehouse.

    Una società di produzione che ha diversi reparti: vendite, risorse umane, gestione dei materiali, magazzino, ecc … Tutti questi reparti magari utilizzano database diversi, o sono progettati con finalità diverse, o semplicemente usano nomi di tabelle e colonne impostati con una naming convention diversa. Se l’azienda ha la necissità di analizzare i dati storici e generare report, tutti i dati provenienti da queste sorgenti di dati devono essere a disposizione in modo semplice e coerente. Uno strumento ETL estrae i dati da tutte queste fonti di dati eterogenee, li trasforma (effettuando dei calcoli, unendo campi, eliminando dati non corretti), e li carica in un data warehouse. Solo successivamente è possibile utilizzare diversi strumenti di Business Intelligence (BI) per generare report significativi, dashboard e visualizzazioni utilizzando questi dati.

    etl

    Gli strumenti ETL svolgono in modo automatico (o parzialmente automatico) le funzioni di estrazione, trasformazione e caricamento dei dati nel data warehouse.

    In un articolo precedente sul Datawarehousing abbiamo visto come nelle architetture più complete i dati vengono importati dalle sorgenti dati all’area di staging mediante procedure ETL. L’area di staging raccoglie i dati eterogenei provenienti dai sistemi esterni e dalle sorgenti dati interne. Questi dati vengono estratti, ripuliti per eliminare le inconsistenze, completati con eventuali dati mancanti. I dati operazionali ottenuti a valle del processo di integrazione e ripulitura dei dati a livello sorgente vengono materializzati ad un livello di alimentazione dei dati riconciliati.

     

    livelli etl

     

    Il livello dei dati riconciliati, anche se introduce un’ulteriore ridondanza rispetto ai dati operazionali sorgente, fornisce un modello di dati comune e di riferimento per l’intera azienda. Inoltreintroduce una separazione netta tra le problematiche legate all’estrazione e integrazione dei dati dalle sorgenti e quelle inerenti l’alimentazione del DW.

    Estrazione

    TBD

    Trasformazione

    TBD

    Caricamento

    TBD

    Giulio Cantali – IT Consultant

    Creatore di Database Master, il primo percorso per diventare esperti di database

Lascia un commento

Se vuoi condividere la tua opinione, lascia un commento

Puoi usare questi tag e attributi: HTML:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">