• Big-Data

    Big Data

    In questo articolo vedremo in quale contesto nasce il concetto di Big Data, l’evoluzione della gestione dei dati, che cosa si intende per Big Data.

    Introduzione ai Big Data

    La gestione e l’analisi dei dati hanno sempre fornito molteplici benefici alle aziende di tutte le dimensioni e in tutti i settori, ma non si è mai trattato di una cosa semplice. L’adozione di un approccio pragmatico da parte delle aziende per l’acquisizione di informazioni sui loro clienti poteva essere facilmente ottenibile quando i concorrenti erano pochi, i clienti erano pochi e compravano tutti lo stesso prodotto nello stesso modo. Ma nel corso del tempo, i mercati sono cresciuti in volume e complessità. Gli strateghi del marketing hanno spesso suggerito (e molto spesso si è rivelato un errore in termini di posizionamento del brand) estensioni di linea dei propri prodotti e diversificazione dei mercati target, con l’inevitabile conseguenza di una complicazione esponenziale della gestione e dell’analisi dei dati sui clienti, sui prodotti, sui mercati, sui trend, sui concorrenti.

    analisi-dati

    Ma le sfide legate alla gestione dei dati non si limita al business. Gli enti e le organizzazioni di Ricerca e sviluppo, ad esempio, sono sempre alla ricerca di soluzioni per aumentare la potenza di calcolo per potere di analizzare e simulare modelli sofisticati o per elaborare sorgenti di dati scientifici per le loro ricerche.
    Alcuni dati sono strutturati e memorizzati in un database relazionale tradizionale, mentre altri i dati (ad esempio video e immagini) non sono strutturati. Le aziende oggi possono usufruire di nuove fonti di dati, alcuni generati da macchine (come videocamere e sensori), altri generati dall’attività dell’uomo (come i dati provenienti da social media e quelli generati dalle interazioni con i siti web). E in più, la disponibilità e l’adozione di dispositivi mobili sempre più potenti e sempre connessi, sta portando alla creazione di nuove fonti di dati.

    mondo-connesso

    Sebbene ciascuna sorgente di dati possa essere gestita in modo autonomo e indipendente, la sfida di oggi per le aziende è dare un senso all’intersezione di tutti questi dati provenienti da fonti diverse. E’ impossibile pensare di gestire tutta questa mole di dati in modo tradizionale ed è questa l’opportunità e la sfida dei Big Data.

    L’evoluzione della gestione dei dati

    Prima di entrare nel dettaglio di cosa sono e di come si caratterizzano i Big Data, può essere utile effettuare una panoramica dell’evoluzione della gestione dei dati, perché gli stessi Big Data sono una combinazione degli ultimi cinquant’anni di tecnologia dell’informazione.

    L’evoluzione della gestione dei dati si può riassumere in tre diverse fasi, ciascuna delle quali parte dalla necessità di risolvere uno specifico tipo di problema nella gestione dei dati.

    Fase 1: creazione di strutture dati facilmente gestibili

    Quando l’informatica cominciò a fare il proprio ingresso nel mercato alla fine degli anni ’60, i dati erano memorizzati in file flat senza nessuna struttura e l’acquisizione delle informazioni utili per il business era lenta e dispendiosa. Le cose cambiarono negli anni ’70 con l’introduzione del modello relazionale e dei DBMS, che hanno imposto una struttura ai dati memorizzati e migliorato notevolmente le prestazioni. Il modello relazionale ha aggiunto con l’SQL un livello di astrazione facilitare i programmatori nella gestione dei dati.
    Il modello relazionale ha offerto alle aziende sia soluzioni per l’operatività quotidiana (gestione di magazzino, prodotti, ordini, fatture, clienti, etc …) che soluzioni per i dirigenti aziendali a fini decisionali. La crescita smisurata del volume dei dati ha portato le aziende ad adottare la soluzione Data Warehouse (a partire dagli anni ’90), che ha separato la gestione operativa da quella analitica e decisionale, e ha consentito di gestire grandi quantità di dati strutturati in modo da aggregare e sintetizzare i dati su cui focalizzarsi di volta in volta. L’adozione dei Data Mart ha ulteriormente focalizzato l’attenzione su questioni specifiche e ha reso l’analisi del business più agile. DMBS, Data Warehouse e Data Mart sono stati soluzioni più che adeguate per le aziende per anni, fino a quando si è posto il problema della gestione di grosse moli di dati non strutturati. L’introduzione del BLOB (Binary Large Object) in un database relazionale non risolveva il problema. Da qui l’affermazione degli Object Database Management System (ODBMS), che forniva un approccio più unificato per la gestione dei dati non strutturati.

    Fase 2: web e gestione dei contenuti 

    La maggior parte dei dati disponibili non è strutturato e le aziende paradossalmente hanno investito nei sistemi con dati strutturati. A partire dagli anni ’80 sono nati i sistemi di Enterprise Content Management (ECM), per aiutare le aziende a gestire i dati non strutturati, per lo più documenti. Negli anni ’90, con la diffusione di Internet, le aziende hanno avuto la necessità di andare oltre i documenti e gestire i contenuti del web, come immagini, audio e video.
    Il mercato si è evoluto da un insieme di soluzioni indipendenti e scollegate tra loro ad un modello più uniforme che ha riunito questi elementi in una piattaforma che incorporava la gestione del processo di business, il controllo di versione, il riconoscimento delle informazioni, la gestione dei testi etc … La convergenza di fattori come la diffusione capillare del web e dei dispositivi mobili, della virtualizzazione e del cloud computing hanno portato alla produzione di dati di volumi senza precedenti, di diverse tipologie che devono essere gestite con grande rapidità.

    Fase 3: la gestione dei Big Data

    Il costo della memorizzazione delle informazioni oggi si è notevolmente più basso. La virtualizzazione, la memorizzazione su soluzioni cloud e la velocità di accesso alla rete hanno consentito memorizzare quantità di dati che fino a qualche anno fa era impensabile poter memorizzare. Oggi le aziende, i governi e gli enti di ricerca possono analizzare petabyte di dati (equivalenti a 13 anni di contenuti HDTV) con prestazioni accettabili e cominciare a dare un senso ai dati in una modalità totalmente nuova. Oltre ai dati di mercato, esempi dell’utilizzo di grandi quantità di dati sono l’analisi del genoma umano, i dati raccolti dagli osservatori astronomici, le informazioni legate all’attività di antiterrorismo.

    Definizione di Big Data

    Con il termine Big Data ci si riferisce quindi a dei dati che causa dell’estensione in termini di volume (dimensione dei dati), velocità o varietà (formato), non possono essere facilmente memorizzati, gestiti o analizzati con strumenti tradizionali come fogli di calcolo, database relazionali o software statistici non convenzionali, ma richiedono tecnologie e metodi analitici specifici. Quando si parla di Big Data non si parla di una singola tecnologia, ma una combinazione di vecchie e nuove tecnologie che aiutano le organizzazioni ad ottenere informazioni utili e dettagliate. Quindi, con Big Data si intende la capacità di gestire un enorme volume di dati di diversa tipologia, alla giusta velocità e nella finestra temporale utile a consentire un’analisi e una reazione in tempo reale. Un modo per descrivere i Big Data proviene dall’articolo di Doug Lane del 2001, in cui si parla delle tre V, cioè Volume, Velocità, Varietà.

    bigdata-3v

    Volume

    La V di Volume è quella che meglio rappresenta i Big Data. La dimensione dei dati disponibili è cresciuta ad un tasso crescente.Stiamo parlando di quantità di dati che raggiungono proporzioni quasi incomprensibili. E questo vale sia per le aziende che per gli individui. Un file di testo è di pochi Kbyte, un file audio occupa un paio di Mbyte, un film di media durata occupa pochi Gbyte. Facebook, per esempio, memorizza (tra le altre cose) fotografie. A marzo 2017, Facebook conta più di un miliardo e 800 milioni di utenti attivi (più dell’intera popolazione della Cina). Questi utenti caricano ogni giorno 300 milioni di foto. Quando parliamo di dimensioni, parliamo di una quantità di dati inimmaginabile che cresce in modo esponenziale.

     

    bigdata-volume

    Velocità

    La crescita dei dati e l’esplosione dei social media hanno cambiato il modo in cui guardiamo i dati. C’è stato un tempo in cui eravamo abituati a pensare ai dati del giorno prima come recenti. La logica dei giornali stampati è questa, ma la nascita dei canali di notizie e dei giornali online hanno modificato radicalmente la velocità di ricezione e di aggiornamento della notizia. Il movimento dei dati di oggi è in tempo quasi reale e la finestra di aggiornamento si è ridotta a frazioni di secondi.

    bigdata-velocità

    Varietà

    I dati possono essere memorizzati in diversi formato. Possiamo avere un testo non strutturato, come libri e post di blog e commenti su articoli di notizie e tweet. Secondo una ricerca recente, l’80% (quindi la maggior parte) dei dati aziendali è non strutturato. Testi, immagini, video, audio, dati telemetrici, dati strutturati, documenti, metadati … La gestione di questa diversità di dati pone problematiche di non facile risoluzione con i sistemi tradizionali.

    bigdata-varietà

     

     

    Anche se è conveniente semplificare le caratteristiche dei Big Data con le tre V, può essere fuorviante e troppo semplicistico. Ad esempio, si può gestire una piccola quantità di dati molto disparati e complessi. Oppure un enorme volume di dati molto semplici (strutturati o meno).

    Un elemento molto importante è la quarta V: la veridicità. I dati sono attendibili? Qual è il loro livello di precisione?

    bigdata-4v

     

     

    Giulio Cantali – IT Consultant

    Creatore di Database Master, il primo percorso per diventare esperti di database

Lascia un commento

Se vuoi condividere la tua opinione, lascia un commento

Puoi usare questi tag e attributi: HTML:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">