Vai al contenuto

Big data e database

b1

Big Data è un termine popolare usato per descrivere la crescita esponenziale della disponibilità dei dati, sia strutturati che non strutturati. Questi dati possono rappresentano una fonte importante per le imprese e la società perchè consentono alle aziende di prendere decisioni con più sicurezza. E prendere decisioni migliori può significare maggiore efficienza operativa, riduzione dei costi e riduzione del rischio.

Ogni giorno circa 2 miliardi e mezzo di persone hanno accesso alla Rete e producono la bellezza di 2,5 quintilioni di byte (ovvero 10^30 byte, cioè 1 seguito da 30 zeri, mentre, per comparazione, un gigabyte è “soltanto” 10^9 byte). Il 90% di tutti i dati sinora prodotti sono stati creati nell’arco dell’ultimo biennio. I dati vengono immagazzinati attraverso qualsiasi mezzo: dai sensori per la raccolta di informazioni sul clima ai post sui social network, passando per video e immagini digitali, dati GPS raccolti attraverso smartphone e tablet e trascrizione delle transazioni di acquisto.

In altre parole, i Big Data sono la raccolta, in immensi Data Set (ovvero insiemi di dati relativi a un tema specifico), di queste informazioni, siano esse eterogenee o meno. Nel 2001, l’analista Doug Laney ha articolato una definizione specifica per i Big Data attraverso 3 V:

  • Volume: è la somma delle grandezze dei vari file che compongono il data set. In passato, l’eccessivo volume dei dati rappresentava un problema per lo stoccaggio degli stessi. Con la diminuzione dei costi degli storage, sono sorte altre questioni, tra cui il modo di determinare e creare valore da questi grandi volumi di dati.
  • Velocità: è la capacità dei dati di fluire nei centri di elaborazione nel minor tempo possibile, offrendo così la possibilità di effettuare analisi in pochissimo tempo e ottenere dati sempre aggiornati;
  • Varietà: è data dalle fonti attraverso le quali si raccolgono i dati (possono essere, ad esempio, dati di testo, dati video, file di log, ecc.). Gestire, incrociare e analizzare dati da fonti diverse è ancora un grande ostacolo per molte aziende.

I Big Data, quindi, possono essere definiti come quei data set che, per la loro grandezza e complessità,  non possono essere trattati con strumenti classici utilizzati nei sistemi di gestione dei database relazionali, ma debbono essere analizzati utilizzando strumenti “speciali” in tutte le fasi dell’analisi. Per contro, essi permettono di cogliere aspetti e sfumature altrimenti difficilmente rilevabili.

Perchè i big data?

La speranza comune nelle aziende è riuscire a prendere i dati da qualsiasi fonte, sfruttare i dati pertinenti e analizzarli per trovare risposte che consentano

  • la riduzione dei costi,
  • la riduzione del tempo nei processi di lavoro
  • lo sviluppo di nuovi prodotti e di servizi ottimizzati
  • l’attivazione di processi decisionali di business

Per esempio, analizzando i Big Data con gli appositi strumenti, sarebbe possibile:

  • Determinare le cause di guasti, problemi e difetti in tempo quasi reale, risparmiando migliaia di euro ogni anno
  • Ottimizzare i percorsi per molte migliaia dei veicoli mentre sono sulla strada
  • Analizzare milioni di SKU (codice di un prodotto) per determinare prezzi che massimizzano il profitto
  • Generare coupon di vendita al dettaglio presso il punto di vendita basato su acquisti attuali e passati del cliente
  • Inviare messaggi promozionali su misura per i dispositivi mobili, mentre i clienti si trovano in una determinata per approfittare delle offerte
  • Identificare rapidamente i clienti che contano di più (che spendono di più)
  • Individuare comportamenti fraudolenti

L’analisi complessiva di una mole spropositata di informazioni permette di cogliere relazioni altrimenti non rilevabili e per questo pregiate: si può arrivare, ad esempio, a individuare gli “umori” del mercato, oppure comprendere e sfruttare a proprio vantaggio (commerciale, strategico, ecc.) i flussi di dati e informazioni che ogni giorno viaggiano sulla Rete.

Un caso di studio: UPS

Il corriere internazionale UPS, ha cominciato a “catturare” e monitorare i movimenti dei pacchetti e delle operazioni fin dagli anni ’80. Oggi, la società traccia i dati di circa 16 milioni di pacchi al giorno per 8,8 milioni di clienti, con una media di 39,5 milioni richieste di monitoraggio da parte dei clienti ogni giorno giorno. La società gestisce più di 16 petabyte di dati al giorno.

Gran parte di questi dati provengono dai sensori installati in più di 46.000 veicoli che trasmettono telematicamente i dati ai server. Su un camion dell’UPS, per esempio, vengono rilevati la velocità, la direzione, la frenata e la trasmissione. I dati non vengono solo usati per monitorare le performance giornaliera, ma anche per riprogettare e ottimizzare la rete delle rotte stradali. L’iniziativa, denominata ORION (On-Road Integration Optimization and Navigation), è probabilmente il più grande progetto di ricerca operativa del mondo e ha già portato a un risparmio nel 2011 di oltre 8,4 milioni di litri di carburante, tagliando 85 milioni di miglia nei percorsi giornalieri. UPS stima che risparmiando un solo miglio al giorno (meno di 2 km) per ogni autista, l’azienda risparmia 30 milioni di dollari l’anno. La società sta inoltre tentando di utilizzare i Big Data e le analisi correlate per ottimizzare l’efficienza dei suoi 2.000 voli aerei al giorno.

La questione della privacy

Negli ultimi anni, però, sono state avanzate critiche nei confronti dei Big Data, soprattutto per le implicazioni che lo legano al mondo della privacy e della protezione dei dati personali. “Un problema cruciale – affermano in un loro lavoro di critica tre studiosi del settore come Snijder, Matzat e Reips – è che si sa ancora poco dei microprocessi empirici che portano alla formazione delle caratteristiche tipiche delle reti dei Big Data”. E proprio questa scarsa conoscenza ha forti ripercussioni a livello di privacy.

La protezione dei dati personali viene ripetutamente messa a rischio dal continuo accumulo di informazioni. Qualche malintenzionato, se dotato degli adeguati strumenti di analisi, potrebbe sfruttare queste informazioni per ricostruire i profili personali di utenti Internet. Per questi motivi, le grandi aziende come Google, Amazon, Yahoo, stanno lavorando su dei protocolli di intesa per offrire agli utenti una sorta di protezione che metta gli utenti finali al riparo da questi pericoli.