cocconat
/
mindthegap


			
				
					
						
						
							1234567891011121314151617181920212223242526272829303132333435363738
							\chapter{Introduzione}
\paragraph{Non solo una questione da prima pagina:}
La così detta “Big Data Revolution” è ora sulle bocche di tutti: come avremmo potuto tirarci fuori dal coro?
Certamente la scelta dell’argomento è dovuta alla sua attuale rilevanza mediatica.
Eppure per noi non è solo attualità, ma anche un’importante occasione per analizzare come sta evolvendo il metodo di ricerca scientifica e come si stanno trasformando i rapporti sociali, a partire dal lavoro, in relazione allo sviluppo delle nuove tecnologie.
Come Officina questo è sempre uno dei nostri obbiettivi: farsi un’idea critica sulle relazioni che intercorrono fra scienza e società.
In linea con tale spirito, speriamo che il lettore possa trovare in questo documento qualche spunto originale per guardare in modo diverso la realtà della scienza che lo circonda, ci teniamo a chiarire
che la nostra trattazione degli argomenti non ha la pretesa di essere esaustiva, essa si presenta piuttosto come la condivisione in forma scritta di un percorso
assembleare di autoformazione e riflessione.

\paragraph{Cosa sono?}
Come spesso accade è utile in principio aver chiara la definizione. Per big data intendiamo tutte quelle collezioni di dati destrutturati le cui dimensioni superano le capacità di memorizzazione, gestione e analisi tipiche dei tradizionali sistemi per basi di dati. Generalmente le loro caratteristiche vengono riassunte dalle cinque “v”: Volume, Velocità, Varietà, Viralità e Variabilità.
Il volume è chiaramente riconducibile al peso in byte di questi ammassi di dati mentre la velocità è riferita alla generazione e all’accesso di essi. Varietà e variabilità consistono nel fatto che, avendo forme differenti in origine, non possono essere ordinati in una struttura prefissata. Infine la viralità esprime il loro potenziale di impatto sociale dovuto alla veloce diffusione delle informazioni che vi si estraggono.

Un Data Scientist non ci metterebbe più di un minuto a convincervi che è proprio su questa tecnologia che si basa il progresso ai giorni nostri: è su questo che si deve investire, dato che in molti e grandi lo stanno facendo, è su questo che ci si deve specializzare, dato che sempre di più sono e saranno, secondo il trend attuale, gli esperti del settore richiesti. Trend che è positivo e in stabile crescita.
Dal 2016 al 2020 è previsto che si passi da 1,1 a 2,3 ZB di traffico IP (1 ZB = 1012 GB). Qualcuno li ha definiti “il nuovo petrolio” e cercheremo nelle prossime pagine di capirne il motivo.

\paragraph{Chi li produce?}
Noi tutti li produciamo. Quando ognuno di noi compie un’azione interfacciandosi con un dispositivo connesso alla rete, nulla va dimenticato: immediatamente viene generato un file in cui vengono salvati non solo i contenuti testuali o multimediali prodotti dalla nostra azione, ma anche tutte le informazioni ad essi connesse che prendono il nome di metadati.
Perciò quando apriamo Facebook, messaggiamo su Whatsapp, facciamo una ricerca su Google o vediamo un video su Youtube, i server delle aziende appena citate registrano l’indirizzo IP del computer utilizzato, l’ora, il luogo e tutto ciò che fa da contesto alla nostra traccia digitale.

Il grado di consapevolezza rispetto a ciò da parte degli utenti risulta piuttosto variabile: da un parte siamo proprio noi ad accettare Termini e Condizioni di utilizzo dei servizi, dall’altra lo facciamo spesso senza sapere come i dati che generiamo vengono poi analizzati, e le deduzioni che ne vengono tratte. Dal momento che in questi server lo spazio di archiviazione dei dati è sufficientemente enorme, non c’è motivo per non conservarli. Quel che non strozza ingrassa e tutto, come vedremo, può sempre tornare utile.

Ma oltre a questi dati ci sono quelli prodotti da dispositivi non virtuali come le stazioni metereologiche, le webcam, i sensori del traffico, quelli di sicurezza, le immagini satellitari, i geo localizzatori, e tutti quegli oggetti, sempre più diffusi, il cui utilizzo viene integrato da una connessione ad Internet (Internet of Things \ref{}).
Infine ultimi, ma non per importanza, vi sono i dati tradizionali, raccolti dalle agenzie pubbliche, dagli ospedali, dalle banche e dai laboratori di ricerca.

\paragraph{E poi… come vengono utilizzati?}
Una volta prodotti e acquisiti i dati sarebbe un peccato non utilizzarli per qualche scopo pratico che implichi possibilmente un margine di guadagno.
Ma a seconda di quale scopo si cerchi di soddisfare varia il processo di elaborazione, analisi, e interpretazione di questii.
Ad esempio, sarà capitato a molti di voi di vedere Google suggerirvi una chiave di ricerca diversa da quella che avevate digitato, il classico “forse cercavi: ….?” Come fa Google a sapere meglio di te quello che vuoi trovare? La risposta è che Google impara da tutte le ricerche precedentemente fatte dai suoi utenti collezionando tutti i dati e metadati relativi a queste. Quindi quella che viene valutata è la coerenza della vostra ricerca con la Storia delle altre già effettuate.

Sicuramente, un’applicazione in cui Big Data giocano un ruolo fondamentale è quella della profilazione degli utenti e quindi di tutte le sue conseguenze. L’esempio più semplice è quello della pubblicità mirata che possiamo esperire tutti i giorni considerando i banner che, ad esempio, dopo aver comprato un volo per Cuba, mostreranno durante giorni seguenti alternative di viaggio in offerta, guide economiche del Paese e busti di Fidel in plastica colorata.
La profilazione tuttavia non si ferma ad un semplice resoconto delle abitudini dell’utente sulla rete ma può consistere in un vero e proprio tracciamento del suo profilo psicologico. Questa possibilità apre la strada a nuove modalità di orientamento dell’opinione pubblica e di propaganda elettorale di cui si è avuto un esempio concreto durante le ultime presidenziali negli USA \ref{}.

Diverso è il caso in cui si voglia con i dati a disposizione fare una predizione su una situazione futura. In questo caso essi non devono solo consentire una ricostruzione del contesto da cui sono stati estratti, ma devono altresì permettere di prefigurarsi come si modificherà tale situazione dopo un certo tempo. Questa capacità predittiva può avere differenti pretese che vanno dal semplice sondaggio, al controllo sociale sino all’effettiva necessità di fare previsioni su fenomeni fisici i cui modelli teorici non sono stati ancora sviluppati. Quest’ultima pretesa in particolare è al centro di un dibattito accademico molto accesso tutt’ora in corso \ref{}.

Abbiamo qui dato una panoramica generale sul tema dei big data delineandone le caratteristiche chiave e i principali utilizzi. Nei capitoli che seguono entreremo maggiormente in dettaglio su alcuni aspetti e questioni che sia da una prospettiva tecnico-scientifica che da un punto di vista sociale si collegano al fenomeno battezzato come “big data revolution”.