cocconat
/
mindthegap


			
							123456789101112131415161718192021222324252627282930313233
							\chapter{Scienza}

I Big Data rappresentano sicuramente una fonte di innovazione notevole nell'ambito della ricerca scientifica. Le nuove tecniche di accumulazione ed analisi dei dati sono divenute strumenti imprescindibili in moltissimi settori della scienza. Questo innegabile progresso ha portato una parte della comunità scientifica a sostenere che di fatto il fenomeno dei Big Data vada oltre il semplice avanzamento tecnico, ma implichi addirittura un nuovo paradigma scientifico, ovvero una nuova modalità di produzione delle verità scientifiche.
Crediamo sia opportuno addentrarci nel dibattito accademico scaturito da questa nuova posizione. Nei prossimi paragrafi proveremo quindi da un lato a descrivere brevemente le tecniche sopracitate insieme al loro utilizzo nel caso paradigmatico della biologia molecolare; dall'altro ad analizzare lo schema di argomentazioni degli "entusiasti" dei Big Data mettendone in evidenza alcuni punti critici.  
Procediamo in questo modo convinti del fatto che l'analisi dettagliata di qualunque tipo di innovazione debba andare di pari passo con la capacità di vedere oltre le narrazioni autocelebrative che spesso la accompagnano. 

\section{Machine Learning}
Quando vi sono dei modelli teorici questi schematizzano il problema, ne individuano le variabili rilevanti e le mettono in relazione in modo tale che se ne possa dedurre il risultato al variare del tempo. Quando invece questi mancano e non è noto né quali siano le caratteristiche dell'oggetto rilevanti  da prendere in considerazione, né quale relazione intercorra fra queste e la predizione viene fatta in altro modo. 
Negli ultimi anni vasto e rapido è stato lo sviluppo di metodi  informatici come il Machine Learning. Sotto questo nome si raccolgono moltissimi algoritmi di analisi diversi, ma essenzialmente le tecniche di processamento dei dati sono due: l’apprendimento supervisionato e quello non supervisionato. Di cosa si tratta? In cosa differiscono?
Quel piccolo avverbio negativo sta ad indicare una differenza sostanziale: nel primo caso abbiamo dei dati con certe caratteristiche che sono divisi in un certo numero di classi. La macchina impara da questi dati  le regole per suddividere i prossimi input nelle diverse classi. 
Se consideriamo come esempio individui con un profilo facebook possiamo raggrupparli nelle classi di “timidi” e “estroversi” in base a un nostro personale metro di giudizio. Successivamente prendiamo in considerazione per ognuno il numero degli amici che ha associati al suo profilo e facciamo sì che la macchina impari come questa caratteristica si associa alla suddivisione in classi. In questo modo chi il giorno successivo crea un nuovo profilo e manda un certo numero di richieste di amicizia è subito classificato sulla base di queste in timido o il suo contrario. 
Si tratta di un esempio banalizzante: è evidente che non basta il numero degli amici su facebook per definire quanto qualcuno è effettivamente propenso all’interazione sociale. Ma se oltre al numero di contatti si considerassero anche il numero di post pubblicati, quelli commentati, i like messi a determinate pagine e il numero e tipo di gruppi a cui si è iscritti la classificazione ottenuta sarebbe forse meno discutibile.
Nella seconda tecnica, quella dell’apprendimento non supervisionato, i dati non sono in partenza associati a classi, e quello che gli algoritmi devono riuscire a fare è definire dei gruppi di oggetti in base alle loro somiglianze. In altre parole si dice che devono svelare correlazioni intrinseche.  sia quali siano le classi, sia come i dati sono associati a queste. 
Con queste tecniche si ottengono correlazioni fra i dati sufficienti a stimare, con un grado di accuratezza che dipende dalla quantità e qualità dei dati presi in esame. 


\section{Nuovo paradigma scientifico}

Esiste una parte consistente della comunità scientifica che ritiene l'apporto dei big data capace di eliminare la necessità di produrre teorie. Questo paradigma è ben riassunto dall'affermazione solo in parte provocatoria "bastano le correlazioni" contenuta nell'articolo di Andersen dello 2002 titolato "The end of theory". \cite{the_end_of_theory}.
Più concretamente oggi istituti di ricerca come l'ISI FOUNDATION stando lavorando precisamente in questa direzione.
Cerchiamo di spiegarci meglio: per definizione la scienza cerca di studiare vari fenomeni andando a evidenziare di volta in volta le variabili rilevanti del problema e ipotizzando, tramite un modello, delle relazioni causali fra queste. A quel punto il metodo sperimentale permette, a partire dal confronto fra previsioni teoriche ed esperimenti, di verificare la veridicità delle ipotesi. Quello che oggi si sostiene in alcuni ambiti della ricerca scientifica, è la possibilità che un algoritmo possa di fatto sostituire il sopracitato procedimento teorico, arrivando alla comprensione del problema in modo più efficiente di quanto un essere umano possa fare.
Potrebbero sorgere alcune domande su due piani diversi: l'approccio Big Data nel dare risposte è davvero così universale? Può essere considerato un metodo generale e affidabile nell'approcciare una grande varietà di problemi?
In secondo luogo, ammesso che ci riesca, una volta risolto il problema in questo modo, che tipo di conoscenza si acquisisce? In che modo essa differisce da quella ottenuta con l'approccio modellistico? 
Partiamo dalla seconda questione, che in realtà rimanda al ben noto problema della relazione fra scienza è tecnica. L'ubiqua confusione fra verità tecnica e verità scientifica è uno dei tratti distintivi del mondo contemporaneo di intendere la ricerca.  Dal nostro punto di vista è solo nel solco di questo  fraintendimento epocale che è possibile affermare che la Big Data science sia indipendente dalla teoria. Quello che ci sentiamo di affermare è che la conoscenza basata sui big data sia di tipo prettamente tecnico capace di fornire a volte soluzioni pratiche, anche molto efficienti, senza però dare spiegazioni esaustive e generalizzabili sulle dinamiche alla base dei fenomeni studiati. Per fornire un piccolo esempio, sicuramente un computer al quale diamo in pasto una grande quantità di dati sulle traiettorie dei pianeti sarà in grado di riscoprire le tre leggi di Keplero, ma non sarà mai capace di fornire le leggi di Newton, nè tanto meno sarà capace di dimostrare come tali principi primi implichino la fenomenologia osservata.
Date queste considerazioni diventa semplice rispondere anche alla prima questione: il sapere tecnico è per sua stessa natura un sapere immediato e particolare, difficilmente generalizzabile. (FORSE ROBA DA AGGIUNGERE)
Non bisogna scordarsi in tutto ciò che la scienza non persegue linearmente il filo rosso dell'aumento della conoscenza ma è anche influenzata da mode passeggere, dettate dal sistema economico in cui si esprime, di cui i big data sono un esempio.  
Ma una moda può cambiare, e lo fa ogni giorno, gli apparati, le strutture, la materialità che sottende la scienza, diventando l'imposizione di un nuovo modello dominante, alle spese di tutti i filoni di ricerca non allineati. (slides salina)


\section{Big Data e biologia}
Sempre di più e in modo crescente negli ultimi anni la biologia si serve di strumenti informatici per procedere nelle sue ricerche, tanto che ad oggi un biologo nella maggior parte dei casi ho ha queste competenze o lavora in equipe con chi ne ha. Eppure è proprio dal mondo biologico che ha preso ispirazione chi ha sviluppato gli algoritmi di intelligenza artificiale e dei neural network che ora non si può prescindere dall’utilizzare! 
Dal duemila con il Progetto Genoma Umano ad oggi i dati di ambito biologico e medico sono cresciuti esponenzialmente: analisi di sequenza di DNA, RNA, proteine, processi di regolazione, vie metaboliche.. Grazie ai vasti spazi di archiviazione è possibile conservare genomi di miliardi di paia di basi di migliaia di organismi, gli algoritmi di analisi permettono di estrarne velocemente informazioni, le tecniche di Machine Learning rendono possibile stabilire a quale malattia si è predisposti partendo da singoli polimorfismi del proprio DNA..  La ricerca biologica e quella medica paiono far veloci passi avanti grazie allo sviluppo dei Big data e delle tecnologie ad essi associate, ma come