cocconat
/
mindthegap


			
							123456789101112131415161718192021222324
							\chapter{Scienza}

I Big Data rappresentano sicuramente una fonte di innovazione notevole nell'ambito della ricerca scientifica. Le nuove tecniche di accumulazione ed analisi dei dati sono divenute strumenti imprescindibili in moltissimi settori della scienza. Questo innegabile progresso ha portato una parte della comunità scientifica a sostenere che di fatto il fenomeno dei Big Data vada oltre il semplice avanzamento tecnico, ma implichi addirittura un nuovo paradigma scientifico, ovvero una nuova modalità di produzione delle verità scientifiche.
Crediamo sia opportuno addentrarci nel dibattito accademico scaturito da questa nuova posizione. Nei prossimi paragrafi proveremo quindi da un lato a descrivere brevemente le tecniche sopracitate insieme al loro utilizzo nel caso paradigmatico della biologia molecolare; dall'altro ad analizzare lo schema di argomentazioni degli "entusiasti" dei Big Data mettendone in evidenza alcuni punti critici.  
Procediamo in questo modo convinti del fatto che l'analisi dettagliata di qualunque tipo di innovazione debba andare di pari passo con la capacità di vedere oltre le narrazioni autocelebrative che spesso la accompagnano. 

\section{Machine Learning}
Quando vi sono dei modelli teorici questi schematizzano il problema, ne individuano le variabili rilevanti e le mettono in relazione in modo tale che se ne possa dedurre il risultato al variare del tempo. Quando invece questi mancano e non è noto né quali siano le caratteristiche dell'oggetto rilevanti  da prendere in considerazione, né quale relazione intercorra fra queste e la predizione viene fatta in altro modo. 
Negli ultimi anni vasto e rapido è stato lo sviluppo di metodi  informatici come il Machine Learning. Sotto questo nome si raccolgono moltissimi algoritmi di analisi diversi, ma essenzialmente le tecniche di processamento dei dati sono due: l’apprendimento supervisionato e quello non supervisionato. Di cosa si tratta? In cosa differiscono?
Quel piccolo avverbio negativo sta ad indicare una differenza sostanziale: nel primo caso abbiamo dei dati con certe caratteristiche che sono divisi in un certo numero di classi. La macchina impara da questi dati  le regole per suddividere i prossimi input nelle diverse classi. 
Se consideriamo come esempio individui con un profilo facebook possiamo raggrupparli nelle classi di “timidi” e “estroversi” in base a un nostro personale metro di giudizio. Successivamente prendiamo in considerazione per ognuno il numero degli amici che ha associati al suo profilo e facciamo sì che la macchina impari come questa caratteristica si associa alla suddivisione in classi. In questo modo chi il giorno successivo crea un nuovo profilo e manda un certo numero di richieste di amicizia è subito classificato sulla base di queste in timido o il suo contrario. 
Si tratta di un esempio banalizzante: è evidente che non basta il numero degli amici su facebook per definire quanto qualcuno è effettivamente propenso all’interazione sociale. Ma se oltre al numero di contatti si considerassero anche il numero di post pubblicati, quelli commentati, i like messi a determinate pagine e il numero e tipo di gruppi a cui si è iscritti la classificazione ottenuta sarebbe forse meno discutibile.
Nella seconda tecnica, quella dell’apprendimento non supervisionato, i dati non sono in partenza associati a classi, e quello che gli algoritmi devono riuscire a fare è definire dei gruppi di oggetti in base alle loro somiglianze. In altre parole si dice che devono svelare correlazioni intrinseche.  sia quali siano le classi, sia come i dati sono associati a queste. 
Con queste tecniche si ottengono correlazioni fra i dati sufficienti a stimare, con un grado di accuratezza che dipende dalla quantità e qualità dei dati presi in esame. 


\section{Nuovo paradigma scientifico}
Nell'articolo \emph{"The end of theory"} pubblicato sulla rivista Wired nel 2007 l'autore preannuncia il fatto che le tecniche avanzate di analisi dei big data renderanno obsoleta l'approccio modellistico ai fenomeni naturali.


\section{Big Data e biologia}
Sempre di più e in modo crescente negli ultimi anni la biologia si serve di strumenti informatici per procedere nelle sue ricerche, tanto che ad oggi un biologo nella maggior parte dei casi ho ha queste competenze o lavora in equipe con chi ne ha. Eppure è proprio dal mondo biologico che ha preso ispirazione chi ha sviluppato gli algoritmi di intelligenza artificiale e dei neural network che ora non si può prescindere dall’utilizzare! 
Dal duemila con il Progetto Genoma Umano ad oggi i dati di ambito biologico e medico sono cresciuti esponenzialmente: analisi di sequenza di DNA, RNA, proteine, processi di regolazione, vie metaboliche.. Grazie ai vasti spazi di archiviazione è possibile conservare genomi di miliardi di paia di basi di migliaia di organismi, gli algoritmi di analisi permettono di estrarne velocemente informazioni, le tecniche di Machine Learning rendono possibile stabilire a quale malattia si è predisposti partendo da singoli polimorfismi del proprio DNA..  La ricerca biologica e quella medica paiono far veloci passi avanti grazie allo sviluppo dei Big data e delle tecnologie ad essi associate, ma come