chapters introduced

This commit is contained in:
cocco_git 2017-08-18 13:52:43 +02:00
parent 26087c09b6
commit d85240d2ef
7 changed files with 36 additions and 21 deletions

View file

@ -1,5 +1,5 @@
\section{Embers}
Sviluppato dal Descovery Analitics Centre della Virginia Polytechic Institute \textbf{EMBERS} è un progetto che dal 2012 predice ogni giorno 45-50 eventi di rilevanza sociale in molti paesi del Sud America. \cite{Butler}
Sviluppato dal Descovery Analitics Centre della Virginia Polytechic Institute EMBERS è un progetto che dal 2012 predice ogni giorno 45-50 eventi di rilevanza sociale in molti paesi del Sud America. \cite{Butler}
I finanziamenti arrivano (22 milioni) dall'agenzia di intelligence di stato americana (IARPA) \footnote{\url{https://www.iarpa.gov/
}} in quanto parte del progetto OSI (Open Source Indicators, \footnote{\url{https://www.iarpa.gov/index.php/research-programs/osi}} ), con una collaborazione attiva in termini di ricercatori e finanziamenti di molte università americane.
Lavora utilizzando dati come tweets, pagine facebook , blog posts, ricerche di Google, Wikipedia, dati metereologici, indicatori finanziari ed economici, immagini satellitari. I dati utilizzati sono OpenSource, ovvero accessibili attraverso internet da qualsivoglia operatore, questi dati, che sono di fatto BigData, sono definiti dagli autori del progetto come \textit{massivi, passivi}
@ -7,7 +7,7 @@ Instancabile il programma lavora 24h, 7su7, offrendo pronostici sugli eventi che
I tipi di eventi prevedibili sono epidemie di malattie rare o di influenze, rivolte ed elezioni poilitche; ma gli autori del progetto sono, inaspettatamente, interessati alle ultime due classi di eventi.
Nell'articolo già citato, con cui Embers si presenta al mondo, i ricercatori elencano i successi ottenuti nella previsione di eventi quali la primavera brasiliana del 2013, le violente proteste degli studenti venezuelani del 2014, le elezioni presidenziali di Panama e Colombia sempre del 2014.
Embers si presenta come il fiore all'occhiello della ricerca in casa Iarpa, infatti rispetto ai presistenti progetti (ICEWS, PITF), il sistema ha un'accuratezza elevata, fino ad indicare città, giorno e volume dell'assembramento di persone.
EMBERS si presenta come il fiore all'occhiello della ricerca in casa Iarpa, infatti rispetto ai presistenti progetti (ICEWS, PITF), il sistema ha un'accuratezza elevata, fino ad indicare città, giorno e volume dell'assembramento di persone.
Inoltre, l'utilizzo di motori per l'analisi e la produzione di testo naturale consente un certo livello di comprensione del fenomeno in questione, e finanché una narrazione dell'evento:
\begin{figure}
\centering
@ -15,17 +15,25 @@ Inoltre, l'utilizzo di motori per l'analisi e la produzione di testo naturale co
\caption{An example narrative for a EMBERS alert message. Here, color red indicates named entities, green refers to descriptive protest related keywords. Items in blue are historical or real time statistics and those in magenta refer to inferred reasons of protest.}
\label{fig:embers-narrazione}
\end{figure}
Il processo di svolgimento di embers comprende quattro stadi: ingestion (aquisizione dei dati), enrichment (processamento di questi), modeling (analisi secondo i modelli che costituiscono E), and selection (integrazione dei risultati e presentazione delle predizioni finali).
Un'altra particolarità di EMBERS è quella di utilizzare un approccio a più modelli. Questi sono:
- Planned Protest Model; dai social sono identificati specifici segni di chiamate a eventi di protesta (con luogo e data);
- Dynamic Query expansion; usa twitter per identificare tempo e luogo di diffusione nell'uso di alcune parole chiavi legate alle proteste;
- Volume-based model; si serve di molti dati di indicatori sociali, economici, politici.
- Cascade regression model; modellizza le attività su Twitter che siano legate con organizzazioni e mobilitazioni;
- baseline model ; usa un modello di stima a partire dallo storico degli eventi del GSR (a monthly catalog of events as reported in newspapers of record in 10 Latin American countries).
Efficienza: numero di giorni che la previsione arriva in anticipo rispetto alle news.
Accuratezza: scarto fra la data prevista e quella effettiva.
Per capire come un marchingegno del genere possa funzionare entriamo nel dettaglio del sistema:
Il processo di analisi di embers comprende quattro stadi:
\begin{itemize}
\item \textit{Ingestion}: aquisizione dei dati OS dalle varie fonti elencate, per far ciò serve un sacco di spazio e delle connessioni molte veloci.
\item \textit{Enrichment}: qui i dati vengono 'migliorati', il testo viene processato e si tenta di iferire la città e altre informazioni sull'autore del post o del tweet.
\item \textit{Modeling} A questo punto viene compiuta l'analisi secondo i modelli che costituisconoil core di EMBERS. Qua avviene il miracolo big data: i dati vengono messi i relazione e si esplorano la semantica e il volume delle manifestazioni programmate. Gli algoritmi messi in campo sono i seguenti:
- Planned Protest Model; dai social sono identificati specifici segni di chiamate a eventi di protesta (con luogo e data);
- Dynamic Query expansion; usa twitter per identificare tempo e luogo di diffusione nell'uso di alcune parole chiavi legate alle proteste;
- Volume-based model si serve di molti dati di indicatori sociali, economici, politici.
- Cascade regression model modellizza le attività su Twitter che siano legate con organizzazioni e mobilitazioni;
- Baseline model usa un modello di stima a partire dallo storico degli eventi del GSR (a monthly catalog of events as reported in newspapers of record in 10 Latin American countries).
\item \textit{Selection } Integrazione dei risultati e presentazione delle predizioni finali, come in Fig. \ref{fig:embers-narrazione}
\end{itemize}
Nella presentazione del progetto non si elude di affrontare anche le implicazioni etiche di questo! Si tratta di uno strumento che certamente può degenerare se nelle mani sbagliate, come per esempio quelle di un governo autoritario non democratico. Al contrario il popolo è salvo se EMBERS è utilizzato da un governo attento e premuroso come quello statunitense! Anzi, in queste circostanze è da considerare come sensore accurato degli umori dei cittadini rispetto alle politiche governative, uno strumento capace di far sentire più forte la voce di tutti, di avvicinare palazzi del potere e mondo che li circonda.

View file

@ -1,5 +1,4 @@
I Big Data
\chapter{Introduzione}
Non solo una questione da prima pagina:
La così detta “Big Data Revolution” è ora sulle bocche di tutti: come avremmo potuto tirarci fuori dal coro?
Certamente la scelta dellargomento è dovuta alla sua attuale rilevanza mediatica.
@ -9,14 +8,14 @@ In linea con tale spirito, speriamo che il lettore possa trovare in questo docum
che la nostra trattazione degli argomenti non ha la pretesa di essere esaustiva, essa si presenta piuttosto come la condivisione in forma scritta di un percorso
assembleare di autoformazione e riflessione.
-Cosa sono?
\paragraph{Cosa sono?}
Come spesso accade è utile in principio aver chiara la definizione. Per big data intendiamo tutte quelle collezioni di dati destrutturati le cui dimensioni superano le capacità di memorizzazione, gestione e analisi tipiche dei tradizionali sistemi per basi di dati. Generalmente le loro caratteristiche vengono riassunte dalle cinque “v”: Volume, Velocità, Varietà, Viralità e Variabilità.
Il volume è chiaramente riconducibile al peso in byte di questi ammassi di dati mentre la velocità è riferita alla generazione e allaccesso di essi. Varietà e variabilità consistono nel fatto che, avendo forme differenti in origine, non possono essere ordinati in una struttura prefissata. Infine la viralità esprime il loro potenziale di impatto sociale dovuto alla veloce diffusione delle informazioni che vi si estraggono.
Un Data Scientist non ci metterebbe più di un minuto a convincervi che è proprio su questa tecnologia che si basa il progresso ai giorni nostri: è su questo che si deve investire, dato che in molti e grandi lo stanno facendo, è su questo che ci si deve specializzare, dato che sempre di più sono e saranno, secondo il trend attuale, gli esperti del settore richiesti. Trend che è positivo e in stabile crescita.
Dal 2016 al 2020 è previsto che si passi da 1,1 a 2,3 ZB di traffico IP (1 ZB = 1012 GB). Qualcuno li ha definiti “il nuovo petrolio” e cercheremo nelle prossime pagine di capirne il motivo.
-Chi li produce?
\paragraph{Chi li produce?}
Noi tutti li produciamo. Quando ognuno di noi compie unazione interfacciandosi con un dispositivo connesso alla rete, nulla va dimenticato: immediatamente viene generato un file in cui vengono salvati non solo i contenuti testuali o multimediali prodotti dalla nostra azione, ma anche tutte le informazioni ad essi connesse che prendono il nome di metadati.
Perciò quando apriamo Facebook, messaggiamo su Whatsapp, facciamo una ricerca su Google o vediamo un video su Youtube, i server delle aziende appena citate registrano lindirizzo IP del computer utilizzato, lora, il luogo e tutto ciò che fa da contesto alla nostra traccia digitale.
@ -25,7 +24,7 @@ Il grado di consapevolezza rispetto a ciò da parte degli utenti risulta piuttos
Ma oltre a questi dati ci sono quelli prodotti da dispositivi non virtuali come le stazioni metereologiche, le webcam, i sensori del traffico, quelli di sicurezza, le immagini satellitari, i geo localizzatori, e tutti quegli oggetti, sempre più diffusi, il cui utilizzo viene integrato da una connessione ad Internet (Internet of Things \ref{}).
Infine ultimi, ma non per importanza, vi sono i dati tradizionali, raccolti dalle agenzie pubbliche, dagli ospedali, dalle banche e dai laboratori di ricerca.
-E poi… come vengono utilizzati?
\paragraph{E poi… come vengono utilizzati?}
Una volta prodotti e acquisiti i dati sarebbe un peccato non utilizzarli per qualche scopo pratico che implichi possibilmente un margine di guadagno.
Ma a seconda di quale scopo si cerchi di soddisfare varia il processo di elaborazione, analisi, e interpretazione di questii.
Ad esempio, sarà capitato a molti di voi di vedere Google suggerirvi una chiave di ricerca diversa da quella che avevate digitato, il classico “forse cercavi: ….?” Come fa Google a sapere meglio di te quello che vuoi trovare? La risposta è che Google impara da tutte le ricerche precedentemente fatte dai suoi utenti collezionando tutti i dati e metadati relativi a queste. Quindi quella che viene valutata è la coerenza della vostra ricerca con la Storia delle altre già effettuate.
@ -36,4 +35,4 @@ La profilazione tuttavia non si ferma ad un semplice resoconto delle abitudini d
Diverso è il caso in cui si voglia con i dati a disposizione fare una predizione su una situazione futura. In questo caso essi non devono solo consentire una ricostruzione del contesto da cui sono stati estratti, ma devono altresì permettere di prefigurarsi come si modificherà tale situazione dopo un certo tempo. Questa capacità predittiva può avere differenti pretese che vanno dal semplice sondaggio, al controllo sociale sino alleffettiva necessità di fare previsioni su fenomeni fisici i cui modelli teorici non sono stati ancora sviluppati. Questultima pretesa in particolare è al centro di un dibattito accademico molto accesso tuttora in corso \ref{}.
Abbiamo qui dato una panoramica generale sul tema dei big data delineandone le caratteristiche chiave e i principali utilizzi. Nei capitoli che seguono entreremo maggiormente in dettaglio su alcuni aspetti e questioni che sia da una prospettiva tecnico-scientifica che da un punto di vista sociale si collegano al fenomeno battezzato come “big data revolution”.
>>>>>>> f65fa08ff19b6b1453cc769c1fde0493d34c23f7

BIN
main.pdf

Binary file not shown.

Binary file not shown.

View file

@ -1,2 +1,8 @@
\contentsline {section}{\numberline {0.1}L'IoT e' la panacea dei casalinghi tecnofili}{4}
\contentsline {section}{\numberline {0.2}Embers}{7}
\contentsline {chapter}{\numberline {1}Introduzione}{1}
\contentsline {chapter}{\numberline {2}Scienza}{5}
\contentsline {section}{\numberline {2.1}Machine Learning}{5}
\contentsline {section}{\numberline {2.2}Nuovo paradigma scientifico}{6}
\contentsline {section}{\numberline {2.3}Big Data e biologia}{6}
\contentsline {chapter}{\numberline {3}Profilazione e controllo sociale}{7}
\contentsline {section}{\numberline {3.1}L'IoT e' la panacea dei casalinghi tecnofili}{8}
\contentsline {section}{\numberline {3.2}Embers}{11}

View file

@ -1,3 +1,4 @@
\chapter{Profilazione e controllo sociale}
La profilazione spezza le unghie
\include{iot}

View file

@ -1,3 +1,4 @@
\chapter{Scienza}
Qui va una breve intro in cui si raccordano le tre sezioni.
\section{Machine Learning}