cambridge analytica

chapters introduced
2017-08-18 13:56:42 +02:00 · 2017-08-18 13:52:43 +02:00
7 changed files with 47 additions and 21 deletions
--- a/embers.tex
+++ b/embers.tex
@ -1,5 +1,12 @@
 \section{Embers}
-Sviluppato dal Descovery Analitics Centre della Virginia Polytechic Institute \textbf{EMBERS} è un progetto che dal 2012 predice ogni giorno 45-50 eventi di rilevanza sociale in molti paesi del Sud America. \cite{Butler}
+Nel 1951 Isaac Asimov pubblica una serie di racconti di fantascienza, poi raccolti nella Trilogia della Fondazione, la storia ruota attorno al crollo dell'Imper Galattico e della cricca di scienziati che la prevedono con l'ausilio della Psicostoriografia.
+Se l'autore è famoso per le Tre leggi della robotica, il suo contributo nella sociologia è meno palese ma altrettanto importante: la psicostoriografia si delinea come la scienza delle masse, una misto tra economia e sociologia, che attraverso il processamento delle informazioni disponibili alla 'regia accademia' dell'Impero riesce a prevedere e prevenire il fragoroso crollo politico della galassia. Sorvoleremo sull'autentico positivismo di Asimov e sulle implicazioni politiche del libro, ma vorremo riprendere questa neonata scienza per capire quali sono le sue possibilità e se nei 70 anni che ci separano dalla pubblicazione del testo la tecnologia si è evoluta abbastanza da considerare realtà il sogno dello scrittore statunitense.
+Il problema della psicostoriografia è la previsione degli sconvolgimenti sociali, è la capacità di leggere tra le righe della storia e anticipare il futuro, compito degli psicostoriografi è maneggiare questa conoscenza e stimolare la massa nel modo efficace a realizzare il futuro voluto. Questa scienza ha il limite della massa, non dà risultati se il campione è troppo ristretto, e allo stesso modo non può anticipare le scelte degli individui, né tantomeno prevedere le strategie dei leader politici, tuttavia risulta esatta e 'computabile' se il soggetto in analisi è la vasta popolazione dell'Impero Galattico.
+La psicostoria è, così presentata, la scienza che ciascun governante vorrebbe dalla sua, essa permette di prevedere e prevenire le dissidenze e armonizzare i conflitti interni con opportune politiche.
+Ma questa scienza non è certo figlia del futuro, anzi sappiamo come la suggestione delle masse è una pratica consueta nei governi occidentali, un esempio a noi vicino è la recente guerra in Iraq, che ha guadagnato il consenso della popolazione americana attraverso la diffusione ad arte di informazioni false sulle armi di distruzione di massa nelle mani di Saddam. O ancora, come lo stragismo nero dell'Italia '70 ha stimolato la popolazione a votare per la sicurezza e la stabilità proposta dalle forze moderate e ha impedito l'ascesa della sinistra radicale.
+Insomma, non serve prevedere matematicamente i risultati per stimolare la massa a comportarsi come voluto, piuttosto servono le risorse di cui uno Stato dispone, serve un controllo efferato sugli organi di stampa e 
+\textit{Che c'entra tutto questo con Mind The Gap? } Semplice, questa tecnologia è 
+Sviluppato dal Descovery Analitics Centre della Virginia Polytechic Institute EMBERS è un progetto che dal 2012 predice ogni giorno 45-50 eventi di rilevanza sociale in molti paesi del Sud America. \cite{Butler}
 I finanziamenti arrivano (22 milioni) dall'agenzia di intelligence di stato americana (IARPA) \footnote{\url{https://www.iarpa.gov/
 }} in quanto parte del progetto OSI (Open Source Indicators, \footnote{\url{https://www.iarpa.gov/index.php/research-programs/osi}} ), con una collaborazione attiva in termini di ricercatori e finanziamenti di molte università americane.
 Lavora utilizzando dati come tweets, pagine facebook , blog posts, ricerche di Google, Wikipedia, dati metereologici, indicatori finanziari ed economici, immagini satellitari. I dati utilizzati sono OpenSource, ovvero accessibili attraverso internet da qualsivoglia operatore, questi dati, che sono di fatto BigData, sono definiti dagli autori del progetto come \textit{massivi, passivi} 
@ -7,7 +14,7 @@ Instancabile il programma lavora 24h, 7su7, offrendo pronostici sugli eventi che
 I tipi di eventi prevedibili sono epidemie di malattie rare o di influenze, rivolte ed elezioni poilitche; ma gli autori del progetto sono, inaspettatamente, interessati alle ultime due classi di eventi. 
 Nell'articolo già citato, con cui Embers si presenta al mondo, i ricercatori elencano i successi ottenuti nella previsione di eventi quali la primavera brasiliana del 2013, le violente proteste degli studenti venezuelani del 2014, le elezioni presidenziali di Panama e Colombia sempre del 2014. 

-Embers si presenta come il fiore all'occhiello della ricerca in casa Iarpa, infatti rispetto ai presistenti progetti (ICEWS, PITF), il sistema ha un'accuratezza elevata, fino ad indicare città, giorno e volume dell'assembramento di persone.
+EMBERS si presenta come il fiore all'occhiello della ricerca in casa Iarpa, infatti rispetto ai presistenti progetti (ICEWS, PITF), il sistema ha un'accuratezza elevata, fino ad indicare città, giorno e volume dell'assembramento di persone.
 Inoltre, l'utilizzo di motori per l'analisi e la produzione di testo naturale consente un certo livello di comprensione del fenomeno in questione, e finanché una narrazione dell'evento:
 \begin{figure}
 	\centering
@ -15,17 +22,28 @@ Inoltre, l'utilizzo di motori per l'analisi e la produzione di testo naturale co
 	\caption{An example narrative for a EMBERS alert message. Here, color red indicates named entities, green refers to descriptive protest related keywords. Items in blue are historical or real time statistics and those in magenta refer to inferred reasons of protest.}
 	\label{fig:embers-narrazione}
 \end{figure}
+Per capire come un marchingegno del genere possa funzionare entriamo nel dettaglio del sistema:
+Il processo di analisi di embers comprende quattro stadi:
+\begin{itemize}
+	\item \textit{Ingestion}: aquisizione dei dati OS dalle varie fonti elencate, per far ciò serve un sacco di spazio e delle connessioni molte veloci. 
+	\item \textit{Enrichment}: qui i dati vengono 'migliorati', il testo viene processato e si tenta di iferire la città e altre informazioni sull'autore del post o del tweet.
+	\item \textit{Modeling} A questo punto viene compiuta l'analisi secondo i modelli che costituisconoil core di EMBERS. Qua avviene il miracolo big data: i dati vengono messi i relazione e si esplorano la semantica e il volume delle manifestazioni programmate. Gli algoritmi messi in campo sono i seguenti:
+	
+	- Planned Protest Model; dai social sono identificati specifici segni di chiamate a eventi di protesta (con luogo e data); 
+	
+	- Dynamic Query expansion; usa twitter per identificare tempo e luogo di diffusione nell'uso di alcune parole chiavi legate alle proteste; 
+	
+	- Volume-based model si serve di molti dati di indicatori sociali, economici, politici. 
+	
+	- Cascade regression model modellizza le attività su Twitter che siano legate con organizzazioni e mobilitazioni; 
+	
+	- Baseline model usa un modello di stima a partire dallo storico degli eventi del GSR  (a monthly catalog of events as reported in newspapers of record in 10 Latin American countries). 
+	
+	\item \textit{Selection } Integrazione dei risultati e presentazione delle predizioni finali, come in Fig. \ref{fig:embers-narrazione} 
+\end{itemize}

-Il processo di svolgimento di embers comprende quattro stadi: ingestion (aquisizione dei dati), enrichment (processamento di questi), modeling (analisi secondo i modelli che costituiscono E), and selection (integrazione dei risultati e presentazione delle predizioni finali). 
-Un'altra particolarità di EMBERS è quella di utilizzare un approccio a più modelli. Questi sono: 
- Planned Protest Model; dai social sono identificati specifici segni di chiamate a eventi di protesta (con luogo e data); 
- Dynamic Query expansion; usa twitter per identificare tempo e luogo di diffusione nell'uso di alcune parole chiavi legate alle proteste; 
- Volume-based model; si serve di molti dati di indicatori sociali, economici, politici. 
- Cascade regression model; modellizza le attività su Twitter che siano legate con organizzazioni e mobilitazioni; 
- baseline model ; usa un modello di stima a partire dallo storico degli eventi del GSR  (a monthly catalog of events as reported in newspapers of record in 10 Latin American countries). 
-
-Efficienza: numero di giorni che la previsione arriva in anticipo rispetto alle news. 
-Accuratezza: scarto fra la data prevista e quella effettiva. 
+Preferiamo non entrare nel merito dei risultati, di capire quali sono le particolarità del processamento dei dati, perchè questi sono dettagli del progetto e nel corso degli anni miglioreranno. Piuttosto potremmo cercare di capire quali sono gli obiettivi di tale progetto, e con quale spirito questa ricerca viene messa in atto.
+Infine 

 Nella presentazione del progetto non si elude di affrontare anche le implicazioni etiche di questo! Si tratta di uno strumento che certamente può degenerare se nelle mani sbagliate, come per esempio quelle di un governo autoritario non democratico. Al contrario il popolo è salvo se EMBERS è utilizzato da un governo attento e premuroso come quello statunitense! Anzi, in queste circostanze è da considerare come sensore accurato degli umori dei cittadini rispetto alle politiche governative, uno strumento capace di far sentire più forte la voce di tutti, di avvicinare palazzi del potere e mondo che li circonda. 

--- a/intro.tex
+++ b/intro.tex
@ -1,5 +1,4 @@
-I Big Data
-
+\chapter{Introduzione}
 Non solo una questione da prima pagina:
 La così detta “Big Data Revolution” è ora sulle bocche di tutti: come avremmo potuto tirarci fuori dal coro?
 Certamente la scelta dell’argomento è dovuta alla sua attuale rilevanza mediatica.
@ -9,14 +8,14 @@ In linea con tale spirito, speriamo che il lettore possa trovare in questo docum
 che la nostra trattazione degli argomenti non ha la pretesa di essere esaustiva, essa si presenta piuttosto come la condivisione in forma scritta di un percorso
 assembleare di autoformazione e riflessione.

-Cosa sono?
+\paragraph{Cosa sono?}
 Come spesso accade è utile in principio aver chiara la definizione. Per big data intendiamo tutte quelle collezioni di dati destrutturati le cui dimensioni superano le capacità di memorizzazione, gestione e analisi tipiche dei tradizionali sistemi per basi di dati. Generalmente le loro caratteristiche vengono riassunte dalle cinque “v”: Volume, Velocità, Varietà, Viralità e Variabilità.
 Il volume è chiaramente riconducibile al peso in byte di questi ammassi di dati mentre la velocità è riferita alla generazione e all’accesso di essi. Varietà e variabilità consistono nel fatto che, avendo forme differenti in origine, non possono essere ordinati in una struttura prefissata. Infine la viralità esprime il loro potenziale di impatto sociale dovuto alla veloce diffusione delle informazioni che vi si estraggono.

 Un Data Scientist non ci metterebbe più di un minuto a convincervi che è proprio su questa tecnologia che si basa il progresso ai giorni nostri: è su questo che si deve investire, dato che in molti e grandi lo stanno facendo, è su questo che ci si deve specializzare, dato che sempre di più sono e saranno, secondo il trend attuale, gli esperti del settore richiesti. Trend che è positivo e in stabile crescita.
 Dal 2016 al 2020 è previsto che si passi da 1,1 a 2,3 ZB di traffico IP (1 ZB = 1012 GB). Qualcuno li ha definiti “il nuovo petrolio” e cercheremo nelle prossime pagine di capirne il motivo.

-Chi li produce?
+\paragraph{Chi li produce?}
 Noi tutti li produciamo. Quando ognuno di noi compie un’azione interfacciandosi con un dispositivo connesso alla rete, nulla va dimenticato: immediatamente viene generato un file in cui vengono salvati non solo i contenuti testuali o multimediali prodotti dalla nostra azione, ma anche tutte le informazioni ad essi connesse che prendono il nome di metadati.
 Perciò quando apriamo Facebook, messaggiamo su Whatsapp, facciamo una ricerca su Google o vediamo un video su Youtube, i server delle aziende appena citate registrano l’indirizzo IP del computer utilizzato, l’ora, il luogo e tutto ciò che fa da contesto alla nostra traccia digitale.

@ -25,7 +24,7 @@ Il grado di consapevolezza rispetto a ciò da parte degli utenti risulta piuttos
 Ma oltre a questi dati ci sono quelli prodotti da dispositivi non virtuali come le stazioni metereologiche, le webcam, i sensori del traffico, quelli di sicurezza, le immagini satellitari, i geo localizzatori, e tutti quegli oggetti, sempre più diffusi, il cui utilizzo viene integrato da una connessione ad Internet (Internet of Things \ref{}).
 Infine ultimi, ma non per importanza, vi sono i dati tradizionali, raccolti dalle agenzie pubbliche, dagli ospedali, dalle banche e dai laboratori di ricerca.

-E poi… come vengono utilizzati?
+\paragraph{E poi… come vengono utilizzati?}
 Una volta prodotti e acquisiti i dati sarebbe un peccato non utilizzarli per qualche scopo pratico che implichi possibilmente un margine di guadagno.
 Ma a seconda di quale scopo si cerchi di soddisfare varia il processo di elaborazione, analisi, e interpretazione di questii.
 Ad esempio, sarà capitato a molti di voi di vedere Google suggerirvi una chiave di ricerca diversa da quella che avevate digitato, il classico “forse cercavi: ….?” Come fa Google a sapere meglio di te quello che vuoi trovare? La risposta è che Google impara da tutte le ricerche precedentemente fatte dai suoi utenti collezionando tutti i dati e metadati relativi a queste. Quindi quella che viene valutata è la coerenza della vostra ricerca con la Storia delle altre già effettuate.
@ -36,4 +35,4 @@ La profilazione tuttavia non si ferma ad un semplice resoconto delle abitudini d
 Diverso è il caso in cui si voglia con i dati a disposizione fare una predizione su una situazione futura. In questo caso essi non devono solo consentire una ricostruzione del contesto da cui sono stati estratti, ma devono altresì permettere di prefigurarsi come si modificherà tale situazione dopo un certo tempo. Questa capacità predittiva può avere differenti pretese che vanno dal semplice sondaggio, al controllo sociale sino all’effettiva necessità di fare previsioni su fenomeni fisici i cui modelli teorici non sono stati ancora sviluppati. Quest’ultima pretesa in particolare è al centro di un dibattito accademico molto accesso tutt’ora in corso \ref{}.

 Abbiamo qui dato una panoramica generale sul tema dei big data delineandone le caratteristiche chiave e i principali utilizzi. Nei capitoli che seguono entreremo maggiormente in dettaglio su alcuni aspetti e questioni che sia da una prospettiva tecnico-scientifica che da un punto di vista sociale si collegano al fenomeno battezzato come “big data revolution”.
->>>>>>> f65fa08ff19b6b1453cc769c1fde0493d34c23f7
+
--- a/main.pdf
+++ b/main.pdf
--- a/main.synctex.gz
+++ b/main.synctex.gz
--- a/main.toc
+++ b/main.toc
@ -1,2 +1,8 @@
-\contentsline {section}{\numberline {0.1}L'IoT e' la panacea dei casalinghi tecnofili}{4}
-\contentsline {section}{\numberline {0.2}Embers}{7}
+\contentsline {chapter}{\numberline {1}Introduzione}{1}
+\contentsline {chapter}{\numberline {2}Scienza}{5}
+\contentsline {section}{\numberline {2.1}Machine Learning}{5}
+\contentsline {section}{\numberline {2.2}Nuovo paradigma scientifico}{6}
+\contentsline {section}{\numberline {2.3}Big Data e biologia}{6}
+\contentsline {chapter}{\numberline {3}Profilazione e controllo sociale}{7}
+\contentsline {section}{\numberline {3.1}L'IoT e' la panacea dei casalinghi tecnofili}{8}
+\contentsline {section}{\numberline {3.2}Embers}{11}
--- a/profilazione_controllo.tex
+++ b/profilazione_controllo.tex
@ -1,3 +1,6 @@
+\chapter{Profilazione e controllo sociale}
+La profilazione spezza le unghie
+=======
 \section{Cambridge Analytica e presidenziali USA}
 Un’altra applicazione un po’ meno nota è quella descritta nell’articolo pubblicato da Internazionale all’inizio di quest’anno \cite{Inter}, che mette in evidenza come la campagna elettorale che ha portato alla poltrona presidenziale il neoeletto Donald Trump si sia svolta mandando messaggi o parlando non direttamente a tutti i cittadini americani, ma miratamente a quelli che sono risultati essere più propensi a supportare il candidato repubblicano.  Non solo: anche fra questi prescelti i messaggi di incoraggiamento al voto non erano gli uguali per tutti, ma venivano calibrati sulla base delle caratteristiche dell’elettore. Infatti per ogni cittadino americano era stato elaborato dalla Cambridge Analitica (azienda a cui è stata affidato il compito pubblicitario) un profilo psicologico utilizzando in modo combinato le teorie di profilazione e i dati acquistati dalle agenzie che gestiscono i registri anagrafici, automobilistici o altre informazioni sulle abitudini degli utenti. 
 In particolare, i profili psicologici utilizzati nella campagna di Trump erano stati creati sulla base della teoria che ha fatto la fortuna di Michal Kosinski, ricercatore nel campo della psicometria. Suo è il modello dei Big Five. 
@ -6,6 +9,5 @@ Inizialmente, alle persona prese in esame,  è stato fatto compilare un question
 In seguito, si è cercato di capire come le informazioni ricavabili da Facebook potessero in qualche modo sostituire l’utilizzo delle interviste. Di ogni persona che aveva risposto al questionario si sono andati a prendere tutti i dati del profilo sul social network: dai like ad una pagina, al numero degli amici, ai commenti scritti in risposta ad un post. Questi  sono stati dati in pasto ad un algoritmo di analisi dati, che ha imparato come metterli in relazione con i risultati del questionario. 
 In questo modo si  possono  utilizzare i “social-data” per classificare come mente aperta, poco amichevole, molto soggetto a sbalzi di umore,  anche gli individui di cui non si ha a disposizione il questionario.  Il carattere è dunque l’insieme di questi valori.  Una teoria è valida finchè funziona e in questo caso lo fa: sembra infatti che bastino 10 like per conoscerti meglio di TUA MADRE e STOCAZZO!!Inoltre è stato verificato che a profili simili corrispondo comportamenti simili. E’ proprio su questo che si basa la pubblicità mirata, commerciale o elettorale che sia.

-
 \include{iot}
 \include{embers}
--- a/scienza.tex
+++ b/scienza.tex
@ -1,3 +1,4 @@
+\chapter{Scienza}
 Qui va una breve intro in cui si raccordano le tre sezioni.

 \section{Machine Learning}
Author	SHA1	Message	Date
cocco_git	008604312c	cambridge analytica	2017-08-18 13:56:42 +02:00
cocco_git	d85240d2ef	chapters introduced	2017-08-18 13:52:43 +02:00