Apprendimento dei principali metodi per l'analisi di grandi quantità di dati. Offrire una nuova prospettiva sul mondo dei dati e il loro potere informativo orientato ai professionisti della conoscenza, come comunicatori e giornalisti, per consentire loro di sapere dove trovarli e come analizzarli al fine di utilizzarli per estrarne comprensione e significato. Le novità principali che si stanno sviluppando in questo ambito risiedono proprio nelle modalità di ricerca, analisi e design utilizzate per estrarre contenuti dai dati e trasformarli in informazione. Imparare a interpretare i dati affinché siano non più solamente sequenze alfanumeriche, ma sistemi comprensibili nei quali si possano leggere differenze, tendenze, correlazioni, imperfezioni e persino sfumature di significato. .
Prerequisiti
Conoscenze di Base della Statistica Sociale
Testi
Domenica Fioredistella Iezzi “Statistica per le Scienze Sociali”. Carocci Editore (capitoli da 1 a 9, e da 12 a 14).
Andrea De Mauro”Big Data Analytics: Analizzare e interpretare dati con il machine Learning”. Ed. Apogeo. ISBN libro : 9788850334780 ISBN Ebook 9788850318599 - Package GRETL, scaricabile gratuitamente da: https://gretl.sourceforge.net/win32/index_it.html (per windows) https://gretl.sourceforge.net/osx_it.html (per mac)
Contenuti
MODULO DI “ANALISI DEI BIG DATA” Negli ultimi decenni, lo sviluppo delle reti di comunicazione, dei social media e la diffusione di un certo livello di conoscenza informatica di base ha contribuito a produrre un vertiginoso scambio di informazioni, soprattutto in rete. Circostanza, questa, che ha portato all’accumulo di dati e all’elaborazione di grandi dataset di dimensioni impensabili fino a poco tempo fa. Come conseguenza, dall’approccio tradizionale all’analisi inferenziale dei dati, valida per campioni caratterizzati da un gran numero di osservazioni ricavate da piani di campionamento affidabili, si passa a un contesto in cui la composizione campionaria è caratterizzata, oltre che da molte osservazioni (ma “qualitativamente” scadenti), anche da molte variabili. Inoltre, mentre nel recente passato problemi quali la gestione della distorsione da mancate risposte veniva risolta appoggiandosi sulla qualità complessiva della rilevazione campionaria, ora le tecniche tradizionali di imputazione di dati mancanti o di post-stratificazione diventano sempre più difficili da applicare in presenza di dati eterogenei, non rilevati su base probabilistica e fortemente selezionati; caratterizzati, inoltre, da una pletora di variabili spesso ridondanti (“maledizione” della multidimensionalità). Pertanto, gestione delle informazioni mancanti e problemi derivanti dalla multidimensionalità sono due fra gli aspetti salienti dell’analisi statistica riferita a grandi dataset. Tali aspetti verranno discussi e analizzati nel presente corso di Analisi dei Big data. Il programma del corso, pertanto, è incentrato, in una fase iniziale, sulla conoscenza degli strumenti basilari di analisi in ambito sociale, principalmente con dati raccolti tramite questionario o intervista: Strumenti di misurazione in ambito sociale: scale di misura, differenze individuali, correlazione, regressione lineare e discreta. Affidabilità e validità di uno strumento di misura (ad esempio, un questionario, un test di profitto etc.). In una seconda fase, verranno discussi i problemi derivanti dalla “cattiva” qualità dei dati, tipica conseguenza delle rilevazioni su larga scala: Errori di misurazione: errori di rilevazione campionaria, di risposta, errori nella costruzione di un test o di un questionario. Infine, in una terza fase, verranno affrontati i problemi di natura inferenziale che caratterizzano I dataset con le caratteristiche tipiche dei Big Data. Big Data: informazione, tecnologia, metodi e impatto. Problemi connessi alla multidimensionalità. Applicazioni pratiche verranno svolte su appositi dataset utilizzando il package (gratuito) GRETL. Il tutto scaricabile dalla piattaforma e-learning.