Il corso si propone di presentare i principali approcci all'uso dell'apprendimento statistico e della scienza dei dati nel contesto della gestione del rischio. Durante il corso verranno introdotti modelli statistici e tecniche per la misurazione dell'incertezza e dei rischi attraverso applicazioni empiriche implementate nel software R.
Al termine del corso gli studenti saranno in grado di analizzare dataset di rischio reali, scegliendo le tecniche statistiche più appropriate, confrontando diversi modelli e interpretando correttamente i risultati ottenuti.
Prerequisiti
Statistica descrittiva e concetti di base dell'inferenza statistica. Il possesso di competenze di base nella programmazione è utile, anche se non formalmente richiesto.
Metodi didattici
- Presentazione delle metodologie data science analizzate, con particolare riguardo agli aspetti applicativi; - Applicazioni ed esercizi in classe eseguiti con il software
Verifica Apprendimento
Preparazione e discussione di un'analisi di dati reali.
Testi
Slides e codici messi a disposizione dal docente. Per la parte teorica si può fare riferimento a testi di statistica base come (a titolo solo esemplificativo) "An Introduction to Medical Statistics" di Martin Bland (Oxford University Press, 2015)
Contenuti
- Richiami sui principali concetti di teoria della probabilità e variabili aleatorie; - Odds ratio e loro utilizzo nella valutazione del rischio, analisi delle tabelle di contingenza e test Chi-quadro; - Applicazione e validazione di modelli di regressione logistica; - Modelli di sopravvivenza per l'analisi di dati "time to event"; - Analisi dei cluster; - Analisi network