Conoscenza dei principali metodi per la classificazione e la regressione, delle loro proprietà e dei loro limiti. Capacità di tradurre un problema di apprendimento sperimentale in una formulazione statistica e di scegliere un metodo appropriato per la sua soluzione.
Prerequisiti
Algebra matriciale; elementi di probabilità: variabili casuali scalari e vettoriali; elementi di statistica: stimatori e loro proprietà.
Metodi didattici
L’insegnamento si avvale di lezioni frontali ed esercitazioni. Per entrambe sono utilizzate presentazioni tramite slide messe a disposizione degli studenti nella sezione dedicata all’insegnamento sulla piattaforma KIRO, dove sono anche disponibili le registrazioni video delle lezioni.
Verifica Apprendimento
Esame scritto: due domande di natura teorica e due di natura pratica. Un delle domande teoriche può essere a risposte chiuse vero/falso. La durata è compresa tra 1,5 e 2 ore. La valutazione, in trentesimi, è la media dei voti delle singole risposte ponderata in base alla loro difficoltà. Durante la prova non è consentito consultare testi, manuali e appunti. Durante il corso può essere proposto un progetto di analisi dei dati, da svolgere in piccoli gruppi e che richiede la consegna di un codice e di una presentazione basta su slide entro una data fissata dal docente. Il punteggio, da 0 a 3 punti viene assegnato sulla base della presentazione del progetto da parte degli studenti e viene sommato a quello della prova scritta. Lo svolgimento del progetto è facoltativo. Durante le lezioni vengono presentati esempi di domande d’esame.
Testi
Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York: Springer series in statistics.
Contenuti
Introduzione: Supervised and Unsupervised Learning. Statistical Learning: Statistical Learning and Regression, Curse of Dimensionality and Parametric Models, Assessing Model Accuracy and Bias-Variance Trade-off, Classification Problems and K-Nearest Neighbors. Linear Regression: Simple Linear Regression and Confidence Intervals, Hypothesis Testing, Multiple Linear Regression, Model Selection, Interactions and Nonlinearity. Classification: Introduction to Classification, Logistic Regression and Maximum Likelihood, Linear Discriminant Analysis and Bayes Theorem, Naive Bayes. Resampling Methods: Estimating Prediction Error and Validation Set Approach, K-fold Cross-Validation, Cross-Validation: The Right and Wrong Ways, The Bootstrap. Linear Model Selection and Regularization: Linear Model Selection and Best Subset Selection, Stepwise Selection, Estimating Test Error Using Mallow’s Cp, AIC, BIC, Adjusted R-squared, Cross-Validation, Shrinkage Methods and Ridge Regression, The Lasso, Principal Components Regression and Partial Least Squares. Moving Beyond Linearity: Polynomial Regression, Piecewise Polynomials and Splines, Smoothing Splines, Local Regression and Generalized Additive Models. Tree-Based Methods: Decision Trees, Classification Trees and Comparison with Linear Models, Bootstrap Aggregation (Bagging) and Random Forests, Boosting. Support Vector Machines: Support Vector Classifier, Kernels and Support Vector Machines. Unsupervised Learning: Unsupervised Learning and Principal Components Analysis, K-means Clustering. The fallacies of learning: regression to mediocrity, the covariate shift, statistical significance vs practical significance, correlation is not causation, observational vs experimental studies.