Distribuzione Normale Multivariata. Modello di regressione multivariata. Graphical models con estensione per high dimensional data (stimatori lasso e ridge). Metodi di Data Mining a fini esplorativi: Analisi in componenti principali e Analisi fattoriale. Metodi di Data Mining a fini discriminatori: Analisi discriminante lineare e quadratica. Metodi di supervised learning per la classificazione: CART, boosting, random forest, super learner, BART.
Appunti e slides forniti dal docente, disponibili su Moodle.
Friedman, J., Hastie, T., & Tibshirani, R. (2008). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.
Il corso introduce lo studente all'applicazione ed alla teoria di metodi di analisi e modelli statistici per lo studio di dati multivariati e di grande dimensione. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico. Per favorire la comprensione, l'interpretazione e l'uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.
Prerequisiti
Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici
Metodi Didattici
Lezioni frontali, esercitazioni, flipped classes e competizioni.
Altre Informazioni
Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.
Modalità di verifica apprendimento
L'esame consta di due progetti:
1) un progetto in gruppo, con presentazione seminariale del progetto con slides in un contest tra gruppi (30% del voto finale)
2) progetto personale, con tesina scritta (30% del voto finale) e presentazione seminariale individuale con slides (40% del voto finale).
Slides, tesine e codici devono essere consegnate al docente prima di ciascuna presentazione.
Programma del corso
1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell'indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all'analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi discriminante Introduzione all'analisi discriminante Regola di allocazione di massima verosimiglianza Analisi discriminante lineare e non lineare Matrice di confusione
10. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.
11. Cenni al Deep learning