A001847 - MATHEMATICAL METHODS AND MODELS FOR DATA SCIENCE

insegnamento

ID:

A001847

Durata (ore):

48

CFU:

Url:

Dettaglio Insegnamento:

DATA SCIENCE/PERCORSO COMUNE Anno: 1

Anno:

2023

Periodo di attività

Ciclo Annuale (25/09/2023 - 31/05/2024)

Obiettivi Formativi

Gli obiettivi del corso riguardano l’ottimizzazione delle tecniche e dei metodi dell’analisi dei dati con riferimento alle funzioni obiettivo, le variabili decisionali e i vincoli sia lineari che non lineari dei problemi. Argomenti del corso includono la programmazione lineare (intera e non), la programmazione non lineare, il metodo del gradiente, il problema del clustering e i problemi di classificazione.

Prerequisiti

Algebra lineare, Calcolo differenziale e integrale, Statistica.

Testi

1) Jeff M. Phillips. Mathematical foundations for data analysis, 2019. Disponibile online all'url http://www.cs.utah.edu/~jeffp/M4D/M4D.html
2) Gilbert Strang. Linear algebra and learning from data. Cambridge University Press, 2019.
3) S. Boyd and L. Vandenberghe. Convex optimization. Cambridge University Press, 2003.
4) J. Nocedal and S. J. Wright. Numerical Optimization, Second Edition. Springer, New York, 2006.

Contenuti

Modellistica matematica: ambiti e caratteristiche della modellistica matematica, elementi e classificazione dei modelli matematici, fasi della modellistica matematica, implementazione di un modello dai dati, validazione del modello, stima dei parametri.
Fitting lineare e non lineare: analisi di regressione lineare, metodo dei minimi quadrati, regressione lineare semplice, media e varianza dei residui, analisi della varianza, fitting di dati con un modello lineare, regressione lineare multipla, regressione polinomiale, analisi di regressione non lineare, fitting di dati con un modello non lineare, linearizzazione di modelli non lineari, tecniche di validazione del modello, insieme di stima e insieme di verifica, metodi di convalida incrociata esaustivi e non esaustivi, metodo holdout, convalida incrociata leave-p-out, convalida incrociata leave-one-out, convalida incrociata k-fold, applicazioni di regressione lineare e non lineare a insiemi di dati.
Analisi delle Componenti Principali: dati matriciali, analisi della varianza tramite le Componenti Principali, proiezioni di dati mediante cambiamento di base, decomposizione ai valori singolari di matrici per descrivere la varianza di insiemi di dati, applicazioni a insiemi di dati dell’algoritmo per l’Analisi delle Componenti Principali.
Analisi di cluster: classificazione e tecniche di clustering, metodi bottom-up e top-down, clustering gerarchico e partizionale, clustering gerarchico agglomerativo e divisivo, rappresentazione grafica del clustering gerarchico, dissimilarità tra cluster e criteri di collegamento, algoritmi di clustering gerarchico agglomerativo, clustering complete-linkage, clustering single-linkage, clustering unweighted average linkage, clustering weighted average linkage, clustering density-based, clustering basato sui centroidi, clustering partizionale per dati numerici, clustering k-means, centroidi ottimali e partizioni ottimali, algoritmo di Lloyd e varianti, forma matriciale del clustering k-means, analisi della convergenza del clustering k-means, clustering k-means++, clustering k-medians, medoidi e clustering k-medoids, ottimizzazione alternata e partizionamento attorno ai medoidi, applicazioni del metodo dei medoidi al clustering gerarchico agglomerativo, clustering partizionale per dati categorici, misure di dissimilarità per dati categorici, clustering k-modes, clustering partizionale per dati numerici e categorici, clustering k-prototypes, clustering esclusivo e non-esclusivo, clustering fuzzy C-means, metodi di stima del clustering, convalida interna, indice di Dunn, coefficiente di Silhouette, indice di Davies-Bouldin.
Ottimizzazione: regola della catena, teorema del valore medio, teorema di Taylor, ottimizzazione non vincolata, funzioni obiettivo, problemi di minimo, ottimi locali e globali, condizioni di ottimalità del primo e del secondo ordine, insiemi convessi, caratterizzazioni e operazioni tra insiemi convessi, funzioni convesse e concave, epigrafico di una funzione convessa, funzioni strettamente convesse, funzioni strettamente convesse con parametro m, caratterizzazioni e operazioni tra funzioni convesse, condizioni di convessità del primo e del secondo ordine, minimizzazione globale di funzioni convesse, condizioni del primo e del secondo ordine per la stretta convessità e per la stressa convessità con parametro m, minimizzazione globale di funzioni strettamente convesse e strettamente convesse con parametro m, metodi di discesa, direzione di discesa e lunghezza del passo di discesa, metodi di ricerca per linea esatti ed inesatti, condizioni deboli e forti di Wolfe, condizioni di Goldstein, metodi di ricerca per linea di backtracking, tassi di convergenza e complessità computazionale, analisi della convergenza dei metodi di discesa con metodi di ricerca per linea, metodo di discesa del gradiente, analisi della convergenza del metodo di discesa del gradiente per funzioni obiettivo regolari, convesse e strettamente convesse con parametro m, ottimizzazione vincolata, insieme ammissibile e soluzioni candidate, variabili decisionali, problemi di ottimizzazione vincolata convessa non lineare, metodo del gradiente condizionato, analisi della convergenza del metodo del gradiente condizionato, metodi del gradiente accelerato, metodo Heavy-Ball, analisi della convergenza del metodo Heavy-Ball per funzioni quadratiche strettamente convesse con parametro m, vettori coniugati, direzioni coniugate, metodo lineare di direzione coniugata, metodo lineare del gradiente coniugato, analisi della convergenza del metodo lineare del gradiente coniugato, metodo del gradiente coniugato precondizionato, metodo non lineare del gradiente coniugato, metodo di Fletcher-Reeves, metodo di Polak-Ribière, varianti del metodo non lineare del gradiente coniugato, analisi della convergenza dei metodi non lineari del gradiente coniugato, metodo del gradiente accelerato di Nesterov, analisi della convergenza del metodo del gradiente accelerato di Nesterov con funzioni obiettivo convesse e strettamente convesse con parametro m, metodi del secondo ordine, direzione di Newton e lunghezza del passo, metodo di Newton, convergenza locale e globale del metodo di Newton, varianti del metodo di Newton con modifica della matrice Hessiana, mediante decomposizione ai valori singolari, aggiunta di un multiplo dell'identità e utilizzando una fattorizzazione di Cholesky modificata.