AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Διδακτορικές διατριβές / PhD Theses

Title :	Model based clustering for count and mixed mode data

Alternative Title :	Ομαδοποίηση βασισμένη σε μοντέλα κατανομής για μετρήσιμα και μεικτού τύπου δεδομένα

Creator :	Πανάγου, Φωτεινή Panagou, Fotini

Contributor :	Karlis, Dimitrios (Επιβλέπων καθηγητής) Papageorgiou, Ioulia (Εξεταστής) Gormley, Claire (Εξεταστής) Kosmidis, Ioannis (Εξεταστής) Rau, Andrea (Εξεταστής) Ntzoufras, Ioannis (Εξεταστής) Papastamoulis, Panagiotis (Εξεταστής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Type :	Text

Extent :	135p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10001

Abstract :	Οι μέθοδοι ομαδοποίησης που βασίζονται σε μοντέλα κατανομής για τον πληθυσμό, είναι μια κοινή προσέγγιση για τη μοντελοποίηση δεδομένων με τη χρήση πεπερασμένων μίξεων παραμετρικών κατανομών. Για μετρήσιμα δεδομένα, η επιλογή της πολυμεταβλητής κατανομής Poisson μπορεί να οδηγήσει σε αυξημένο υπολογιστικό κόστος. Η έννοια της μεθόδου της σύνθετης πιθανοφάνειας με τη χρήση διμεταβλητών περιθώριων κατανομών μπορεί να προσφέρει ευελιξία στις εκτιμήσεις. Προκειμένου να μειωθεί περαιτέρω ο χρόνος εκτίμησης των παραμέτρων που σχετίζονται με τη σύνθετη μέθοδο πιθανοφάνειας, εισάγουμε μεθόδους δειγματοληψίας που μπορούν να προσφέρουν επαρκή αποτελέσματα, ειδικά σε μεγάλων διαστάσεων δεδομένα. Όσον αφορά τα δεδομένα μεικτού τύπου, η από κοινού κατανομή δεν είναι πάντα εύκολο να βρεθεί. Τα copulas είναι ευρέως γνωστά ως ευέλικτα μοντέλα που επιτρέπουν τη δημιουργία πολυμεταβλητών κατανομών όταν δίνονται οι περιθώριες κατανομές. Ως εκ τούτου, μπορούν να δημιουργήσουν μια πληθώρα πολυμεταβλητών μοντέλων συμπεριλαμβανομένων μοντέλων με διαφορετικές περιθώριες. Σκοπός της παρούσας διπλωματικής εργασίας είναι κυρίως να επεκτείνει τα μέχρι τώρα αποτελέσματα της χρήσης μοντέλων που βασίζονται σε copula για εφαρμογές ομαδοποίησης. Το Gaussian Copula προσφέρει ευελιξία για την περιγραφή των συσχετίσεων μεταξύ διαφορετικών τύπων μεταβλητών. Στόχος μας είναι να μειώσουμε περαιτέρω το υπολογιστικό κόστος που προκύπτει από τη χρήση του Gaussian copula και του πλήρως παραμετροποιημένου μοντέλου που μελετήσαμε εκτενώς, καθώς αυτή η προσέγγιση είναι χρονοβόρα, γεγονός που προκύπτει από την προσθήκη διαφορετικών πινάκων συσχέτισης για κάθε ομάδα που πρέπει να εκτιμηθεί. Έτσι, ο κύριος στόχος είναι να επιτευχθεί ευελιξία στην εκτίμηση με τη χρήση κατάλληλων τεχνικών. Στην παρούσα διατριβή έχουμε προτείνει ευέλικτες εναλλακτικές που βασίζονται σε προσεγγίσεις μείωσης των διαστάσεων, όπως η ανάλυση παραγόντων ή έξυπνες αναπαραστάσεις των πινάκων συσχέτισης (δομημένοι πίνακες συσχέτισης). Model based clustering (MBC) is a common approach for modelling data with the use of finite mixtures of parametric distributions. For count data, the choice of high dimensional multivariate Poisson distribution can lead to increased computational effort. Composite likelihoods concept with the use of bi-variate marginals, can offer flexibility in estimations. In order to further reduce the time of estimation of the composite likelihood method associated parameters, in this thesis we introduce the sampling methods which can offer adequate results, especially for large data samples. When it comes to mixed data sets, the joint probability is not always easy to be found. Copulas are well known as flexible models which allow creating multivariate distributions with given marginals. Hence, they can create a wealth of multivariate models including models with different marginal distributions. The purpose of the present thesis is mainly to expand the derived so far results of using copula-based models for MBC applications. Gaussian Copula offers flexibility for description of the dependencies between different types of variables. Our aim is to further reduce computational effort arisen from the use of Gaussian copula, and the fully parametrized model we assessed, since this approach causes effort from adding different correlation matrices for every component that need to be estimated. So, the main target is to achieve parsimony in estimation with the use of appropriate techniques. Parsimonious alternatives have been proposed based on dimension reduction approaches like factor analysis or clever representations of the correlation matrices named structured correlation matrices.

Abstract :

Οι μέθοδοι ομαδοποίησης που βασίζονται σε μοντέλα κατανομής για τον πληθυσμό, είναι μια κοινή προσέγγιση για τη μοντελοποίηση δεδομένων με τη χρήση πεπερασμένων μίξεων παραμετρικών κατανομών. Για μετρήσιμα δεδομένα, η επιλογή της πολυμεταβλητής κατανομής Poisson μπορεί να οδηγήσει σε αυξημένο υπολογιστικό κόστος. Η έννοια της μεθόδου της σύνθετης πιθανοφάνειας με τη χρήση διμεταβλητών περιθώριων κατανομών μπορεί να προσφέρει ευελιξία στις εκτιμήσεις. Προκειμένου να μειωθεί περαιτέρω ο χρόνος εκτίμησης των παραμέτρων που σχετίζονται με τη σύνθετη μέθοδο πιθανοφάνειας, εισάγουμε μεθόδους δειγματοληψίας που μπορούν να προσφέρουν επαρκή αποτελέσματα, ειδικά σε μεγάλων διαστάσεων δεδομένα. Όσον αφορά τα δεδομένα μεικτού τύπου, η από κοινού κατανομή δεν είναι πάντα εύκολο να βρεθεί. Τα copulas είναι ευρέως γνωστά ως ευέλικτα μοντέλα που επιτρέπουν τη δημιουργία πολυμεταβλητών κατανομών όταν δίνονται οι περιθώριες κατανομές. Ως εκ τούτου, μπορούν να δημιουργήσουν μια πληθώρα πολυμεταβλητών μοντέλων συμπεριλαμβανομένων μοντέλων με διαφορετικές περιθώριες. Σκοπός της παρούσας διπλωματικής εργασίας είναι κυρίως να επεκτείνει τα μέχρι τώρα αποτελέσματα της χρήσης μοντέλων που βασίζονται σε copula για εφαρμογές ομαδοποίησης. Το Gaussian Copula προσφέρει ευελιξία για την περιγραφή των συσχετίσεων μεταξύ διαφορετικών τύπων μεταβλητών. Στόχος μας είναι να μειώσουμε περαιτέρω το υπολογιστικό κόστος που προκύπτει από τη χρήση του Gaussian copula και του πλήρως παραμετροποιημένου μοντέλου που μελετήσαμε εκτενώς, καθώς αυτή η προσέγγιση είναι χρονοβόρα, γεγονός που προκύπτει από την προσθήκη διαφορετικών πινάκων συσχέτισης για κάθε ομάδα που πρέπει να εκτιμηθεί. Έτσι, ο κύριος στόχος είναι να επιτευχθεί ευελιξία στην εκτίμηση με τη χρήση κατάλληλων τεχνικών. Στην παρούσα διατριβή έχουμε προτείνει ευέλικτες εναλλακτικές που βασίζονται σε προσεγγίσεις μείωσης των διαστάσεων, όπως η ανάλυση παραγόντων ή έξυπνες αναπαραστάσεις των πινάκων συσχέτισης (δομημένοι πίνακες συσχέτισης).
Model based clustering (MBC) is a common approach for modelling data with the use of finite mixtures of parametric distributions. For count data, the choice of high dimensional multivariate Poisson distribution can lead to increased computational effort. Composite likelihoods concept with the use of bi-variate marginals, can offer flexibility in estimations. In order to further reduce the time of estimation of the composite likelihood method associated parameters, in this thesis we introduce the sampling methods which can offer adequate results, especially for large data samples. When it comes to mixed data sets, the joint probability is not always easy to be found. Copulas are well known as flexible models which allow creating multivariate distributions with given marginals. Hence, they can create a wealth of multivariate models including models with different marginal distributions. The purpose of the present thesis is mainly to expand the derived so far results of using copula-based models for MBC applications. Gaussian Copula offers flexibility for description of the dependencies between different types of variables. Our aim is to further reduce computational effort arisen from the use of Gaussian copula, and the fully parametrized model we assessed, since this approach causes effort from adding different correlation matrices for every component that need to be estimated. So, the main target is to achieve parsimony in estimation with the use of appropriate techniques. Parsimonious alternatives have been proposed based on dimension reduction approaches like factor analysis or clever representations of the correlation matrices named structured correlation matrices.

Subject :	Ομαδοποίηση Μετρήσιμα δεδομένα Μεικτού τύπου δεδομένα Μίξεις κατανομών Model based clustering Correlation matrix Mixed mode data Count data

Date Available :	2023-01-31 09:29:20

Date Issued :	28-09-2022

Date Submitted :	2023-01-31 09:29:20

Access Rights :	Free access

Licence :

File: Panagou_2022.pdf

Type: application/pdf

Login