Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	A pairwise composite likelihood approach for the clustering of ordinal data using latent mixture models

Δημιουργός :	Chrysikou, Aikaterini Χρυσικού, Αικατερίνη

Συντελεστής :	Παπαγεωργίου, Ιουλία (Επιβλέπων καθηγητής) Βασδέκης, Βασίλειος (Εξεταστής) Καρλής, Δημήτριος (Εξεταστής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	52p.

Γλώσσα :	en

Περίληψη :	This thesis focuses on clustering ordinal (categorical) data, which is a task of increasing interest since ordinal variables does not have metric properties like a continuous variable has. This kind of data are used various scientific fields, such as social sciences, behavioral sciences, medical sciences as well as marketing, etc. A standard approach when dealing with ordinal data in a clustering problem is to consider them as interval variables. By this consideration, the ordinal nature of the data is ignored and it is incorrectly assumed that the distances between the ordinal variable’s categories are equal. The way to implement this task is to assume the Underlying Response Variable (URV) approach (see e.g Katsikatsou and Moustaki, 2012) for the original data, according to which the observed ordinal data are a result of the descretization of continuous variables. The unobserved continuous variables are called latent. Ranalli and Rocci (2016), proposed the above mentioned method to treat ordinal variables, assuming the them as input variables in a clustering problem and treats the data as ordinal instead of interval. The latent mixture refers to the relationship between observed and unobserved data and they estimate parameters using a method called pairwise composite likelihood. Therefore, the proposed method by Ranalli and Rocci (2016) is to assume a mixture model on the latent variables, where each component corresponds to a different group. By fitting this model, one could identify the groups by estimating the parameters. For the parameter estimation, both the pairwise composite likelihood was used and the standard likelihood as well (for the purposes of comparison). That type of likelihood does not require numerical calculations of high-dimensional integrals but assumes bivariate distributions, from which we will calculate weighted bivariate log-likelihood contributions. The latter are easily evaluated. Furthermore, we will work on a model based clustering framework, using an alternative approach of the EM algorithm for parameter estimation. This approach uses the pairwise composite likelihood for parameter estimation instead of the full joint likelihood that the standard algorithm uses. So we test the effectiveness of the algorithm using both types of likelihoods for the latent continuous data instead of using the ordinal, through a simulation study. Η διπλωματική αυτή επικεντρώνεται στην ομαδοποίηση τακτικών δεδομένων. Τέτοιου είδους δεδομένα συναντάμε αρκετά συχνά, ειδικά σε κοινωνικές επιστήμες, marketing, παιδαγωγικές επιστήμες κ.τ.λ. Είναι μια διαδικασία αυξανόμενου ενδιαφέροντος τις τελευταίες δεκαετίες, διότι οι κατηγορικές μεταβλητές δεν αφορούν ένα φυσικό σύστημα μέτρησης αλλά ένα σύστημα κλίμακας. Η τυπική προσέγγιση όταν αντιμετωπίζουμε τα κανονικά δεδομένα σε ένα πρόβλημα ομαδοποίησης είναι να τα θεωρήσουμε ως μεταβλητές σε ένα διάστημα. Με αυτό το σκεπτικό, η τακτική φύση των δεδομένων αγνοείται και θεωρείται η εσφαλμένη υπόθεση ότι οι αποστάσεις μεταξύ των κατηγοριών της τακτικής μεταβλητής είναι ίσες. Ο τρόπος για την υλοποίηση αυτού του στόχου είναι να υποθέσουμε την προσέγγιση της μεθόδου URV (βλέπε π.χ. Katsikatsou & Moustaki, 2012) για τα αρχικά δεδομένα, σύμφωνα με τα οποία τα παρατηρούμενα τακτικά δεδομένα προκύπτουν από την διακριτοποίηση συνεχών μεταβλητών. Οι συνεχείς μεταβλητές, οι οποίες δεν έχουν παρατηρηθεί, ονομάζονται λανθάνουσες. Οι Ranalli και Rocci (2016) πρότειναν την προαναφερθείσα μέθοδο για τη μεταχείριση τακτικών μεταβλητών, θεωρώντας τις ως μεταβλητές εισόδου σε ένα πρόβλημα ομαδοποίησης αντιμετωπίζοντας τα δεδομένα ως τακτικά, και όχι σαν διαστήματα τιμών. Η μίξη κατανομών χρησιμοποιώντας λανθάνουσες μεταβλητές αναφέρεται στη σχέση μεταξύ παρατηρούμενων και μη παρατηρημένων δεδομένων και εκτιμά παραμέτρους χρησιμοποιώντας μια μέθοδο που ονομάζεται pairwise likelihood inference. Επομένως, η προτεινόμενη μέθοδος από τους Ranalli και Rocci (2016) είναι να υποθέσουμε μία μίξη κατανομών στις λανθάνουσες μεταβλητές, όπου κάθε component της μίξης αντιστοιχεί σε μία διαφορετική ομάδα. Με την τοποθέτηση αυτού του μοντέλου μπορούμε να εντοπίσουμε τις ομάδες εκτιμώντας τις παραμέτρους. Για την εκτίμηση των παραμέτρων χρησιμοποιήθηκε τόσο η pairwise likelihood όσο και η standard joint likelihood για σκοπούς σύγκρισης. Αυτός ο τύπος πιθανοφάνειας δεν απαιτεί χρονοβόρους και βαρύς αριθμητικούς υπολογισμούς πολυδιάστατων ολοκληρωμάτων αλλά προϋποθέτει διδιάστατες κατανομές, από τις οποίες θα υπολογίσουμε τις σταθμισμένες συμβολές διδιάστατων λογαριθμικών πιθανοφανειών. Τα τελευταία είναι εύκολο να αξιολογηθούν. Επιπλέον, θα εργαστούμε σε ένα μοντέλο που βασίζεται σε model based μεθόδους ομαδοποίησης, χρησιμοποιώντας μια εναλλακτική προσέγγιση του αλγόριθμου Expectation Maximization (EM algorithm) για την εκτίμηση των παραμέτρων. Αυτή η προσέγγιση χρησιμοποιεί την pairwise likelihood για την εκτίμηση παραμέτρων αντί για την κλασσική πιθανοφάνεια που χρησιμοποιεί ο τυπικός αλγόριθμος. Επομένως, δοκιμάζουμε την αποτελεσματικότητα του αλγορίθμου χρησιμοποιώντας και τα δύο είδη πιθανοφανειών, μέσω μιας μελέτης προσομοίωσης.

Περίληψη :

This thesis focuses on clustering ordinal (categorical) data, which is a task of increasing interest since ordinal variables does not have metric properties like a continuous variable has. This kind of data are used various scientific fields, such as social sciences, behavioral sciences, medical sciences as well as marketing, etc. A standard approach when dealing with ordinal data in a clustering problem is to consider them as interval variables. By this consideration, the ordinal nature of the data is ignored and it is incorrectly assumed that the distances between the ordinal variable’s categories are equal. The way to implement this task is to assume the Underlying Response Variable (URV) approach (see e.g Katsikatsou and Moustaki, 2012) for the original data, according to which the observed ordinal data are a result of the descretization of continuous variables. The unobserved continuous variables are called latent. Ranalli and Rocci (2016), proposed the above mentioned method to treat ordinal variables, assuming the them as input variables in a clustering problem and treats the data as ordinal instead of interval. The latent mixture refers to the relationship between observed and unobserved data and they estimate parameters using a method called pairwise composite likelihood. Therefore, the proposed method by Ranalli and Rocci (2016) is to assume a mixture model on the latent variables, where each component corresponds to a different group. By fitting this model, one could identify the groups by estimating the parameters. For the parameter estimation, both the pairwise composite likelihood was used and the standard likelihood as well (for the purposes of comparison). That type of likelihood does not require numerical calculations of high-dimensional integrals but assumes bivariate distributions, from which we will calculate weighted bivariate log-likelihood contributions. The latter are easily evaluated. Furthermore, we will work on a model based clustering framework, using an alternative approach of the EM algorithm for parameter estimation. This approach uses the pairwise composite likelihood for parameter estimation instead of the full joint likelihood that the standard algorithm uses. So we test the effectiveness of the algorithm using both types of likelihoods for the latent continuous data instead of using the ordinal, through a simulation study.
Η διπλωματική αυτή επικεντρώνεται στην ομαδοποίηση τακτικών δεδομένων. Τέτοιου είδους δεδομένα συναντάμε αρκετά συχνά, ειδικά σε κοινωνικές επιστήμες, marketing, παιδαγωγικές επιστήμες κ.τ.λ. Είναι μια διαδικασία αυξανόμενου ενδιαφέροντος τις τελευταίες δεκαετίες, διότι οι κατηγορικές μεταβλητές δεν αφορούν ένα φυσικό σύστημα μέτρησης αλλά ένα σύστημα κλίμακας. Η τυπική προσέγγιση όταν αντιμετωπίζουμε τα κανονικά δεδομένα σε ένα πρόβλημα ομαδοποίησης είναι να τα θεωρήσουμε ως μεταβλητές σε ένα διάστημα. Με αυτό το σκεπτικό, η τακτική φύση των δεδομένων αγνοείται και θεωρείται η εσφαλμένη υπόθεση ότι οι αποστάσεις μεταξύ των κατηγοριών της τακτικής μεταβλητής είναι ίσες. Ο τρόπος για την υλοποίηση αυτού του στόχου είναι να υποθέσουμε την προσέγγιση της μεθόδου URV (βλέπε π.χ. Katsikatsou & Moustaki, 2012) για τα αρχικά δεδομένα, σύμφωνα με τα οποία τα παρατηρούμενα τακτικά δεδομένα προκύπτουν από την διακριτοποίηση συνεχών μεταβλητών. Οι συνεχείς μεταβλητές, οι οποίες δεν έχουν παρατηρηθεί, ονομάζονται λανθάνουσες. Οι Ranalli και Rocci (2016) πρότειναν την προαναφερθείσα μέθοδο για τη μεταχείριση τακτικών μεταβλητών, θεωρώντας τις ως μεταβλητές εισόδου σε ένα πρόβλημα ομαδοποίησης αντιμετωπίζοντας τα δεδομένα ως τακτικά, και όχι σαν διαστήματα τιμών. Η μίξη κατανομών χρησιμοποιώντας λανθάνουσες μεταβλητές αναφέρεται στη σχέση μεταξύ παρατηρούμενων και μη παρατηρημένων δεδομένων και εκτιμά παραμέτρους χρησιμοποιώντας μια μέθοδο που ονομάζεται pairwise likelihood inference. Επομένως, η προτεινόμενη μέθοδος από τους Ranalli και Rocci (2016) είναι να υποθέσουμε μία μίξη κατανομών στις λανθάνουσες μεταβλητές, όπου κάθε component της μίξης αντιστοιχεί σε μία διαφορετική ομάδα. Με την τοποθέτηση αυτού του μοντέλου μπορούμε να εντοπίσουμε τις ομάδες εκτιμώντας τις παραμέτρους. Για την εκτίμηση των παραμέτρων χρησιμοποιήθηκε τόσο η pairwise likelihood όσο και η standard joint likelihood για σκοπούς σύγκρισης. Αυτός ο τύπος πιθανοφάνειας δεν απαιτεί χρονοβόρους και βαρύς αριθμητικούς υπολογισμούς πολυδιάστατων ολοκληρωμάτων αλλά προϋποθέτει διδιάστατες κατανομές, από τις οποίες θα υπολογίσουμε τις σταθμισμένες συμβολές διδιάστατων λογαριθμικών πιθανοφανειών. Τα τελευταία είναι εύκολο να αξιολογηθούν. Επιπλέον, θα εργαστούμε σε ένα μοντέλο που βασίζεται σε model based μεθόδους ομαδοποίησης, χρησιμοποιώντας μια εναλλακτική προσέγγιση του αλγόριθμου Expectation Maximization (EM algorithm) για την εκτίμηση των παραμέτρων. Αυτή η προσέγγιση χρησιμοποιεί την pairwise likelihood για την εκτίμηση παραμέτρων αντί για την κλασσική πιθανοφάνεια που χρησιμοποιεί ο τυπικός αλγόριθμος. Επομένως, δοκιμάζουμε την αποτελεσματικότητα του αλγορίθμου χρησιμοποιώντας και τα δύο είδη πιθανοφανειών, μέσω μιας μελέτης προσομοίωσης.

Λέξη κλειδί :	Μίξη κατανομών Τακτικά δεδομένα Ομαδοποίηση Σύνθετη πιθανοφάνεια Latent mixure models Clustering Ordinal Data Pairwise composite likelihood Gaussian mixtures

Ημερομηνία :	10-09-2019

Άδεια χρήσης :

Αρχείο: Chrysikou_2019.pdf

Τύπος: application/pdf

Είσοδος