Περίληψη : | Oι μεικτές πιθανοφάνειες, ανήκουν στην κλάση των ψευδοπιθανοφανειών και κατασκευάζονται ενώνοντας περιθώριες ή δεσμευμένες συναρτήσεις πυκνότητας-πιθανότητας. Αποτελούν βολικούς αντιπροσώπoυς της από κοινού πιθανοφάνειας, σε περιπτώσεις πoυ αυτή είναι δύσκολο ή υπολογιστικά απαιτητικό να υπολογιστεί και να μεγιστοποιηθεί. Σε περίπτωση μεγάλων διαστάσεων ή έντονης εξάρτησης μεταξύ των παρατηρήσεων, οι μεικτές πιθανοφάνειες, αποτελούν έναν αποδοτικό και σχετικά εύκολο τρόπο εκτίμησης των άγνωστων παραμέτρων του μοντέλου μας. Ο στόχος αυτής της διπλωματικής, είναι να παρoυσιάσει τα πλεονεκτήματα αυτών των μεθόδων σε περιπτώσεις με μείγματα κανονικών κατανομών σε μεγάλες διαστάσεις και να εξάγει συμπεράσματα ομαδοποίησης των παρατηρήσεων. Για τον σκοπό αυτό, κατασκευάσαμε μία μικτή πιθανoφάνεια, πoυ αποτελείται από όλες τις δισδιάστατες περιθώριες συναρτήσεις πυκνότητας-πιθανότητας και στη συνέχεια παρουσιάζουμε ένα είδος ΕΜ αλγορίθμου για την εκτίμηση των άγνωστων παραμέτρων. Χρησιμοποιούμε αυτόν τον αλγόριθμο, για να εξετάσουμε την περίπτωση της ανά ζευγάρια πιθανοφάνειας σε πεπερασμένα μείγματα κανονικής κατανομής. Ο αλγόριθμος αυτός εφαρμόζεται σε δεδομένα γονιδιακής έκφρασης. Composite likelihoods are pseudolikelihoods constructed by compounding marginal or conditional densities. They are often convenient surrogates for the full likelihood, in cases where it is too cumbersome or computationally expensive to be maximized and computed. In the case of high dimensions or dependency structure, composite likelihoods manage to estimate the unknown parameters of the model in an effective and relatively easy way. The aim of this thesis is to point out the advantages of these methods in high dimensional data and extract clustering results. For this purpose, we create a composite likelihood, composed of all the bivariate marginal densities and then we introduce an EM-type algorithm to estimate the unknown parameters. We examine the case or pairwise log-likelihood method for the case of finite multivariate Gaussian mixtures. The developed algorithm is applied in gene expression data.
|
---|