Περίληψη : | Η συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες. Clustering is a popular approach in data mining applications for discovering, managing, analysing, and extracting critical information from large volumes of data. Clustering algorithms strive to discover homogeneous groups of objects based on attribute values. The majority of clustering algorithms are suitable to either solely numerical or solely categorical data, but not both. However, datasets with mixed data types are common in real life applications and such datasets have been gathered in many fields. In the case of mixed-type variables, one main approach is cluster analysis based on similarity measures. Therefore, creating appropriate similarity measures is a critical step in clustering these datasets. This thesis focuses on similarity measures for mixed data which can be applied in hierarchical cluster analysis, with its main topic being the Gower’s similarity measure. Several modifications of the Gower similarity coefficient are examined as well as various additional similarity measures. A simulation study is conducted to assess the performance of the different measures on mixed data while using hierarchical clustering under varying conditions. All the examined similarity measures are compared regarding the quality of the produced clusters by using the Rand index, and therefore assumptions concerning the efficiency of each measure are formulated under different circumstances.
|
---|