Περίληψη : | Η ομαδοποίηση είναι μια δημοφιλής μεθοδολογία με πρακτικές εφαρμογές σε διάφορους τομείς. Ωστόσο, υποστηρίζεται ευρέως ότι δεν είναι όλες οι μεταβλητές που είναι διαθέσιμες στο σετ δεδομένων εξίσου πολύτιμες για τον εντοπισμό της υποκείμενης πραγματικής δομής των συστάδων. Αντίθετα, μόνο ένα υποσύνολο από αυτές είναι διακριτικό για τη δομή συστάδων των δεδομένων, ενώ οι υπόλοιπες αποτελούν θόρυβο. Το ζήτημα αυτό γίνεται ακόμη πιο εμφανές με τα αυξημένα μεγέθη που έχουν τα σημερινά σύνολα δεδομένων παγκοσμίως, λόγω της συνολικής αύξησης της παραγωγής δεδομένων. Για την αντιμετώπιση αυτής της πρόκλησης, έχουν εισαχθεί στη βιβλιογραφία διάφορες τεχνικές μείωσης της διαστατικότητας. Η παρούσα εργασία επικεντρώνεται συγκεκριμένα στις μεθόδους επιλογής μεταβλητών στην συσταδοποίηση χρησιμοποιώντας τον αλγόριθμο K-Means. Πιο συγκεκριμένα, η μέθοδος HINoV (Heuristic Identification of Noisy Variables), η μέθοδος VS-KM (Variable Selection heuristic for K-Means clustering) και η μέθοδος Sparse K-Means (SK-Means) αναλύονται διεξοδικά και στη συνέχεια εφαρμόζονται σε προσομοιωμένα σύνολα δεδομένων, καθώς και σε ένα σύνολο δεδομένων που μοιάζει με τον πραγματικό κόσμο, για τη διεξαγωγή συγκριτικής μελέτης των επιδόσεών τους σε δύο διαφορετικά σενάρια: ένα πειραματικό και ένα πιθανό πραγματικό επιχειρηματικό. Clustering is a popular methodology with practical applications in various fields. However, it is widely argued that not all variables that are available in the dataset are equally valuable in identifying the underlying true cluster structure. Instead, only a subset of them is discriminant for the data cluster structure, while the rest of them constitute noise. This issue becomes even more apparent with the increased sizes that today’s world datasets have, due to the overall increase in data generation. To address this challenge, a variety of dimensionality reduction techniques have been introduced in the literature. This work specifically focuses on variable selection methods in K-Means clustering. More precisely, Heuristic Identification of Noisy Variables (HINoV), Variable Selection heuristic for K-Means clustering (VS-KM) and Sparse K-Means (SK-Means) are thoroughly analysed and then applied to simulated datasets, as well as a real-world-like dataset, to conduct a comparative study of their performance in two different scenarios: an experimental one and a potential real business one.
|
---|