Abstract : | Ένα μοντέλο ανάκτησης κειμένων θεωρείται επιτυχές όταν καταφέρνει να ικανοποιήσει το χρήστη, όταν δηλαδή επιστρέφει κείμενα σχετικά με το ερώτημα που αυτός έχει θέσει. Μέχρι στιγμής τα ευρέως χρησιμοποιούμενα μοντέλα ανάκτησης κειμένων στοχεύουν στο ακριβές ταίριασμα των λέξεων του ερωτήματος με αυτές των κειμένων (exact keyword matching), μη λαμβάνοντας υπόψη τους τα υφιστάμενα προβλήματα της πολυσημίας και της συνωνυμίας των όρων, τα οποία οδηγούν σε μειωμένη απόδοση στην ανάκτηση. Ακόμη, το πιο διαδεδομένο μοντέλο ανάκτησης κειμένων, το Vector Space Model (VSM), θεωρεί ότι οι όροι δεν έχουν καμία εννοιολογική συσχέτιση μεταξύ τους αποτυγχάνοντας έτσι να ενσωματώσει χρήσιμη πληροφορία στη διαδικασία της ανάκτησης. Τα GVSM μοντέλα επεκτείνουν το υπάρχον βασικό VSM μοντέλο κάνοντας χρήση τεχνικών ενσωμάτωσης επιπλέον πληροφορίας στις διαδικασίες της δεικτοδότησης και της ανάκτησης διατηρώντας ταυτόχρονα τα οφέλη της διανυσματικής αναπαράστασης των κειμένων και των queries.Η παρούσα διατριβή έχει σκοπό να περιγράψει μερικά από τα γενικευμένα μοντέλα που έχουν προταθεί μέχρι στιγμής αλλά και να παρουσιάσει ένα νέο μοντέλο GVSM. Το μοντέλο αυτό κάνει χρήση του μέτρου Semantic Relatedness (SR)(Tsatsaronis et al., 2008) [4] προκειμένου να υπολογίσει τη σημασιολογική εγγύτητα δύο όρων σύμφωνα με τον θησαυρό όρων WordNet. Το νέο μοντέλο υλοποιήθηκε στην πλατφόρμα ανάκτησης πληροφορίας Terrier. Τέλος, περιγράφονται τα πειράματα που διεξήχθησαν σε συλλογές TREC και παρουσιάζονται διαγραμματικά τα αποτελέσματα.
|
---|