Abstract : | Διπλωματική εργασία - Οικονομικό Πανεπιστήμιο Αθηνών. ΜΠΣ στα Πληροφοριακά Συστήματα Η παρούσα εργασία πραγματεύεται την αξιολόγηση εργαλείων αυτόματης σημασιολογικής επισημείωσης κειμένων που αφορούν την αξιολόγηση ψηφιακών βιβλιοθηκών. Στη σημερινή εποχή που χαρακτηρίζεται από την ραγδαία ανάπτυξη της τεχνολογίας και τον καταιγισμό των χρηστών με νέες πληροφορίες, κυρίως σε ψηφιακή μορφή, η ανάγκη επισημείωσης του διαρκώς αυξανόμενου όγκου δεδομένων είναι αναγνωρισμένη ευρέως από ειδικούς σε όλους τα γνωστικά πεδία. Η σημασιολογική επισημείωση των ψηφιακών κειμένων επιτρέπει την εξαγωγή συμπερασμάτων πιο εύκολα και αποδοτικά, ενώ παράλληλα διευκολύνει την αναζήτησή τους με βάση τις σημασιολογικές ετικέτες που τους αποδίδει, λόγοι που κάνουν την ανάγκη αυτή επιτακτική.Τα κείμενα που μελετώνται και επισημειώνονται σημασιολογικά στο πλαίσιο της παρούσας έρευνας αφορούν ψηφιακές βιβλιοθήκες, οι οποίες παρέχουν στον χρήστη εύκολη και γρήγορη πρόσβαση στη γνώση από οποιοδήποτε σημείο χωρίς να απαιτείται φυσική παρουσία. Το πλούσιο περιεχόμενο πληροφορίας των κειμένων αυτών μπορεί να καταστεί ρητό και σαφές με τη χρήση μιας καλώς ορισμένης οντολογίας. Προς αυτή τη κατεύθυνση δημιουργήθηκε η οντολογία DiLEO, που επικεντρώνεται στο πεδίο της αξιολόγησης των ψηφιακών βιβλιοθηκών. Τα πλεονεκτήματα της σημασιολογικής επισημείωσης των κειμένων σύμφωνα με την οντολογία DiLEO, αποτυπώνονται στη διαλειτουργικότητα που προσφέρει το κοινό σημασιολογικό πλαίσιο αναπαράστασης.Πρώτο βήμα της έρευνας αποτέλεσε η συλλογή του συνόλου δεδομένων προς επισημείωση. Ανακτήθηκαν όλα τα τεκμήρια δύο συνεδρίων που επικεντρώνονται στις ψηφιακές βιβλιοθήκες (Joint Conference on Digital Libraries - JCDL και European Conference on Digital Libraries - ECDL) για τα έτη 2001 έως 2011 και έπειτα από μελέτη τους διατηρήθηκαν αυτά που αναφέρονται σε αξιολόγηση ψηφιακών βιβλιοθηκών. Σε αυτό το βήμα ερευνήθηκαν επίσης τα αποτελέσματα μιας αυτόματης ταξινόμησης των εγγράφων αυτών στις δυο κατηγορίες που είχαν διαχωριστεί (σχετικά με αξιολόγηση και μη). Τα έγγραφα που αφορούσαν αξιολόγηση ψηφιακών βιβλιοθηκών αποτέλεσαν το σύνολο δεδομένων στην συνέχεια της έρευνας.Συνολικός στόχος είναι η αξιολόγηση των εργαλείων που αυτοματοποιούν τη διαδικασία σημασιολογικής επισημείωσης των κειμένων αυτών. Η ανάγκη αυτοματοποίησης προκύπτει από το μεγάλο όγκο τεκμηρίων που είναι διαθέσιμα μέσω διαδικτύου και περιλαμβάνουν έγγραφα από συνέδρια, επιστημονικά περιοδικά και άλλες πηγές. Η ανάθεση επισημείωσης όλων των εγγράφων σε κάποιο ερευνητή θα ήταν πολύ χρονοβόρα διαδικασία και με υψηλό κόστος. Ωστόσο, η αναζήτηση έτοιμων εργαλείων που ανταποκρίνονται σε αυτές τις ανάγκες έφτασε σε τέλμα, καθώς τα περισσότερα από αυτά δεν λειτουργούσαν σωστά λόγω τεχνικών προβλημάτων ή έλλειψης υποστήριξης, με εξαίρεση το εργαλείο Gontogle.Έπειτα, για λόγους σύγκρισης μεθόδων και αλγορίθμων, το πρόβλημα της αυτόματης επισημείωσης προσεγγίστηκε ως αυτόματη κατηγοριοποίηση κειμένων σε πολλές κλάσεις (multi-label classification). Κατά τη διαδικασία αυτή χρησιμοποιήθηκαν προτάσεις των εγγράφων, αντί για το πλήρες κείμενο, ενώ παράλληλα οι κλάσεις στις οποίες ταξινομήθηκαν οι προτάσεις αυτές περιλαμβάνουν την πλειοψηφία των κλάσεων της οντολογίας DiLEO. Για τα πειράματα που πραγματοποιήθηκαν χρησιμοποιήθηκε το εργαλείο Meka, που παρέχει ένα σύνολο αλγορίθμων μηχανικής μάθησης για τη διεξαγωγή τους σε έτοιμα σύνολα δεδομένων. Στόχος της πειραματικής διαδικασίας ήταν η σύγκριση της απόδοσης διαφορετικών συνδυασμών μεθόδων και αλγορίθμων κατηγοριοποίησης και η εύρεση της τεχνικής που παρουσιάζει τα καλύτερα αποτελέσματα. Επόμενο βήμα αποτέλεσε η σύγκριση των καλύτερων αποτελεσμάτων της παραπάνω διαδικασίας με εκείνα αντίστοιχης έρευνας που έχει πραγματοποιηθεί για το εργαλείο αυτόματης επισημείωσης Gontogle.Τελευταία ενότητα της παρούσας διπλωματικής αποτέλεσε η περιγραφή των συνολικών συμπερασμάτων που εξήχθησαν από τα πειράματα και τις συγκρίσεις, καθώς και μια αναφορά σε προτάσεις για μελλοντική έρευνα.
|
---|