Περίληψη : | Ο Παγκόσμιος Ιστός είναι πλέον η μεγαλύτερη πηγή πληροφοριών καλύπτοντας ένα ευρύ φάσμαγνώσης και αντικειμένων. Μέσα σε ένα πλαίσιο μεγάλου όγκου δομημένων και μη δεδομένωνBig Data που μεταβάλλονται σε πραγματικό χρόνο απαιτεί νέα εργαλεία και τεχνικές ανάκτησηπληροφοριών και εξόρυξης δεδομένων. Ειδικότερα, η εξόρυξη γνώσης για τις προτιμήσεις τωνανθρώπων, τα συναισθήματα ή η γνώμη τους για διάφορα αντικείμενα κεντρίζει το ενδιαφέρονγια την ανάλυση δεδομένων, τη πρόβλεψη μίας τάσης ή ακόμα και την υποστήριξη της λήψηςαποφάσεων λαμβάνοντας υπόψη τα παραπάνω.Σε αυτό το πλαίσιο, αυτή η διπλωματική εργασία στοχεύει στην υλοποίηση μίας μεθόδουβελτιστοποίησης της εμπειρίας χρηστών με ανάλυση κειμένων και εξόρυξη δεδομένων από ένασύνολο εγγράφων. Εξετάζεται η επιλογή και αξιολόγηση τουριστικών διαδρομών ως μελέτηπερίπτωσης και εφαρμόζονται τα εργαλεία της πλατφόρμας KNIME για την υλοποίηση τηςμεθόδου. Προτείναμε μία μεθοδολογία η οποία προσαρμόστηκε στις δυνατότητες του εργαλείουKNIME και εφάρμοσε τεχνικές Web Crawling για την εξέταση δεδομένων και τεχνικές εξόρυξηςχαρακτηριστικών και συσχέτισης μεταξύ τους κατά την επεξεργασία δεδομένων.Η στατιστική μετρική που επιλέξαμε δημιούργησε μία καλή ισορροπία μεταξύ δημοτικότητας καισχετικότητας των επικρατέστερων όρων αναφορικά με τουριστικούς προορισμούς στο Παρίσι.Από την άλλη πλευρά, ένα από τα κύρια προβλήματα που αντιμετωπίσαμε ήταν η χρήση τηςΕλληνικής γλώσσας δεδομένου ότι δεν υποστηρίζεται από το εργαλείο ως μία εγγενής γλώσσα,και για αυτό και επιλέξαμε ιστότοπους γραμμένους στα Αγγλικά. Θα μπορούσαμε να εμβαθύνουμεπεραιτέρω την ανάλυση των κειμένων χρησιμοποιώντας μεγαλύτερο αριθμό πηγών-ιστότοπων γιατον υπολογισμό της μετρικής με περισσότερη ακρίβεια. Έχοντας προτείνει μία γενικευμένημεθοδολογία εφαρμογής του εργαλείου ΚΝΙΜΕ στην εξόρυξη γνώσης και συνδυάζοντάς τααποτελέσματα με τις προσωπικές προτιμήσεις-επιλογές κάθε ξεχωριστού χρήστη για ένασυγκεκριμένο αντικείμενο (στη περίπτωσή μας διαδρομές μέσα σε πόλεις) μέσα από τη χρήση τηςAnalytic Hierarchy Process, μπορέσαμε με εύκολο τρόπο να δώσουμε προσωποποιημένεςαπαντήσεις σε απλά ερωτήματα όπως: ποια διαδρομή μου ταιριάζει. The World Wide Web is now the largest source of information covering a wide range of knowledgeand objects. Within a large volume of structured and non-data Big Data that change in real-timerequires new tools and techniques to retrieve information and extract data. In particular, extractingknowledge about people's preferences, feelings, or opinions about different items raises interest inanalyzing data, predicting a trend or even supporting decision-making taking into account theabove.In this context, this diploma thesis aims to implement a method of optimizing user experience bytext analysis and extraction of data from a set of documents. The selection and evaluation of touristroutes is considered as a case study and the KNIME platform tools are implemented to implementthe method. We proposed a methodology that was tailored to the capabilities of the KNIME tooland applied Web Crawling techniques to look at data and techniques to extract features andcorrelations between them during data processing.The statistical metric we have chosen has created a good balance between the popularity andrelevance of the prevailing terms regarding tourist destinations in Paris. On the other hand, one ofthe main problems we encountered was the use of the Greek language as it is not supported by thetool as an inherent language and that is the reason we chose webpages written in English. We couldfurther deepen the analysis of the texts by using greater number of sources webpages to calculatethe metric more accurately. Having proposed a generalized methodology for implementing theKNIME tool in knowledge mining, and matching the outcome with the personal preferenceschoicesof each user on a particular subject (in our case city walks) by using the Analytic HierarchyProcess, we managed to give personalized answers to simple questions such as: which route suitsme best.
|
---|