Abstract : | Data integration is the problem of merging data for a real word entity from different sources and providing the user a single representation of that data. Multiple sources provide information about entities that may not be reliable or may have incomplete data. That is, for the same entity there might be conflicts among the sources. A real world entity can be many things, for example, a person, an item, a place, an event etc. The task of data integration is essential in real world applications and very important for companies, where data sets are being produced independently by multiple researchers. This thesis concerns the development of a data integration system that can handle the presence of data conflicts. We focus on entity resolution and data fusion, the two key elements of data integration. Entity resolution or duplicate detection is the problem of identifying different records that refer to the same real-world entity. Data fusion is the problem of detecting inconsistencies among data sources by estimating their accuracy. We first provide fundamental information for data integration process and an overview of related fields. Second, we present a data integration related system that we developed as an extension and improvement of an existing code (that implements data integration steps, proposed by Dr. Rekatsinas). Moreover, a code was developed to generate data (as training and test sets) adapted to the requirements of the problem. Finally, we present our experiments for the evaluation of our system and corresponding metrics, which show a significant improvement to the results of the initial system (code). Η ολοκλήρωση δεδομένων είναι η συλλογή πληροφοριών από ποικίλες πηγές με διαφορετικές μορφές, το ταίριασμα και η σύνδεση αυτών, έτσι ώστε να φτάνουν στον χρήστη ως μία κοινή αναπαράσταση. Πολλές πηγές παρέχουν πληροφορίες σχετικά με πραγματικές οντότητες, που μπορεί να μην είναι αξιόπιστες ή ενδέχεται να έχουν ελλιπή δεδομένα. ∆ηλαδή για την ίδια οντότητα ενδέχεται να υπάρχουν συγκρούσεις και ασυνέπειες μεταξύ των πηγών. Μια οντότητα μπορεί να είναι πολλά πράγματα, για παράδειγμα, ένα άτομο, ένα αντικείμενο, ένα μέρος, ένα συμβάν. Αυτή η διατριβή αφορά την ανάπτυξη ενός συστήματος ολοκλήρωσης δεδομένων που μπορεί να χειριστεί την παρουσία τέτοιου είδους δεδομένων. Εστιάζουμε στην ανάλυση οντοτήτων και την συγχώνευση δεδομένων, τα δύο βασικά στοιχεία της ολοκλήρωσης πληροφοριών. Η ανάλυση οντοτήτων είναι το πρόβλημα του εντοπισμού διαφορετικών εγγραφών που αναφέρονται στην ίδια πραγματική οντότητα ενώ η συγχώνευση δεδομένων είναι το πρόβλημα της ανίχνευσης ασυνεπειών στα δεδομένα μεταξύ των πηγών εκτιμώντας την εγκυρότητα κάθε πηγής. Αρχικά, παρέχουμε κάποιες βασικές πληροφορίες για τη διαδικασία ολοκλήρωσης δεδομένων και μία επισκόπηση των σχετικών επιστημονικών πεδίων. ́Υστερα,παρουσιάζουμε ένα σύστημα ολοκλήρωσης πληροφοριών που αναπτύξαμε ως επέκταση και βελτίωση ενός υπάρχοντος κώδικα. Επιπλέον, λόγω έλλειψης πραγματικών δεδομένων αναπτύχθηκε ένας κώδικας για τη δημιουργία δεδομένων (ωςσύνολα δεδομένων εκπαίδευσης και επικύρωσης) προσαρμοσμένο στις απαιτήσεις του προβλήματος. Τέλος, αναλύουμε τα πειράματα που έγιναν για την αξιολόγηση του συστήματος μας και τα αντίστοιχα μετρικά που χρησιμοποιήσαμε,τα οποία δείχνουν σημαντική βελτίωση στα αποτελέσματα του αρχικού συστήματος (κώδικα).
|
---|