Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Machine learning-based information extraction for citation knowledge graph construction from unstructured text of research publications

Εναλλακτικός τίτλος :	Εξαγωγή δεδομένων με τη χρήση μεθόδων μηχανικής μάθησης για τη δημιουργία γράφου γνώσης παραπομπών από αδόμητο κείμενο ερευνητικών δημοσιεύσεων

Δημιουργός :	Τσίγκου, Μαριάννα Tsigou, Marianna

Συντελεστής :	Pertsas, Vayianos (Επιβλέπων καθηγητής) Konstantopoulos, Panos (Εξεταστής) Kotidis, Υannis (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	53p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10982

Περίληψη :	Η παρούσα διατριβή επικεντρώνεται στην εξαγωγή πληροφοριών που σχετίζονται με την έρευνα από επιστημονικές δημοσιεύσεις. Η μεθοδολογία που χρησιμοποιείται βασίζεται στην Scholarly Ontology (SO), μια οντολογία ειδικά σχεδιασμένη για τη μοντελοποίηση επιστημονικών εργασιών. Ο κύριος στόχος αυτής της εργασίας είναι η εξαγωγή πληροφοριών, που στοχεύουν στον τομέα των βιβλιογραφικών αναφορών, από επιστημονικές εργασίες, οι οποίες ήταν προϊόν ψηφιοποίησης OCR και ως εκ τούτου σε αδόμητη μορφή κειμένου, αυξάνοντας την πολυπλοκότητα της εργασίας. Για το λόγο αυτό, προτείνεται η κλάση 'citationPointer' εντός της SO, μια κλάση για την τεκμηρίωση κειμενικών στοιχείων που αναφέρονται σε μια συγκεκριμένη καταχώρηση στις βιβλιογραφίες των άρθρων. Επίσης, προτείνεται η κλάση "Reference" για την παρουσίαση των εγγραφών στον κατάλογο παραπομπών.Προκειμένου να εξαχθούν οι κειμενικές εκφάνσεις για τις περιπτώσεις των παραπάνω κλάσεων, πραγματοποιήθηκε μια διαδικασία χειροκίνητης επισημείωσης σε δύο διαφορετικά σύνολα δεδομένων που προήλθαν από τη βιβλιοθήκη JSTOR, τα οποία ψηφιοποιήθηκαν με τη μέθοδο OCR. Στόχος ήταν να επισημειωθούν οι περιπτώσεις των "citationPointer" και "References" για τη χρήση τους για την εκπαίδευση μοντέλων μηχανικής μάθησης. Με τη χρήση μοντέλων βαθιάς μάθησης, όπως τα BERT και RoBERTa, επιτεύχθηκε η αυτοματοποιημένη εξαγωγή οντοτήτων. Τα μοντέλα αυτά αξιολογήθηκαν και βαθμολογήθηκαν ως ικανοποιητικά. Στη συνέχεια, χρησιμοποιήθηκαν και αξιολογήθηκαν scripts μετεπεξεργασίας για την τυποποίηση των "citation pointers" και τη σύνδεσή τους με τις αντίστοιχες αναφορές(references). Αυτές οι αλληλένδετες οντότητες συσχετίστηκαν με μεταδεδομένα των δημοσίευσεων, δημιουργώντας έναν γράφο γνώσης RDF που τηρεί τα πρότυπα τωνΣυνδεδεμένων Δεδομένων (Linked Data) . Για να αναδειχθούν οι δυνατότητες του γράφου, πραγματοποιήθηκαν ερωτήματα με τη χρήση SPARQL. This thesis focuses on extracting research-related information from scholarly publications. The methodology employed relies on an ontology-based approach derived from the Scholarly Ontology (SO), an ontology specifically designed for modeling scholarly work. The main objective of this dissertation is to extract valuable information, specifically targeting the bibliographic reference domain, from scientific papers, which were product of OCR digitization and hence in unstructured text form. For this reason, the 'citationPointer' class within the SO is proposed, a class for documenting textual elements referring to a specific entry in the article bibliographies. Also, the class ‘Reference” is proposed for presenting the entries in the reference list.In order to extract textual manifestations for the instances of the above classes, a manual annotation process was carried out on two different datasets sourced from the JSTOR library. The aim was to annotate instances of 'citationPointer' and “References” for using them to train machine learning models. Using deep learning models such as BERT and RoBERTa, the automated extraction of entities was achieved. These models were evaluated and rated as satisfactory. Following this, post-processing scripts were utilized, and assessed, to standardize citation pointers and link them with their corresponding references. These interrelated entities were associated with publication metadata, yielding an RDF knowledge graph adhering to Linked Data standards. To demonstrate the capabilities of the graph, queries were designed using SPARQL.

Περίληψη :

Η παρούσα διατριβή επικεντρώνεται στην εξαγωγή πληροφοριών που σχετίζονται με την έρευνα από επιστημονικές δημοσιεύσεις. Η μεθοδολογία που χρησιμοποιείται βασίζεται στην Scholarly Ontology (SO), μια οντολογία ειδικά σχεδιασμένη για τη μοντελοποίηση επιστημονικών εργασιών. Ο κύριος στόχος αυτής της εργασίας είναι η εξαγωγή πληροφοριών, που στοχεύουν στον τομέα των βιβλιογραφικών αναφορών, από επιστημονικές εργασίες, οι οποίες ήταν προϊόν ψηφιοποίησης OCR και ως εκ τούτου σε αδόμητη μορφή κειμένου, αυξάνοντας την πολυπλοκότητα της εργασίας. Για το λόγο αυτό, προτείνεται η κλάση 'citationPointer' εντός της SO, μια κλάση για την τεκμηρίωση κειμενικών στοιχείων που αναφέρονται σε μια συγκεκριμένη καταχώρηση στις βιβλιογραφίες των άρθρων. Επίσης, προτείνεται η κλάση "Reference" για την παρουσίαση των εγγραφών στον κατάλογο παραπομπών.Προκειμένου να εξαχθούν οι κειμενικές εκφάνσεις για τις περιπτώσεις των παραπάνω κλάσεων, πραγματοποιήθηκε μια διαδικασία χειροκίνητης επισημείωσης σε δύο διαφορετικά σύνολα δεδομένων που προήλθαν από τη βιβλιοθήκη JSTOR, τα οποία ψηφιοποιήθηκαν με τη μέθοδο OCR. Στόχος ήταν να επισημειωθούν οι περιπτώσεις των "citationPointer" και "References" για τη χρήση τους για την εκπαίδευση μοντέλων μηχανικής μάθησης. Με τη χρήση μοντέλων βαθιάς μάθησης, όπως τα BERT και RoBERTa, επιτεύχθηκε η αυτοματοποιημένη εξαγωγή οντοτήτων. Τα μοντέλα αυτά αξιολογήθηκαν και βαθμολογήθηκαν ως ικανοποιητικά. Στη συνέχεια, χρησιμοποιήθηκαν και αξιολογήθηκαν scripts μετεπεξεργασίας για την τυποποίηση των "citation pointers" και τη σύνδεσή τους με τις αντίστοιχες αναφορές(references). Αυτές οι αλληλένδετες οντότητες συσχετίστηκαν με μεταδεδομένα των δημοσίευσεων, δημιουργώντας έναν γράφο γνώσης RDF που τηρεί τα πρότυπα τωνΣυνδεδεμένων Δεδομένων (Linked Data) . Για να αναδειχθούν οι δυνατότητες του γράφου, πραγματοποιήθηκαν ερωτήματα με τη χρήση SPARQL.
This thesis focuses on extracting research-related information from scholarly publications. The methodology employed relies on an ontology-based approach derived from the Scholarly Ontology (SO), an ontology specifically designed for modeling scholarly work. The main objective of this dissertation is to extract valuable information, specifically targeting the bibliographic reference domain, from scientific papers, which were product of OCR digitization and hence in unstructured text form. For this reason, the 'citationPointer' class within the SO is proposed, a class for documenting textual elements referring to a specific entry in the article bibliographies. Also, the class ‘Reference” is proposed for presenting the entries in the reference list.In order to extract textual manifestations for the instances of the above classes, a manual annotation process was carried out on two different datasets sourced from the JSTOR library. The aim was to annotate instances of 'citationPointer' and “References” for using them to train machine learning models. Using deep learning models such as BERT and RoBERTa, the automated extraction of entities was achieved. These models were evaluated and rated as satisfactory. Following this, post-processing scripts were utilized, and assessed, to standardize citation pointers and link them with their corresponding references. These interrelated entities were associated with publication metadata, yielding an RDF knowledge graph adhering to Linked Data standards. To demonstrate the capabilities of the graph, queries were designed using SPARQL.

Λέξη κλειδί :	Μέθοδοι Transfomer Επιστημονικές δημοσιεύσεις Εξαγωγή πληροφορίας από κείμενο Transformer-based methods Scholarly ontology Information extraction from text

Διαθέσιμο από :	2024-01-29 17:55:31

Ημερομηνία έκδοσης :	30-11-2023

Ημερομηνία κατάθεσης :	2024-01-29 17:55:31

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Tsigou_2023.pdf

Τύπος: application/pdf

Είσοδος