Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Exploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioning

Εναλλακτικός τίτλος :	Διερεύνηση μονοτροπικών, πολυτροπικών και σύντομης εκπαίδευσης μεθόδων βαθιάς μάθησης για την αυτόματη περιγραφή ιατρικών εικόνων

Δημιουργός :	Καλιόσης, Παναγιώτης Kaliosis, Panagiotis

Συντελεστής :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Papaioannou, Georgios (Εξεταστής) Kotidis, Υannis (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	109p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11027

Περίληψη :	Η αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης. Image Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored.

Περίληψη :

Η αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης.
Image Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored.

Λέξη κλειδί :	Βαθιά μάθηση Διαγνωστική περιγραφή Επεξεργασία φυσικής γλώσσας Υπολογιστική όραση Deep learning Diagnostic captioning Natural Language Processing (NLP) Computer vision

Διαθέσιμο από :	2024-03-02 13:07:36

Ημερομηνία έκδοσης :	30-11-2023

Ημερομηνία κατάθεσης :	2024-03-02 13:07:36

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Kaliosis_2023.pdf

Τύπος: application/pdf

Είσοδος