Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Exploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioning
Εναλλακτικός τίτλος	Διερεύνηση μονοτροπικών, πολυτροπικών και σύντομης εκπαίδευσης μεθόδων βαθιάς μάθησης για την αυτόματη περιγραφή ιατρικών εικόνων
Δημιουργός	Καλιόσης, Παναγιώτης, Kaliosis, Panagiotis
Συντελεστής	Kotidis, Υannis Athens University of Economics and Business, Department of Informatics Papaioannou, Georgios Androutsopoulos, Ion
Τύπος	Text
Φυσική περιγραφή	109p.
Γλώσσα	en
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11027
Περίληψη	Image Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored. Η αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης.
Λέξη κλειδί	Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Διαγνωστική περιγραφή Υπολογιστική όραση Deep learning Diagnostic captioning Natural Language Processing (NLP) Computer vision
Διαθέσιμο από	2024-03-02 13:07:36
Ημερομηνία έκδοσης	30-11-2023
Ημερομηνία κατάθεσης	2024-03-02 13:07:36
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/