Abstract : | Η παρούσα διπλωματική εργασία διερευνά την επίδραση της ρύθμισης υπερπαραμέτρων στην απόδοση διαφόρων αλγορίθμων βελτιστοποίησης στο πεδίο της βαθιάς μάθησης, με έμφαση στις διεργασίες Επεξεργασίας Φυσικής Γλώσσας (NLP). Βασισμένοι σε προηγούμενη έρευνα, συγκρίνουμε αναπροσαρμοστικούς αλγορίθμους βελτιστοποίησης (όπως Adam και AdamW) με μη αναπροσαρμοστικούς (όπως SGD και SGDM) σε πολλά μοντέλα, διεργασίες και σύνολα δεδομένων NLP. Ο κύριος στόχος είναι να εξεταστεί αν η ρύθμιση μόνο του ρυθμού μάθησης, όπως προτάθηκε σε παλαιότερες μελέτες, είναι επαρκής για την επίτευξη υψηλής απόδοσης ή αν απαιτείται μια πιο εκτεταμένη ρύθμιση για ορισμένους αλγορίθμους.Τα πειράματά μας, που διεξήχθησαν σε μοντέλα κωδικοποιητή-αποκωδικοποιητή και σε διεργασίες περίληψης κειμένου, δείχνουν ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να επιτύχουν υψηλή απόδοση με ελάχιστη ρύθμιση, ειδικά όταν ρυθμίζεται μόνο ο ρυθμός μάθησης. Το αποτέλεσμα αυτό υποδηλώνει ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να απλοποιήσουν τη διαδικασία εκπαίδευσης μειώνοντας την ανάγκη εκτεταμένης ρύθμισης υπερπαραμέτρων, εξοικονομώντας έτσι υπολογιστικό κόστος. Αντίθετα, οι μη αναπροσαρμοστικοί αλγόριθμοι, ιδιαίτερα ο SGDM, ωφελούνται από μια πιο λεπτομερή ρύθμιση πολλαπλών υπερπαραμέτρων για την επίτευξη ανταγωνιστικής απόδοσης, υπογραμμίζοντας την ευαισθησία τους στις επιλογές ρύθμισης.Τα ευρήματα δείχνουν ότι αυτές οι τάσεις ισχύουν σε διαφορετικές διεργασίες και σύνολα δεδομένων NLP, επεκτείνοντας τα συμπεράσματα της προηγούμενης έρευνας από απλούστερες διεργασίες σε πιο σύνθετες εφαρμογές, όπως η περίληψη κειμένου. Η συνέπεια αυτή υποδεικνύει ότι τα συμπεράσματά μας σχετικά με την απόδοση των αλγορίθμων βελτιστοποίησης είναι σημαντικά για ένα ευρύ φάσμα εφαρμογών NLP.Συνοψίζοντας, η παρούσα εργασία προσφέρει πρακτικές πληροφορίες σχετικά με στρατηγικές βελτιστοποίησης για το NLP, υπογραμμίζοντας αποτελεσματικές πρακτικές ρύθμισης και τους συμβιβασμούς μεταξύ αναπροσαρμοστικών και μη αναπροσαρμοστικών αλγορίθμων. Αυτές οι πληροφορίες αποτελούν χρήσιμη καθοδήγηση για την επιλογή και ρύθμιση αλγορίθμων βελτιστοποίησης στο NLP και γενικότερα στις εφαρμογές βαθιάς μάθησης, εξισορροπώντας την απόδοση του μοντέλου με την αποδοτικότητα της εκπαίδευσης. This thesis investigates the influence of hyperparameter tuning on the performance of various optimization algorithms within deep learning, with a focus on Natural Language Processing (NLP) tasks. Building on previous research, we compare adaptive optimizers (such as Adam and AdamW) with non-adaptive ones (including SGD and SGDM) across multiple NLP models, tasks, and datasets. The primary objective is to determine whether tuning only the learning rate, as suggested in earlier studies, is sufficient to achieve high performance or if a broader tuning approach is necessary for certain optimizers.Our experiments, conducted on encoder-decoder models and text summarization tasks, show that adaptive optimizers can attain strong performance with minimal tuning, especially when focusing solely on the learning rate. This result suggests that adaptive optimizers may streamline training processes by reducing the need for extensive hyperparameter tuning, thereby lowering computational costs. In contrast, non-adaptive optimizers, particularly SGDM, benefit from more comprehensive tuning of multiple hyperparameters to reach competitive performance, underscoring their sensitivity to tuning choices.The findings demonstrate that these trends hold across diverse NLP tasks and datasets, extending beyond simpler tasks typically studied in prior work to more complex applications like text summarization. This consistency indicates that our conclusions on optimizer performance are relevant for a range of NLP scenarios.In conclusion, this thesis provides practical insights into optimization strategies for NLP, highlighting efficient tuning practices and the trade-offs between adaptive and non-adaptive optimization methods. These insights offer valuable guidance for choosing and tuning optimizers in NLP and broader deep learning applications, balancing training efficiency with model performance.
|
---|