AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Performance of adaptive stochastic gradient descent optimization algorithms in natural language processing tasks

Alternative Title :	Απόδοση αναπροσαρμοσμένων αλγορίθμων βελτιστοποίησης στοχαστικής καθοδικής κλίσης σε διεργασίες επεξεργασίας φυσικής γλώσσας

Creator :	Πούλος, Παύλος Poulos, Pavlos

Contributor :	Toumpis, Stavros (Επιβλέπων καθηγητής) Androutsopoulos, Ion (Εξεταστής) Markakis, Evangelos (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Type :	Text

Extent :	139p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11596

Abstract :	Η παρούσα διπλωματική εργασία διερευνά την επίδραση της ρύθμισης υπερπαραμέτρων στην απόδοση διαφόρων αλγορίθμων βελτιστοποίησης στο πεδίο της βαθιάς μάθησης, με έμφαση στις διεργασίες Επεξεργασίας Φυσικής Γλώσσας (NLP). Βασισμένοι σε προηγούμενη έρευνα, συγκρίνουμε αναπροσαρμοστικούς αλγορίθμους βελτιστοποίησης (όπως Adam και AdamW) με μη αναπροσαρμοστικούς (όπως SGD και SGDM) σε πολλά μοντέλα, διεργασίες και σύνολα δεδομένων NLP. Ο κύριος στόχος είναι να εξεταστεί αν η ρύθμιση μόνο του ρυθμού μάθησης, όπως προτάθηκε σε παλαιότερες μελέτες, είναι επαρκής για την επίτευξη υψηλής απόδοσης ή αν απαιτείται μια πιο εκτεταμένη ρύθμιση για ορισμένους αλγορίθμους.Τα πειράματά μας, που διεξήχθησαν σε μοντέλα κωδικοποιητή-αποκωδικοποιητή και σε διεργασίες περίληψης κειμένου, δείχνουν ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να επιτύχουν υψηλή απόδοση με ελάχιστη ρύθμιση, ειδικά όταν ρυθμίζεται μόνο ο ρυθμός μάθησης. Το αποτέλεσμα αυτό υποδηλώνει ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να απλοποιήσουν τη διαδικασία εκπαίδευσης μειώνοντας την ανάγκη εκτεταμένης ρύθμισης υπερπαραμέτρων, εξοικονομώντας έτσι υπολογιστικό κόστος. Αντίθετα, οι μη αναπροσαρμοστικοί αλγόριθμοι, ιδιαίτερα ο SGDM, ωφελούνται από μια πιο λεπτομερή ρύθμιση πολλαπλών υπερπαραμέτρων για την επίτευξη ανταγωνιστικής απόδοσης, υπογραμμίζοντας την ευαισθησία τους στις επιλογές ρύθμισης.Τα ευρήματα δείχνουν ότι αυτές οι τάσεις ισχύουν σε διαφορετικές διεργασίες και σύνολα δεδομένων NLP, επεκτείνοντας τα συμπεράσματα της προηγούμενης έρευνας από απλούστερες διεργασίες σε πιο σύνθετες εφαρμογές, όπως η περίληψη κειμένου. Η συνέπεια αυτή υποδεικνύει ότι τα συμπεράσματά μας σχετικά με την απόδοση των αλγορίθμων βελτιστοποίησης είναι σημαντικά για ένα ευρύ φάσμα εφαρμογών NLP.Συνοψίζοντας, η παρούσα εργασία προσφέρει πρακτικές πληροφορίες σχετικά με στρατηγικές βελτιστοποίησης για το NLP, υπογραμμίζοντας αποτελεσματικές πρακτικές ρύθμισης και τους συμβιβασμούς μεταξύ αναπροσαρμοστικών και μη αναπροσαρμοστικών αλγορίθμων. Αυτές οι πληροφορίες αποτελούν χρήσιμη καθοδήγηση για την επιλογή και ρύθμιση αλγορίθμων βελτιστοποίησης στο NLP και γενικότερα στις εφαρμογές βαθιάς μάθησης, εξισορροπώντας την απόδοση του μοντέλου με την αποδοτικότητα της εκπαίδευσης. This thesis investigates the influence of hyperparameter tuning on the performance of various optimization algorithms within deep learning, with a focus on Natural Language Processing (NLP) tasks. Building on previous research, we compare adaptive optimizers (such as Adam and AdamW) with non-adaptive ones (including SGD and SGDM) across multiple NLP models, tasks, and datasets. The primary objective is to determine whether tuning only the learning rate, as suggested in earlier studies, is sufficient to achieve high performance or if a broader tuning approach is necessary for certain optimizers.Our experiments, conducted on encoder-decoder models and text summarization tasks, show that adaptive optimizers can attain strong performance with minimal tuning, especially when focusing solely on the learning rate. This result suggests that adaptive optimizers may streamline training processes by reducing the need for extensive hyperparameter tuning, thereby lowering computational costs. In contrast, non-adaptive optimizers, particularly SGDM, benefit from more comprehensive tuning of multiple hyperparameters to reach competitive performance, underscoring their sensitivity to tuning choices.The findings demonstrate that these trends hold across diverse NLP tasks and datasets, extending beyond simpler tasks typically studied in prior work to more complex applications like text summarization. This consistency indicates that our conclusions on optimizer performance are relevant for a range of NLP scenarios.In conclusion, this thesis provides practical insights into optimization strategies for NLP, highlighting efficient tuning practices and the trade-offs between adaptive and non-adaptive optimization methods. These insights offer valuable guidance for choosing and tuning optimizers in NLP and broader deep learning applications, balancing training efficiency with model performance.

Abstract :

Η παρούσα διπλωματική εργασία διερευνά την επίδραση της ρύθμισης υπερπαραμέτρων στην απόδοση διαφόρων αλγορίθμων βελτιστοποίησης στο πεδίο της βαθιάς μάθησης, με έμφαση στις διεργασίες Επεξεργασίας Φυσικής Γλώσσας (NLP). Βασισμένοι σε προηγούμενη έρευνα, συγκρίνουμε αναπροσαρμοστικούς αλγορίθμους βελτιστοποίησης (όπως Adam και AdamW) με μη αναπροσαρμοστικούς (όπως SGD και SGDM) σε πολλά μοντέλα, διεργασίες και σύνολα δεδομένων NLP. Ο κύριος στόχος είναι να εξεταστεί αν η ρύθμιση μόνο του ρυθμού μάθησης, όπως προτάθηκε σε παλαιότερες μελέτες, είναι επαρκής για την επίτευξη υψηλής απόδοσης ή αν απαιτείται μια πιο εκτεταμένη ρύθμιση για ορισμένους αλγορίθμους.Τα πειράματά μας, που διεξήχθησαν σε μοντέλα κωδικοποιητή-αποκωδικοποιητή και σε διεργασίες περίληψης κειμένου, δείχνουν ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να επιτύχουν υψηλή απόδοση με ελάχιστη ρύθμιση, ειδικά όταν ρυθμίζεται μόνο ο ρυθμός μάθησης. Το αποτέλεσμα αυτό υποδηλώνει ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να απλοποιήσουν τη διαδικασία εκπαίδευσης μειώνοντας την ανάγκη εκτεταμένης ρύθμισης υπερπαραμέτρων, εξοικονομώντας έτσι υπολογιστικό κόστος. Αντίθετα, οι μη αναπροσαρμοστικοί αλγόριθμοι, ιδιαίτερα ο SGDM, ωφελούνται από μια πιο λεπτομερή ρύθμιση πολλαπλών υπερπαραμέτρων για την επίτευξη ανταγωνιστικής απόδοσης, υπογραμμίζοντας την ευαισθησία τους στις επιλογές ρύθμισης.Τα ευρήματα δείχνουν ότι αυτές οι τάσεις ισχύουν σε διαφορετικές διεργασίες και σύνολα δεδομένων NLP, επεκτείνοντας τα συμπεράσματα της προηγούμενης έρευνας από απλούστερες διεργασίες σε πιο σύνθετες εφαρμογές, όπως η περίληψη κειμένου. Η συνέπεια αυτή υποδεικνύει ότι τα συμπεράσματά μας σχετικά με την απόδοση των αλγορίθμων βελτιστοποίησης είναι σημαντικά για ένα ευρύ φάσμα εφαρμογών NLP.Συνοψίζοντας, η παρούσα εργασία προσφέρει πρακτικές πληροφορίες σχετικά με στρατηγικές βελτιστοποίησης για το NLP, υπογραμμίζοντας αποτελεσματικές πρακτικές ρύθμισης και τους συμβιβασμούς μεταξύ αναπροσαρμοστικών και μη αναπροσαρμοστικών αλγορίθμων. Αυτές οι πληροφορίες αποτελούν χρήσιμη καθοδήγηση για την επιλογή και ρύθμιση αλγορίθμων βελτιστοποίησης στο NLP και γενικότερα στις εφαρμογές βαθιάς μάθησης, εξισορροπώντας την απόδοση του μοντέλου με την αποδοτικότητα της εκπαίδευσης.
This thesis investigates the influence of hyperparameter tuning on the performance of various optimization algorithms within deep learning, with a focus on Natural Language Processing (NLP) tasks. Building on previous research, we compare adaptive optimizers (such as Adam and AdamW) with non-adaptive ones (including SGD and SGDM) across multiple NLP models, tasks, and datasets. The primary objective is to determine whether tuning only the learning rate, as suggested in earlier studies, is sufficient to achieve high performance or if a broader tuning approach is necessary for certain optimizers.Our experiments, conducted on encoder-decoder models and text summarization tasks, show that adaptive optimizers can attain strong performance with minimal tuning, especially when focusing solely on the learning rate. This result suggests that adaptive optimizers may streamline training processes by reducing the need for extensive hyperparameter tuning, thereby lowering computational costs. In contrast, non-adaptive optimizers, particularly SGDM, benefit from more comprehensive tuning of multiple hyperparameters to reach competitive performance, underscoring their sensitivity to tuning choices.The findings demonstrate that these trends hold across diverse NLP tasks and datasets, extending beyond simpler tasks typically studied in prior work to more complex applications like text summarization. This consistency indicates that our conclusions on optimizer performance are relevant for a range of NLP scenarios.In conclusion, this thesis provides practical insights into optimization strategies for NLP, highlighting efficient tuning practices and the trade-offs between adaptive and non-adaptive optimization methods. These insights offer valuable guidance for choosing and tuning optimizers in NLP and broader deep learning applications, balancing training efficiency with model performance.

Subject :	Βελτιστοποίηση Στοχαστικής Καθοδικής Κλίσης Επεξεργασία φυσικής γλώσσας Αναπροσαρμοστικοί αλγόριθμοι Ρύθμιση υπερπαραμέτρων Μοντέλα κωδικοποιητή-αποκωδικοποιητή Stochastic Gradient Descent Optimization Natural Language Processing (NLP) Adaptive algorithms Hyperparameter tuning Encoder-decoder models

Subject :

Βελτιστοποίηση Στοχαστικής Καθοδικής Κλίσης
Επεξεργασία φυσικής γλώσσας
Αναπροσαρμοστικοί αλγόριθμοι
Ρύθμιση υπερπαραμέτρων
Μοντέλα κωδικοποιητή-αποκωδικοποιητή
Stochastic Gradient Descent Optimization
Natural Language Processing (NLP)
Adaptive algorithms
Hyperparameter tuning
Encoder-decoder models

Date Available :	2024-10-25 16:33:28

Date Issued :	24-10-2024

Date Submitted :	2024-10-25 16:33:28

Access Rights :	Free access

Licence :

File: Poulos_2024.pdf

Type: application/pdf

Login