AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Statistical and machine learning regularization techniques in clinical biostatistics: a comprehensive evaluation

Alternative Title :	Μέθοδοι κανονικοποίησης στατιστικής και μηχανικής μάθησης στην κλινική βιοστατιστική: μια ολοκληρωμένη αξιολόγηση

Creator :	Σταμάτης, Παναγιώτης Stamatis, Panagiotis

Contributor :	Vasdekis, Vassilis (Επιβλέπων καθηγητής) Demiris, Nikolaos (Εξεταστής) Psarakis, Stelios (Εξεταστής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Type :	Text

Extent :	160p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11463

Abstract :	The primary objective of this thesis is to investigate the efficacy of regularization techniques within the domain of clinical biostatistics. A comprehensive exploration of statistical and machine learning methodologies, including Penalization, Early Stopping, and Ensembling, is undertaken. Regularization, as defined, serves to control model complexity by incorporating additional information to address ill-posed problems or mitigate overfitting. Despite its conceptual clarity, the full extent of its applicability and diverse variants remains not entirely elucidated. Leveraging the R software, these techniques are applied to two distinct clinical datasets, both pertinent to prostate cancer research.The first dataset aims to classify patients into benign or malignant tumor categories, wherein Penalization, specifically Ridge Regression, demonstrates superior performance compared to alternative methods, achieving the lowest Misclassification Error (MCE) and highest Area Under the Curve (AUC). Furthermore, the second dataset endeavors to predict the logarithm of prostate-specific antigen (PSA), a significant biomarker, in conjunction with other clinical predictors. Once more, the penalization approach, notably Elastic Net, exhibits notable performance by yielding the lowest Mean Squared Error (MSE) and Mean Absolute Error (MAE). However, the outcomes for machine learning techniques are less promising, potentially attributable to the inherently simple data relationships or issues related to dimensionality. Overall, the study underscores the utility of regularization methods in enhancing predictive accuracy within clinical biostatistics, advocating for their broader adoption and further exploration within this domain. Ο βασικός στόχος αυτής της διατριβής είναι η εξέταση της αποτελεσματικότητας των τεχνικών κανονικοποίησης στον τομέα της κλινικής βιοστατιστικής. Πραγματοποιείται μια περιεκτική εξερεύνηση των στατιστικών και μηχανικής μάθησης μεθοδολογιών, συμπεριλαμβανομένων της τιμώρησης, της πρόωρης διακοπής και της συνδυασμένης μάθησης. Η κανονικοποίηση, όπως ορίζεται, εξυπηρετεί τον έλεγχο της πολυπλοκότητας του μοντέλου με την ενσωμάτωση επιπλέον πληροφοριών για την αντιμετώπιση ασαφών προβλημάτων ή τη μείωση του υπερ-εκπαιδευτικού φαινομένου. Παρά την έννοια της κανονικοποίησης, η πλήρης κατανόηση της εφαρμοσιμότητάς της και των διαφορετικών εκδοχών της παραμένει ακόμα μη ξεκάθαρη. Με χρήση του λογισμικού R, αυτές οι τεχνικές εφαρμόζονται σε δύο διαφορετικά κλινικά σύνολα δεδομένων, τα οποία είναι σχετικά με την έρευνα του προστάτη καρκίνου.Το πρώτο σύνολο δεδομένων στοχεύει στην ταξινόμηση των ασθενών σε καλοήθη ή κακοήθη όγκους, όπου η τεχνική τιμώρησης, και ειδικότερα η Ridge Regression, επιδεικνύει υψηλή απόδοση σε σύγκριση με τις εναλλακτικές μεθόδους, επιτυγχάνοντας το χαμηλότερο Missclassifcation Error (MCE) και την υψηλότερη Area Under the ROC Curve (AUC). Επιπλέον, το δεύτερο σύνολο δεδομένων στοχεύει στην πρόβλεψη του λογαρίθμου του ειδικού για τον προστάτη αντιγόνο (PSA), ενός σημαντικού βιοδείκτη, και την σχέση του με άλλες κλινικές μεταβλητές. Και πάλι, η μέθοδος της τιμώρησης, και ειδικότερα το Elastic Net, επιδεικνύει σημαντική απόδοση παρέχοντας το χαμηλότερα Mean Square Error (MSE) και Mean Absolute Error (MAE). Απροσδόκητα, τα αποτελέσματα για τις μεθόδους μηχανικής μάθησης δεν είναι τόσο ελπιδοφόρα, πιθανώς λόγω των απλών σχέσεων δεδομένων ή προβλημάτων που σχετίζονται με τη διάσταση. Συνολικά, η μελέτη υπογραμμίζει την χρησιμότητα των μεθόδων κανονικοποίησης στη βελτίωση της προβλεπτικής ακρίβειας στην κλινική βιοστατιστική, προωθώντας την ευρύτερη υιοθέτηση και περαιτέρω εξερεύνηση αυτών των μεθόδων σε αυτόν τον τομέα.

Abstract :

The primary objective of this thesis is to investigate the efficacy of regularization techniques within the domain of clinical biostatistics. A comprehensive exploration of statistical and machine learning methodologies, including Penalization, Early Stopping, and Ensembling, is undertaken. Regularization, as defined, serves to control model complexity by incorporating additional information to address ill-posed problems or mitigate overfitting. Despite its conceptual clarity, the full extent of its applicability and diverse variants remains not entirely elucidated. Leveraging the R software, these techniques are applied to two distinct clinical datasets, both pertinent to prostate cancer research.The first dataset aims to classify patients into benign or malignant tumor categories, wherein Penalization, specifically Ridge Regression, demonstrates superior performance compared to alternative methods, achieving the lowest Misclassification Error (MCE) and highest Area Under the Curve (AUC). Furthermore, the second dataset endeavors to predict the logarithm of prostate-specific antigen (PSA), a significant biomarker, in conjunction with other clinical predictors. Once more, the penalization approach, notably Elastic Net, exhibits notable performance by yielding the lowest Mean Squared Error (MSE) and Mean Absolute Error (MAE). However, the outcomes for machine learning techniques are less promising, potentially attributable to the inherently simple data relationships or issues related to dimensionality. Overall, the study underscores the utility of regularization methods in enhancing predictive accuracy within clinical biostatistics, advocating for their broader adoption and further exploration within this domain.
Ο βασικός στόχος αυτής της διατριβής είναι η εξέταση της αποτελεσματικότητας των τεχνικών κανονικοποίησης στον τομέα της κλινικής βιοστατιστικής. Πραγματοποιείται μια περιεκτική εξερεύνηση των στατιστικών και μηχανικής μάθησης μεθοδολογιών, συμπεριλαμβανομένων της τιμώρησης, της πρόωρης διακοπής και της συνδυασμένης μάθησης. Η κανονικοποίηση, όπως ορίζεται, εξυπηρετεί τον έλεγχο της πολυπλοκότητας του μοντέλου με την ενσωμάτωση επιπλέον πληροφοριών για την αντιμετώπιση ασαφών προβλημάτων ή τη μείωση του υπερ-εκπαιδευτικού φαινομένου. Παρά την έννοια της κανονικοποίησης, η πλήρης κατανόηση της εφαρμοσιμότητάς της και των διαφορετικών εκδοχών της παραμένει ακόμα μη ξεκάθαρη. Με χρήση του λογισμικού R, αυτές οι τεχνικές εφαρμόζονται σε δύο διαφορετικά κλινικά σύνολα δεδομένων, τα οποία είναι σχετικά με την έρευνα του προστάτη καρκίνου.Το πρώτο σύνολο δεδομένων στοχεύει στην ταξινόμηση των ασθενών σε καλοήθη ή κακοήθη όγκους, όπου η τεχνική τιμώρησης, και ειδικότερα η Ridge Regression, επιδεικνύει υψηλή απόδοση σε σύγκριση με τις εναλλακτικές μεθόδους, επιτυγχάνοντας το χαμηλότερο Missclassifcation Error (MCE) και την υψηλότερη Area Under the ROC Curve (AUC). Επιπλέον, το δεύτερο σύνολο δεδομένων στοχεύει στην πρόβλεψη του λογαρίθμου του ειδικού για τον προστάτη αντιγόνο (PSA), ενός σημαντικού βιοδείκτη, και την σχέση του με άλλες κλινικές μεταβλητές. Και πάλι, η μέθοδος της τιμώρησης, και ειδικότερα το Elastic Net, επιδεικνύει σημαντική απόδοση παρέχοντας το χαμηλότερα Mean Square Error (MSE) και Mean Absolute Error (MAE). Απροσδόκητα, τα αποτελέσματα για τις μεθόδους μηχανικής μάθησης δεν είναι τόσο ελπιδοφόρα, πιθανώς λόγω των απλών σχέσεων δεδομένων ή προβλημάτων που σχετίζονται με τη διάσταση. Συνολικά, η μελέτη υπογραμμίζει την χρησιμότητα των μεθόδων κανονικοποίησης στη βελτίωση της προβλεπτικής ακρίβειας στην κλινική βιοστατιστική, προωθώντας την ευρύτερη υιοθέτηση και περαιτέρω εξερεύνηση αυτών των μεθόδων σε αυτόν τον τομέα.

Subject :	Κλινική βιοστατιστική Τιμώρηση Μηχανική μάθηση Μοντελοποίηση Clinical biostatistics Regularization Machine learning (ML) Modeling

Date Available :	2024-06-07 15:14:53

Date Issued :	07-06-2024

Date Submitted :	2024-06-07 15:14:53

Date Accepted :	10-06-2024

Access Rights :	Free access

Licence :

File: Stamatis_2024.pdf

Type: application/pdf

Login