Περίληψη : | Η παρούσα διατριβή παρουσιάζει μια ολοκληρωμένη μελέτη σχετικά με την ενσωμάτωση της διαφορικής ιδιωτικότητας σε μοντέλα μηχανικής μάθησης, εστιάζοντας στην ισορροπία μεταξύ της ιδιωτικότητας των δεδομένων και της ακρίβειας των μοντέλων. Μέσω εκτεταμένης διερευνητικής ανάλυσης και προεπεξεργασίας δεδομένων, η έρευνα εφαρμόζει τεχνικές διαφορικής ιδιωτικότητας σε μοντέλα λογιστικής παλινδρόμησης, δέντρων απόφασης και τυχαίου δάσους, χρησιμοποιώντας ένα σύνολο δεδομένων που περιέχει λεπτομερείς δημογραφικές και εισοδηματικές πληροφορίες. Ο στόχος είναι να διερευνηθεί ο αντίκτυπος της διαφορικής ιδιωτικότητας σε αυτά τα μοντέλα, με σκοπό να εκτιμηθεί πώς τα διάφορα επίπεδα ιδιωτικότητας επηρεάζουν την ακρίβεια πρόβλεψής τους. Οι γνώσεις αυτές είναι κρίσιμες για την επιλογή κατάλληλων μοντέλων σε σενάρια όπου η ιδιωτικότητα των δεδομένων είναι πρωταρχικής σημασίας, αλλά η αναλυτική ακρίβεια είναι απαραίτητη, όπως συμβαίνει στους κλάδους της υγειονομικής περίθαλψης και των χρηματοοικονομικών. Η παρούσα έρευνα συμβάλλει σημαντικά στον τομέα της ανάλυσης δεδομένων με διατήρηση της ιδιωτικότητας, ανοίγοντας το δρόμο για την ανάπτυξη ηθικής τεχνητής νοημοσύνης όπου η ιδιωτικότητα των δεδομένων και η χρησιμότητα των μοντέλων εξισορροπούνται αρμονικά. This thesis presents a comprehensive study on the integration of differential privacy in machine learning models, focusing on the balance between data privacy and model accuracy. Through extensive exploratory data analysis and preprocessing, the research applies differential privacy techniques to logistic regression, decision trees, and random forest models using a dataset containing detailed demographic and income information. The objective is to investigate the impact of differential privacy on these models, aiming to assess how various privacy levels impact their predictive accuracy. These insights are critical for selecting appropriate models in scenarios where data privacy is paramount, yet analytical accuracy is essential, such as in healthcare and finance. This thesis significantly contributes to the field of privacy-preserving data analysis, paving the way for ethical AI development where data privacy and model utility are balanced harmoniously.
|
---|