ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη
Συλλογές :

Τίτλος :Leveraging polynomial interactions for synthetic speech detection
Εναλλακτικός τίτλος :Χρήση πολυωνυμικών αλληλεπιδράσεων για ανίχνευση συνθετικής ομιλίας
Δημιουργός :Ψάλτης, Στυλιανός
Psaltis, Stylianos
Συντελεστής :Stafylakis, Themos (Επιβλέπων καθηγητής)
Androutsopoulos, Ion (Εξεταστής)
Toumpis, Stavros (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Τύπος :Text
Σημείωση :Η εργασία περιέχει παράρτημα σε GitHub Repository όπου αναγράφεται ο κώδικας που χρησιμοποιήθηκε για τα πειράματα της παρούσας διπλωματικής.
Φυσική περιγραφή :80p.
Γλώσσα :en
Αναγνωριστικό :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11807
Περίληψη :Η εξάπλωση των ψηφιακών τεχνολογιών ήχου έχει δημιουργήσει σημαντικές προκλήσεις στην επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων. Η παρούσα διατριβή προτείνει µία καινοτόμο προσέγγιση για την ανίχνευση παραποιημένων ηχητικών αρχείων, βασισμένη σε πολυωνυμία δίκτυα, τα οποία προσφέρουν ενισχυμένη αναγνώριση προτύπων και ταξινόμηση. Σε αντίθεση µε την αδιαφανή φύση των βαθιών νευρωνικών δικτύων, που ενδέχεται να αποτελέσουν αχίλλειο πτέρνα στο μέλλον, τα πολυωνυμία δίκτυα προσφέρουν μεγαλύτερη διαφάνεια, επιτρέποντας βαθύτερη κατανόηση της διαδικασίας λήψης αποφάσεων του μοντέλου. Αυτή η προσέγγιση επιδιώκει τη βελτίωση τόσο της ανίχνευσης παραποιημένων ηχητικών δεδομένων όσο και της ερµηνευσιµότητας του μοντέλου, εξασφαλίζοντας πιο αξιόπιστα συστήματα πιστοποίησης ήχου. Επιπλέον, οι διαγωνισμοί ASVspoof, οι οποίοι αποσκοπούν στην επιτάχυνση της έρευνας κατά της παραποίησης ήχου, λαμβάνονται υπόψιν στη παρούσα διατριβή και συμβάλλουν στην ανάπτυξη αυτής της καινοτόμου προσέγγισης µέσω πολυωνυμιών αλληλεπιδράσεων για την επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων.
The rapid advancement of digital audio technologies has brought new challenges in verifying the authenticity of audio messages. This thesis presents a novel method for detecting spoofed audio files using polynomial networks, which offer improved pattern recognition and classification. Unlike the often opaque nature of deep neural networks—potentially a critical vulnerability in the future—polynomial networks provide greater transparency, allowing for a clearer understanding of the decision-making process. By leveraging polynomial interactions, this approach enhances both the accuracy of spoofed audio detection and the interpretability of the model’s behavior, contributing to more reliable audio authentication systems. Additionally, the ASVspoof challenges, which aim to accelerate research against audio spoofing, are incorporated into the dissertation and contribute to the development of this innovative approach through polynomial models.
Λέξη κλειδί :Νευρωνικά δίκτυα
Συνθετική φωνή
Πολυωνυμικά μοντέλα
Συνθετικά δεδομένα
παραποίηση ήχου
Neural Networks (NN)
Synthetic speech
Polynomial models
Data augmentation
Audio spoofing
Διαθέσιμο από :2024-12-20 12:25:16
Ημερομηνία έκδοσης :20-12-2024
Ημερομηνία κατάθεσης :2024-12-20 12:25:16
Δικαιώματα χρήσης :Free access
Άδεια χρήσης :

Αρχείο: Psaltis_2024.pdf

Τύπος: application/pdf