AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Exploring the capabilities of audio-enabled large language models

Alternative Title :	Εξερεύνηση των δυνατοτήτων των ηχητικά ενεργοποιημένων μεγάλων γλωσσικών μοντέλων

Creator :	Σταθόπουλος, Δημήτριος Stathopoulos, Dimitrios

Contributor :	Stafylakis, Themos (Επιβλέπων καθηγητής) Androutsopoulos, Ion (Εξεταστής) Vassalos, Vasilios (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Type :	Text

Extent :	70p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11755

Abstract :	Τα τελευταία χρόνια, το πεδίο των πολυτροπικών μεγάλων γλωσσικών μοντέλων (LLMs) έχει γνωρίσει ταχύτατη ανάπτυξη, ιδιαίτερα στον τομέα των μοντέλων που εστιάζουν στον ήχο, όπως τα Penguin, Qwen και Audio-Flamingo. Αυτά τα μοντέλα επιδεικνύουν εξαιρετικές ικανότητες σε εργασίες που ενσωματώνουν τις κειμενικές και ηχητικές διαστάσεις, όπως η περιγραφή ήχου, η απάντηση σε ερωτήσεις που βασίζονται σε ήχο και πολλά άλλα. Ανάμεσά τους, το Audio-Flamingo ξεχωρίζει χάρη στη μοναδική του λειτουργία διαλόγου, που επιτρέπει δυναμικές και διατηρημένες στο πλαίσιο συνομιλίες με πολλαπλές ανταλλαγές.Παράλληλα, ο τομέας της δημιουργίας ήχου/ήχων έχει επίσης σημειώσει σημαντική πρόοδο, με μοντέλα όπως τα AudioBox, Tango2 και AudioLDM2 να πρωτοπορούν στη δημιουργία εξαιρετικά ρεαλιστικού και προσαρμοσμένου στο πλαίσιο ήχου. Αυτά τα μοντέλα αξιοποιούν προηγμένες τεχνικές βαθιάς μάθησης για τη δημιουργία ήχου από περιγραφές κειμένου, επιτυγχάνοντας υψηλά επίπεδα πιστότητας σε διάφορους τομείς ήχου, όπως η μουσική, τα ηχητικά τοπία και η σύνθεση ομιλίας. Τέτοιες εξελίξεις είναι κρίσιμες για εφαρμογές στη διασκέδαση, τα εικονικά περιβάλλοντα και τις τεχνολογίες προσβασιμότητας, όπου η ζήτηση για καθηλωτικό και ρεαλιστικό ήχο συνεχώς αυξάνεται. Παρά τις δυνατότητές τους, τα μοντέλα αυτά συχνά βασίζονται σε μεγάλο βαθμό στην ποιότητα και την ακρίβεια των εισερχόμενων προτροπών, οι οποίες επηρεάζουν άμεσα τον ρεαλισμό και τη συνάφεια του παραγόμενου ήχου. Εκμεταλλευόμενο αυτές τις εξελίξεις τόσο στα πολυτροπικά ηχητικά μοντέλα όσο και στα μοντέλα γεννήτριας ήχου, αυτή η διατριβή παρουσιάζει μια νέα προσέγγιση για τη δημιουργία εξαιρετικά ρεαλιστικών ηχητικών κλιπ, χρησιμοποιώντας μοντέλα όπως το Tango2, τα οποία ενισχύονται μέσω μιας διαδικασίας επαναληπτικής βελτίωσης που βασίζεται σε πολυτροπικές αλληλεπιδράσεις. Η διαδικασία ξεκινά με τη δημιουργία αρχικών ηχητικών κλιπ βάσει κειμενικών προτροπών, ακολουθούμενη από έναν βρόχο ανατροφοδότησης στον οποίο το Audio-Flamingo προτείνει βελτιώσεις στις προτροπές μέσω διαλόγου για τον παραγόμενο ήχο. Ένα γλωσσικό μοντέλο NLP λειτουργεί ως διαμεσολαβητής, ερμηνεύοντας τις προτάσεις του Audio-Flamingo και διαμορφώνοντας βελτιωμένες προτροπές, ενώ παρέχει εξηγήσεις για τις αλλαγές. Αυτός ο κύκλος βελτίωσης επαναλαμβάνεται έως και τρεις φορές, με εμπειρικά ευρήματα να δείχνουν ότι μετά την τρίτη επανάληψη οι προτροπές γίνονται υπερβολικά πολύπλοκες για να επεξεργαστεί το γεννητικό μοντέλο αποτελεσματικά. Χρησιμοποιώντας τις δυνατότητες διαλόγου των ηχητικών LLMs και ενσωματώνοντας βελτίωση προτροπών μέσω NLP, η έρευνα αυτή στοχεύει στη βελτίωση του ρεαλισμού του παραγόμενου ήχου, ενώ εξετάζει τους περιορισμούς της επαναληπτικής πολυτροπικής βελτίωσης προτροπών.Επιπλέον, εισαγάγαμε τη διαδικασία αφαίρεσης ηχητικών συμβάντων, όπου συγκεκριμένα ηχητικά συμβάντα αφαιρέθηκαν είτε από συνθετικά ηχητικά κλιπ είτε αποκλείστηκαν σκόπιμα από τις περιγραφές προτροπών. Ο στόχος του ηχητικού LLM ήταν να εντοπίσει αυτά τα ελλείποντα ηχητικά συμβάντα, επιτρέποντάς μας να αξιολογήσουμε την ικανότητά του να ανιχνεύει και να κατανοεί απουσιάζοντα στοιχεία. Τέλος, δημιουργήσαμε ηχητικά κλιπ που προέρχονται από διάφορα βίντεο της πλατφόρμας YouTube. Ενώ η πλειοψηφία αυτών των κλιπ περιείχε περιεχόμενο βασισμένο στην ομιλία, ένα μικρό μέρος εστίασε στη μουσική. Σε αυτή τη διαδικασία, αναθέσαμε στο ηχητικό LLM να απαντήσει όσο το δυνατόν ακριβέστερα σε ερωτήσεις σχετικά με μια ποικιλία σεναρίων βασισμένων σε ομιλία και μουσική, παρέχοντας πληροφορίες για την ικανότητά του να κατανοεί και να ανταποκρίνεται σε διαφορετικά ρεαλιστικά πλαίσια. In recent years, the field of multimodal large language models (LLMs) has experienced rapid growth, particularly in the domain of audio-focused models such as Penguin, Qwen, and Audio-Flamingo. These models demonstrate remarkable capabilities across tasks that integrate text and audio modalities, such as audio captioning, audio question answering, and more. Among them, Audio-Flamingo stands out with its unique dialog functionality, enabling dynamic, context-preserving conversations that span multiple exchanges. Simultaneously, the field of audio/sound generation has also seen significant advancements, with models like AudioBox, Tango2, and AudioLDM2 leading the way in creating highly realistic and context-aware audio. These models utilize sophisticated deep learning techniques to generate audio from textual descriptions, achieving high levels of fidelity in various audio domains including music, soundscapes, and speech synthesis. Such advancements are crucial for applications in entertainment, virtual environments, and accessibility technologies, where the demand for immersive and realistic audio continues to rise. Despite their capabilities, these models often rely heavily on the quality and specificity of the input prompts, which directly influence the generated audio's realism and relevance. Leveraging these advancements in both multimodal audio models and generative sound models, this thesis presents a novel approach to generating highly realistic audio clips using models like Tango2, enhanced through an iterative refinement process driven by multimodal interactions. The process begins with the generation of initial audio clips based on text prompts, followed by a feedback loop in which Audio-Flamingo suggests prompt refinements through dialog about the generated audio. An NLP-based LLM acts as an intermediary, interpreting Audio-Flamingo's suggestions and formulating refined prompts while providing explanations for the changes. This refinement cycle is repeated up to three times, with empirical findings indicating that after the third iteration, the prompts become too complex for the generative model to process effectively. By harnessing the dialog capabilities of audio LLMs and incorporating NLP-driven prompt refinement, this research aims to improve the realism of generated audio while examining the limitations of iterative multimodal prompt refinement. Additionally, we introduced the sound event ablation process, where specific sound events were either removed from synthetic audio clips or deliberately omitted from prompt descriptions. The task of the audio LLM was to identify these missing sound events, allowing us to evaluate its ability to detect and reason about absent elements. The final process involved creating audio clips derived from various YouTube videos. While the majority of these clips featured speech-based content, a smaller portion focused on music. In this process, we tasked the audio LLM with answering questions as accurately as possible across a range of speech-based and music-based scenarios, providing insights into its ability to comprehend and respond to diverse real-world contexts.

Abstract :

Τα τελευταία χρόνια, το πεδίο των πολυτροπικών μεγάλων γλωσσικών μοντέλων (LLMs) έχει γνωρίσει ταχύτατη ανάπτυξη, ιδιαίτερα στον τομέα των μοντέλων που εστιάζουν στον ήχο, όπως τα Penguin, Qwen και Audio-Flamingo. Αυτά τα μοντέλα επιδεικνύουν εξαιρετικές ικανότητες σε εργασίες που ενσωματώνουν τις κειμενικές και ηχητικές διαστάσεις, όπως η περιγραφή ήχου, η απάντηση σε ερωτήσεις που βασίζονται σε ήχο και πολλά άλλα. Ανάμεσά τους, το Audio-Flamingo ξεχωρίζει χάρη στη μοναδική του λειτουργία διαλόγου, που επιτρέπει δυναμικές και διατηρημένες στο πλαίσιο συνομιλίες με πολλαπλές ανταλλαγές.Παράλληλα, ο τομέας της δημιουργίας ήχου/ήχων έχει επίσης σημειώσει σημαντική πρόοδο, με μοντέλα όπως τα AudioBox, Tango2 και AudioLDM2 να πρωτοπορούν στη δημιουργία εξαιρετικά ρεαλιστικού και προσαρμοσμένου στο πλαίσιο ήχου. Αυτά τα μοντέλα αξιοποιούν προηγμένες τεχνικές βαθιάς μάθησης για τη δημιουργία ήχου από περιγραφές κειμένου, επιτυγχάνοντας υψηλά επίπεδα πιστότητας σε διάφορους τομείς ήχου, όπως η μουσική, τα ηχητικά τοπία και η σύνθεση ομιλίας. Τέτοιες εξελίξεις είναι κρίσιμες για εφαρμογές στη διασκέδαση, τα εικονικά περιβάλλοντα και τις τεχνολογίες προσβασιμότητας, όπου η ζήτηση για καθηλωτικό και ρεαλιστικό ήχο συνεχώς αυξάνεται. Παρά τις δυνατότητές τους, τα μοντέλα αυτά συχνά βασίζονται σε μεγάλο βαθμό στην ποιότητα και την ακρίβεια των εισερχόμενων προτροπών, οι οποίες επηρεάζουν άμεσα τον ρεαλισμό και τη συνάφεια του παραγόμενου ήχου. Εκμεταλλευόμενο αυτές τις εξελίξεις τόσο στα πολυτροπικά ηχητικά μοντέλα όσο και στα μοντέλα γεννήτριας ήχου, αυτή η διατριβή παρουσιάζει μια νέα προσέγγιση για τη δημιουργία εξαιρετικά ρεαλιστικών ηχητικών κλιπ, χρησιμοποιώντας μοντέλα όπως το Tango2, τα οποία ενισχύονται μέσω μιας διαδικασίας επαναληπτικής βελτίωσης που βασίζεται σε πολυτροπικές αλληλεπιδράσεις. Η διαδικασία ξεκινά με τη δημιουργία αρχικών ηχητικών κλιπ βάσει κειμενικών προτροπών, ακολουθούμενη από έναν βρόχο ανατροφοδότησης στον οποίο το Audio-Flamingo προτείνει βελτιώσεις στις προτροπές μέσω διαλόγου για τον παραγόμενο ήχο. Ένα γλωσσικό μοντέλο NLP λειτουργεί ως διαμεσολαβητής, ερμηνεύοντας τις προτάσεις του Audio-Flamingo και διαμορφώνοντας βελτιωμένες προτροπές, ενώ παρέχει εξηγήσεις για τις αλλαγές. Αυτός ο κύκλος βελτίωσης επαναλαμβάνεται έως και τρεις φορές, με εμπειρικά ευρήματα να δείχνουν ότι μετά την τρίτη επανάληψη οι προτροπές γίνονται υπερβολικά πολύπλοκες για να επεξεργαστεί το γεννητικό μοντέλο αποτελεσματικά. Χρησιμοποιώντας τις δυνατότητες διαλόγου των ηχητικών LLMs και ενσωματώνοντας βελτίωση προτροπών μέσω NLP, η έρευνα αυτή στοχεύει στη βελτίωση του ρεαλισμού του παραγόμενου ήχου, ενώ εξετάζει τους περιορισμούς της επαναληπτικής πολυτροπικής βελτίωσης προτροπών.Επιπλέον, εισαγάγαμε τη διαδικασία αφαίρεσης ηχητικών συμβάντων, όπου συγκεκριμένα ηχητικά συμβάντα αφαιρέθηκαν είτε από συνθετικά ηχητικά κλιπ είτε αποκλείστηκαν σκόπιμα από τις περιγραφές προτροπών. Ο στόχος του ηχητικού LLM ήταν να εντοπίσει αυτά τα ελλείποντα ηχητικά συμβάντα, επιτρέποντάς μας να αξιολογήσουμε την ικανότητά του να ανιχνεύει και να κατανοεί απουσιάζοντα στοιχεία. Τέλος, δημιουργήσαμε ηχητικά κλιπ που προέρχονται από διάφορα βίντεο της πλατφόρμας YouTube. Ενώ η πλειοψηφία αυτών των κλιπ περιείχε περιεχόμενο βασισμένο στην ομιλία, ένα μικρό μέρος εστίασε στη μουσική. Σε αυτή τη διαδικασία, αναθέσαμε στο ηχητικό LLM να απαντήσει όσο το δυνατόν ακριβέστερα σε ερωτήσεις σχετικά με μια ποικιλία σεναρίων βασισμένων σε ομιλία και μουσική, παρέχοντας πληροφορίες για την ικανότητά του να κατανοεί και να ανταποκρίνεται σε διαφορετικά ρεαλιστικά πλαίσια.
In recent years, the field of multimodal large language models (LLMs) has experienced rapid growth, particularly in the domain of audio-focused models such as Penguin, Qwen, and Audio-Flamingo. These models demonstrate remarkable capabilities across tasks that integrate text and audio modalities, such as audio captioning, audio question answering, and more. Among them, Audio-Flamingo stands out with its unique dialog functionality, enabling dynamic, context-preserving conversations that span multiple exchanges. Simultaneously, the field of audio/sound generation has also seen significant advancements, with models like AudioBox, Tango2, and AudioLDM2 leading the way in creating highly realistic and context-aware audio. These models utilize sophisticated deep learning techniques to generate audio from textual descriptions, achieving high levels of fidelity in various audio domains including music, soundscapes, and speech synthesis. Such advancements are crucial for applications in entertainment, virtual environments, and accessibility technologies, where the demand for immersive and realistic audio continues to rise. Despite their capabilities, these models often rely heavily on the quality and specificity of the input prompts, which directly influence the generated audio's realism and relevance. Leveraging these advancements in both multimodal audio models and generative sound models, this thesis presents a novel approach to generating highly realistic audio clips using models like Tango2, enhanced through an iterative refinement process driven by multimodal interactions. The process begins with the generation of initial audio clips based on text prompts, followed by a feedback loop in which Audio-Flamingo suggests prompt refinements through dialog about the generated audio. An NLP-based LLM acts as an intermediary, interpreting Audio-Flamingo's suggestions and formulating refined prompts while providing explanations for the changes. This refinement cycle is repeated up to three times, with empirical findings indicating that after the third iteration, the prompts become too complex for the generative model to process effectively. By harnessing the dialog capabilities of audio LLMs and incorporating NLP-driven prompt refinement, this research aims to improve the realism of generated audio while examining the limitations of iterative multimodal prompt refinement. Additionally, we introduced the sound event ablation process, where specific sound events were either removed from synthetic audio clips or deliberately omitted from prompt descriptions. The task of the audio LLM was to identify these missing sound events, allowing us to evaluate its ability to detect and reason about absent elements. The final process involved creating audio clips derived from various YouTube videos. While the majority of these clips featured speech-based content, a smaller portion focused on music. In this process, we tasked the audio LLM with answering questions as accurately as possible across a range of speech-based and music-based scenarios, providing insights into its ability to comprehend and respond to diverse real-world contexts.

Subject :	Μεγάλα γλωσσικά μοντέλα Παραγωγή ήχου Βελτίωση προτροπών Αφαίρεση ηχητικών συμβάντων Επαναληπτικός βρόχος ανατροφοδότησης Large Language Model (LLM) Audio generation Prompt refinement Sound event ablation Iterative feedback loop

Date Available :	2024-12-04 14:48:30

Date Issued :	27-11-2024

Date Submitted :	2024-12-04 14:48:30

Access Rights :	Free access

Licence :

File: Stathopoulos_2024.pdf

Type: application/pdf

Stathopoulos_2024.zip

Login