Abstract : | Nowadays, more and more organizations realize the importance of analyzing available data. While most of the times data is stored, over the last years there is a growing amount of stream data. Such data arrives on-line from multiple sources in a continuous, rapid and time-varying fashion. Currently, most stream management applications and systems exploit stream data with the objective to answer monitoring queries. However, the real potential of stream data lies in the possibility to capture new types of information in (near) real-time and support decisions. To support this kind of analysis we need analytics queries that can support multiple and correlated stream aggregates over stream data coming from multiple and heterogeneous stream sources. Moreover a wide range of analytics applications need to combine already available data (e.g. stored data) and stream data to empower business with (near) real-time insights that can be used for improved decision making. As relational databases are extremely widespread our research focuses on how relation data can support relational-stream analytics applications. Overall, this thesis provides query formulation methods and tools that combine relational and stream data to support (near) real-time data analysis. In this thesis we introduce stream variables to support analytics over stream data. This kind of analytics queries can contain multiple stream aggregates, correlated stream aggregates and use data from multiple and heterogeneous stream sources. We provide SQL language extensions to support this kind of queries. Moreover we provide a spreadsheet-like approach to perform stream analytics. The intuition is that stream queries can by defined in a column-by-column fashion. The columns can contain either relational data or stream aggregates. The thesis studies how to extend current Relational Database Management Systems (RDBMSs) to handle stream data for (near) real-time decision making. We present a relational-based integration framework that sits atop any RDBMS and mix RDBMS’ data and stream aggregates managed by different stream systems. A SQL extension is provided to define relational-stream views and an API is developed to carry out the required communication between the relational and the stream systems. The proposed framework can serve as a standard for relational-stream interoperability. Η διδακτορική διατριβή εντάσσεται στα ευρύτερα γνωστικά πεδία των Βάσεων Δεδομένων, των Ροών Δεδομένων, της Επιχειρηματικής Ευφυΐας και της Ανάλυσης Δεδομένων. Η διατριβή πραγματεύεται τα ακόλουθα: (1) Μοντελοποίηση τεχνικών και γλωσσών δήλωσης ερωτημάτων που επιτρέπουν την υποστήριξη εφαρμογών ανάλυσης δεδομένων σε πραγματικό χρόνο. (2) Ανάπτυξη και υλοποίηση επεκτάσεων στην γλώσσα SQL που επιτρέπουν την ενοποίηση σχεσιακών δεδομένων και ροών δεδομένων για την υποστήριξη συνεχών ερωτημάτων που περιλαμβάνουν πολλαπλές συναθροίσεις από ροές δεδομένων, πολλαπλές πηγές ροών δεδομένων και συσχετισμένες συναθροίσεις. (3) Ανάπτυξη δήλωσης αναφορών που ενσωματώνουν σχεσιακά δεδομένα και ροές δεδομένων και ομοιάζει με τον τρόπο χρήσης υπολογιστικών φύλλων. (4) Προδιαγράφει ένα πλαίσιο ενοποίησης Σχεσιακών Συστημάτων Βάσεων Δεδομένων και ετερογενών Συστημάτων Ροών Δεδομένων με βασική λειτουργιά την χρήση συναθροιστικών αποτελεσμάτων που προκύπτουν από ροές δεδομένων σε τυπικούς σχεσιακούς πίνακες. (5) Ανάπτυξη και υλοποίηση επεκτάσεων στα Σχεσιακά Συστήματα Βάσεων Δεδομένων για την διαφανή ενοποίηση με ετερογενή Συστήματα Ροών Δεδομένων. (6) Ανάπτυξη και υλοποίηση πρωτοκόλλου επικοινωνίας/διεπαφής μεταξύ των Σχεσιακών Συστημάτων Βάσεων Δεδομένων και των Συστημάτων Ροών Δεδομένων που συμβάλει στην προτυποποίηση του τρόπου διαλειτουργικότητας τους. (7) Ανάπτυξη και υλοποίηση επεκτάσεων στην γλώσσα SQL που επιτρέπουν την χρήση σχεσιακών δεδομένων και ροών δεδομένων μέσα στο πλαίσιο ενοποίησης Σχεσιακών Συστημάτων Βάσεων Δεδομένων και ετερογενών Συστημάτων Ροών Δεδομένων.
|
---|