Περίληψη : | Η παρούσα διπλωματική εργασία ασχολείται με την παραγωγή ενός αξιόπιστου συνόλου πρωτεϊνικών αλληλεπιδράσεων μέσω τις αξιολόγησης των αλληλεπιδράσεων που έχουν ανιχνευθεί με διάφορες μεθόδους. Η χρησιμότητα των δεδομένων των πρωτεϊνικών αλληλεπιδράσεων και το συνεχώς αυξανόμενο ενδιαφέρον της επιστημονικής κοινότητας έχουν αναδείξει την ανάγκη για ποιότητα στα δεδομένα αυτά. Αυτό μεταφράζεται στην ανάγκη για κάλυψη και την ανάγκη για αξιοπιστία στα δεδομένα. Δυστυχώς τα αποτελέσματα των ερευνών πάνω στην αξιοπιστία των πρωτεϊνικών αλληλεπιδράσεων είναι ένας μεγάλος αριθμός λανθασμένων παρατηρήσεων μέσα στις αλληλεπιδράσεις που ανιχνεύονται από πειράματα μεγάλης κλίμακας.Στην εργασία γίνεται παρουσίαση της προσπάθειας να προσεγγιστεί ένα από τα βασικότερα προβλήματα των δεδομένων των πρωτεϊνικών αλληλεπιδράσεων, η αξιοπιστία. Ο σκοπός είναι να δημιουργηθεί έναν σύστημα αξιολόγησης πρωτεϊνικών αλληλεπιδράσεων το οποίο θα μπορεί να εφαρμοστεί καθολικά σε μεγάλο αριθμό πρωτεϊνικών αλληλεπιδράσεων. Για το σκοπό αυτό αξιοποιήθηκε η πληροφορία που παρέχει στα πεδία της η βάση δεδομένων iRefIndex [30], μια από τις πιο πρόσφατες προσπάθειες ενοποίησης βάσεων δεδομένων πρωτεϊνικών αλληλεπιδράσεων έτσι ώστε η μέθοδος να εφαρμοστεί στα δεδομένα αυτά, μιας και συμπεριλαμβάνονται σχεδόν όλες οι μεγάλες βάσεις δεδομένων. Επιλέξαμε να περιορίσουμε τη μέθοδο μας στις πρωτεϊνικές αλληλεπιδράσεις του οργανισμού της μαγιάς (Saccharomyces cerevisiae) διότι είναι ο οργανισμός που έχει περιγραφεί καλύτερα από κάθε άλλον.Αποτέλεσμα της εργασίας είναι η δημιουργία ενός συστήματος αξιολόγησης πρωτεϊνικών αλληλεπιδράσεων που εφαρμόστηκε στην ενοποιημένη βάση iRefIndex και χρησιμοποίησε σαν σύνολο εκπαίδευσης περίπου 9.000 δυαδικές αλληλεπιδράσεις στο yeast. Το ποσοστό επιτυχίας του συστήματος ξεπερνά το 80% σωστά κατηγοριοποιημένων αλληλεπιδράσεων και η απόδοση του, όπως αυτή μετράται από την επιφάνια κάτω από την καμπύλη ROC αγγίζει το 0.9. The present master thesis deals with the production of a confident set of protein-protein interactions (PPI) through the assessment of interactions retrieved from various biological detection methods. The value of PPI data, and the continuously rising interest of the scientific community, has set off the need for quality in these data. This can be translated in the need for confidence and the need of coverage. Unfortunately, the results from research in the confidence of PPI data had shown a great number of false positives in the datasets retrieved from experiments using high-throughput methods.In the thesis, is introduced an attempt to face the many problem of PPI data, confidence. The main goal is the design of an assessment method which can be applied globally, to a large number of interactions. For this purpose, iRefIndex, an integrated database is used, so that the assessment method will be applied to the whole database, which includes all the well known PPI databases.We chose to restrain the method on PPI from baker’s yeast organism (Saccharomyces cerevisiae) because is the best defined organism.The result of this thesis is the design of a PPI assessment method, which has been applied on the integrated database iRefIndex using as training set 9.000 binary PPIs. The percentage of success is above 80% right classified PPIs, and the Under ROC Curve Area approximates 0.9.
|
---|