Σύνολο Διαφανειών

advertisement
Εισαγωγή στη
Βιοπληροφορική
Αθανάσιος Τσακαλίδης, Χρήστος Μακρής
Επικουρικό: Ξενοφών Ευαγγελόπουλος
Μάθημα Ελεύθερης Επιλογής Τομέα Λογικού των Υπολογιστών
Εαρινό Εξάμηνο Ακαδ. Έτους 2014-2015
Εισαγωγή στη Βιοπληροφορική
Μακρής
Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών
Βιολογικών Δεδομένων



Προσεγγιστική Εύρεση Προτύπου - Approximate
Pattern Matching
Στοίχιση Ακολουθιών - Multiple Sequence
Alignment
Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας
Βασικοί Ορισμοί (α)

Απόσταση Μετασχηματισμού - Edit Distance: για 2
συμβολοσειρές ορίζουμε το ελάχιστο πλήθος των πράξεων
μετασχηματισμού
που
απαιτούνται
για
να
μετασχηματίσουμε την πρώτη συμβολοσειρά στη δεύτερη.
Οι βασικές πράξεις μετασχηματισμού είναι η ένθεση,
διαγραφή και αντικατάσταση συμβόλων.

Παράδειγμα: S1: vintner και S2: writers
edit-distance(S1->S2)=5


Λέγεται και Levenshtein distance, παραμένει το ίδιο είτε αν
η ακολουθία πράξεων εφαρμόζεται στο S1 είτε στο S2.
Βασικοί Ορισμοί (β)

Ακολουθία Μετασχηματισμού - Edit Transcript: για το
μετασχηματισμό μιας συμβολοσειράς ορίζεται ως η ακολουθία
των πράξεων μετασχηματισμού που απαιτούνται για να
μετασχηματίσουμε την πρώτη συμβολοσειρά στη δεύτερη. Οι
βασικές πράξεις μετασχηματισμού αναπαρίστανται ως εξής:
ένθεση: I
 διαγραφή: D
 αντικατάσταση: R
 ταίριασμα: Μ



Παράδειγμα: S1: vintner και S2: writers
edit-distance(S1->S2)= RIMDMDMMI
Στοίχιση Ακολουθιών

Στοίχιση Ακολουθιών- Sequence Alignment: τοποθετούμε
τη μια ακολουθία κάτω από την άλλη έτσι ώστε οι κοινοί
χαρακτήρες να τοποθετούνται στις ίδιες θέσεις.
-
V
I
N

W
R
I
-
T N
E
R



E
R
T
-
-
S
Στοίχιση Ακολουθιών επιτρέποντας κενά

Στοίχιση δυο ακολουθιών με την εισαγωγή 7 κενών
χαρακτήρων σε 4 θέσεις, που μεταφράζεται ως
μετάλλαξη της ακολουθίας του DNA στις αντίστοιχες
θέσεις.
c t t t a a c - - a - a c
c - - - c a c c c a t - c
Η Μέθοδος του Δυναμικού Προγραμματισμού

Δυναμικός Προγραμματισμός:
Έστω 2 ακολουθίες S1 και S2, θα συμβολίζουμε ως D(i,j) την
απόσταση μετασχηματισμού μεταξύ των προθεμάτων S1[1..i]
και S2[1..j], δηλαδή τον ελάχιστο αριθμό πράξεων
μετασχηματισμού που απαιτούνται για να μετασχηματίσουμε
τους i πρώτους χαρακτήρες της ακολουθίας S1 στους j πρώτους
χαρακτήρες της ακολουθίας S2.

Χρήση 3 βασικών τεχνικών:
 σχέση
αναδρομής- recurrence relation,
 χρήση
πίνακα- tabular computation,
 σχέση
οπισθοχώρησης- traceback.
Παράδειγμα Πίνακα Δυναμικού Πρ/σμου
D(i,j)
w
r
i
t
e
r
s
0
1
2
3
4
5
6
7
0
0
1
2
3
4
5
6
7
v
1
1
1
2
3
4
5
6
7
i
2
2
2
2
2
3
4
5
6
n
3
3
3
3
3
3
4
5
6
t
4
4
4
4
4
*
e
5
5
r
6
6
s
7
7
Η Σχέση Αναδρομής

Σχέση Αναδρομής:
D(i,j)=min[D(i-1,j)+1,D(i,j-1)+1,D(i-1,j-1)+t(i,j)]

D(i,j-1)+1: πρέπει να ενθέσουμε το χαρακτήρα S2[j]

D(i-1,j)+1: πρέπει να διαγράψουμε το χαρακτήρα S1[i],

D(i-1,j-1)+1: για να μετασχηματίσουμε το χαρακτήρα S1[i] στο
χαρακτήρα S2[j] πρέπει να αντικαταστήσουμε το χαρακτήρα S1[i],
με το χαρακτήρα S2[j],

D(i-1,j-1): έχουμε ταίριασμα
Παράδειγμα: σχέση αναδρομής
D(i,j)
w
r
i
t
e
r
s
0
1
2
3
4
5
6
7
0
0
1
2
3
4
5
6
7
v
1
1
1
2
3
4
5
6
7
i
2
2
2
2
2
3
4
5
6
n
3
3
3
3
3
3
4
5
6
t
4
4
4
4
4
*
e
5
5
r
6
6
s
7
7
D(4,4)= D(3,3)=3, αφού S1(4)=S2(4)=t.
Η Σχέση Οπισθοχώρησης

Σχέση Οπισθοχώρησης:

από την (i,j) θέση προς την (i,j-1) αν D(i,j)= D(i,j-1)+1
(ένθεση χαρακτήρα)

από την (i,j) θέση προς την (i-1,j) αν D(i,j)= D(i-1,j)+1
(διαγραφή χαρακτήρα)

από την (i,j) θέση προς την (i-1,j-1) αν D(i,j)= D(i-1,j1)+t(i,j) (αντικατάσταση χαρακτήρα ή ταίριασμα)
Προσθήκη δεικτών οπισθοχώρησης
D(i,j)
w
1
? 1
r
2
? 2
i
3
? 3
t
4
? 4
e
5
? 5
r
6
? 6
s
7
? 7
?1
?? 2
?? 3
?? 5
? 4
?? 6
? 5
?? 7
? 6
v
0
1
0
0
?1
i
2
?2
? ?2
?2
?2
?? 4
? 3
n
3
?3
? ?3
? ?3
? ?3
?3
? ?4
? ?5
?? 6
t
4
?4
? ?4
? ?4
? ?4
? ?4
? ?5
?? 6
e
5
?5
? ?5
? ?5
? ?5
?3
?4
?4
? ?5
?? 6
r
6
?6
? ?6
? ?6
? ?6
?5
? ?5
s
7
?7
? ?7
?6
? ? ?7
?6
?4
?5
?? 6
? 5
?4
Ερμηνεία δεικτών οπισθοχώρησης
D(i,j)
w
1
? 1
r
2
? 2
i
3
? 3
t
4
? 4
e
5
? 5
r
6
? 6
s
7
? 7
?1
?? 2
?? 3
?? 5
? 4
?? 6
? 5
?? 7
? 6
v
0
1
0
0
?1
i
2
?2
? ?2
?2
?2
?? 4
? 3
n
3
?3
? ?3
? ?3
? ?3
?3
? ?4
? ?5
?? 6
t
4
?4
? ?4
? ?4
? ?4
? ?4
? ?5
?? 6
e
5
?5
? ?5
? ?5
? ?5
?3
?4
?4
? ?5
?? 6
r
6
?6
? ?6
? ?6
? ?6
?5
? ?5
s
7
?7
? ?7
?6
? ? ?7
?6
?4
?5
?? 6
? 5
V I NT NE R WR I T - E R S
?4
Πολυπλοκότητα της μεθόδου Δυναμικού
Προγραμματισμού

Αρχικοποίηση: O(n) + O(m)

Σχέση Αναδρομής: O(n*m)

Δείκτες Οπισθοχώρησης: Ο(n+m)

Πολυπλοκότητα: Ο(n2)

Ισοδυναμία με πρόβλημα της θεωρίας γραφημάτων, όπου
κάθε κόμβος έχει ετικέτα ένα ζεύγος (i,j)
Βασικοί Ορισμοί (γ)

Ζυγισμένη Απόσταση Μετασχηματισμού - Weighted Edit
Distance: το ελάχιστο κόστος των πράξεων μετασχηματισμού
που απαιτούνται για να μετασχηματίσουμε την πρώτη
συμβολοσειρά στη δεύτερη. Κάθε πράξη μετασχηματισμού έχει
συγκεκριμένο κόστος - βάρος. Έστω ότι οι βασικές πράξεις
μετασχηματισμού έχουν τα ακόλουθα βάρη:
 ένθεση
ή διαγραφή: d
 αντικατάσταση: r
 ταίριασμα: m.


Παράδειγμα: S1: vintner και S2: writers
weighted edit-distance(S1->S2)= r+4d+4m.
Η Σχέση Αναδρομής με βάρη

Σχέση Αναδρομής:
D(i,j)=min[D(i-1,j)+d,D(i,j-1)+d,D(i-1,j-1)+t(i,j)],

όπου:

t(i,j)= e, αν S1(i)=S2(j),

t(i,j)=r, αν S1(i)S2(j) και

D(i,0)=i*d
και
D(0,j)=j*d.
Η σχέση μπορεί να υπολογιστεί κινούμενοι κατά στήλες
από αριστερά προς τα δεξιά, αφού έχουμε υπολογίσει τη
πρώτη γραμμή και τη πρώτη στήλη.
ΕΠΕΚΤΑΣΕΙΣ

Ζυγισμένη Απόσταση Μετασχηματισμού βάσει Αλφαβήτου Weighted Edit Distance.

Σε εφαρμογές Μοριακής Βιολογίας τα βάρη αντικατάστασης
χαρακτήρων αποθηκεύονται σε Πίνακες Αντικατάστασης Substitution Matrix: PAM και BLOSUM

Καλύτερη (σημασιολογικά) η αντιμετώπιση σαν alignment και η
ενσωμάτωση του score.

Κατά κανόνα match είναι θετικό, οτιδήποτε άλλο 0 ή αρνητικό
Παράδειγμα Πίνακα Αντικατάστασης
BLOSUM Clustered Scoring Matrix
# Cluster Percentage: >= 62
# Entropy =
0.6979, Expected
A R N D C Q E G H I
A 4 -1 -2 -2 0 -1 -1 0 -2 -1
R -1 5 0 -2 -3 1 0 -2 0 -3
N -2 0 6 1 -3 0 0 0 1 -3
D -2 -2 1 6 -3 0 2 -1 -1 -3
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1
Q -1 1 0 0 -3 5 2 -2 0 -3
E -1 0 0 2 -4 2 5 -2 0 -3
G 0 -2 0 -1 -3 -2 -2 6 -2 -4
H -2 0 1 -1 -3 0 0 -2 8 -3
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2
K -1 2 0 -1 -3 1 1 -2 -1 -3
M -1 -1 -2 -3 -1 0 -2 -3 -2 1
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3
S 1 -1 1 0 -1 0 0 0 -1 -2
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3
B -2 -1 3 4 -3 0 1 -1 0 -3
Z -1 0 0 1 -3 3 4 -2 0 -3
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4
Εισαγωγή στη Βιοπληροφορική
in 1/2 Bit Units
=
L
-1
-2
-3
-4
-1
-2
-3
-4
-3
2
4
-2
2
0
-3
-2
-1
-2
-1
1
-4
-3
-1
-4
-0.5209
K M F
-1 -1 -2
2 -1 -3
0 -2 -3
-1 -3 -3
-3 -1 -2
1 0 -3
1 -2 -3
-2 -3 -3
-1 -2 -1
-3 1 0
-2 2 0
5 -1 -3
-1 5 0
-3 0 6
-1 -2 -4
0 -1 -2
-1 -1 -2
-3 -1 1
-2 -1 3
-2 1 -1
0 -3 -3
1 -1 -3
-1 -1 -1
-4 -4 -4
P
-1
-2
-2
-1
-3
-1
-1
-2
-2
-3
-3
-1
-2
-4
7
-1
-1
-4
-3
-2
-2
-1
-2
-4
S
1
-1
1
0
-1
0
0
0
-1
-2
-2
0
-1
-2
-1
4
1
-3
-2
-2
0
0
0
-4
T
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
1
5
-2
-2
0
-1
-1
0
-4
W
-3
-3
-4
-4
-2
-2
-3
-2
-2
-3
-2
-3
-1
1
-4
-3
-2
11
2
-3
-4
-3
-2
-4
Y
-2
-2
-2
-3
-2
-1
-2
-3
2
-1
-1
-2
-1
3
-3
-2
-2
2
7
-1
-3
-2
-1
-4
V
0
-3
-3
-3
-1
-2
-2
-3
-3
3
1
-2
1
-1
-2
-2
0
-3
-1
4
-3
-2
-1
-4
B
-2
-1
3
4
-3
0
1
-1
0
-3
-4
0
-3
-3
-2
0
-1
-4
-3
-3
4
1
-1
-4
Z
-1
0
0
1
-3
3
4
-2
0
-3
-3
1
-1
-3
-1
0
-1
-3
-2
-2
1
4
-1
-4
X
0
-1
-1
-1
-2
-1
-1
-1
-1
-1
-1
-1
-1
-1
-2
0
0
-2
-1
-1
-1
-1
-1
-4
*
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
-4
1
Κατερίνα Περδικούρη, Χρήστος Μακρής
Υπολογισμός score-function στοίχισης ακολουθιών
1
g
g

2
a
a
3
g
c
4
c
5 6 7
t c t
t c -
S
a
c
g
t
_
a
1
Score-function= 0+1-2+0+3+3-1=4
c
-1
3
g
-2
-2
0
t
0
-1
-4
3
_
-1
0
-2
-1
0
Δυναμικός Προγραμματισμός & Ομοιότητα
Ακολουθιών βάσει αλφαβήτου

Σχέση Αναδρομής για την ομοιότητα ακολουθιών:
V(i,j)= max[V(i-1,j-1)+s(S1(i), S2(j)), V(i-1,j)+ s(S1(i),_),
V(i,j-1)+ s(_,S2(j))],

όπου:

s(x,y): η τιμή στοίχισης του χαρακτήρα x με τον y

V(0,j)=s(_,S2(k)), 1<k<j
και V(i,0)=
 s(S1(k),_), 1<k<i.
Επεκτάσεις



Longest Common Subsequence (match weight 1,
otherwise 0)
End-space free variant that encourages one string to
align in the interior of the other, or the suffix of one to
align with the prefix of the other (initial conditions 0,
everything is countable in the last row and the last
column) – shotgun sequence assembly
Approximate occurrence of P in T (the optimal alignment
of P to a substring of T has distance δ from the optimal
alignment) (initial conditions, as previously 0).
-- locate a cell (n,j) with value greater than δ.
-- traverse backpointers from (n,j) to (0,k).
-- occurrence in T[k,j]
Το Πρόβλημα Τοπικής Στοίχισης ΕπιθέματοςLocal Suffix Alignment Problem

Local suffix alignment problem: για δυο ακολουθίες S1 και S2
εντόπισε ένα επίθεμα α του S1[1..i] (με την πιθανότητα να είναι κενό)
και ένα επίθεμα β του S2[1..j] (πιθανόν κενό) τέτοια ώστε το V(α,β) να
έχει τη μέγιστη τιμή από όλα τα άλλα δυνατά ζεύγη επιθεμάτων των
S1[1..i] και S2[1..j]. Συμβολίζουμε ως υ(i,j) τη βέλτιστη τοπική στοίχιση
επιθεμάτων για τις τιμές i και ,j ( i<n και j<m).

Αρχικές συνθήκες v(i,0)=0 και v(0,j)=0
επιλέξουμε κάθε άδειο επίθεμα.

καθώς μπορούμε να
υ(i,j)=max[0,υ(i-1,j-1)+s(S1(i), S2(j)), υ(i-1,j)+ s(S1(i),_), υ(i,j-1)+
s(_,S2(j))]
Locally Similar Strings
T:
S:
Παρατηρήσεις

Global Alignment is called Needleman-Wunsch
alignment

Local alignment is called Smith-Waterman alignment

Smith-Waterman can find regions with high similarity by
simply performing a trace-back from any cell (i,j)
backwards and locate a pair with similarity v(i,j).
Στοίχιση Ακολουθιών με κενά

Έννοια κενού: συνεχόμενα spaces,
ελέγχουμε την κατανομή των κενών.

Εισαγωγή Κενών: Για να συμπεριλάβουμε το κόστος που
η εισαγωγή κενών εισάγει στη στοίχιση 2 ακολουθιών,
μπορούμε σε μια απλή προσέγγιση να θεωρήσουμε ότι
κάθε κενό συνεισφέρει ένα σταθερό βάρος Wg, ανεξάρτητα
από το μήκος του.

τιμή στοίχισης που περιέχει “k” κενά:
θέλουμε
να
l
'
'
s
(
S
(
j
),
S
 1 i 2 ( j j ))  kWg
i 1

μία καλύτερη προσέγγιση είναι η χρησιμοποίηση μίας
συνάρτησης του μήκους του κενού. Τότε μπορούμε να
γεμίσουμε ένα πίνακα: V(i,j)=max[E(i,j), F(i,j), G(i,j)]
Στοίχιση με arbitrary gap weights
i
j
G(i,j)= V(i-1,j-1)+cost(i->j)
E(i,j)= maxKV(i,k) - w(j-k)
(0<=k<=j-1)
i
gaps
j
F(i,j)= maxl{V(l,j) - w(i-l)
(0<=l<=i-1)
gaps
j
i







V(i,j)=max{E(i,j), F(i,j), G(i,j)}
V(i,0)=-w(i)
V(0,j)=-w(j)
E(i,0)=-w(i)
F(0,j)=-w(j)
G(0,0)=0
Assuming that |S1|=n and |S2|=m the recurrences can be
evaluated in O(nm2+n2m)
Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας

Το
Πρόβλημα
της
Πολλαπλής
Στοίχισης-
multiple
sequence alignment problem: Μία πολλαπλή ολική στοίχιση
από k>2 συμβολοσειρές S={ S1, S2,…., Sκ} είναι μία φυσική
γενίκευση της στοίχισης για δύο συμβολοσειρές.
Όνομα
Ακολουθίας
Στοίχιση Ακολουθιών
1
P.falciparum
P.vivax
P.chabaudi
P.berghei
P.vinckei
L.major
E.coli
L.casei
H.sapiens
10
20
M
M
E
Q
V
C
D
V
F
D
I
Y
A
I
C
A
C
C
K
V
-
M
E
D
L
S
D
V
F
D
I
Y
A
I
C
A
C
C
K
V
-
M
E
D
I
S
E
I
F
D
I
Y
A
I
C
A
C
C
K
V
-
M
E
D
L
S
E
T
F
D
I
Y
A
I
C
A
C
C
K
V
-
-
-
-
-
-
-
-
-
-
-
-
A
I
C
A
C
C
K
V
A
D
F
A
F
P
S
L
R
A
F
S
I
V
V
A
L
D
M
-
-
-
-
-
-
-
-
-
-
M
I
S
L
I
A
A
L
A
V
-
-
-
-
-
-
-
-
-
-
-
T
A
F
L
W
A
Q
N
R
-
-
-
-
-
-
-
M
V
G
S
L
N
C
I
V
A
V
S
Q
-
Γιατί μας ενδιαφέρει η πολλαπλή στοίχιση
ακολουθιών

Η πολλαπλή στοίχιση ακολουθιών χρησιμοποιείται:

στην
αναγνώριση
και
αναπαράσταση
πρωτεϊνικών
οικογενειών και υπερ-οικογενειών,

στην αναπαράσταση των χαρακτηριστικών που μεταφέρονται
στις ακολουθίες DNA ή στις πρωτεϊνικές ακολουθίες,

στην αναπαράσταση της εξελικτικής ιστορίας (φυλογενετικά
δέντρα) από ακολουθίες DNA ή πρωτεϊνών.
Αλγόριθμοι Πολλαπλής Στοίχισης Ακολουθιών


Είδη στοίχισης:

Extention of DP approach (too costly)

Use of pairwise alignment (center star algorithm)
Αλγόριθμοι πολλαπλής στοίχισης ακολουθιών:

FASTA

BLAST.
Βιολογικές Βάσεις Δεδομένων


Γενικευμένες (Generalised) ή Αρχειακές (Archival) βιολογικές βάσεις
δεδομένων). Διακρίνονται σε:
- Πρωτογενείς βάσεις δεδομένων ακολουθιών (Primary Sequence
Databases). Περιέχουν νουκλεοτιδικές και αμινοξικές ακολουθίες από
γονιδιώματα οργανισμών που είτε έχουν αποκρυπτογραφηθεί πλήρως είτε
όχι
- βάσεις δεδομένων που περιέχουν τρισδιάστατες δομές νουκλεϊνικών
οξέων και πρωτεϊνών
Δευτερευουσες (Secondary) βιολογικές βάσεις δεδομένων που προκύπτουν
από ανάλυση των δεδομένων που είναι αποθηκευμένα στις αρχειακές
βιολογικές βάσεις δεδομένων και διακρίνονται σε:

Δευτερεύουσες ΒΔ ακολουθιών DNA και πρωτεϊνών που προκύπτουν
από τις βασικές ΒΔ ακολουθιών και περιλαμβάνουν
(α) ΒΔ ακολουθιών στις οποίες έχουν απομακρυνθεί οι ακολουθίες
που έχουν αποθηκευτεί περισσότερες από μία φορές
(β) ΒΔ που καταγράφουν μεταλλαγές ή παραλλαγές στις ακολουθίες
DNA και πρωτεινών
(γ) Γονιδιωματικές ΒΔ που είτε ομαδοποιούν συγγενή ή όχι πλήρως
αποκρυπτογραφημένα γονιδιώματα είτε ασχολούνται με γονιδιώματα
οργανισμών μοντέλων
ΒΔ που ασχολούνται με τις ιεραρχήσεις ή/και συσχετίσεις μεταξύ
βιομορίων όπως οικογένειες πρωτεϊνών, κοινές δομές πρωτεϊνών κοινά
μοτίβα ακολουθιών DNA και πρωτεϊνών.
Εξειδικευμένες Β.Δ., κατηγορία στην οποία ανήκουν:

Β.Δ. μικροσυστοιχιών που περιλαμβάνουν πληροφορίες για την
έκφραση γονιδίων και πρωτεϊνών

Β.Δ. Μεταβολικών μονοπατιών που περιέχουν πληροφορίες για τις
χημικές αντιδράσεις που πραγματοποιούνται στο κύτταρο
Βιβλιογραφικές βιολογικές βάσεις δεδομένων
Βιολογικές βάσεις δεδομένων ιστοσελίδων που περιλαμβάνουν:

Β.Δ. που περιλαμβάνουν ως εγγραφές βιολογικές βάσεις

Συνδέσμους μεταξύ βιολογικών βάσεων δεδομένων.




Biological databases (source: wikipedia,
http://en.wikipedia.org/wiki/Biological_database
Primary sequence databases
The International Nucleotide Sequence Database (INSD) consists of the following databases.
DDBJ (DNA Data Bank of Japan)
EMBL Nucleotide DB (European Molecular Biology Laboratory)
GenBank [1] (National Center for Biotechnology Information)
These databanks represent the current knowledge about the sequences of all organisms. They interchange
the stored information and are the source for many other databases.
Meta-databases
Strictly speaking a meta-database can be considered a database of databases, rather than any one
integration project or technology. They collect data from different sources and usually makes them available in
new and more convenient form, or with an emphasis on a particular disease or organism.
Entrez[2] (National Center for Biotechnology Information)
euGenes (Indiana University)
GeneCards (Weizmann Inst.)
SOURCE (Stanford University)
mGen containing four of the world biggest databases GenBank, Refseq, EMBL and DDBJ - easy and simple
program friendly gene extraction
Bioinformatic Harvester[3] (Karlsruhe Institute of Technology) - Integrating 26 major protein/gene resources.
MetaBase[4] (KOBIC) - A user contributed database of biological databases.
ConsensusPathDB - A molecular functional interaction database, integrating information from 12 other
databases.
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Genome Databases
These databases collect organism genome sequences, annotate and analyze them, and provide public
access. Some add curation of experimental literature to improve computed annotations. These databases
may hold many species genomes, or a single model organism genome.
CAMERA Resource for microbial genomics and metagenomics
Corn, the Maize Genetics and Genomics Database
Ensembl provides automatic annotation databases for human, mouse, other vertebrate and eukaryote
genomes.
ERIC (Enteropathogen Resource Integration Center) Curated database containing annotated genome data
for five enteropathogens - Escherichia coli, Shigella, Salmonella, Yersinia enterocolitica, and Y. pestis.
Flybase, genome of the model organism Drosophila melanogaster
MGI Mouse Genome (Jackson Lab.)
JGI Genomes of the DOE-Joint Genome Institute provides databases of many eukaryote and microbial
genomes.
National Microbial Pathogen Data Resource. A manually curated database of annotated genome data for the
pathogens Campylobacter, Chlamydia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria,
Staphylococcus, Streptococcus, Treponema, Ureaplasma, and Vibrio.
Saccharomyces Genome Database, genome of the yeast model organism.
Viral Bioinformatics Resource Center Curated database containing annotated genome data for eleven virus
families.
The SEED platform for microbial genome analysis includes all complete microbial genomes, and most partial
genomes. The platform is used to annotate microbial genomes using subsystems.
Wormbase, genome of the model organism Caenorhabditis elegans
Zebrafish Information Network, genome of this fish model organism.
TAIR, The Arabidopsis Information Resource.
UCSC_Malaria_Genome_Browser, genome of malaria causing species (Plasmodium_falciparumata and
others)
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Genome Browsers
Genome Browsers enable researchers to visualize and browse entire genomes (most have many complete
genomes) with annotated data including gene prediction and structure, proteins, expression, regulation,
variation, comparative analysis, etc. Annotated data is usually from multiple diverse sources.
Integrated Microbial Genomes (IMG) system by the DOE-Joint Genome Institute
UCSC Genome Bioinformatics Genome Browser and Tools (UCSC)
Ensembl The Ensembl Genome Browser (Sanger Institute and EBI)
GBrowse The GMOD GBrowse Project
Pathway Tools Genome Browser
X:Map A genome browser that shows Affymetrix Exon Microarray hit locations alongside the gene, transcript
and exon data on a Google maps api
Viral Genome Organizer (VGO) A genome browser providing visualization and analysis tools for annotated
whole genomes from the eleven virus families in the VBRC (Viral Bioinformatics Resource Center)
databases
Apollo Genome Annotation Curation Tool A cross-platform, JAVA-based standalone genome viewer with
enterprise-level functionality and customizations. The standard for many model organism databases.
SEED viewer for visualizing and interrogating the SEED database of complete microbial genomes
Integrated Genome Browser (IGB) A cross-platform, Java-based desktop genome viewer.
Argo Genome Browser A fre and open source standalone Java-based genome browser for visualizing and
manually annotating whole genomes.
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Protein Sequence Databases
UniProt[5] Universal Protein Resource (UniProt Consortium: EBI, Expasy, PIR)
PIR Protein Information Resource (Georgetown University Medical Center (GUMC))
Swiss-Prot[6] Protein Knowledgebase (Swiss Institute of Bioinformatics)
PEDANT Protein Extraction, Description and ANalysis Tool (Forschungszentrum f. Umwelt &
Gesundheit)
PROSITE Database of Protein Families and Domains
DIP Database of Interacting Proteins (Univ. of California)
Pfam Protein families database of alignments and HMMs (Sanger Institute)
PRINTS PRINTS is a compendium of protein fingerprints (Manchester University)
ProDom Comprehensive set of Protein Domain Families (INRA/CNRS)
SignalP 3.0 Server for signal peptide prediction (including cleavage site prediction), based on artificial
neural networks and HMMs
SUPERFAMILY Library of HMMs representing superfamilies and database of (superfamily and family)
annotations for all completely sequenced organisms
Annotation Clearing House a project from the National Microbial Pathogen Data Resource
Mathematical Model Databases
CellML
Biomodels Database
[PCR / Real time PCR primer
Databases
PathoOligoDB: A free QPCR oligo database for pathogens
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Protein Structure Databases
Protein Data Bank[7] (PDB) (Research Collaboratory for Structural Bioinformatics (RCSB))
Protein Model Portal[8] (PMP) Meta database that combines several databases of protein structure
models (Biozentrum, Basel, Switzerland)
CATH Protein Structure Classification
SCOP Structural Classification of Proteins
SWISS-MODEL Server and Repository for Protein Structure Models
ModBase Database of Comparative Protein Structure Models (Sali Lab, UCSF)
Protein-proteiin Interactions
BioGRID [9] A General Repository for Interaction Datasets (Samuel Lunenfeld Research Institute)
STRING: STRING is a database of known and predicted protein-protein interactions. (EMBL)
DIP Database of Interacting Proteins
BIND Biomolecular Interaction Network Database
Metabolic pathway Databases
BioCyc Database Collection including EcoCyc and MetaCyc
KEGG PATHWAY Database[10] (Univ. of Kyoto)
MANET database [11] (University of Illinois)
Reactome[12] (Cold Spring Harbor Laboratory, EBI, Gene Ontology Consortium)
Microarray Databases
ArrayExpress (European Bioinformatics Institute)
Gene Expression Omnibus (National Center for Biotechnology Information)
maxd (Univ. of Manchester)
Stanford Microarray Database (SMD) (Stanford University)
GPX(Scottish Centre for Genomic Technology and Informatics)
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Specialized databases
Genome Database for Rosaceae (International Genomics and Genetics Database for Rosaceous crops)
XTractorDiscovering Newer Scientific Relations Across PubMed Abstracts. A tool to obtain manually
annotated relationships for Proteins, Diseases, Drugs and Biological Processes as they get published in
PubMed.
BIOMOVIE (ETH Zurich) movies related to biology and biotechnology
CGAP Cancer Genes (National Cancer Institute)
Clone Registry Clone Collections (National Center for Biotechnology Information)
DBGET H.sapiens (Univ. of Kyoto)
GDB Hum. Genome Db (Human Genome Organisation)
SHMPD The Singapore Human Mutation and Polymorphism Database
NCBI-UniGene (National Center for Biotechnology Information)
OMIM Inherited Diseases (Online Mendelian Inheritance in Man)
Off. Hum. Genome Db (HUGO Gene Nomenclature Committee)
HGMD disease-causing mutations (HGMD Human Gene Mutation Database)
PhenCode linking human mutations with phenotype
List with SNP-Databases
p53 The p53 Knowledgebase
Edinburgh Mouse Atlas
HvrBase++ Human and primate mitochondrial DNA
PolygenicPathways Genes and risk factors implicated in Alzheimer's disease, Bipolar disorder or
Schizophrenia
Connectivity map Transcriptional expression data and correlation tools for drugs
CTD The Comparative Toxicogenomics Database describes chemical-gene-disease interactions
DiProDB A database to collect and analyse thermodynamic, structural and other dinucleotide properties.
GyDB The Gypsy Database of Mobile Genetic Elements (Universitat de València)
INTERFEROME The Database of Interferon Regulated Genes
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Wiki style databases
www.EcoliHub.org/EcoliWiki
Gene Wiki
OpenWetWare
PDBWiki
Proteopedia
Topsan
WikiGenes
WikiPathways
YTPdb
CHDwiki
WikiProfessional
Εισαγωγή στη Βιοπληροφορική
Κατερίνα Περδικούρη, Χρήστος Μακρής
Βάσεις Βιολογικών Δεδομένων (1)

GenBank: NCBI (http://www.ncbi.nlm.nih.gov)
GenBank® is the NIH genetic sequence database, an annotated collection of all
publicly available DNA sequences. There are approximately 37,893,844,733 bases in
32,549,400 sequence records as of February 2004. Δείγμα εγγραφής
(National Center of Biotechnology Information)

PIR: Protein Information Resource (http://pir.georgetown.edu)
PIR produces the Protein Sequence Database (PSD) of functionally annotated
protein sequences, which grew out of the Atlas of Protein Sequence and Structure
(1965-1978) edited by Margaret Dayhoff and has been incorporated into an
integrated knowledge base system of value-added databases and analytical tools.

Swiss-Prot + TrEMBL: Swiss-Prot.htm (http://tw.expasy.org/sprot/)
Swiss-Prot is a curated protein sequence database which strives to provide a high
level of annotation (such as the description of the function of a protein, its domains
structure, post-translational modifications, variants, etc.), a minimal level of
redundancy and high level of integration with other databases
TrEMBL is a computer-annotated supplement of Swiss-Prot that contains all the
translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot.
Βάσεις Βιολογικών Δεδομένων (2)

PRODOM:
(http://prodes.toulouse.inra.fr/prodom/current/html/home.php)
ProDom is a comprehensive set of protein domain families automatically generated
from the SWISS-PROT and TrEMBL sequence databases

PROTOMAP: (http://protomap.cornell.edu/intro.html)
An exhaustive classification of all the proteins in the SWISSPROT and TrEMBL
databases, into groups of related proteins. The analysis uses transitivity to identify
homologous proteins, and within each group, every two members are either directly
or transitively related.

PRINTS: (http://umber.sbs.man.ac.uk/dbbrowser/PRINTS/)
PRINTS is a compendium of protein fingerprints. A fingerprint is a group of conserved
motifs used to characterise a protein family; its diagnostic power is refined by
iterative scanning of a SWISS-PROT/TrEMBL composite.
Βάσεις Βιολογικών Δεδομένων (3)

PROSITE: Prosite (http://tw.expasy.org/prosite/)
PROSITE is a database of protein families and domains. It consists of biologically
significant sites, patterns and profiles that help to reliably identify to which known
protein family (if any) a new sequence belongs.

PDB-Protein Data Bank: PDB (http://www.rcsb.org/pdb/
The PDB is the single worldwide repository for the processing and distribution of 3-D
structure data of large molecules of proteins and nucleic acids.

GDB: Genome Mapping Data (http://www.gdb.org/gdb/)
Genome Mapping Data from the Human Genome Initiative
Βάσεις Βιολογικών Δεδομένων (4)

TIGR: http://gnn.tigr.org/
The Institute for Genomic Research (TIGR) is a not-for-profit research institute whose
primary research interests are in structural, functional and comparative analysis of
genomes and gene products from a wide variety of organisms including viruses,
eubacteria (both pathogens and non-pathogens, archaea (the so-called third domain
of life), and eukaryotes (plants, animals, fungi and protists such as the malarial
parasite).

SCOP: (http://scop.berkeley.edu/)
Structural Classification of Proteins
Ένα παράδειγμα: PDB data entry example
Sequence Database Searching
Βήματα καθορισμού πρωτεϊνικής ακολουθίας
1.
Σύγκριση της νέας ακολουθίας με PROSITE και BLOCKS για εύρεση wellcharacterized sequence motifs.
2.
Ψάξιμο στις DNA και protein sequence databases (Genbank, Swiss-Prot, etc.)
για εντοπισμό ακολουθιών τοπικά παρόμοιων (με χρήση ενός κριτηρίου
τοπικής ομοιότητας) – χρήση FASTA και BLAST
3.
Εάν τα παραπάνω ψαξίματα δίνουν ενδιαφέρον αποτέλεσμα, τότε
καταφεύγουμε στη χρήση της τεχνικής του δυναμικού προγραμματισμού.
4.
Όταν χρειαστεί να εμπλακούν amino acid substitution matrices, συνήθως
χρησιμοποιείται μία παραλλαγή του Dayhoff PAM matrix και του BLOSUM
matrix.
Ο Αλγόριθμος BLAST
(Συντηρείται από το NCBI)
BLAST: Basic Local Alignment Search Tool, Altschul et. Al. 1990
Βασική ιδέα: εντοπισμός κοινών υπο-ακολουθιών ίδιου μήκους (segment
pairs) που εμφανίζονται και στη δοσμένη ακολουθία μικρού μήκους (input
query sequence) και στο σύνολο των ακολουθιών μίας βάσης δεδομένων.
Στη συνέχεια επέκταση για εύρεση maximal segment pairs
Αλγόριθμος
Είδος query
Είδος sequence
BLASTP
Πρωτείνη
Πρωτεϊνη
BLASTN
Νουκλεοτίδιο
Νουκλεοτίδιο
BLASTX
Νουκλεοτίδιο
Πρωτεϊνη
TBLASTN
Πρωτεϊνη
Νουκλεοτίδιο
TBLASTX
Νουκλεοτίδιο
Νουκλεοτίδιο
O Αλγόριθμος FASTA
(φιλοξενείται στο ΕΒΙ)


FASTΑ: Fast – All, Lipman et al. 1985
Κεντρική ιδέα: εύρεση μικρών λέξεων (words ή k-tuples)
που εμφανίζονται και στις δύο ακολουθίες. Στην
περίπτωση πρωτεϊνικών ακολουθιών το μήκος των
λέξεων είναι 1-2 βάσεις ενώ για ακολουθίες DNA το
μήκος μίας λέξης μπορεί να φτάνει στις 6 βάσεις
Τα βήματα του αλγορίθμου FASTA




1o βήμα: αναζητούμε λέξεις μήκους ktup στον πίνακα
δυναμικού προγραμματισμού: ‘hot spots’ (pairs (i,j) )
2ο βήμα: εντοπίζουμε τις δέκα καλύτερες διαγώνιες
τροχιές – diagonal runs από ‘hot-spots’ στον πίνακα
(a hot spot define the (i-j)-diagonal, the score is the sum
of scores of hot-spots plus weighted decreasing as the
distance increases)
3ο βήμα: συνδυάζουμε «καλές υπο-στοιχίσεις»
4ο βήμα: παράγουμε το βέλτιστο μονοπάτι
Άλλα Θέματα



Amino Acid Substitution Matrices
Dayhoff PAM (Point Accepted Mutation)
BLOSUM (derived from the BLOCKS database)
BLOCKS is a database of protein motifs that attempts to
represent the most highly conserved substrings in
aminoacid sequences or related preoteins.
Indexing Approaches

k-gram indexing

direct indexing

vector space indexing
k-gram Indexing
Hash tables (FASTP, FASTA, BLAST, BL2SEQ, PSI-BLAST, MegaBLAST,
BLASTZ, WU-BLAST, BLAT, SSAHA, SENSEI)

ed-tree (the gram size k, the skip interval Δ (which start positions matter), the
segment length vector H=[h1, …, ht], where sumi(hi)=k)

-- For each sequence, the algorithm generates all k-grams with Δ skips
-- Each gram is partitioned according to H, and the partitions are inserted into the
ed-tree.
The search algorithm partitions accordingly the query string, and initiates a search
procedure, beginning from the root. Some important properties: (1) the k-grams are
usually longer than that of BLAST, (2) they allow inexact k-gram matches, (3) only
one k-gram out of Δ k-grams is indexed,
Ed-tree is used by CHAOS, LAGAN, DIALIGN.
Direct Indexing

Suffix trees
-- MUMmer, AVID, REPuter, MGA, QUASAR

VP-trees (Vantage Point tree)
MUMmer

Detecting MUM (Maximal Unique Matches), that is pair of substrings
(x’,y’) that exactly match and there is no other matching pair that
contains x’, y’ simultaneously (just use the GST(x,y))

Find the backbone of the alignment: all the pairs (x’,y’) are sorted in
increasing order of the position of x’. Next the longest sequence of
MUMs whose subsequences from x, y are in sorted order is found.
These form the backbone

Closing gaps. The gaps between consecutive MUMs are aligned
with the help of Smith-Waterman
Similar tools are AVID, REPuter, MGA.
VP-trees (Vantage Point tree)
The VP-tree has been adapted to sequence databases where the distance is the edit
distance or the block edit distance. It can be applied to other distance functions as long
as they are almost metric.
The algorithm takes a database, D={s1,…,sn}, and chooses a sequence s as the root,
while the median of the distances to s is computed. The two sets are: (i) the
sequences that are closer to s than the median, (ii) the rest of the sequences.
Given a query q, the sequences at distance r are found as follows: First, q is compared
to the vantage sequence s, at the root node. Let M be the median distance.
1.
2.
3.
If d(q,s)≤r, s is inserted to the result set
If d(q,s)≤r+M, then the left child is searched recursively.
If d(q,s)≥M-r, then the right child is searched recursively.
Vector Space Indexing
These index structures, map sequences or
subsequences to vectors in a vector space.
There exist two important index structures:
(i)
SST (Sequence Search Tree)
(i)
MRS (Multi Resolution String) index
SST
Space Mapping (window size w, shift amount Δ, tuple size k)
The parameter k, determines the size of the computed vector (for alphabet
size σ this vector has size σκ )
Vector
The
produced vectors are stored in a so called centroid structure.
A query is performed as follows: a query sequence is first divided into
subsequences of window size w, using a shift amount of Δ=w/2. Each of
the produced query vectors is then searched on the index structure
starting from the root node.

Download