4-Body Potential-ReckFinalDefense

advertisement
Adaptation and Use of Four-body Statistical
Potential to Examine Thermodynamic
Properties of Proteins
Gregory M. Reck
PhD Dissertation Defense
Topics
•
•
Background & Approach
Adaptation of tessellation programs for hydration
•
•
Derivation of potentials from hydrated proteins
Identifying relationships between stability and potential
2
Background
•
A group of diseases have been associated with the formation of amyloid
deposits in tissue, each has been linked to a specific protein precursor
(typically a mutant) that appears to misfold
•
The misfolding leads to protein aggregation, formation of fibrils, and
eventually insoluble amyloid; the resulting pathologies vary widely
•
No apparent sequence or structure similarity among precursors, but the
resulting amyloids have a similar cross-beta structure
•
Some model proteins (non-disease) can be induced to form amyloid fibril
structures through destabilization
•
If instability is a significant factor in the aggregation process for globular
precursors, then a knowledge-based tool capable of reporting on stability
features of a protein may be a valuable research tool
3
Approach
• Use the tessellation-based statistical potential
– Can be characterized as an indicator of the sequence-structure compatibility
of a protein
– Can provide a potential profile along the primary sequence that may identify
key features
• Begin with some adaptations to the model aimed at improving stability
relationships
– Previous work has had limited success in defining the relationship between
protein stability and the protein total potential
• Evaluate the correlation between potential and stability
• Test run the revised potential on some protein/s with known amyloid
characteristics
4
2-D Overview of Tessellation
• Begin with set of points (coordinates) that represent
amino acid positions in the protein (red spots, C)
• Build a Voronoi cell (VC) around each point, so that
all points in the cell are closer to the C at the center
than any other (blue dashed lines)
• The vertices of the VC are points that represent the
intersection of 3 VC
• (Note: the VC at the boundary points are not closed)
• The Delaunay simplices (DS) are constructed from the VC -- red triangles that connect the C
points of the 3 VC’s that meet at VC vertices
• The C’s at the vertices of the DS form groups of “nearest neighbors”, triplets in 2-D and
quadruplets in 3-D
List of quadruplets (from the 3-D PDB file) is the primary output
5
Four-body Statistical Potential Derivation
• Define a statistical potential q that represents
qijkl  log
f
observed frequency of occurrence of a given quadruplet
 log ijkl
pijkl
frequency of random occurrence of a given quadruplet
where i, j, k, l are amino acid residues
set of
 • The observed frequency is determined by tessellating a large nonredundant

representative proteins (normalized)
• The frequency of random occurrence is pijkl = caiajakal where the a’s are the frequencies
of individual amino acid residues, and c is the permutation factor to account for replicated
residue types in a quadruplet
4!
c
n
 (t !)
i
i
where n is the number of distinct residue types in a quadruplet, and ti is the number of
amino acids of type i

• Thus qijkl represents the likelihood
of finding four particular residues in one simplex
• The potential function is the aggregate function of the values of all possible qijkl
6
Four-body Statistical Potential Parameters
•
Total potential of a study protein is the sum of the individual q values of each
of the N quadruplets in the protein
N
q p   qi
i1
•
•
Residue potential for a given residue is the sum of the individual q values of
each quadruplet that includes that residue, thus it represents the local
environment surrounding that residue

Potential profile is a vector associated with the primary sequence of the
protein where each vector component is the residue potential for the amino
acid residue at that position (shown below for barnase)
7
Topics
•
•
Background & Approach
Adaptation of tessellation programs for hydration
•
•
Derivation of potentials from hydrated proteins
Identifying relationships between stability and potential
8
Adaptations of the Statistical Potential
• Model the protein environment - modify the approach to provide an
explicit (rather than implicit) representation of the surrounding
environment, typically water
• Eliminate distorted simplex elements at the protein surface that
introduce unlikely neighbors (without arbitrary edge length cutoffs)
Computationally hydrating the protein can resolve both issues
9
Computational Hydration
• Used SOLVATE* to place water at
representative positions around the subject
protein
• Initial grid placement, short van der Waals
optimization, no electrostatics
• Minimum 5Å shell thickness
• Isolated groups identified
10
Tessellating Hydrated Proteins
• HOH treated as another
residue position and
tessellated
Discarded waters
• Quadruplets with 4 HOH are
discarded
• HOH fills surface contours
and interrupts the long
distorted simplices
First
hydration
shell
waters
Crevice in
protein
surface
Voronoi cells
Delaunay
simplex
edges
• Internal voids may be filled,
based on steric considerations
11
Aspects of SOLVATE HOH Placements
(based on a reference set of 1353 proteins)
(a) Number of HOH placements
(b) Characteristic edge lengths
(c) Separation between SOLVATE HOH and X-ray crystal HOH
• Examined internal and surface (crevice) water placements
(used DOWSER)
• SOLVATE isolated HOH groups - full vs. bulk hydration
• Resolved to include internal HOH, and use “full” hydration
12
Residue Classification Using Tessellation
• Interest in classifying each residue as either surface or buried
• Compared 2 strategies, both based on tessellation
– Simplex face match method (unhydrated technique)
– Water group method (uses hydrated protein information)
• Comparison parameters:
– Accessible surface area (NACCESS, Hubbard)
– Residue mean depth (DPX, Pintar)
– C-alpha circular variance (Simulaid, Mezei)
– Water coordination number ratio
13
Tessellation-based Residue Classification
(Surface or Core)
• Simplex face match method
Face
– Simplices at the surface will have at least one face that is not
match
matched by another simplex face, just find unmatched
– Residues on unmatched faces are “surface”, residues connected to
them by a simplex edge are “undersurface”, remainder are “buried”
S
U
B
10
8
# of quadruplets
• Water group method
– Separate simplices surrounding a residue into groups
based on HOH content (0, 1, 2, or 3 HOH), count the
number of simplices in each.
– Plot the distribution of the number of HOH
molecules in each group, fit a linear regression.
1
2
– If the slope is positive, the residue is a “surface”
0
2
residue, otherwise “buried.”
2
– The value of the slope is the Water Group
0 1
Parameter.
No face
match
6
4
2
0
0
1
2
3
# of HOH in quadruplet
14
Cross comparison of 2 methods
• Water group method classifies more residues as ‘surface’ than the
simplex face match method
• Both methods show distinctive statistical distributions using
conventional topological parameters (ASA, depth, circular variance)
• The water group method is applied in the subsequent development of
the statistical potentials
15
Topics
•
•
Background & Approach
Adaptation of tessellation programs for hydration
•
•
Derivation of potentials from hydrated proteins
Identifying relationships between stability and potential
16
Deriving a Statistical Potential with Hydrated
Proteins
•
•
•
Given a representative method for hydration, need to incorporate the
hydrated protein simplices into a potential function
Issue: Null condition of a random distribution of residues certainly
does not apply when HOH is added
Developed and examined three approaches:
1. 21st residue: simply define HOH as a residue
2. Split Potential (SP): develop separate potentials for the surface and core
3. Water Group (WG): modify the denominator (expected frequency) to
incorporate the probability of water differently
•
Reference set of 1353 proteins selected using PISCES*, max 30%
sequence identity, < 2.2 Å resolution
17
Strategies 1 & 2: 21st and SP
•
The 21st residue potential function is computed and used in the same manner
as for unhydrated proteins:
f ijkl
qijkl  log observed frequency of occurrence of a given quadruplet  log
pijkl
frequency of random occurrence of a given quadruplet
•

The Split Potential function:
– Splits the simplices into 2 groups based on residue classification
of surface or core

using the Water Group method just described (not mutually exclusive)
– Also uses above expression to compute a potential function for each
•
The Split Potential function must be applied differently:
– For SP, the total potential is the sum of the residue potentials rather than the sum of
the simplex potentials
– Thus the SP total potential may be up to 4 times as large
– But the residual profiles will remain comparable
18
Strategy 3: Water Group Potential Function
• In this strategy, the denominator is changed to separate the probability of the HOH
content or ‘water group’ of the quadruplet from the probability of the residues:
qijkl  log
f ijkl
f ijkl
 log
pijkl
pmX c nR pR 
where mX is number of HOH in ijkl and nR is number of residues in ijkl (mX + nR = 4)
pmX is the observed probability of the water group (0X, 1X, 2X or 3X),

pR is the product of the observed probabilities of the nR residues in the simplex
c nR is the permutation factor for the residues in the specific water group
 • The permutation factor depends on the number of natural residues in the simplex,
nR!
c 
 for n residues:
nR

r
 (t !)
i
i
where r is the number of residues and t is the count of type i residues in the simplex
• The probability of the individual residues is based on the total residue count

19
Comparison of
Potentials
• No hydration yields 8855
possible quads, 21st residue has
10,625
• Values of 21st and SP are
elevated, compared to WG and
unhydrated
• Fine structure at low values are
water groups
• Absolute values of CM higher
than CA
20
Evaluating the potentials: decoy discrimination
• Tests the ability of the model to identify a native protein from a large
set of non-native decoy structures. Sets are drawn from modeling
activities and are generally plausible (but incorrect) structures.
• Four decoy sets were drawn from ‘Decoys-R-Us’
(1) 4_state_reduced, (2) fisa, (3) lmds, (4) lattice_ssfit
• Potentials were computed for entire set (including native) and ranked
by potential score, highest score is presumed to be most compatible
sequence-structure fit, hopefully the native structure.
• Metrics:
– Rank of the native protein structure, 1 is best
– pe  ln Rnative N structures 0 is worst, more negative is better
– Log score index = average( pe ) group average( pe ) perfect , 0 is worst and 1 is best
• Compared: unhydrated, 3 hydrated strategies, CA, CM, bulk, full


21
Comparison with Reported Models
Decoy Group
and PDB
4state_reduced
1ctf
1r69
1sn3
2cro
3icb
4pti
4rxn
Avg Ln Score
Avg Score Index
21st
Residue
CM
Split
Potential
CM
no H add
Water
Group CA
Krishnamoorthy
and
Tropsha
7
3
113
1
1
1
5
-5.16
0.79
Li and
Liang
1
1
4
13
2
1
1
-5.84
0.90
1
4
6
4
12
1
1
-5.49
0.85
1
1
1
5
1
1
1
-6.27
0.96
1
1
1
1
2
2
125
1
3
1
-4.73
0.76
394
1
2
1
-4.55
0.73
10
1
8
1
-5.12
0.82
1b0n-B
1bba
1ctf
1dtk
1fc2
1igd
1shf-A
2cro
2ovo
4pti
Avg Ln Score
Avg Score Index
25
250
1
1
378
7
1
1
5
2
-4.15
0.69
1
10
1
4
501
1
1
1
2
1
-4.98
0.82
2
472
1
3
409
60
58
1
18
36
-3.18
0.53
488
205
1
4
372
189
28
1
46
7
-2.72
0.45
3
318
1
89
501
5
6
1
1
4
-3.81
0.63
lattice_ssfit
1beo
1ctf
1dkt
1fca
1nkl
1pgb
1trl-A
4icb
Avg Ln Score
Avg Score Index
1
1
266
70
1
1
87
1
-5.81
0.76
2
1
7
152
1
3
5
3
-6.17
0.81
1
1
1
450
1
24
33
1
-6.00
0.79
1
1
89
1
1
14
1179
1
-5.83
0.77
1
1
1
-6.27
0.96
Samudrala
and Moult
1
1
1
1
22
1
1
-6.06
0.93
Toby and
Elber
1
1
6
1
7
16
-5.42
0.83
Fain,
Xia and
Levitt
1
11
5
22
55
13
2
-4.45
0.68
Miyazawa
and
Jernigan
1
1
1
1
1
1
1
-6.50
1.00
fisa
1fc2
1hdd-c
2cro
4icb
Avg Ln Score
Avg Score Index
16
1
1
501
12
1
1
-4.04
0.65
-5.29
0.85
lmds
1
1
7
1
-7.32
0.96
501
1
23
499
1
1
359
18
12
-3.04
0.51
1
1
1
1
1
1
1
1
-7.60
1.00
1
5
14
2
1
1
1
-5.32
0.88
1
2
36
1
1
1
-6.89
0.91
35
1
10
3
1
1
12
3
16
-4.54
0.75
1
203
1
1
501
1
1
1
1
1
-4.89
0.81
1
1
1
1
1
1
1
1
-7.60
1.00
1
1
1
1
1
1
1
1
-7.60
1.00
22
Topics
•
•
Background & Approach
Adaptation of tessellation programs for hydration
•
•
Derivation of potentials from hydrated proteins
Identifying relationships between stability and potential
23
Stability Datasets & Metrics
• Stability data were initially identified using ProTherm* database
• Focused on 3 model proteins with extensive single point mutant
stability data
– Barnase (132 mutants, denaturant stability ddG, kcal/mol)
– Staphylococcal nuclease (498 mutants, denat.)
– T4 Lysozyme (377 mutants sorted into 4 pH groups, thermal stability dTM , deg. C)
• Also examined conservative vs. non-conservative stability correlations
using the Dayhoff groups: {A,S,T,G,P}, {V,L,I,M}, {R,K,H},
{D,E,N,Q,}, {F,Y,W}, {C}
• Correlation metrics: (1) Pearson r correlation coefficient, (2) R2
regression metric
24
Computational Mutagenesis:
Determine change in potential associated with a mutation
1.
Determine the protein potential in the usual way: tessellate to get the
simplices, then sum potentials for all simplices in the protein to get
the w.t. protein potential
Assumption: No change in residue coordinates associated with mutation
2.
3.
4.
Change the identify of the target residue to the mutant in every
simplex where it appears, then the mutant potential is the sum of the
new simplex set
Residual potential = (mutant total potential - w.t. total potential)
Residual profile is the analogous calculation done for each residue
position along the sequence.
1
0
I76V
-1
I76A
-2
-3
-4
1
11
21
31
41
51
61
71
81
91
101
25
Stability Correlation Coefficients for Barnase
and S. nuclease
(Observed change in stability vs. computed change in potential)
26
T4 Lysozyme
Stability
Correlations
27
Specific Residue Types in S. nuclease
Mutant group
No. Mutants
Statistic
CA
WG
SP
Large H -> any
82
r
p-value
0.4002
1.78E-04
0.5955
2.89E-09
0.6263
2.41E-10
I -> A and G
95
r
p-value
0.2239
0.0283
-0.0886
0.3909
0.1930
0.0596
P -> any
74
r
p-value
-0.2719
0.0191
-0.4474
6.43E-05
-0.3867
6.66E-04
Make or break H-bond
56
r
p-value
0.4465
5.62E-04
0.5316
2.49E-05
0.6720
1.43E-08
Surface I reversed or
neutralized
40
r
p-value
0.3956
0.0115
0.4758
0.0019
0.4490
0.0037
Surface residue -> F
50
r
p-value
-0.0427
0.7707
-0.1779
0.2213
-0.1059
0.4692
Y27 -> all other
19
r
p-value
0.5219
0.0219
0.6563
0.0023
0.7253
0.0004
Residue types :
H - hydrophobic
I - ionizable
P - polar
28
Summary of the Stability Correlations
• Significant correlations were observed with all 3 study proteins, but
not using all three potentials - barnase was the most difficult and
correlated with only CA and SP, T4 lysozyme gave the highest
correlation values
• For the 3 potential functions, the SP potential achieved the highest
levels of correlation and CA was comparable on many groups
• Correlations were seen with both conservative and non-conservative
substitutions
• Correlations were also seen with several specific residue groups
• Apparent that there is a relationship between mutational change in
stability and the corresponding single-valued residual score
29
Application of Machine Learning (ML) Tools
• Objective is to identify stability content in the mutant residual profiles
• Used four supervised ML classifiers available in the Weka*
environment
– Decision tree (DT): J48(C4.5), Quinlan*
– Random Forests (RF): multiple DT with random elements and voting,
Breiman*
– Support Vector (SV): SMO, nonlinear transform to extend linear
techniques, Platt*
– Regression SV: SMOreg enables numeric classes, linear or polynomial
transforms, Smola*
• Focused initially on S. nuclease mutant residual data
30
Residual Profile Format for ML Tools
•
•
•
Input to ML tools is set of instance vectors, the elements of each vector are the
attributes and the class of the instance is included (supervised)
The residual profile of each mutant was converted into an instance vector by
assigning the value of the profile at each residue position to a corresponding
element (attribute) in the instance vector
In some cases, additional attributes were included: w.t. & mutant identity &
position, ASA, Dayhoff class (C/NC), structure (H,S,T,C)
–
–
–
–
•
w.t.
K
K
K
K
K
K
K
K
K
Full attribute set
NoResid: removed the residual profile and total
NoID: removed the w.t. and mutant identity and location
ResidOnly: removed everything except the residual profile and total
Stability data were discretized into 2, 3 and 4 classes (~ equal size)
Location Mutant #6 residual #7 residual #8 residual #9 residual #10 resid.
------6
A
-0.39669
0.67032
-0.49403
0
-0.3569
6
G
1.12361
0.68536
0.05321
0
-0.17018
9
A
0
0.13291
-0.26953
-2.40444
-1.25979
9
G
0
-0.18238
0.15672
-1.91937
-1.14434
16
A
0
0
0
0
0
16
G
0
0
0
0
0
24
A
0
0
0
0
0
24
G
0
0
0
0
0
28
A
-0.3779
0
-0.21346
0
-0.80729
#141 resid.
0
0
0
0
0
0
0
0
0
Total resid. C/NC
-0.39669
N
1.12361
N
-2.40444
N
-1.91937
N
0.96299
N
-0.54657
N
2.93196
N
0.72434
N
-0.139
N
ASA
Structure
119.54
C
119.54
C
45.11
S
45.11
S
57.66
S
57.66
S
35.44
S
35.44
S
78.85
T
Class
B
B
S
S
B
B
B
S
B
31
ML Classification Procedures
•
Typically a small portion of the instances are removed, the ML tool is trained
on the remainder, then tested on the withheld data - this may be a fixed ratio,
such as 66% training/34% test
•
Alternatively a 10-fold cross validation (10fCV) divides instances in 10 parts,
then successively withholds 1 part for test and trains on the remainder 10
times, finally computes performance on the aggregate predictions; for small
data sets can use ‘leave 1 out’ strategy, equivalent to n-fold CV where n = no.
instances
•
When the number of instances for various classes are skewed, the actual
classes in the training set should be stratified to reflect the class distribution,
•
Weka also provides a strategy in which the instances can be weighted
according to a cost matrix to compensate for skew during the training process
32
ML Performance Metrics
TP  TN
TP  TN  FP  FN
•
Success rate:
•
Kappa statistic: subtracts the expected random predictions from the Success
Rate numerator & denominator; ranges from 1 - perfect score to 0 - random
predictor
•
ROC curve: unit square plot of the TP Rate vs. FP Rate for ranked instances;
insensitive to skew;
•
Area under ROC (AUC):
– Single-valued indicator, equivalent to Wilcoxon or Mann-Whitney test of
ranks
– Probability that randomly chosen + instance will rank higher than a
randomly chosen - instance;
– AUC = 1 for a perfect predictor, 0.5 for a random classifier
33
Performance Comparison of 3 Methods
Based on 10 reps of 10-fold CV
(b) Kappa statistic
(c) AUC
CA
100
1
90
0.9
WG
80
0.8
SP
70
0.7
60
50
40
30
0.5
0.4
0.3
0.2
10
0.1
0
0
DT
RF
Machine learning method
•
•
•
SV
0.95
0.9
0.85
0.6
20
1
AUC (ROC)
Kappa statistic
Success rate, %
(a) Success rate, %
0.8
0.75
0.7
0.65
0.6
0.55
DT
RF
Machine learning method
SV
0.5
DT
RF
SV
Machine learning method
Tools were run with ‘full’ attribute content and the stability data was split into 2 stability
classes, either larger or smaller than ddG = -1.2 kcal/mol, error bars indicate the standard
deviation across the 10 repetitions
The RF method is significantly better in AUC over the other two, and the SV is slightly
ahead of DT in AUC and Kappa (not sig.)
All three potentials perform essentially the same
34
Effect of Number of Classes
Based on 10 reps of 10-fold CV
•
•
•
These data are all with the ‘residual only’ attribute set using data from the SP
potential, except for the black circles that show the ‘full’ attribute set for
comparison
Increasing the classes clearly reduces the accuracy of the prediction
Here the DT outperforms the SV tool, but RF still shows highest values
especially for the AUC
35
Random Forests model of Transthyretin
Amyloid Behavior
• A number of mutations of human transthyretin (TTR) have been
identified that are associated with specific amyloid pathologies, as well
as a limited number that are not amyloidogenic
• Residual profiles of 77 amyloid-related and 12 non-amyloid-related
mutants were used to train an RF model
• Since the input data are highly skewed, a cost matrix was applied to
weight the input data to balance the classes; the FP/FN cost ratio was
increased until the FP/TN ratio changed
• The performance of the model was evaluated and the model was used
to predict amyloid behavior for hypothetical TTR mutants
36
TTR model performance
1
0.8
True positive rate
• CA consistently shows better metrics
than hydrated potentials
• Cost matrix was over-driven to force
change in FP [0,1;25,0]
• Model performance levels are much
lower than observed with S. nuclease,
but still well above random levels Kappa increased to 0.45 with cost
ratios of 1:15
0.6
0.4
CA
CA cost matrix
SP
0.2
SP cost matrix
0
0
0.2
0.4
0.6
0.8
1
False positive rate
Unweighted - no cost matrix
Potential
Success rate % Kappa statistic
Cost matrix applied
AUC
Success rate % Kappa statistic
AUC
CA
86.82
0.186
0.766
72.49
0.254
0.776
WG
87.19
0.144
0.679
61.54
0.148
0.727
SP
87.28
0.147
0.665
58.29
0.125
0.695
37
Prediction of TTR mutant amyloid behavior based
on RF model using SP residuals
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
1
1
1
1
2
3
4
5
6
7
8
9
0
1
2
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7
N Y Y Y Y Y Y Y Y Y N Y Y Y N Y Y Y WTY Y Y Y Y WTY Y Y WTY Y Y Y Y Y WTWTY Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y WTY Y Y Y Y WTY Y Y N N Y Y Y N Y WTWTY Y Y Y Y Y Y Y Y N WTY Y Y N N N N
N Y Y Y Y Y Y Y N WTN N N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N
Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y WTY N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y WTWTWTY Y WTY Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WT
N Y Y Y Y Y Y Y N N N Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y WTY Y Y Y Y N N Y N N N Y Y Y Y Y Y Y Y Y Y Y Y N N Y Y Y N N N N
WTY Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y WTY Y Y WTY Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y WTN Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y N
Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y WTY WTY Y Y Y Y Y Y Y Y Y N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N
N Y Y Y Y Y Y Y Y Y N Y N Y N Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y WTN Y Y Y WTY Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N Y N N WTN N Y Y Y Y Y Y Y Y N N N Y Y Y N N N N
Y Y Y Y Y Y Y Y WTY N Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y N WTY Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N WTY
N Y Y Y Y Y Y Y Y Y N WTN Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N N Y Y N WTWTY Y Y Y Y Y N N N Y Y Y N N N N
N Y Y Y Y Y Y Y Y N N Y WTY N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N Y N Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y N N N N
Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y N
Y WTY Y Y Y Y Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY N Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y WTY N
Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N
Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N
Y Y Y Y Y N Y WTN Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y WTN N Y Y Y Y Y Y Y Y Y WTY Y WTY WTY Y Y Y Y Y Y N Y N
Y Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y N Y Y Y WTY Y N Y Y Y Y Y Y Y Y WTWTY Y Y WTY N Y N
N Y Y Y Y Y Y Y Y Y N Y Y WTN WTY Y Y WTY Y Y Y Y Y Y WTY WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y N N N N N N Y N N Y Y Y Y Y Y Y Y N N N WTWTY N N N N
N Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N
N Y Y Y Y Y Y Y N N Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N WTN Y Y Y Y Y Y Y WTY WTY Y Y Y Y Y Y N N N N
S
R
P I
E
I
N S T
M
A
I T N P
A
G
S D
A
I I G P E G P R
H K A K
L
L H N A
V H
F F
N
Q N S
G
S R
C
M
S
M I
C
S
M S
A
S
G
L
D
S
E
G R
K R
R
S
Y
S
K
S
H
V
T
H
I
L
V
T
R
T
V
V
Mutant array with unweighted model
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
1
1
1
1
2
3
4
5
6
7
8
9
0
1
2
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7
N N N N N N N N N Y N Y Y Y N Y Y N WTY N N N Y WTN N Y WTY N Y Y Y Y WTWTN N N Y Y N Y WTN Y Y Y Y Y N Y Y Y N N Y Y Y N N N Y N N N Y Y Y Y N Y N N N N Y Y N WTN N Y Y Y Y N N N WTN N N Y N WTN N N N N N N Y N Y WTWTN Y N Y Y N N N N N WTN N N N N N N
N N N N N N N N N WTN Y N Y N Y N N N N N N N Y Y Y N Y N Y N Y Y Y Y N N N N N Y Y N Y N N N N Y Y Y N Y Y Y N N Y N N N N N Y N N N Y Y Y Y N Y N N N N Y Y N N N N N N Y Y N N N Y N N N N N N N N N N N N N Y N Y N N N N N Y Y N N N N N N N N N N N N N
N N N N N N N N N Y Y Y Y Y N Y Y WTY N N N N N Y N N Y Y Y Y Y Y Y Y N N WTWTN Y Y N Y Y Y N N Y Y Y N N Y Y Y Y Y Y N N N Y Y N N Y N Y Y Y N Y WTY N N Y Y N N N N Y Y Y Y Y N N N N N N Y Y Y N WTN N N N N Y Y Y N N N Y Y Y Y Y N N N N N N N N N N N N
N N N N N N WTN N Y Y Y Y Y N Y Y Y Y N Y N Y Y Y N N Y N Y Y Y Y N N Y N N N N N WTN Y Y Y N N Y Y WTN Y WTY Y Y Y Y N WTWTWTY N WTY Y Y Y Y WTY N Y N N Y Y N N N N Y Y Y Y Y WTN N WTN N Y Y Y N N N N N N N Y Y Y N N N Y Y Y Y Y N N N N N N N N N N N WT
N N N N N Y N N N Y N Y N Y N Y N N N N N Y Y Y Y Y N Y N Y Y Y WTY N Y N N N N N N N WTN N N Y Y Y Y N Y Y N N N Y N N N N N WTN N Y N N Y Y N N N N Y N Y Y N N N N N N N WTN N N N N N N WTN N N N N N N N N N N Y N N N Y N N Y N N N N N N N N N N N N N
WTN N WTY WTN N N Y N Y Y Y N Y N Y N Y N WTN Y Y N N Y Y Y Y Y Y N Y Y N N N N Y Y N Y Y N WTN Y N Y N WTY Y Y WTY Y N N N N Y N N WTY Y Y Y Y Y N Y N N Y Y N Y Y WTY Y Y Y N N N N N N N Y N Y N N N WTN N N Y N Y N N N Y Y Y Y N Y N N N N N N N N N N N
N N N N N N N N N Y N Y Y Y N Y Y N N N N Y N Y Y N N Y N Y WTY Y Y Y Y N N N N Y Y N Y Y N N N Y N Y N Y Y Y WTN Y Y Y N N N Y N N N Y Y Y Y N Y N Y N Y Y Y N N N N N Y N Y WTY WTN N N N Y N N N N N N N N N Y Y Y N N N N N Y Y Y N N N N N N N N N N N N
N N N N N N N N N N N Y N N Y Y N N N N N N N Y Y WTY N N N Y N N Y Y Y N N N N N Y N N N N N Y Y N Y N Y Y N N N Y N Y N N N N N N N WTN Y N N WTN N Y N Y Y Y N N N WTN N Y N N N N N N N Y N N N N N N N N N Y N WTN N N Y Y Y Y N N N N N N N N N N N N N
N N Y N N Y Y N WTY Y Y Y Y WTY Y Y N N N N N N Y N N Y N Y N Y Y Y WTY N N N N Y Y N Y Y Y N WTY Y N N Y Y Y Y Y Y Y Y Y Y N Y N N N Y Y WTY Y Y N N WTY Y Y WTN N N Y Y Y Y N N N N N N N Y Y Y N N N N N Y Y Y Y Y N N N Y Y Y Y Y N N N N N N N N N N WTN
N N N N N Y N N N Y N WTN Y N Y WTN N N N Y N Y N Y N Y N Y Y N Y Y Y Y N N N N N Y N Y N N Y Y Y N Y N Y Y WTY N WTN Y N N N Y N N N Y N Y Y N N N N Y N Y Y N N WTN N N N Y N N N N N N N N N N N N N N N N N N N N N N WTWTN Y Y N N N N N N N N N N N N N
N N N N N Y N N N N N Y WTY N Y Y N N N N Y N Y Y Y N Y N Y N Y Y Y Y Y N N N N N Y N Y N N Y Y Y N N N Y Y Y Y N Y N N N N N Y N N N N N Y Y N Y N N N N Y Y N N N N Y N N Y N N N N N N N N N N N N N N N N N N N Y N N N Y N Y Y N N N N N N N N N N N N N
N N N N N N N N N Y N Y Y Y N Y Y Y N N Y N N Y N N WTY N Y Y Y Y Y Y N N N N N Y N N Y Y Y Y N Y Y Y N Y Y Y Y Y Y Y N N N N Y N N Y N Y Y Y Y Y N N N N Y Y Y N N N Y N Y Y N N N N N N Y Y Y Y WTN N N N N N Y Y Y N N N Y N Y Y Y N N N N N N N N WTN N N
N WTN N N N N N N Y WTY Y Y N Y Y Y N N Y N N WTY N N Y N Y N Y Y Y Y Y N N Y N Y Y WTY Y N N N Y Y N N Y Y Y Y Y Y Y N N N Y Y N N Y Y Y Y Y Y Y N Y N N Y Y N N N N Y N WTY N N N Y N N N Y N Y N N N N WTN N Y N Y N N N N N WTY Y N N N N N N N N N WTN N
N N N N N N N N N Y N Y Y Y N Y Y N N N Y N N N Y N N Y Y Y Y Y Y Y Y N N N N N Y N N Y Y Y N N Y Y Y N Y Y Y Y N Y Y N N N N Y N N Y N Y Y Y Y Y N N Y N Y Y Y N N N Y Y Y Y Y N N Y N N N Y N Y N N N N N N N Y Y Y N N N Y N Y Y Y N N N N N N N N N N N N
N N N Y N N N N N Y N Y Y Y N Y Y N N N WTN N Y Y N Y Y N Y N Y Y WTY N N N Y N Y Y N Y Y N N N Y Y Y Y Y Y Y Y N Y Y Y N N N Y N N N Y Y N Y Y Y N N N N Y Y N N N N Y Y Y Y N N N N N N N Y N Y N N N N N WTWTY N Y N N N Y Y Y Y N N N N N N N N N N N N N
N N N N N N N WTN Y N Y Y Y N Y Y Y N N Y N WTY N N N Y N Y Y Y Y N Y Y N N N N Y Y N Y Y WTN N Y WTY WTY Y Y Y N Y Y N N N N Y N N N Y Y Y Y Y Y N N Y WTY Y N N N N N WTY Y N N N Y N N N Y N Y N N WTN N N N Y N Y N N N N WTY Y WTN WTN N N N N N N N N N
N N WTN WTN N N N Y N Y Y Y N Y Y Y N N N N N Y Y N N Y N Y N Y Y N Y Y N N N WTY Y N Y Y N N Y WTY Y N Y Y Y Y N Y WTWTN N N Y N N N Y Y Y Y Y Y N WTN N Y Y N N N N Y N Y Y N N N Y N N N Y WTY N N N N N N N Y WTY N N N Y Y Y Y N Y N WTWTN N N WTN N N N
N N N N N N N N N N N Y N WTY WTY N N WTN N N Y Y Y N WTN WTN WTN Y Y Y N N N N N Y N N N N Y Y Y N Y N Y Y Y N N Y N Y N N N Y WTN N Y N Y WTN N N N N N Y Y N N N N Y N N Y N N N N N WTWTY N N N N N N N N N N N Y N N N Y N Y Y N N N N N N WTWTN N N N N
N N N N N N N N N N N Y Y Y N Y N N N N N Y Y Y Y N N Y N Y N Y Y Y N Y N N N N WTY N Y N N N Y N Y Y N Y Y Y N N Y N N N N N Y N N N Y Y Y Y N Y N N Y N N WTN N N N N N N N N N N N N N N N N N N N N N N N N Y N Y N N N N N N N N N N N N N N N N N N N N
N N N N N N N N N Y N Y Y Y N Y Y N Y N N Y N Y Y N N Y N Y N Y N Y N Y N N N N N N N Y N N Y Y Y Y Y Y Y Y Y N N Y N Y N N N Y N N N Y WTY Y N Y N N Y Y WTY N N N N N N N N N N N N N N N N N N N N N N N N N WTN Y N N N N N Y WTN WTN N N N N N N N N N N
S
R
P I
E
I
N S T
M
A
I T N P
A
G
S D
A
I I G P E G P R
H K A K
L
L H N A
V H
F F
N
Q N S
G
S R
C
M
S
M I
C
S
M S
A
S
G
L
D
S
E
G R
K R
R
S
Y
S
K
S
H
V
T
H
I
L
V
T
R
T
V
V
Model trained using 25:1 cost ratio
w.t. residue
Predicted amyloid
True non-amyloid mutant
Predicted non-amyloid
True amyloid mutant
38
Conclusions
• Computational hydration with a representative water shell yields a
more consistent tessellation
• Tessellation of hydrated proteins provides a unique topological residue
classification method
• Hydration (with H atom addition) using either the Water Group or the
Split Potential strategy improves the decoy discrimination capabilities
of the tessellation-based potential, to be competitive with other KB
methods
• Demonstrated distinct correlations of stability and residual potential for
several proteins and several classes of residues
• ML tools showed that information in the residual profile can be used to
classify single point mutants by their stability change
• An RF model demonstrated reasonable performance in predicting
amyloid characteristics of human transthyretin mutants
39
Acknowledgements
• Committee
Dr. Vaisman, Director
Dr. Willett
Dr. Jamison
Dr. Born
• Bioinformatics Staff
Glenda Wilson
Chris Ryan
• Structural Bioinformatics Group
Dr. Masso
Dr. Mathe
Dr. Taylor
Dr. Carr
• NASA Office of Educational
Services
40
Publications
•
•
Papers:
– Reck, G.M. & Vaisman, I.I. A novel approach to protein-water interaction
characteristics using computational geometry, Proteins (submitted).
– Reck, G.M. & Vaisman, I.I. Nearest-neighbor contact potentials derived from
Delaunay tessellation of hydrated proteins, Biophysical Journal (submitted).
– Reck, G.M. & Vaisman, I.I. Use of statistical potentials derived from Delaunay
tessellation to characterize changes in protein stability due to single point
mutations, (manuscript in preparation).
Conferences:
– Reck, G.M. & Vaisman, I.I. An Examination of Protein Stability Using Delaunay
Tessellation that Includes Surface Hydration Effects, Intelligent Systems for
Molecular Biology (ISMB), Detroit, MI, June 25-29, 2005.
– Reck, G.M. & Vaisman, I.I. Use of Four-body Statistical Potential to Correlate
Stability Changes in Protein G, International Conference on Structural Genomics
(ICSG), Washington Hilton Hotel, Washington, DC, Nov. 17-21, 2004.
41
Availability of tools and results
•
•
Resources (protein list, reference set of hydrated proteins, etc.,) will be
available at http://binf.gmu.edu/greck
Plan an interactive site for hydrating and tessellating proteins
42
43
ROC Curve Comparison of 3 ML Methods
(b) WG Potential
(c) SP Potential
1
1
0.8
0.8
0.8
0.6
0.4
True positive rate
1
True positive rate
True positive rate
(a) CA Potential
0.6
0.4
0.2
0.2
0
0.2
0.4
0.6
False positive rate
•
•
•
0.8
1
DT
0.4
RF
0.2
0
0
0.6
SV
0
0
0.2
0.4
0.6
False positive rate
0.8
1
0
0.2
0.4
0.6
0.8
False positive rate
All models were run with a full set of attributes.
Data for the DT and RF curves are from a single 10fCV, while the SV was
generated by varying the mis-classification costs over a number of runs
The curves are quite consistent for DT and RF
44
1
Effect of Attribute Content
Based on 10 reps of 10-fold CV
•
•
•
Data are shown for the SP potential only, error bars are std dev over 10 reps
Added content in the full instance vectors yields better performance across all
metrics
Again, the RF tool yields the highest values, particularly AUC
45
S. nuclease Non-conservative Mutants
10.00
27
61
121
148
5.00
Bin average mutant residual
0.00
-5.00
-10.00
Bartlett’s test indicates unequal variances
among the bins (groups)
Welch’s test, similar to t test with unequal
variances rejects H0: equal means
Pairwise t test with unpooled s.d. indicates that
not all group means are significantly
different
-15.00
CA
WG
-20.00
Potential
SP
Bartlett's test
Equal variances
Welch's test
Group mean significance
7.82E-06
0.0009820
1.48E-14
5.40E-06
0.005432
1.98E-10
Linear (SP)
-25.00
Linear (WG)
Linear (CA)
-30.00
CA
WG
SP
-35.00
-6
-4
-2
0
Mutant stability change, 2 kcal/mol bins
46
Download