Adaptation and Use of Four-body Statistical Potential to Examine Thermodynamic Properties of Proteins Gregory M. Reck PhD Dissertation Defense Topics • • Background & Approach Adaptation of tessellation programs for hydration • • Derivation of potentials from hydrated proteins Identifying relationships between stability and potential 2 Background • A group of diseases have been associated with the formation of amyloid deposits in tissue, each has been linked to a specific protein precursor (typically a mutant) that appears to misfold • The misfolding leads to protein aggregation, formation of fibrils, and eventually insoluble amyloid; the resulting pathologies vary widely • No apparent sequence or structure similarity among precursors, but the resulting amyloids have a similar cross-beta structure • Some model proteins (non-disease) can be induced to form amyloid fibril structures through destabilization • If instability is a significant factor in the aggregation process for globular precursors, then a knowledge-based tool capable of reporting on stability features of a protein may be a valuable research tool 3 Approach • Use the tessellation-based statistical potential – Can be characterized as an indicator of the sequence-structure compatibility of a protein – Can provide a potential profile along the primary sequence that may identify key features • Begin with some adaptations to the model aimed at improving stability relationships – Previous work has had limited success in defining the relationship between protein stability and the protein total potential • Evaluate the correlation between potential and stability • Test run the revised potential on some protein/s with known amyloid characteristics 4 2-D Overview of Tessellation • Begin with set of points (coordinates) that represent amino acid positions in the protein (red spots, C) • Build a Voronoi cell (VC) around each point, so that all points in the cell are closer to the C at the center than any other (blue dashed lines) • The vertices of the VC are points that represent the intersection of 3 VC • (Note: the VC at the boundary points are not closed) • The Delaunay simplices (DS) are constructed from the VC -- red triangles that connect the C points of the 3 VC’s that meet at VC vertices • The C’s at the vertices of the DS form groups of “nearest neighbors”, triplets in 2-D and quadruplets in 3-D List of quadruplets (from the 3-D PDB file) is the primary output 5 Four-body Statistical Potential Derivation • Define a statistical potential q that represents qijkl log f observed frequency of occurrence of a given quadruplet log ijkl pijkl frequency of random occurrence of a given quadruplet where i, j, k, l are amino acid residues set of • The observed frequency is determined by tessellating a large nonredundant representative proteins (normalized) • The frequency of random occurrence is pijkl = caiajakal where the a’s are the frequencies of individual amino acid residues, and c is the permutation factor to account for replicated residue types in a quadruplet 4! c n (t !) i i where n is the number of distinct residue types in a quadruplet, and ti is the number of amino acids of type i • Thus qijkl represents the likelihood of finding four particular residues in one simplex • The potential function is the aggregate function of the values of all possible qijkl 6 Four-body Statistical Potential Parameters • Total potential of a study protein is the sum of the individual q values of each of the N quadruplets in the protein N q p qi i1 • • Residue potential for a given residue is the sum of the individual q values of each quadruplet that includes that residue, thus it represents the local environment surrounding that residue Potential profile is a vector associated with the primary sequence of the protein where each vector component is the residue potential for the amino acid residue at that position (shown below for barnase) 7 Topics • • Background & Approach Adaptation of tessellation programs for hydration • • Derivation of potentials from hydrated proteins Identifying relationships between stability and potential 8 Adaptations of the Statistical Potential • Model the protein environment - modify the approach to provide an explicit (rather than implicit) representation of the surrounding environment, typically water • Eliminate distorted simplex elements at the protein surface that introduce unlikely neighbors (without arbitrary edge length cutoffs) Computationally hydrating the protein can resolve both issues 9 Computational Hydration • Used SOLVATE* to place water at representative positions around the subject protein • Initial grid placement, short van der Waals optimization, no electrostatics • Minimum 5Å shell thickness • Isolated groups identified 10 Tessellating Hydrated Proteins • HOH treated as another residue position and tessellated Discarded waters • Quadruplets with 4 HOH are discarded • HOH fills surface contours and interrupts the long distorted simplices First hydration shell waters Crevice in protein surface Voronoi cells Delaunay simplex edges • Internal voids may be filled, based on steric considerations 11 Aspects of SOLVATE HOH Placements (based on a reference set of 1353 proteins) (a) Number of HOH placements (b) Characteristic edge lengths (c) Separation between SOLVATE HOH and X-ray crystal HOH • Examined internal and surface (crevice) water placements (used DOWSER) • SOLVATE isolated HOH groups - full vs. bulk hydration • Resolved to include internal HOH, and use “full” hydration 12 Residue Classification Using Tessellation • Interest in classifying each residue as either surface or buried • Compared 2 strategies, both based on tessellation – Simplex face match method (unhydrated technique) – Water group method (uses hydrated protein information) • Comparison parameters: – Accessible surface area (NACCESS, Hubbard) – Residue mean depth (DPX, Pintar) – C-alpha circular variance (Simulaid, Mezei) – Water coordination number ratio 13 Tessellation-based Residue Classification (Surface or Core) • Simplex face match method Face – Simplices at the surface will have at least one face that is not match matched by another simplex face, just find unmatched – Residues on unmatched faces are “surface”, residues connected to them by a simplex edge are “undersurface”, remainder are “buried” S U B 10 8 # of quadruplets • Water group method – Separate simplices surrounding a residue into groups based on HOH content (0, 1, 2, or 3 HOH), count the number of simplices in each. – Plot the distribution of the number of HOH molecules in each group, fit a linear regression. 1 2 – If the slope is positive, the residue is a “surface” 0 2 residue, otherwise “buried.” 2 – The value of the slope is the Water Group 0 1 Parameter. No face match 6 4 2 0 0 1 2 3 # of HOH in quadruplet 14 Cross comparison of 2 methods • Water group method classifies more residues as ‘surface’ than the simplex face match method • Both methods show distinctive statistical distributions using conventional topological parameters (ASA, depth, circular variance) • The water group method is applied in the subsequent development of the statistical potentials 15 Topics • • Background & Approach Adaptation of tessellation programs for hydration • • Derivation of potentials from hydrated proteins Identifying relationships between stability and potential 16 Deriving a Statistical Potential with Hydrated Proteins • • • Given a representative method for hydration, need to incorporate the hydrated protein simplices into a potential function Issue: Null condition of a random distribution of residues certainly does not apply when HOH is added Developed and examined three approaches: 1. 21st residue: simply define HOH as a residue 2. Split Potential (SP): develop separate potentials for the surface and core 3. Water Group (WG): modify the denominator (expected frequency) to incorporate the probability of water differently • Reference set of 1353 proteins selected using PISCES*, max 30% sequence identity, < 2.2 Å resolution 17 Strategies 1 & 2: 21st and SP • The 21st residue potential function is computed and used in the same manner as for unhydrated proteins: f ijkl qijkl log observed frequency of occurrence of a given quadruplet log pijkl frequency of random occurrence of a given quadruplet • The Split Potential function: – Splits the simplices into 2 groups based on residue classification of surface or core using the Water Group method just described (not mutually exclusive) – Also uses above expression to compute a potential function for each • The Split Potential function must be applied differently: – For SP, the total potential is the sum of the residue potentials rather than the sum of the simplex potentials – Thus the SP total potential may be up to 4 times as large – But the residual profiles will remain comparable 18 Strategy 3: Water Group Potential Function • In this strategy, the denominator is changed to separate the probability of the HOH content or ‘water group’ of the quadruplet from the probability of the residues: qijkl log f ijkl f ijkl log pijkl pmX c nR pR where mX is number of HOH in ijkl and nR is number of residues in ijkl (mX + nR = 4) pmX is the observed probability of the water group (0X, 1X, 2X or 3X), pR is the product of the observed probabilities of the nR residues in the simplex c nR is the permutation factor for the residues in the specific water group • The permutation factor depends on the number of natural residues in the simplex, nR! c for n residues: nR r (t !) i i where r is the number of residues and t is the count of type i residues in the simplex • The probability of the individual residues is based on the total residue count 19 Comparison of Potentials • No hydration yields 8855 possible quads, 21st residue has 10,625 • Values of 21st and SP are elevated, compared to WG and unhydrated • Fine structure at low values are water groups • Absolute values of CM higher than CA 20 Evaluating the potentials: decoy discrimination • Tests the ability of the model to identify a native protein from a large set of non-native decoy structures. Sets are drawn from modeling activities and are generally plausible (but incorrect) structures. • Four decoy sets were drawn from ‘Decoys-R-Us’ (1) 4_state_reduced, (2) fisa, (3) lmds, (4) lattice_ssfit • Potentials were computed for entire set (including native) and ranked by potential score, highest score is presumed to be most compatible sequence-structure fit, hopefully the native structure. • Metrics: – Rank of the native protein structure, 1 is best – pe ln Rnative N structures 0 is worst, more negative is better – Log score index = average( pe ) group average( pe ) perfect , 0 is worst and 1 is best • Compared: unhydrated, 3 hydrated strategies, CA, CM, bulk, full 21 Comparison with Reported Models Decoy Group and PDB 4state_reduced 1ctf 1r69 1sn3 2cro 3icb 4pti 4rxn Avg Ln Score Avg Score Index 21st Residue CM Split Potential CM no H add Water Group CA Krishnamoorthy and Tropsha 7 3 113 1 1 1 5 -5.16 0.79 Li and Liang 1 1 4 13 2 1 1 -5.84 0.90 1 4 6 4 12 1 1 -5.49 0.85 1 1 1 5 1 1 1 -6.27 0.96 1 1 1 1 2 2 125 1 3 1 -4.73 0.76 394 1 2 1 -4.55 0.73 10 1 8 1 -5.12 0.82 1b0n-B 1bba 1ctf 1dtk 1fc2 1igd 1shf-A 2cro 2ovo 4pti Avg Ln Score Avg Score Index 25 250 1 1 378 7 1 1 5 2 -4.15 0.69 1 10 1 4 501 1 1 1 2 1 -4.98 0.82 2 472 1 3 409 60 58 1 18 36 -3.18 0.53 488 205 1 4 372 189 28 1 46 7 -2.72 0.45 3 318 1 89 501 5 6 1 1 4 -3.81 0.63 lattice_ssfit 1beo 1ctf 1dkt 1fca 1nkl 1pgb 1trl-A 4icb Avg Ln Score Avg Score Index 1 1 266 70 1 1 87 1 -5.81 0.76 2 1 7 152 1 3 5 3 -6.17 0.81 1 1 1 450 1 24 33 1 -6.00 0.79 1 1 89 1 1 14 1179 1 -5.83 0.77 1 1 1 -6.27 0.96 Samudrala and Moult 1 1 1 1 22 1 1 -6.06 0.93 Toby and Elber 1 1 6 1 7 16 -5.42 0.83 Fain, Xia and Levitt 1 11 5 22 55 13 2 -4.45 0.68 Miyazawa and Jernigan 1 1 1 1 1 1 1 -6.50 1.00 fisa 1fc2 1hdd-c 2cro 4icb Avg Ln Score Avg Score Index 16 1 1 501 12 1 1 -4.04 0.65 -5.29 0.85 lmds 1 1 7 1 -7.32 0.96 501 1 23 499 1 1 359 18 12 -3.04 0.51 1 1 1 1 1 1 1 1 -7.60 1.00 1 5 14 2 1 1 1 -5.32 0.88 1 2 36 1 1 1 -6.89 0.91 35 1 10 3 1 1 12 3 16 -4.54 0.75 1 203 1 1 501 1 1 1 1 1 -4.89 0.81 1 1 1 1 1 1 1 1 -7.60 1.00 1 1 1 1 1 1 1 1 -7.60 1.00 22 Topics • • Background & Approach Adaptation of tessellation programs for hydration • • Derivation of potentials from hydrated proteins Identifying relationships between stability and potential 23 Stability Datasets & Metrics • Stability data were initially identified using ProTherm* database • Focused on 3 model proteins with extensive single point mutant stability data – Barnase (132 mutants, denaturant stability ddG, kcal/mol) – Staphylococcal nuclease (498 mutants, denat.) – T4 Lysozyme (377 mutants sorted into 4 pH groups, thermal stability dTM , deg. C) • Also examined conservative vs. non-conservative stability correlations using the Dayhoff groups: {A,S,T,G,P}, {V,L,I,M}, {R,K,H}, {D,E,N,Q,}, {F,Y,W}, {C} • Correlation metrics: (1) Pearson r correlation coefficient, (2) R2 regression metric 24 Computational Mutagenesis: Determine change in potential associated with a mutation 1. Determine the protein potential in the usual way: tessellate to get the simplices, then sum potentials for all simplices in the protein to get the w.t. protein potential Assumption: No change in residue coordinates associated with mutation 2. 3. 4. Change the identify of the target residue to the mutant in every simplex where it appears, then the mutant potential is the sum of the new simplex set Residual potential = (mutant total potential - w.t. total potential) Residual profile is the analogous calculation done for each residue position along the sequence. 1 0 I76V -1 I76A -2 -3 -4 1 11 21 31 41 51 61 71 81 91 101 25 Stability Correlation Coefficients for Barnase and S. nuclease (Observed change in stability vs. computed change in potential) 26 T4 Lysozyme Stability Correlations 27 Specific Residue Types in S. nuclease Mutant group No. Mutants Statistic CA WG SP Large H -> any 82 r p-value 0.4002 1.78E-04 0.5955 2.89E-09 0.6263 2.41E-10 I -> A and G 95 r p-value 0.2239 0.0283 -0.0886 0.3909 0.1930 0.0596 P -> any 74 r p-value -0.2719 0.0191 -0.4474 6.43E-05 -0.3867 6.66E-04 Make or break H-bond 56 r p-value 0.4465 5.62E-04 0.5316 2.49E-05 0.6720 1.43E-08 Surface I reversed or neutralized 40 r p-value 0.3956 0.0115 0.4758 0.0019 0.4490 0.0037 Surface residue -> F 50 r p-value -0.0427 0.7707 -0.1779 0.2213 -0.1059 0.4692 Y27 -> all other 19 r p-value 0.5219 0.0219 0.6563 0.0023 0.7253 0.0004 Residue types : H - hydrophobic I - ionizable P - polar 28 Summary of the Stability Correlations • Significant correlations were observed with all 3 study proteins, but not using all three potentials - barnase was the most difficult and correlated with only CA and SP, T4 lysozyme gave the highest correlation values • For the 3 potential functions, the SP potential achieved the highest levels of correlation and CA was comparable on many groups • Correlations were seen with both conservative and non-conservative substitutions • Correlations were also seen with several specific residue groups • Apparent that there is a relationship between mutational change in stability and the corresponding single-valued residual score 29 Application of Machine Learning (ML) Tools • Objective is to identify stability content in the mutant residual profiles • Used four supervised ML classifiers available in the Weka* environment – Decision tree (DT): J48(C4.5), Quinlan* – Random Forests (RF): multiple DT with random elements and voting, Breiman* – Support Vector (SV): SMO, nonlinear transform to extend linear techniques, Platt* – Regression SV: SMOreg enables numeric classes, linear or polynomial transforms, Smola* • Focused initially on S. nuclease mutant residual data 30 Residual Profile Format for ML Tools • • • Input to ML tools is set of instance vectors, the elements of each vector are the attributes and the class of the instance is included (supervised) The residual profile of each mutant was converted into an instance vector by assigning the value of the profile at each residue position to a corresponding element (attribute) in the instance vector In some cases, additional attributes were included: w.t. & mutant identity & position, ASA, Dayhoff class (C/NC), structure (H,S,T,C) – – – – • w.t. K K K K K K K K K Full attribute set NoResid: removed the residual profile and total NoID: removed the w.t. and mutant identity and location ResidOnly: removed everything except the residual profile and total Stability data were discretized into 2, 3 and 4 classes (~ equal size) Location Mutant #6 residual #7 residual #8 residual #9 residual #10 resid. ------6 A -0.39669 0.67032 -0.49403 0 -0.3569 6 G 1.12361 0.68536 0.05321 0 -0.17018 9 A 0 0.13291 -0.26953 -2.40444 -1.25979 9 G 0 -0.18238 0.15672 -1.91937 -1.14434 16 A 0 0 0 0 0 16 G 0 0 0 0 0 24 A 0 0 0 0 0 24 G 0 0 0 0 0 28 A -0.3779 0 -0.21346 0 -0.80729 #141 resid. 0 0 0 0 0 0 0 0 0 Total resid. C/NC -0.39669 N 1.12361 N -2.40444 N -1.91937 N 0.96299 N -0.54657 N 2.93196 N 0.72434 N -0.139 N ASA Structure 119.54 C 119.54 C 45.11 S 45.11 S 57.66 S 57.66 S 35.44 S 35.44 S 78.85 T Class B B S S B B B S B 31 ML Classification Procedures • Typically a small portion of the instances are removed, the ML tool is trained on the remainder, then tested on the withheld data - this may be a fixed ratio, such as 66% training/34% test • Alternatively a 10-fold cross validation (10fCV) divides instances in 10 parts, then successively withholds 1 part for test and trains on the remainder 10 times, finally computes performance on the aggregate predictions; for small data sets can use ‘leave 1 out’ strategy, equivalent to n-fold CV where n = no. instances • When the number of instances for various classes are skewed, the actual classes in the training set should be stratified to reflect the class distribution, • Weka also provides a strategy in which the instances can be weighted according to a cost matrix to compensate for skew during the training process 32 ML Performance Metrics TP TN TP TN FP FN • Success rate: • Kappa statistic: subtracts the expected random predictions from the Success Rate numerator & denominator; ranges from 1 - perfect score to 0 - random predictor • ROC curve: unit square plot of the TP Rate vs. FP Rate for ranked instances; insensitive to skew; • Area under ROC (AUC): – Single-valued indicator, equivalent to Wilcoxon or Mann-Whitney test of ranks – Probability that randomly chosen + instance will rank higher than a randomly chosen - instance; – AUC = 1 for a perfect predictor, 0.5 for a random classifier 33 Performance Comparison of 3 Methods Based on 10 reps of 10-fold CV (b) Kappa statistic (c) AUC CA 100 1 90 0.9 WG 80 0.8 SP 70 0.7 60 50 40 30 0.5 0.4 0.3 0.2 10 0.1 0 0 DT RF Machine learning method • • • SV 0.95 0.9 0.85 0.6 20 1 AUC (ROC) Kappa statistic Success rate, % (a) Success rate, % 0.8 0.75 0.7 0.65 0.6 0.55 DT RF Machine learning method SV 0.5 DT RF SV Machine learning method Tools were run with ‘full’ attribute content and the stability data was split into 2 stability classes, either larger or smaller than ddG = -1.2 kcal/mol, error bars indicate the standard deviation across the 10 repetitions The RF method is significantly better in AUC over the other two, and the SV is slightly ahead of DT in AUC and Kappa (not sig.) All three potentials perform essentially the same 34 Effect of Number of Classes Based on 10 reps of 10-fold CV • • • These data are all with the ‘residual only’ attribute set using data from the SP potential, except for the black circles that show the ‘full’ attribute set for comparison Increasing the classes clearly reduces the accuracy of the prediction Here the DT outperforms the SV tool, but RF still shows highest values especially for the AUC 35 Random Forests model of Transthyretin Amyloid Behavior • A number of mutations of human transthyretin (TTR) have been identified that are associated with specific amyloid pathologies, as well as a limited number that are not amyloidogenic • Residual profiles of 77 amyloid-related and 12 non-amyloid-related mutants were used to train an RF model • Since the input data are highly skewed, a cost matrix was applied to weight the input data to balance the classes; the FP/FN cost ratio was increased until the FP/TN ratio changed • The performance of the model was evaluated and the model was used to predict amyloid behavior for hypothetical TTR mutants 36 TTR model performance 1 0.8 True positive rate • CA consistently shows better metrics than hydrated potentials • Cost matrix was over-driven to force change in FP [0,1;25,0] • Model performance levels are much lower than observed with S. nuclease, but still well above random levels Kappa increased to 0.45 with cost ratios of 1:15 0.6 0.4 CA CA cost matrix SP 0.2 SP cost matrix 0 0 0.2 0.4 0.6 0.8 1 False positive rate Unweighted - no cost matrix Potential Success rate % Kappa statistic Cost matrix applied AUC Success rate % Kappa statistic AUC CA 86.82 0.186 0.766 72.49 0.254 0.776 WG 87.19 0.144 0.679 61.54 0.148 0.727 SP 87.28 0.147 0.665 58.29 0.125 0.695 37 Prediction of TTR mutant amyloid behavior based on RF model using SP residuals A C D E F G H I K L M N P Q R S T V W Y 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 N Y Y Y Y Y Y Y Y Y N Y Y Y N Y Y Y WTY Y Y Y Y WTY Y Y WTY Y Y Y Y Y WTWTY Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y WTY Y Y Y Y WTY Y Y N N Y Y Y N Y WTWTY Y Y Y Y Y Y Y Y N WTY Y Y N N N N N Y Y Y Y Y Y Y N WTN N N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y WTWTWTY Y WTY Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WT N Y Y Y Y Y Y Y N N N Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y WTY Y Y Y Y N N Y N N N Y Y Y Y Y Y Y Y Y Y Y Y N N Y Y Y N N N N WTY Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y WTY Y Y WTY Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y WTN Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y N Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y WTY WTY Y Y Y Y Y Y Y Y Y N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N Y Y Y Y Y Y Y Y Y N Y N Y N Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y WTN Y Y Y WTY Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N Y N N WTN N Y Y Y Y Y Y Y Y N N N Y Y Y N N N N Y Y Y Y Y Y Y Y WTY N Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y N WTY Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N WTY N Y Y Y Y Y Y Y Y Y N WTN Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y WTY Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N N Y Y N WTWTY Y Y Y Y Y N N N Y Y Y N N N N N Y Y Y Y Y Y Y Y N N Y WTY N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N Y N Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y N N N N Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y N Y WTY Y Y Y Y Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY N Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y WTY N Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N Y Y Y Y Y N Y WTN Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y WTN N Y Y Y Y Y Y Y Y Y WTY Y WTY WTY Y Y Y Y Y Y N Y N Y Y WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y N Y Y Y WTY Y N Y Y Y Y Y Y Y Y WTWTY Y Y WTY N Y N N Y Y Y Y Y Y Y Y Y N Y Y WTN WTY Y Y WTY Y Y Y Y Y Y WTY WTY WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y N Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTWTY Y Y Y Y Y N N N N N N Y N N Y Y Y Y Y Y Y Y N N N WTWTY N N N N N Y Y Y Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N Y Y Y Y Y Y Y N N Y Y Y Y N Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y WTY Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N Y N WTN Y Y Y Y Y Y Y WTY WTY Y Y Y Y Y Y N N N N S R P I E I N S T M A I T N P A G S D A I I G P E G P R H K A K L L H N A V H F F N Q N S G S R C M S M I C S M S A S G L D S E G R K R R S Y S K S H V T H I L V T R T V V Mutant array with unweighted model A C D E F G H I K L M N P Q R S T V W Y 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 N N N N N N N N N Y N Y Y Y N Y Y N WTY N N N Y WTN N Y WTY N Y Y Y Y WTWTN N N Y Y N Y WTN Y Y Y Y Y N Y Y Y N N Y Y Y N N N Y N N N Y Y Y Y N Y N N N N Y Y N WTN N Y Y Y Y N N N WTN N N Y N WTN N N N N N N Y N Y WTWTN Y N Y Y N N N N N WTN N N N N N N N N N N N N N N N WTN Y N Y N Y N N N N N N N Y Y Y N Y N Y N Y Y Y Y N N N N N Y Y N Y N N N N Y Y Y N Y Y Y N N Y N N N N N Y N N N Y Y Y Y N Y N N N N Y Y N N N N N N Y Y N N N Y N N N N N N N N N N N N N Y N Y N N N N N Y Y N N N N N N N N N N N N N N N N N N N N N N Y Y Y Y Y N Y Y WTY N N N N N Y N N Y Y Y Y Y Y Y Y N N WTWTN Y Y N Y Y Y N N Y Y Y N N Y Y Y Y Y Y N N N Y Y N N Y N Y Y Y N Y WTY N N Y Y N N N N Y Y Y Y Y N N N N N N Y Y Y N WTN N N N N Y Y Y N N N Y Y Y Y Y N N N N N N N N N N N N N N N N N N WTN N Y Y Y Y Y N Y Y Y Y N Y N Y Y Y N N Y N Y Y Y Y N N Y N N N N N WTN Y Y Y N N Y Y WTN Y WTY Y Y Y Y N WTWTWTY N WTY Y Y Y Y WTY N Y N N Y Y N N N N Y Y Y Y Y WTN N WTN N Y Y Y N N N N N N N Y Y Y N N N Y Y Y Y Y N N N N N N N N N N N WT N N N N N Y N N N Y N Y N Y N Y N N N N N Y Y Y Y Y N Y N Y Y Y WTY N Y N N N N N N N WTN N N Y Y Y Y N Y Y N N N Y N N N N N WTN N Y N N Y Y N N N N Y N Y Y N N N N N N N WTN N N N N N N WTN N N N N N N N N N N Y N N N Y N N Y N N N N N N N N N N N N N WTN N WTY WTN N N Y N Y Y Y N Y N Y N Y N WTN Y Y N N Y Y Y Y Y Y N Y Y N N N N Y Y N Y Y N WTN Y N Y N WTY Y Y WTY Y N N N N Y N N WTY Y Y Y Y Y N Y N N Y Y N Y Y WTY Y Y Y N N N N N N N Y N Y N N N WTN N N Y N Y N N N Y Y Y Y N Y N N N N N N N N N N N N N N N N N N N N Y N Y Y Y N Y Y N N N N Y N Y Y N N Y N Y WTY Y Y Y Y N N N N Y Y N Y Y N N N Y N Y N Y Y Y WTN Y Y Y N N N Y N N N Y Y Y Y N Y N Y N Y Y Y N N N N N Y N Y WTY WTN N N N Y N N N N N N N N N Y Y Y N N N N N Y Y Y N N N N N N N N N N N N N N N N N N N N N N N Y N N Y Y N N N N N N N Y Y WTY N N N Y N N Y Y Y N N N N N Y N N N N N Y Y N Y N Y Y N N N Y N Y N N N N N N N WTN Y N N WTN N Y N Y Y Y N N N WTN N Y N N N N N N N Y N N N N N N N N N Y N WTN N N Y Y Y Y N N N N N N N N N N N N N N N Y N N Y Y N WTY Y Y Y Y WTY Y Y N N N N N N Y N N Y N Y N Y Y Y WTY N N N N Y Y N Y Y Y N WTY Y N N Y Y Y Y Y Y Y Y Y Y N Y N N N Y Y WTY Y Y N N WTY Y Y WTN N N Y Y Y Y N N N N N N N Y Y Y N N N N N Y Y Y Y Y N N N Y Y Y Y Y N N N N N N N N N N WTN N N N N N Y N N N Y N WTN Y N Y WTN N N N Y N Y N Y N Y N Y Y N Y Y Y Y N N N N N Y N Y N N Y Y Y N Y N Y Y WTY N WTN Y N N N Y N N N Y N Y Y N N N N Y N Y Y N N WTN N N N Y N N N N N N N N N N N N N N N N N N N N N N WTWTN Y Y N N N N N N N N N N N N N N N N N N Y N N N N N Y WTY N Y Y N N N N Y N Y Y Y N Y N Y N Y Y Y Y Y N N N N N Y N Y N N Y Y Y N N N Y Y Y Y N Y N N N N N Y N N N N N Y Y N Y N N N N Y Y N N N N Y N N Y N N N N N N N N N N N N N N N N N N N Y N N N Y N Y Y N N N N N N N N N N N N N N N N N N N N N N Y N Y Y Y N Y Y Y N N Y N N Y N N WTY N Y Y Y Y Y Y N N N N N Y N N Y Y Y Y N Y Y Y N Y Y Y Y Y Y Y N N N N Y N N Y N Y Y Y Y Y N N N N Y Y Y N N N Y N Y Y N N N N N N Y Y Y Y WTN N N N N N Y Y Y N N N Y N Y Y Y N N N N N N N N WTN N N N WTN N N N N N N Y WTY Y Y N Y Y Y N N Y N N WTY N N Y N Y N Y Y Y Y Y N N Y N Y Y WTY Y N N N Y Y N N Y Y Y Y Y Y Y N N N Y Y N N Y Y Y Y Y Y Y N Y N N Y Y N N N N Y N WTY N N N Y N N N Y N Y N N N N WTN N Y N Y N N N N N WTY Y N N N N N N N N N WTN N N N N N N N N N N Y N Y Y Y N Y Y N N N Y N N N Y N N Y Y Y Y Y Y Y Y N N N N N Y N N Y Y Y N N Y Y Y N Y Y Y Y N Y Y N N N N Y N N Y N Y Y Y Y Y N N Y N Y Y Y N N N Y Y Y Y Y N N Y N N N Y N Y N N N N N N N Y Y Y N N N Y N Y Y Y N N N N N N N N N N N N N N N Y N N N N N Y N Y Y Y N Y Y N N N WTN N Y Y N Y Y N Y N Y Y WTY N N N Y N Y Y N Y Y N N N Y Y Y Y Y Y Y Y N Y Y Y N N N Y N N N Y Y N Y Y Y N N N N Y Y N N N N Y Y Y Y N N N N N N N Y N Y N N N N N WTWTY N Y N N N Y Y Y Y N N N N N N N N N N N N N N N N N N N N WTN Y N Y Y Y N Y Y Y N N Y N WTY N N N Y N Y Y Y Y N Y Y N N N N Y Y N Y Y WTN N Y WTY WTY Y Y Y N Y Y N N N N Y N N N Y Y Y Y Y Y N N Y WTY Y N N N N N WTY Y N N N Y N N N Y N Y N N WTN N N N Y N Y N N N N WTY Y WTN WTN N N N N N N N N N N N WTN WTN N N N Y N Y Y Y N Y Y Y N N N N N Y Y N N Y N Y N Y Y N Y Y N N N WTY Y N Y Y N N Y WTY Y N Y Y Y Y N Y WTWTN N N Y N N N Y Y Y Y Y Y N WTN N Y Y N N N N Y N Y Y N N N Y N N N Y WTY N N N N N N N Y WTY N N N Y Y Y Y N Y N WTWTN N N WTN N N N N N N N N N N N N N N Y N WTY WTY N N WTN N N Y Y Y N WTN WTN WTN Y Y Y N N N N N Y N N N N Y Y Y N Y N Y Y Y N N Y N Y N N N Y WTN N Y N Y WTN N N N N N Y Y N N N N Y N N Y N N N N N WTWTY N N N N N N N N N N N Y N N N Y N Y Y N N N N N N WTWTN N N N N N N N N N N N N N N N Y Y Y N Y N N N N N Y Y Y Y N N Y N Y N Y Y Y N Y N N N N WTY N Y N N N Y N Y Y N Y Y Y N N Y N N N N N Y N N N Y Y Y Y N Y N N Y N N WTN N N N N N N N N N N N N N N N N N N N N N N N N Y N Y N N N N N N N N N N N N N N N N N N N N N N N N N N N N N Y N Y Y Y N Y Y N Y N N Y N Y Y N N Y N Y N Y N Y N Y N N N N N N N Y N N Y Y Y Y Y Y Y Y Y N N Y N Y N N N Y N N N Y WTY Y N Y N N Y Y WTY N N N N N N N N N N N N N N N N N N N N N N N N N WTN Y N N N N N Y WTN WTN N N N N N N N N N N S R P I E I N S T M A I T N P A G S D A I I G P E G P R H K A K L L H N A V H F F N Q N S G S R C M S M I C S M S A S G L D S E G R K R R S Y S K S H V T H I L V T R T V V Model trained using 25:1 cost ratio w.t. residue Predicted amyloid True non-amyloid mutant Predicted non-amyloid True amyloid mutant 38 Conclusions • Computational hydration with a representative water shell yields a more consistent tessellation • Tessellation of hydrated proteins provides a unique topological residue classification method • Hydration (with H atom addition) using either the Water Group or the Split Potential strategy improves the decoy discrimination capabilities of the tessellation-based potential, to be competitive with other KB methods • Demonstrated distinct correlations of stability and residual potential for several proteins and several classes of residues • ML tools showed that information in the residual profile can be used to classify single point mutants by their stability change • An RF model demonstrated reasonable performance in predicting amyloid characteristics of human transthyretin mutants 39 Acknowledgements • Committee Dr. Vaisman, Director Dr. Willett Dr. Jamison Dr. Born • Bioinformatics Staff Glenda Wilson Chris Ryan • Structural Bioinformatics Group Dr. Masso Dr. Mathe Dr. Taylor Dr. Carr • NASA Office of Educational Services 40 Publications • • Papers: – Reck, G.M. & Vaisman, I.I. A novel approach to protein-water interaction characteristics using computational geometry, Proteins (submitted). – Reck, G.M. & Vaisman, I.I. Nearest-neighbor contact potentials derived from Delaunay tessellation of hydrated proteins, Biophysical Journal (submitted). – Reck, G.M. & Vaisman, I.I. Use of statistical potentials derived from Delaunay tessellation to characterize changes in protein stability due to single point mutations, (manuscript in preparation). Conferences: – Reck, G.M. & Vaisman, I.I. An Examination of Protein Stability Using Delaunay Tessellation that Includes Surface Hydration Effects, Intelligent Systems for Molecular Biology (ISMB), Detroit, MI, June 25-29, 2005. – Reck, G.M. & Vaisman, I.I. Use of Four-body Statistical Potential to Correlate Stability Changes in Protein G, International Conference on Structural Genomics (ICSG), Washington Hilton Hotel, Washington, DC, Nov. 17-21, 2004. 41 Availability of tools and results • • Resources (protein list, reference set of hydrated proteins, etc.,) will be available at http://binf.gmu.edu/greck Plan an interactive site for hydrating and tessellating proteins 42 43 ROC Curve Comparison of 3 ML Methods (b) WG Potential (c) SP Potential 1 1 0.8 0.8 0.8 0.6 0.4 True positive rate 1 True positive rate True positive rate (a) CA Potential 0.6 0.4 0.2 0.2 0 0.2 0.4 0.6 False positive rate • • • 0.8 1 DT 0.4 RF 0.2 0 0 0.6 SV 0 0 0.2 0.4 0.6 False positive rate 0.8 1 0 0.2 0.4 0.6 0.8 False positive rate All models were run with a full set of attributes. Data for the DT and RF curves are from a single 10fCV, while the SV was generated by varying the mis-classification costs over a number of runs The curves are quite consistent for DT and RF 44 1 Effect of Attribute Content Based on 10 reps of 10-fold CV • • • Data are shown for the SP potential only, error bars are std dev over 10 reps Added content in the full instance vectors yields better performance across all metrics Again, the RF tool yields the highest values, particularly AUC 45 S. nuclease Non-conservative Mutants 10.00 27 61 121 148 5.00 Bin average mutant residual 0.00 -5.00 -10.00 Bartlett’s test indicates unequal variances among the bins (groups) Welch’s test, similar to t test with unequal variances rejects H0: equal means Pairwise t test with unpooled s.d. indicates that not all group means are significantly different -15.00 CA WG -20.00 Potential SP Bartlett's test Equal variances Welch's test Group mean significance 7.82E-06 0.0009820 1.48E-14 5.40E-06 0.005432 1.98E-10 Linear (SP) -25.00 Linear (WG) Linear (CA) -30.00 CA WG SP -35.00 -6 -4 -2 0 Mutant stability change, 2 kcal/mol bins 46