Cover Page The handle http://hdl.handle.net/1887/29716 holds various files of this Leiden University dissertation. Author: Schraagen, Marijn Paul Title: Aspects of record linkage Issue Date: 2014-11-11 Aspects of Record Linkage Proefschrift ter verkrijging van de graad van Doctor aan de Universiteit Leiden, op gezag van Rector Magnificus prof.mr. C.J.J.M. Stolker, volgens besluit van het College voor Promoties te verdedigen op dinsdag 11 november 2014 klokke 13:45 door Marijn Paul Schraagen geboren te Hilversum in 1983 Promotores prof. dr. J.N. Kok prof. dr. C.A. Mandemakers Copromotor dr. ir. G. Bloothooft Additional members promotion committee prof. dr. T.H.W. B¨ack prof. dr. N.O. Schiller dr. P. Christen dr. H.J. Hoogeboom This work is part of the research programme LINKS, which is financed by the Netherlands Organisation for Scientific Research (NWO). The work in the thesis has been carried out under the auspices of the research school IPA (Institute for Programming research and Algorithmics). The front cover of the thesis shows (top to bottom) a scan of an original marriage certificate, an excerpt of the digitized data, an overview of the method described in Chapter 4, a fragment of the cluster for the name Elisabeth resulting from the analysis in Chapter 6 (left) and a family reconstruction example resulting from the method described in Chapter 7 (right). The back cover shows part of the C++ code used to calculate name core sequences as described in Chapter 5. © 2014 - Marijn Schraagen Typeset using LATEX Printed by Ridderprint BV ii Contents 1 2 3 Title Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table of Contents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i iii Introduction 1.1 Development of record linkage 1.2 Introductory examples . . . . 1.2.1 Weighted edit distance 1.2.2 Name frequency . . . 1.3 Linkage strategy . . . . . . . . 1.4 Overview of chapters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 7 8 14 15 19 Preliminaries 2.1 Data . . . . . . . . . . . . 2.2 Similarity measures . . . . 2.2.1 Phonetic similarity 2.3 Blocking . . . . . . . . . . 2.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 26 30 32 34 Link prediction using graph density 3.1 Introduction . . . . . . . . . . . . . . . 3.2 Approach . . . . . . . . . . . . . . . . 3.2.1 Basic record linkage . . . . . . 3.2.2 Graph construction . . . . . . . 3.2.3 Record mapping and prediction 3.3 Stemming-based linkage . . . . . . . . 3.4 Experiment . . . . . . . . . . . . . . . 3.5 Conclusions and future research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 37 39 39 41 43 46 47 . . . . . . . . . . iii iv 4 5 6 Contents Indexing edit distance 4.1 Introduction . . . . . . . . . . . . . . . . 4.2 Related work . . . . . . . . . . . . . . . 4.3 Approach . . . . . . . . . . . . . . . . . 4.3.1 Algorithm . . . . . . . . . . . . . 4.3.2 Similarity matches . . . . . . . . 4.4 Model parameters . . . . . . . . . . . . . 4.4.1 Subvectors per record . . . . . . . 4.4.2 Characters per node . . . . . . . . 4.4.3 Pruning . . . . . . . . . . . . . . 4.5 Vector assignment . . . . . . . . . . . . . 4.6 Experiment . . . . . . . . . . . . . . . . 4.6.1 Example . . . . . . . . . . . . . 4.6.2 Results for Levenshtein distance . 4.7 Comparison to existing methods . . . . . 4.7.1 Comparison to blocking methods 4.8 Extension to Jaro distance . . . . . . . . 4.8.1 Results for Jaro distance . . . . . 4.9 Discussion and further research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 50 51 52 55 56 56 56 57 58 59 60 65 66 67 68 69 69 A data-driven name variant model 5.1 Introduction . . . . . . . . . . 5.2 Core representations . . . . . 5.3 Related work . . . . . . . . . 5.4 LCS computation . . . . . . . 5.5 Classification . . . . . . . . . 5.5.1 Syllabification . . . . 5.5.2 Training . . . . . . . . 5.6 Record linkage . . . . . . . . 5.6.1 Bootstrapping . . . . . 5.7 Evaluation . . . . . . . . . . . 5.7.1 Methods description . 5.8 Conclusion and future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 72 73 73 75 77 78 78 81 84 84 88 91 Internal variant mining 6.1 Introduction . . . . . . . . 6.2 Approach . . . . . . . . . 6.3 Name pair reduction . . . 6.3.1 Dictionary look-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 93 94 97 97 . . . . . . . . v Contents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 . 99 . 101 . 105 Graph consistency 7.1 Introduction . . . . . . . . . . . . . 7.2 Related work . . . . . . . . . . . . 7.3 Benchmark . . . . . . . . . . . . . 7.4 Method . . . . . . . . . . . . . . . 7.5 Additional domain-based linkage . . 7.6 Benchmark results . . . . . . . . . 7.6.1 Implementation analysis . . 7.6.2 Analysis of matching errors 7.7 Discussion and future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 107 108 109 109 114 115 116 117 118 Link validation using Gedcom databases 8.1 Introduction . . . . . . . . . . . . . . . 8.2 Related work . . . . . . . . . . . . . . 8.3 Data formats . . . . . . . . . . . . . . . 8.4 Parsing . . . . . . . . . . . . . . . . . 8.5 Matching . . . . . . . . . . . . . . . . 8.6 Results and verification . . . . . . . . . 8.6.1 Internal verification . . . . . . . 8.6.2 Toponym mapping . . . . . . . 8.6.3 Interpretation of support figures 8.7 Application . . . . . . . . . . . . . . . 8.8 Conclusion and future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 121 122 124 125 128 130 132 133 133 134 137 Cognitive processing of proper names 9.1 Introduction . . . . . . . . . . . . 9.1.1 Motivation . . . . . . . . 9.2 Related work . . . . . . . . . . . 9.3 Lexical decision . . . . . . . . . . 9.4 Application . . . . . . . . . . . . 9.5 Experimental details . . . . . . . 9.6 Experimental results . . . . . . . 9.7 Discussion . . . . . . . . . . . . . 9.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 139 140 143 143 144 146 149 154 156 6.4 6.5 7 8 9 6.3.2 Composite names 6.3.3 Syntactic rules . Evaluation . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Contents Bibliography 158 A List of stimuli used in the Lexical Decision experiment 171 B IPA Dissertation Series 177 C Samenvatting in het Nederlands 188 D English summary 192 E Curriculum Vitae 198