Title Pages_Contents - Universiteit Leiden

advertisement
Cover Page
The handle http://hdl.handle.net/1887/29716 holds various files of this Leiden University
dissertation.
Author: Schraagen, Marijn Paul
Title: Aspects of record linkage
Issue Date: 2014-11-11
Aspects of Record Linkage
Proefschrift
ter verkrijging van
de graad van Doctor aan de Universiteit Leiden,
op gezag van Rector Magnificus prof.mr. C.J.J.M. Stolker,
volgens besluit van het College voor Promoties
te verdedigen op dinsdag 11 november 2014
klokke 13:45
door
Marijn Paul Schraagen
geboren te Hilversum
in 1983
Promotores
prof. dr. J.N. Kok
prof. dr. C.A. Mandemakers
Copromotor
dr. ir. G. Bloothooft
Additional members promotion committee
prof. dr. T.H.W. B¨ack
prof. dr. N.O. Schiller
dr. P. Christen
dr. H.J. Hoogeboom
This work is part of the research programme LINKS, which is financed by the Netherlands Organisation for Scientific Research (NWO).
The work in the thesis has been carried out under the auspices of the research school
IPA (Institute for Programming research and Algorithmics).
The front cover of the thesis shows (top to bottom) a scan of an original marriage certificate, an
excerpt of the digitized data, an overview of the method described in Chapter 4, a fragment of the
cluster for the name Elisabeth resulting from the analysis in Chapter 6 (left) and a family reconstruction example resulting from the method described in Chapter 7 (right). The back cover shows
part of the C++ code used to calculate name core sequences as described in Chapter 5.
© 2014 - Marijn Schraagen
Typeset using LATEX
Printed by Ridderprint BV
ii
Contents
1
2
3
Title Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table of Contents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
iii
Introduction
1.1 Development of record linkage
1.2 Introductory examples . . . .
1.2.1 Weighted edit distance
1.2.2 Name frequency . . .
1.3 Linkage strategy . . . . . . . .
1.4 Overview of chapters . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
7
8
14
15
19
Preliminaries
2.1 Data . . . . . . . . . . . .
2.2 Similarity measures . . . .
2.2.1 Phonetic similarity
2.3 Blocking . . . . . . . . . .
2.4 Evaluation . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
26
30
32
34
Link prediction using graph density
3.1 Introduction . . . . . . . . . . . . . . .
3.2 Approach . . . . . . . . . . . . . . . .
3.2.1 Basic record linkage . . . . . .
3.2.2 Graph construction . . . . . . .
3.2.3 Record mapping and prediction
3.3 Stemming-based linkage . . . . . . . .
3.4 Experiment . . . . . . . . . . . . . . .
3.5 Conclusions and future research . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
37
39
39
41
43
46
47
.
.
.
.
.
.
.
.
.
.
iii
iv
4
5
6
Contents
Indexing edit distance
4.1 Introduction . . . . . . . . . . . . . . . .
4.2 Related work . . . . . . . . . . . . . . .
4.3 Approach . . . . . . . . . . . . . . . . .
4.3.1 Algorithm . . . . . . . . . . . . .
4.3.2 Similarity matches . . . . . . . .
4.4 Model parameters . . . . . . . . . . . . .
4.4.1 Subvectors per record . . . . . . .
4.4.2 Characters per node . . . . . . . .
4.4.3 Pruning . . . . . . . . . . . . . .
4.5 Vector assignment . . . . . . . . . . . . .
4.6 Experiment . . . . . . . . . . . . . . . .
4.6.1 Example . . . . . . . . . . . . .
4.6.2 Results for Levenshtein distance .
4.7 Comparison to existing methods . . . . .
4.7.1 Comparison to blocking methods
4.8 Extension to Jaro distance . . . . . . . .
4.8.1 Results for Jaro distance . . . . .
4.9 Discussion and further research . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
50
51
52
55
56
56
56
57
58
59
60
65
66
67
68
69
69
A data-driven name variant model
5.1 Introduction . . . . . . . . . .
5.2 Core representations . . . . .
5.3 Related work . . . . . . . . .
5.4 LCS computation . . . . . . .
5.5 Classification . . . . . . . . .
5.5.1 Syllabification . . . .
5.5.2 Training . . . . . . . .
5.6 Record linkage . . . . . . . .
5.6.1 Bootstrapping . . . . .
5.7 Evaluation . . . . . . . . . . .
5.7.1 Methods description .
5.8 Conclusion and future work . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
72
72
73
73
75
77
78
78
81
84
84
88
91
Internal variant mining
6.1 Introduction . . . . . . . .
6.2 Approach . . . . . . . . .
6.3 Name pair reduction . . .
6.3.1 Dictionary look-up
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
93
94
97
97
.
.
.
.
.
.
.
.
v
Contents
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 98
. 99
. 101
. 105
Graph consistency
7.1 Introduction . . . . . . . . . . . . .
7.2 Related work . . . . . . . . . . . .
7.3 Benchmark . . . . . . . . . . . . .
7.4 Method . . . . . . . . . . . . . . .
7.5 Additional domain-based linkage . .
7.6 Benchmark results . . . . . . . . .
7.6.1 Implementation analysis . .
7.6.2 Analysis of matching errors
7.7 Discussion and future work . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
107
107
108
109
109
114
115
116
117
118
Link validation using Gedcom databases
8.1 Introduction . . . . . . . . . . . . . . .
8.2 Related work . . . . . . . . . . . . . .
8.3 Data formats . . . . . . . . . . . . . . .
8.4 Parsing . . . . . . . . . . . . . . . . .
8.5 Matching . . . . . . . . . . . . . . . .
8.6 Results and verification . . . . . . . . .
8.6.1 Internal verification . . . . . . .
8.6.2 Toponym mapping . . . . . . .
8.6.3 Interpretation of support figures
8.7 Application . . . . . . . . . . . . . . .
8.8 Conclusion and future work . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
122
124
125
128
130
132
133
133
134
137
Cognitive processing of proper names
9.1 Introduction . . . . . . . . . . . .
9.1.1 Motivation . . . . . . . .
9.2 Related work . . . . . . . . . . .
9.3 Lexical decision . . . . . . . . . .
9.4 Application . . . . . . . . . . . .
9.5 Experimental details . . . . . . .
9.6 Experimental results . . . . . . .
9.7 Discussion . . . . . . . . . . . . .
9.8 Conclusion . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
139
140
143
143
144
146
149
154
156
6.4
6.5
7
8
9
6.3.2 Composite names
6.3.3 Syntactic rules .
Evaluation . . . . . . . .
Discussion . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
vi
Contents
Bibliography
158
A List of stimuli used in the Lexical Decision experiment
171
B IPA Dissertation Series
177
C Samenvatting in het Nederlands
188
D English summary
192
E Curriculum Vitae
198
Download