Uploaded by Stefanos Ganotakis

ASTERIOS REPPAS

advertisement
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και
Μηχανικών Υπολογιστών
Τομέας Τηλεπικοινωνιών
Αυτοματοποιημένη διάγνωση καρδιακών
αρρυθμιών με τη χρήση Multivariate Swarm
Decomposition και βαθιάς μάθησης σε
ηλεκτροκαρδιογραφήματα 12 απαγωγών.
Αστέριος Ρέππας
ΑΕΜ: 9221
Supervisor: Λεόντιος Χατζηλεοντιάδης
March 27, 2023
Ευχαριστίες
Ευχαριστώ ϑερµά τον επιβλέποντα της διπλωµατικής µου, Καθηγητή Λεόντιο
Χατζλεοντιάδη, που µου έδωσε την ευκαιρία και την έµπνευση να ασχοληθώ µε
τον τοµέα της Βιοϊατρικής Μηχανικής.Ευχαριστώ επίσης τον Υποψήφιο ∆ιδάκτορα
Γεώργιο Αποστολίδη για την πολύτιµη ϐοήθειά του όσον αφορά το τεχνικό πλαίσιο
της παρούσας διπλωµατικής
1
Περίληψη
Στις μέρες μας, η χρήση της τεχνολογίας στον τομέα της Ιατρικής έχει βοηθήσει
σε μεγάλο βαθμό την πρόληψη και την αντιμετώπιση ασθενειών. Συγκεκριμένα,
η δημιουργία τεχνολογικά προηγμένων συσκευών καταγραφής βιο-σημάτων,
σε συνδυασμό με τις υπηρεσίες cloud, μπορεί να ενισχύσει σημαντικά το ήδη
απαιτητικό έργο των γιατρών. Η παρούσα εργασία πραγματεύεται την ανάπτυξη
ενός μοντέλου ανάλυσης ηλεκτροκαρδιογραφημάτων (ΗΚΓ) 12 απαγωγών και την
αυτόματη διάγνωση καρδιακών αρρυθμιών μέσω μηχανικής μάθησης. Ειδικότερα,
η μέθοδος που χρησιμοποιήθηκε ονομάζεται Multivariate Swarm Decomposition.
H τεχνική αυτή επεξεργάζεται το σήμα στον 12-διάστατο χώρο και αποσυνθέτει
το κάθε κανάλι σε ρυθμούς, λαμβάνοντας υπόψη τα ίδια του τα χαρακτηριστικά
και τη μορφολογία του.
Έτσι, η ανάλυση αποκτά βιολογικό ενδιαφέρον και
παρέχει πιο χρήσιμη πληροφορία σε σχέση με άλλες γραμμικές μεθόδους. Αφού,
λοιπόν, απομακρύνθηκε ο θόρυβος του ΗΚΓ 12 απαγωγών μέσω της παραπάνω
ανάλυσης, διοχετεύτηκε σε ένα μοντέλο βαθιάς μάθησης που ονομάζεται TCN,
το οποίο συνδυάζει τα πλεονεκτήματα των μοντέλων CNN και RNΝ. Το μοντέλο
εκπαιδεύτηκε σε 7500 ΗΚΓ (2500 δείγματα αρρυθμίας atrial fibrillation, 2500
δείγματα αρρυθμίας sinus bradycardia, 2500 δείγματα αρρυθμίας sinus rhythm)
και επικυρώθηκε σε ένα σύνολο 1200 ΗΚΓ (από 400 για κάθε αρρυθμία),
πετυχαίνοντας 97.83% accuracy. Η συγκεκριμένη εργασία σκοπεύει να αποτελέσει
τμήμα της συνολικής ερευνητικής δραστηριότητας πάνω σε αυτόν τον τομέα,
προκειμένου να βοηθήσει την ιατρική επιστήμη και τον άνθρωπο.
Λέξεις κλειδιά: Swarm Decomposition, Ηλεκτροκαρδιογράφημα, TCN
2
Abstract
Nowadays, the use of technology in the field of Medicine has helped to a large
extent the prevention and treatment of diseases. Specifically, the creation of technologically advanced bio-signal recording devices, combined with cloud services, it can
significantly enhance the already demanding work of doctors. This paper deals with
the development of a 12-lead electrocardiogram (ECG) analysis model and the automatic diagnosis of cardiac arrhythmias through machine learning. Particularly, the
method used is called Multivariate Swarm Decomposition. This technique processes
the signal in 12-dimensional space and decomposes each channel at modes, taking
into account its own characteristics and morphology. Thus, the analysis acquires
biological interest and provides more useful information than other linear methods.
After the noise of the 12-lead ECG was removed through the above analysis,the signal
fed into a deep learning model called TCN, which combines the advantages of CNN
and RNN models. The model trained on 7500 ECGs (2500 atrial fibrillation samples,
2500 sinus bradycardia samples, 2500 sinus rhythm samples) and validated on a
total of 1200 ECGs (of 400 for each arrhythmia), achieving 97.83% accuracy. This
particular work intends to be part of the overall research activity on this field, in
order to help medical science and man.
Keywords: Swarm Decomposition, Electrocardiogram, TCN
3
Contents
1 Εισαγωγή
1.1
10
Η αυτοματία της καρδιάς . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Το ηλεκτρικό δίπολο της καρδιάς . . . . . . . . . . . . . . . . . . . . . 14
1.3 Μορφή του Ηλεκτροκαρδιογραφήματος . . . . . . . . . . . . . . . . . . 16
1.4 Τα είδη των απαγωγών . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5 Καρδιακές αρρυθμίες . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1
Αρρυθμίες φλεβοκομβικού κόμβου . . . . . . . . . . . . . . . . . 19
1.5.2
Kολπικές αρρυθμίες . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.3
Kοιλιακές αρρυθμίες . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Είδη θορύβου κατά την καταγραφή ηλεκτροκαρδιογραφήματος . . . . 21
1.7
Περιγραφή του προβλήματος και σκοπός της παρούσας εργασίας . . . 22
2 Θεωρητικό Πλαίσιο
23
2.1 Νοημοσύνη Σμήνους (Swarm Intelligence) . . . . . . . . . . . . . . . . . 23
2.2 Swarm Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.1
Swarming Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Γενετικός Αλγόριθμος (Genetic Algorithm) . . . . . . . . . . . . 28
2.2.3 Swarm Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.4 Περιγραφή του αλγορίθμου Swarm Decomposition . . . . . . . . 31
2.2.5 Multivariate Swarm Decomposition . . . . . . . . . . . . . . . . . 34
2.3 Μηχανική Μάθηση (Machine Learning) . . . . . . . . . . . . . . . . . . 35
2.3.1
Κατηγορίες αλγορίθμων μηχανικής μάθησης . . . . . . . . . . . 36
2.3.2 Νευρωνικά Δίκτυα . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3 Μοντέλα Βαθιάς Μηχανικής Μάθησης . . . . . . . . . . . . . . . 39
2.4 Μετρικές Αξιολόγησης . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4
3 Υλικά και μέθοδοι
47
3.1 Δεδομένα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Προεπεξεργασία . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Αποσύνθεση του 12-κάναλου ΗΚΓ σε ρυθμούς μέσω του αλγορίθμου
Multivariate Swarm Decomposition . . . . . . . . . . . . . . . . . . . . . 48
3.4 Αποθορυβοποίηση του ΗΚΓ μέσω του αλγορίθμου Multivariate Swarm
Decomposition και Non Local Means . . . . . . . . . . . . . . . . . . . . 53
3.5 Το μοντέλο Βαθιάς Μάθησης . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Πειράματα για τον προσδιορισμό των παραμέτρων του μοντέλου
βαθιάς μάθησης. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4 Αποτελέσματα
67
5 Συμπεράσματα
70
5.1 Συγκρίσεις με άλλα μοντέλα . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Σχόλια και μελλοντικές προεκτάσεις
. . . . . . . . . . . . . . . . . . . 71
5
List of Figures
1.1
Ερεθισματαγωγό σύστημα καρδιάς¹ . . . . . . . . . . . . . . . . . . . . 14
1.2 Διάνυσμα διπολικής ροπής της καρδιάς²
. . . . . . . . . . . . . . . . . 15
1.3 Διάνυσμα διπολικής ροπής της καρδιάς κατα την διαδικασία διέγερσης³ 16
1.4 Μορφή ηλεκτροκαρδιογραφήματος⁴ . . . . . . . . . . . . . . . . . . . . 17
1.5 Είδη απαγωγών ηλεκτροκαρδιογραφήματος.⁵. . . . . . . . . . . . . . . 18
1.6 Ηλεκτροδιάγραμμα κολπικής μαρμαρυγής.⁶. . . . . . . . . . . . . . . . 20
1.7
Ηλεκτροδιάγραμμα φλεβοκομβικής βραδυκαρδίας. ⁷. . . . . . . . . . . 20
2.1 Σμήνος πουλιών⁸ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Σμήνος μυρμηγκιών⁹ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Σμήνος μελισσών¹⁰ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Η συνάρτηση f (d), για d(−4, 4) και dcr =0.5, 1, 2¹¹ . . . . . . . . . . . . . 27
2.5 Γενετικός Αλγόριθμος¹². . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 a) Η παράμετρος M του Swarm μοντέλου ως προς την κανονικοποιημένη
συχνότητα ω b) Η παράμετρος δ του Swarm μοντέλου ως προς την
κανονικοποιημένη συχνότητα ω ¹³ . . . . . . . . . . . . . . . . . . . . . 31
2.7 αλγόριθμος SwF¹⁴
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8 Πίνακας μιγαδικών φασματικών ετεροσυσχετίσεων . . . . . . . . . . . 34
¹https://myhealth.alberta.ca/Health/Pages/conditions.aspx?hwid=te7147abc
²https://doctorlib.info/physiology/textbook-medical-physiology/12.html
³https://doctorlib.info/physiology/textbook-medical-physiology/12.html
⁴https://www.toppr.com/ask/content/concept/electrocardiograph-201054/
⁵https://www.cablesandsensors.eu/pages/12-lead-ecg-placement-guide-with-illustrations
⁶https://www.proacls.com/wiki/ekg-rhythms/atrial-fibrillation/attachment/afib-ecg/
⁷https://ecg-educator.blogspot.com/2016/11/sinus-bradycardia.html
⁸https://perierga.gr/2015/11/smini-poulion-zografizoun-ton-oura
⁹https://www.youtube.com/watch?v=sWaL88_-Xcw
¹⁰https://commons.wikimedia.org/wiki/File:Bee_Swarm.JPG
¹¹[1]
¹²https://www.geeksforgeeks.org/encoding-methods-in-genetic-algorithm/
¹³[1]
¹⁴[1]
6
2.9 5 fold validation¹⁵. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10 Βασική δομή νευρωνικών δικτύων.¹⁶. . . . . . . . . . . . . . . . . . . . . 40
2.11 Convolutional Neural Network.¹⁷. . . . . . . . . . . . . . . . . . . . . . . 41
2.12 Reccurent Neural Network.¹⁸. . . . . . . . . . . . . . . . . . . . . . . . . 42
2.13 Reccurent Neural Network.¹⁹
. . . . . . . . . . . . . . . . . . . . . . . . 43
2.14 Residual Neural Network.²⁰. . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.15 Confusion Matrix.²¹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 0.97
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 49
3.2 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 4.88
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 49
3.3 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 6.83
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 50
3.4 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας και πάλι
στα 6.83 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού
και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . 50
3.5 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 11.7
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 51
¹⁵https://scikit-learn.org/stable/modules/cross_validation.html
¹⁶https://www.knime.com/blog/a-friendly-introduction-to-deep-neural-networks
¹⁷https://www.mdpi.com/1424-8220/19/2/275
¹⁸https://www.analyticsvidhya.com/blog/2022/03/a-brief-overview-of-recurrent-neural-networks-rnn
¹⁹[2].
²⁰https://www.geeksforgeeks.org/introduction-to-residual-networks/
²¹https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62
7
3.6 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 17.57
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 51
3.7 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 21.48
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 52
3.8 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 28.32
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 52
3.9 Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο
κανάλι 2, β) τον ρυθμό με μέγιστο φασματικής πυκνότητας στα 31.25
Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του ρυθμού και δ) τη
φασματική πυκνότητα ισχύος του αρχικού ECG. . . . . . . . . . . . . . 53
3.10 Το ΗΚΓ πριν την διαδικασία αποθορυβοποίησης. . . . . . . . . . . . . 55
3.11 To baseline wonder που αντλήσαμε από τον ρυθμό 1. . . . . . . . . . . 56
3.12 O πρώτος ρυθμός. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.13 To baseline wonder που αντλήσαμε από τον ρυθμό 2. . . . . . . . . . . 57
3.14 Το σήμα μετά από όλα τα στάδια αποθορυβοποίησης. . . . . . . . . . 57
3.15 Το αρχικό σήμα. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.16 To baseline wonder που αντλήσαμε από τον πρώτο ρυθμό. . . . . . . . 58
3.17 O πρώτος ρυθμός. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.18 To baseline wonder που αντλήσαμε από τον δεύτερο ρυθμό. . . . . . . 59
3.19 Ο δεύτερος ρυθμός. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.20 Το σήμα μετά από όλα τα στάδια αποθορυβοποίησης. . . . . . . . . . 60
3.21 Διαδικασία καθορισμού του βέλτιστου ρυθμού εκμάθησης (learning
rate). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.22 (α) Val Loss-Fold 0, (β) Val Loss-Fold 1, (γ)Val Loss-Fold 2, (δ)Val
Loss-Fold 3, (ε)Val Loss-Fold 4
. . . . . . . . . . . . . . . . . . . . . . 65
8
3.23 (α)Vall Loss-Fold 0, (β)Vall Loss-Fold 1, (γ)Vall Loss-Fold 2, (δ)Vall
Loss-Fold 3, (ε)Vall Loss-Fold 4 . . . . . . . . . . . . . . . . . . . . . . 65
3.24 (α)Vall Loss-Fold 0, (β)Vall Loss-Fold 1, (γ)Vall Loss-Fold 2, (δ)Vall
Loss-Fold 3, (ε)Vall Loss-Fold 4 . . . . . . . . . . . . . . . . . . . . . . 66
4.1 Πίνακας σύγχυσης (Confusion Matrix) για το test set που αποτελείται
από 1200 δείγματα. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 ROC καμπύλη afib vs other. . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 ROC καμπύλη sb vs other. . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 ROC καμπύλη sr vs other. . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9
Κεφάλαιο 1
Εισαγωγή
Το ηλεκτροκαρδιογράφημα (ΗΚΓ) είναι ένα πολύ σημαντικό βιο-σήμα, που
χρησιμοποιείται από τους καρδιολόγους για διαγνωστικούς σκοπούς. Eάν αναλυθεί
σωστά, παρέχει βασικές πληροφορίες σχετικά με την ηλεκτρική δραστηριότητα
της καρδιάς. Καταστάσεις απειλητικές για τη ζωή, όπως η εμφάνιση σοβαρών
καρδιακών αρρυθμιών, μπορούν συχνά να θεραπευτούν, εάν εντοπιστούν έγκαιρα.
Ωστόσο, επειδή το ΗΚΓ είναι ένα μη στατικό σήμα, οι ανωμαλίες μπορεί να
μην εμφανίζονται συνεχώς, αλλά να εκδηλώνονται σε ακανόνιστα διαστήματα
κατά τη διάρκεια της ημέρας. Παρ’ όλα αυτά, η συνεχής παρακολούθησή του,
είτε στο κρεβάτι είτε όταν οι ασθενείς περπατούν, αυξάνει την κατανόηση της
κατάστασης των ασθενών, παρέχοντας περισσότερες πληροφορίες στους γιατρούς
και οδηγώντας τους σε αξιόπιστη διάγνωση των καρδιακών ανωμαλιών.
Η
ανίχνευση μη φυσιολογικών ΗΚΓ είναι ένα κρίσιμο βήμα για τη χορήγηση βοήθειας
στους ασθενείς. Δεδομένου ότι η κλινική παρατήρηση του ΗΚΓ μπορεί να διαρκέσει
πολλές ώρες και να γίνει πολύ κουραστική, μειώνοντας την πιθανότητα ορθής
επεξεργασίας της πληροφορίας του μέσω οπτικής ανάλυσης, η εισαγωγή της
τεχνολογίας στον συγκεκριμένο τομέα κρίνεται απαραίτητη.
Η ανάπτυξη της τεχνολογίας εισήγαγε έννοιες όπως η εξαγωγή χαρακτηριστικών
με τη βοήθεια του υπολογιστή και η αυτόματη διάγνωση μέσω μηχανικής μάθησης.
Στόχος της επεξεργασίας ψηφιακού σήματος είναι να μειώσει το χρόνο που
χρειάζονται οι καρδιολόγοι για την ερμηνεία των αποτελεσμάτων. Οι ερευνητές
έχουν αναπτύξει ποικιλία αποτελεσματικών τεχνικών επεξεργασίας σήματος στο
πεδίο της συχνότητας, του χρόνου, της συχνότητας–χρόνου κ.α.
Εντούτοις, το
πρόβλημα της ταξινόμησης διαφορετικών τύπων καρδιακής αρρυθμίας εξακολουθεί
10
να αποτελεί πρόκληση στον τομέα της επεξεργασίας σήματος.
Μια σειρά από μη κανονικούς παλμούς μπορεί να ταξινομηθεί ως αρρυθμία.
Έτσι, αν υπάρχουν σταθερά και ισχυρά σημεία κατά τη διαδοχή ανώμαλων παλμών,
που μπορούν να υποδείξουν το είδος της αρρυθμίας, τότε η ανάπτυξη ενός μοντέλου
που εξάγει αυτά τα χαρακτηρηστικά (P, Q, R, S, T τμήματα και χαρακτηριστικά
τους όπως ύψος, πλάτος, διακύμανση, χρονική διάρκεια κ.α), σε συνδυασμό με τη
σύγκριση με κάποιο κατώφλι, μπορεί να οδηγήσει σε μια ικανοποιητική μέθοδο
κατηγοριοποίησης.
Μία εκ των βασικών μεθόδων εξαγωγής των P, Q, R, S, T τμημάτων θεωρείται
ο αλγόριθμος των Pan και Tompkins [3]. Πρώτα, χρησιμοποίησαν ζωνοδιαβατό
φίλτρο για να απομονώσουν φασματικά την περιοχή του QRS. Έπειτα, με το
φίλτρο διαφορών και την διαδικασία τετραγωνισμού, κατάφεραν να απομακρύνουν
οποιαδήποτε άλλη συχνότητα βρισκόταν σε αυτή την περιοχή, διατηρώντας, έτσι,
μόνο τις υψηλές συχνότητες του QRS τμήματος.
Μία επιπλέον προσπάθεια εξαγωγής αυτών των χαρακτηριστικών γίνεται με
τη μέθοδο Principal Component Analysis [4], στην οποία, αρχικά, ορίζεται το
χρονικό παράθυρο που περιέχει την πληροφορία ενδιαφέροντος (ολόκληρος ο
παλμός ή τμήμα του) και, έπειτα, γίνεται η ανάλυσή του σε πρώτες συνιστώσες
μέσω της αποσύνθεσης του σήματος σε ορθοκανονικές συναρτήσεις βάσης, που
προέρχονται από τα ιδιοδιανύσματά του. Ο δείκτης Rk αντανακλά το πόσο καλά
αναπαρίσταται η συνολική πληροφορία του παλμού από τις Κ πρώτες συνιστώσες,
οπότε και η επιλογή του αριθμού Κ πρέπει να γίνει με στόχο την ελάχιστη
δυνατή απώλεια ζωτικής πληροφορίας, αλλά και την απομάκρυνση θορύβου.
Μετά τη διαδικασία αυτή, η επανασύνθεση του σήματος από τις συνιστώσες που
επιλέχθηκαν διευκολύνει την άντληση των σημαντικών χαρακτηριστικών, που πλέον
κυριαρχούν στο σήμα.
Μερικές φορές, ωστόσο, η παρουσία τέτοιων σταθερών και εύκολα διαχωρίσιμων
χαρακτηριστικών στο ΗΚΓ δεν είναι ισχυρή, με αποτέλεσμα να καταφεύγουμε
στην εξέταση και των φασματικών χαρακτηριστικών του. Έχουν γίνει προσπάθειες
απομάκρυνσης του θορύβου του ΗΚΓ μέσω της απομόνωσης της χρήσιμης
πληροφορίας με ζωνοδιαβατό φίλτρο, υλοποιημένο με τον μετασχηματιμσό Fast
Fourier Transform (FFT) [5] ή με τον αλγόριθμο Short-time Fourier Transform [6].
11
Κάποιοι επιστήμονες [7], [8] πρότειναν τον μετασχηματισμό κυματιδίων ως τεχνική
αποθορυβοποίησης του ΗΚΓ. Σε αυτή τη μέθοδο πραγματοποιείται η συνέλιξη του
σήματος με συγκερκιμένες κάθε φορά συναρτήσεις βάσης. Όταν αποθορυβοποιηθεί
το σήμα, μπορεί να ακολουθήσει η ανίχνευση των QRS διαστημάτων. H μέθοδος
αυτή θεωρείται επιτυχημένη στη διατήρηση της πληροφορίας της φάσης του
σήματος. O Mahmoodabadi [9] επέλεξε ως συναρτήσεις βάσης της αποσύνθεσης
τις συναρτήσεις Daubechies, καθώς αυτές παρουσιάζουν μορφολογία παρόμοια με
αυτή του ΗΚΓ και για τον λόγο αυτό έχουν καλύτερα αποτελέσματα ανίχνευσης.
Βέβαια,
περιορισμούς.
οι
προαναφερθείσες
μεθοδολογίες
παρουσιάζουν
ορισμένους
Ο αλγόριθμος FFT αδυνατεί να αποτυπώσει επακριβώς τα
φασματικά χαρακτηριστικά του ΗΚΓ, λόγω της μη γραμμικότητας και της μη
στασιμότητας που τον διέπουν.
Ο Short Time Fourier Transform προτείνει
την εισαγωγή ενός συγκεκριμένου χρονικού παραθύρου, ώστε να αποκτήσουμε
πληροφορίες ταυτόχρονα στον χρόνο και τη συχνότητα. Όμως, η μέθοδος αυτή
διέπεται από την αρχή της αβεβαιότητας, καθώς δεν μπορούμε ταυτόχρονα να
έχουμε ακριβή πληροφορία και για τους δύο τομείς.
Τέλος, η μέθοδος των
κυματιδίων υπολογίζει το φάσμα βασιζόμενη στα wavelets, τα οποία δύσκολα
μπορούν να αναπαραστήσουν το συνολικό φάσμα του ΕΚΓ.
Όπως διαπιστώνουμε, λοιπόν, η ανάλυση του ΗΚΓ με γραμμικές μεθόδους
μέσω προκαθορισμένων συναρτήσεων βάσης δεν οδηγεί στο βέλτιστο αποτέλεσμα
και, συνεπώς, η ερευνητική κοινότητα στρέφεται σε νέες προσεγγίσεις. Μία άλλη
κατηγορία αλγορίθμων είναι αυτή που περιλαμβάνει την επεξεργασία του σήματος
με τεχνικές καθοδηγούμενες απο την φύση του, επιδιώκοντας την αποσύνθεσή του
σε ρυθμούς με ιδιαίτερο φυσικό νόημα. Πρωτοπόρος των μεθόδων αυτών είναι ο
αλγόριθμος EMD (Empirical Mode Decomposition) [10]. Εδώ, η βασική αρχή που
επικρατεί είναι πως κάθε σήμα είναι υπέρθεση των γρήγορων συχνοτήτων πάνω
στις αργές. Αρχικά, υπολογίζονται όλα τα μέγιστα και ελάχιστα του σήματος.
Οι καμπύλες (φάκελοι) που προκύπτουν από την προσαρμογή στα μέγιστα και
ελάχιστα, δίνουν τον μέσο όρο τους, που αφαιρείται απο το αρχικό σήμα, και
προκύπτει το σήμα διαφοράς (ρυθμός). Η διαδικασία επαναλαμβάνεται με είσοδο
το σήμα διαφοράς, μέχρι να ικανοποιηθούν τα κριτήρια του IMF, δηλαδή το σήμα
που θα προκύψει να είναι αρμονικό της μορφής uk (t) = Ak (t)cos(fk (t)).
Τότε,
12
εξάγεται το σήμα αυτό (ρυθμός), αφαρείται απο το προηγούμενο, και η διαδικασία
επαναλαβάνεται με το νέο αυτό σήμα.
Τέλος, ένας άλλος αλγόριθμος που ανήκει στην κατηγορία αυτή είναι ο VMD
(Variational Mode Decomposition) [11].
Εδώ, γίνεται αποσύνθεση του αρχικού
σήματος σε υποσήματα–ρυθμούς, που ικανοποιούν συγκεκριμένα κριτήρια και
επανασυνθέτουν το αρχικό σήμα.
Το κριτήριο αυτό είναι ότι το φάσμα κάθε
ρυθμού πρέπει να είναι κεντραρισμένο γύρω από μία συχνότητα ωk . Ουσιαστικά,
είναι ενα πρόβλημα βελτιστοποίησης Lagrange.
Σε αυτό το πλαίσιο θα κινηθεί και η ανάπτυξη της μεθόδου Swarm Decomposition
σε αυτή την εργασία. Πριν γίνει αυτό, ας δούμε τα βασικά χαρακτηριστικά της
ηλεκτρικής δραστηριότητας της καρδιάς.
1.1 Η αυτοματία της καρδιάς
Ο καρδιακός μυς εμφανίζει αυτοματία ή αυτορρυθμία. Υπό φυσιολογικές συνθήκες,
το φαινόμενο της αυτοματίας εμφανίζεται μόνο στις εξειδικευμένες εκείνες ίνες,
που απαρτίζουν το βηματοδοτικό ή ερεθισματαγωγό σύστημα. Στο βηματοδοτικό
αυτό σύστημα διακρίνονται τα ακόλουθα μορφώματα:
• Ο φλεβοκομβικός κόμβος ή κόμβος των Keith‐Flack (SA node): Βρίσκεται
στο πίσω τοίχωμα του δεξιού κόλπου, κάτω από την εκβολή της άνω κοίλης
φλέβας.
• Ο κολποκοιλιακός κόμβος ή κόμβος των Aschoff‐Tawara (AV node):
Βρίσκεται δεξιά, υποενδοκαρδιακά, στο μεσοκολπικό διάφραγμα.
Οι δύο
κόμβοι —AV SA— διαχωρίζονται από το λειτουργικό μυοκάρδιο. Συνδέονται,
όμως, μαζί του με τρία ειδικά διακομβικά δεμάτια «ταχείας» μετάδοσης του
ερεθίσματος.
• Το δεμάτιο του His: Ξεκινάει από το κοιλιακό άκρο του κολποκοιλιακού
κόμβου και, έπειτα, διαιρείται στο δεξί και το αριστερό σκέλος.
Οι ίνες
αυτές προχωρούν αρχικά υποενδοκαρδιακά, κατά μήκος του μεσοκοιλιακού
διαφράγματος, και στη συνέχεια διακλαδίζονται και διανέμονται με τη μορφή
πλέγματος, το οποίο χαρακτηρίζεται ως «οι ίνες του Purkinje», σε ολόκληρο
το μυοκάρδιο των κοιλιών.
13
Σχήμα 1.1: Ερεθισματαγωγό σύστημα καρδιάς¹
Ο φυσιολογικός ρυθμός της καρδιάς προέρχεται από τον κόμβο SA και,
επομένως, είναι ρυθμός φλεβοκομβικός.
Κάτω από παθολογικές συνθήκες,
αναλαμβάνουν τη διατήρηση του καρδιακού ρυθμού ο κόμβος AV και τα τριτεύοντα
κέντρα, τα οποία ανήκουν στο ερεθισματαγωγό σύστημα των κοιλιών.
Το παραγόμενο ερέθισμα ή δυναμικό δράσης διαδίδεται, αρχικά, από το κέντρο
παραγωγής του (SA) προς όλα τα σημεία των δύο κόλπων, με ταχύτητα 30-50 cm/s.
Μόλις φθάσει στον κολποκοιλιακό κόμβο, παρατηρείται μία επιβράδυνση, η οποία
είναι χρήσιμη, καθώς έτσι δίνεται ο χρόνος στους κόλπους να εκτελέσουν τη συστολή
τους και να γεμίσουν οι κοιλίες με αίμα. Στη συνέχεια, το ερέθισμα φθάνει στο
δεμάτιο του His και στις διακλαδώσεις του, οπότε η ταχύτητα διάδοσης αυξάνεται
σε 150-300 cm/s. Έτσι, το ερέθισμα προχωρεί στο κοιλιακό μυοκάρδιο. Μέχρι ένα
σημείο, η διάδοση γίνεται με τη βοήθεια των ινών του Purkinje, ενώ, από εκεί και
πέρα, η διέγερση προχωρεί διαμέσου των ινών του λειτουργικού μυοκαρδίου και
εμφανίζεται στοις κοιλίες σχεδόν ταυτόχρονα. Αυτό έχει ως αποτέλεσμα ολόκληρο
το μυοκάρδιο και των δύο κοιλιών να συσπάται σαν ένα σύνολο, επιτελώντας, κατ’
αυτό τον τρόπο, την ειδική λειτουργία του ως εκθλιπτική αντλία. H παραπάνω
διαδικασία συνοψίζεται στην εικόνα 1.1.
1.2 Το ηλεκτρικό δίπολο της καρδιάς
Η ηλεκτρική δραστηριότητα της καρδιάς μπορεί να αντιπροσωπευθεί από ένα
μοναδικό δίπολο ισοδύναμου ηλεκτρικού ρεύματος, το οποίο εντοπίζεται σε ένα
σημείο που ονομάζουμε «ηλεκτρικό κέντρο της καρδιάς». Αν δεχτούμε αυτό, τότε
14
μπορούμε να αναπαραστήσουμε το διπολικό πεδίο της καρδιάς με τη βοήθεια της
διπολικής του ροπής, δηλαδή ενός διανύσματος που έχει ως αρχή το ισοδύναμο
αρνητικό και ως τέλος το ισοδύναμο θετικό φορτίο (σχήμα 1.2), ενώ το πλάτος του
είναι ανάλογο του φορτίου πολλαπλασιασμένο με την απόσταση των δύο φορτίων.
Σχήμα 1.2: Διάνυσμα διπολικής ροπής της καρδιάς²
Όπως ειπώθηκε και πιο πάνω, καθώς οι περιοχές που διεγείρονται αλλάζουν
συνεχώς, θα μεταβάλλεται και η μορφή αυτού του διανύσματος και θα έχει
διαφορετικό μέτρο και κατεύθυνση. Σε έναν καρδιακό κύκλο, το διάνυσμα αυτό
θα διαγράψει μία συγκεκριμένη τροχιά, η μορφή της οποίας θα εξαρτάται από τα
επιμέρους στάδια της καρδιακής διέγερσης στον χώρο και τον χρόνο. Στο ΗΚΓ, η
διπολική αυτή ροπή ονομάζεται καρδιακό άνυσμα και συμβολίζεται με το γράμμα
A. Στη φάση της εκπόλωσης, το διάνυσμα δείχνει προς την κατεύθυνση που κινείται
η διέγερση, δηλαδή προς την αδιέγερτη ακόμα θετική περιοχή. Αυτό συμβαίνει,
γιατί, καθώς η διέγερση κινείται από το ένα στάδιο στο άλλο, στις περιοχές που
δρα συμβαίνει εκπόλωση, δηλαδή το εσωτερικό του κυττάρου αποκτά θετικό
φορτίο ως προς το περιβάλλον, και έτσι το περιβάλλον φορτίζεται αρνητικά. Κατά
την επαναπόλωση, το διάνυσμα δείχνει προς την αντίθετη κατεύθυνση. Η μορφή
του ΗΚΓ εξαρτάται από τη θέση και τις κινήσεις του καρδιακού διανύσματος για
συγκεκριμένες απαγωγές (σχήμα 1.3).
15
Σχήμα 1.3: Διάνυσμα διπολικής ροπής της καρδιάς κατα την διαδικασία διέγερσης³
1.3 Μορφή του Ηλεκτροκαρδιογραφήματος
Η μορφή του ηλεκτροκαρδιογραφήματος εξαρτάται καθοριστικά από τη θέση
των απαγωγών. Για τον λόγο αυτόν, οι θέσεις μέτρησης είναι καθορισμένες με
σαφήνεια, ώστε οι καταγραφές να είναι συγκρίσιμες με τα πρότυπα φυσιολογικά
καρδιογραφήματα. Ένα τυπικό ΗΚΓ φαίνεται στη φωτογραφία. 1.4
Το κύμα P αντιστοιχεί στη διέγερση των κόλπων (κολπική εκπόλωση) και
συμπεριλαμβάνει και τη φάση διόδου του ερεθίσματος στον κολποκοιλιακό κόμβο.
Το διάστημα PQ αντιστοιχεί στον χρόνο αγωγής του ερεθίσματος από τους κόλπους
προς τις κοιλίες (120-200 ms). Το σύμπλεγμα QRS αντιστοιχεί στη διάδοση του
ερεθίσματος σε ολόκληρο το μυοκάρδιο των κοιλιών και διαρκεί συνήθως περίπου
80 ms. Μετά το QRS, ακολουθεί το ισοηλεκτρικό διάστημα ST, κατά τη διάρκεια
16
του οποίου ολόκληρο το κοιλιακό μυοκάρδιο βρίσκεται σε διέγερση. Το Τ κύμα
διαρκεί 100-150 ms και αντιστοιχεί στην κοιλιακή επαναπόλωση. Οι εκδηλώσεις
της κολπικής επαναπόλωσης δεν διακρίνονται, διότι επικαλύπτονται συνήθως από
το σύμπλεγμα QRS.
Σχήμα 1.4: Μορφή ηλεκτροκαρδιογραφήματος⁴
1.4 Τα είδη των απαγωγών
• Διπολικές απαγωγές: Στις διπολικές απαγωγές χρησιμοποιούνται συνήθως
τρία ηλεκτρόδια: ένα στο δεξί μπράτσο (RA), ένα στο αριστερό μπράτσο
(LA) και ένα στο αριστερό πόδι (LL). Προκύπτουν, έτσι, τρεις συνδυασμοί,
που χαρακτηρίζονται σαν I (LA-RA) , II (LL-RA), III (LL-LA). Με αυτόν
τον τρόπο, σχηματίζεται στο εμπρόσθιο τμήμα του σώματος ενα ισόπλευρο
ισοδύναμο τρίγωνο, γνωστό και ως τρίγωνο του Eindhoven.
• Μονοπολικές απαγωγές: Αντί να μετράμε τις διαφορές δυναμικού ανάμεσα
σε δύο ενεργά ηλεκτρόδια, μπορούμε να δημιουργήσουμε ένα σημείο
αναφοράς στο εσωτερικό του καρδιογράφου και να μετράμε τις διαφορές
δυναμικού ανάμεσα σε αυτό και των ενεργών ηλεκτροδίων.
Ένα τέτοιο
ισοδύναμο ηλεκτρόδιο αναφοράς είναι ο κεντρικός ακροδέκτης Wilson. Το
17
σήμα μεταξύ του LA και του κεντρικού ακροδέκτη είναι γνωστό ως VL,
αυτό μεταξύ του RA και του κεντρικού ακροδέκτη ως VR και αυτό μεταξύ
του LL και του κεντρικού ακροδέκτη ως VF. Επειδή, όμως, η τοποθέτηση
παράλληλων αντιστάσεων ανάμεσα στο κάθε ηλεκτρόδιο και τον κεντρικό
ακροδέκτη μειώνει το πλάτος του σήματος, αφαιρούμε την αντίστοιχη
παράλληλη αντίσταση σε κάθε μέτρηση και πετυχαίνουμε να αυξήσουμε το
πλάτος του σήματος κατά 50 τοις εκατό. Αυτές οι απαγωγές ονομάζονται
προσαυξημένες και συμβολίζονται aVL, aVR, aVF.
• Άλλες κατηγορίες μονοπολικών απαγωγών:
Η τελευταία κατηγορία
απαγωγών περιλαμβάνει τις προκάρδιες ή θωρακικές απαγωγές, οι οποίες
χαρακτηρίζονται από το γράμμα V και έναν αριθμό από το 1 μέχρι το 9,
που δείχνει τη θέση τοποθέτησης του ηλεκτροδίου στον αριστερό θώρακα. Οι
συμμετρικές θέσεις στον δεξιό θώρακα χαρακτηρίζονται επιπλέον και από το
γράμμα R. Συνήθως χρησιμοποιούνται οι απαγωγές από V1 έως και V6.
Σχήμα 1.5: Είδη απαγωγών ηλεκτροκαρδιογραφήματος.⁵.
18
1.5 Καρδιακές αρρυθμίες
1.5.1 Αρρυθμίες φλεβοκομβικού κόμβου
Οι αρρυθμίες αυτές προέρχονται από τον SΑ κόμβο. Αφού ο φυσιολογικός ρυθμός
της καρδιάς προέρχεται από αυτόν τον κόμβο, το χαρακτηριστικό τους είναι ότι το
κύμα P είναι φυσιολογικό. Μερικές από αυτές είναι:
• Φλεβοκομβική αρρυθμία (sinus arrythmia)
Αυτή δεν είναι πραγματική αρρυθμία ή ανωμαλία, αλλά προέρχεται απο τη
σύζευξη του καρδιακού παλμού με την αναπνοή.
• Φλεβοκομβική βραδυκαρδία (sinus bradycardia)
Στη φλεβοκομβική βραδυκαρδία, ο ρυθμός προέρχεται από τον κόμβο SA, αλλά
με λιγότερο από 60 παλμούς ανά λεπτό. Το ΗΚΓ φαίνεται φυσιολογικό, εκτός
από τον αργό καρδιακό ρυθμό. Η ήπια φλεβοκομβική βραδυκαρδία (50-59
παλμοί ανά λεπτό) είναι συνήθως ασυμπτωματική, ενώ η έντονη φλεβοκομβική
βραδυκαρδία (30-45 παλμοί ανά λεπτό) μπορεί να οδηγήσει σε υπόταση και
σε ανεπαρκή αιμάτωση του εγκεφάλου και άλλων ζωτικών οργάνων.
1.5.2 Kολπικές αρρυθμίες
• Πρόωρες κολπικές συσπάσεις (PAC)
Αυτή η αρρυθμία έχει ως αποτέλεσμα μία ανώμαλη μορφολογία του κύματος P,
που ακολουθείται από ένα φυσιολογικό σύμπλεγμα QRS και ένα κύμα Τ. Αυτό
συμβαίνει λόγω του έκτοπου βηματοδότη που πυροδότησε προηγουμένως τον
κόμβο SA.
• Κολπική ταχυκαρδία (atrial tachycardia)
Σε αυτή την αρρυθμία ο καρδιακός ρυθμός είναι γρήγορος και ποικίλλει
από 160 έως 240 παλμούς ανά λεπτό. Συχνά, συνοδεύεται απο αισθήματα
νευρικότητας και άγχους.
19
Σχήμα
1.6:
Ηλεκτροδιάγραμμα
κολπικής μαρμαρυγής.a.
Σχήμα
1.7:
Ηλεκτροδιάγραμμα
φλεβοκομβικής βραδυκαρδίας. a.
ahttps://www.proacls.com/wiki/
ekg-rhythms/atrial-fibrillation/
attachment/afib-ecg/
ahttps://ecg-educator.blogspot.
com/2016/11/sinus-bradycardia.html
• Κολπική μαρμαρυγή (atrial fibrillation)
Ο κολπικός ρυθμός υπερβαίνει τους 350 παλμούς ανά λεπτό σε αυτό τον
τύπο αρρυθμιών. Αυτό συμβαίνει λόγω της ασυντόνιστης ενεργοποίησης και
συστολής διαφορετικών τμημάτων των κόλπων.
1.5.3 Kοιλιακές αρρυθμίες
• Κοιλιακή ταχυκαρδία (ventricular tachycardia)
Ο καρδιακός ρυθμός της κοιλιακής ταχυκαρδίας κυμαίνεται από 110 έως 250
παλμούς ανά λεπτό. Στην VT, το σύμπλεγμα QRS είναι ασυνήθιστα ευρύ, με
περίεργο σχήμα και διαφορετική κατεύθυνση από το κανονικό. Θεωρείται
απειλητική για τη ζωή, καθώς ο ταχύς ρυθμός μπορεί να αποτρέψει την
αποτελεσματική κοιλιακή πλήρωση.
• Κοιλιακή μαρμαρυγή (ventricular fibrillation)
Η
κοιλιακή
μαρμαρυγή
εμφανίζεται
όταν
υπάρχουν
πολλοί
έκτοποι
βηματοδότες στις κοιλίες, οι οποίοι αναγκάζουν διάφορα μέρη του μυοκαρδίου
να συστέλλονται σε διαφορετικούς χρόνους, με μη συγχρονισμένο τρόπο.
Αναφέρω ενδεικτικά και άλλες, όπως o αριστερός και δεξιός σκελικός
αποκλεισμός, o κολποκοιλιακός αποκλεισμός πρώτου, δεύτερου, τρίτου βαθμού
κ.α.
20
1.6 Είδη θορύβου κατά την καταγραφή ηλεκτροκαρδιογραφήματος
Στην προσπάθεια καταγραφής του ΗΚΓ, διαφορετικά είδη θορύβου παρεμβαίνουν
και συναθροίζονται στο τελικό σήμα, δυσκολεύοντας σε μεγάλο βαθμό την
αναγνώριση και την εξαγωγή χαρακτηριστικών από αυτό.
Μερικές σημαντικές
κατηγορίες θορύβου αναλύονται παρακάτω.
• Μία σοβαρή πηγή παρεμβολών είναι το σύστημα παροχής ηλεκτρικής
ενέργειας.
Οφείλεται στη σύζευξη ηλεκτρομαγνητικού πεδίου,
που
αναπτύσσεται μεταξύ των γραμμών παροχής και του ηλεκτροκαρδιογράφου
ή και του ασθενή. Το συχνοτικό του περιεχόμενο κυμαίνεται συνήθως στα
50-60Hz.
• Παρεμβολές από άλλες ηλεκτρικές πηγές ή συσκευές που βρίσκονται
στον χώρο ή και από τo hardware που χρησιμοποιείται για τις τεχνικές
επεξεργασίας.
• Η ηλεκτρική δραστηριότητα των σκελετικών μυών, κατά τη διαδικασία της
διαστολής, προκαλεί τον λεγόμενο ηλεκτρομυογραφικό θόρυβο, που συχνά
συναντάται στην παρακολούθηση σε ασθενοφόρο ή σε άσκηση.
μπορεί να οφείλεται σε απότομες κινήσεις.
Επίσης,
Οι συχνότητές του μπορούν
να επικαλύψουν αυτές του QRS, αλλά και να εντοπιστούν σε υψηλότερη
συχνοτικά περιοχή. Συνεπώς, η αφαίρεσή του αποτελεί εξαιρετικά δύσκολη
διαδικασία.
• Ένα σύνολο δραστηριοτήτων, όπως η αναπνοή, η κίνηση του ασθενούς, η
αδύναμη επαφή του ηλεκτροδίου κ.α., μπορεί να δημιουργήσει ρυθμούς
χαμηλής συχνότητας (<1.5Hz), οι οποίοι παρεμβάλλονται στο σήμα και
αλλοιώνουν σημαντικά τη μορφή του, μετατοπίζοντας την κυματομορφή
του ΗΚΓ πάνω σε αυτόν τον «φάκελο».
Το ισοηλεκτρικό σημείο του
ΗΚΓ (που συναντάται αμέσως μετά το κύμα P και αποτελεί αναφορά των
ηλεκτρικών μετρήσεων της καρδιάς) παύει να υπάρχει.
Το συγκεκριμένο
είδος θορύβου δυσκολεύει σε μεγάλο βαθμό την ανάλυση του ΗΚΓ. Ωστόσο,
έχουν αναπτυχθεί αρκετές τεχνικές για την αφαίρεσή του.
21
1.7 Περιγραφή του προβλήματος και σκοπός της παρούσας
εργασίας
Η αφαίρεση και η απομάκρυνση των παραπάνω ειδών θορύβου κρίνεται
απαραίτητη διαδικασία, προκειμένου να γίνει επιτυχής επεξεργασία του
ΗΚΓ και έγκυρη διάγνωση. Οι ίδιες οι πηγές θορύβου, σε συνδυασμό με
τη λειτουργία του οργανισμού, καθιστούν το ΗΚΓ ένα σήμα με έντονη μη
γραμμικότητα και μη στασιμότητα.
Αυτά τα χαρακτηριστικά αποτελούν
εμπόδιο στην ουσιώδη ανάλυσή του με γραμμικές μεθόδους, καθώς οι
προκαθορισμένες συναρτήσεις βάσης αδυνατούν να αντιπροσωπεύσουν την
στοχαστικότητα που διέπει το σήμα.
Επιπλέον, η σύγχρονη καταγραφή
δεδομένων
πολλούς
πραγματοποιείται
από
αισθητήρες
ταυτόχρονα,
προκειμένου να λαμβάνουμε όσο το δυνατόν πιο ολοκληρωμένη πληροφορία.
Εντούτοις, δεν έχουν αναπτυχθεί πολλές μέθοδοι που να αξιοποιούν την
πληροφορία που «μοιράζεται» μεταξύ των καναλιών των διαφορετικών
απαγωγών του ΗΚΓ, αλλά η διαχείριση των καναλιών γίνεται σαν να ήταν
ανεξάρτητα μονοδιάστατα σήματα.
Σκοπός της παρούσας εργασίας είναι η ανάπτυξη μίας τεχνικής που να
αντιμετωπίζει τις παραπάνω δυσκολίες και, σε συνδυασμό με ένα μοντέλο
μηχανικής μάθησης, να αποτελέσει μια καινοτόμα και αξιόλογη επιλογή στον
τομέα της επεξεργασίας του ΗΚΓ και της αυτόματης διάγνωσης. Η μέθοδος
που θα χρησιμοποιηθεί ονομάζεται Multivariate Swarm Decomposition.
22
Κεφάλαιο 2
Θεωρητικό Πλαίσιο
2.1 Νοημοσύνη Σμήνους (Swarm Intelligence)
Οι οργανισμοί που ζουν σε αποικίες, όπως τα μυρμήγκια, οι μέλισσες και τα
πουλιά, έχουν απασχολήσει μεγάλο μέρος της επιστημονικής κοινότητας τα
τελευταία χρόνια.
Σε μια κοινωνική δομή όπως αυτή, ένας «εργαζόμενος»
δεν εκτελεί όλες τις εργασίες, αλλά εξειδικεύεται σε ένα σύνολο εργασιών
ανάλογα με το δικό του δυναμικό. Ο καταμερισμός της εργασίας, σε συνδυασμό
με την αυτοοργάνωση αυτών των κοινωνικών ζωικών συστημάτων, μπορεί να
αποτελέσει πρότυπο σχεδίασης ευφυών υπολογιστικών συστημάτων για την
επίλυση προβλημάτων.
Οι αλγόριθμοι που βασίζονται σε Swarm Intelligence εμφανίστηκαν πρόσφατα ως
οικογένεια αλγορίθμων εμπνευσμένων από τη φύση, ικανών να παράγουν χαμηλού
κόστους, γρήγορες και αξιόπιστες λύσεις σε πολλά σύνθετα προβλήματα [12]. Το
SI μπορεί, επομένως, να οριστεί ως ένας νέος κλάδος της Τεχνητής Νοημοσύνης,
που ασχολείται με τη μοντελοποίηση της συλλογικής συμπεριφοράς των σμηνών
στη φύση.
Παράδειγμα ενός επιτυχημένου αλγορίθμου νοημοσύνης σμήνους είναι ο
αλγόριθμος Particle Swarm Optimization (PSO), που εισήχθη από τους Russell Eberhart και James Kennedy [13]. Αρχικά, ο PSO χρησιμοποιήθηκε για την επίλυση μη
γραμμικών προβλημάτων βελτιστοποίησης, αλλά πιο πρόσφατα έχει χρησιμοποιηθεί
σε πολλούς πρακτικούς τομείς, όπως η παρακολούθηση δυναμικών συστημάτων, η
ανάπτυξη της δομής νευρωνικών δικτύων, η ανάλυση του ανθρώπινου τρόμου, η
εκμάθηση παιχνιδιών, η μουσική σύνθεση κ.α. Ο PSO είναι εμπνευσμένος από την
23
κοινωνιολογική συμπεριφορά του σμήνους των πουλιών και, συγκεκριμένα, από το
γεγονός ότι τα πουλιά μπορούν να πετάξουν σε μεγάλες ομάδες και για μεγάλες
αποστάσεις χωρίς συγκρούσεις, διατηρώντας βέλτιστες αποστάσεις μεταξύ τους.
Η όραση θεωρείται ως η πιο σημαντική αίσθηση για την οργάνωση του σμήνους.
Τα μάτια των περισσότερων πουλιών βρίσκονται και στις δύο μεριές του κεφαλιού
τους, επιτρέποντάς τους να βλέπουν αντικείμενα σε κάθε πλευρά ταυτόχρονα.
Το γεγονός αυτό, σε συνδυασμό με το μέγεθος των ματιών τους, προσφέρει στα
πουλιά ευρύ οπτικό πεδίο.
Για παράδειγμα, τα περιστέρια μπορούν να δουν
300 μοίρες, χωρίς να γυρίσουν το κεφάλι τους, και οι αμερικάνικες μπεκάτσες
διαθέτουν πλήρες οπτικό πεδίο 360 μοιρών. Τα παραπάνω χαρακτηριστικά, καθώς
και η αποτελεσματική κοινωνική αλληλεπίδραση τους, τους επιτρέπουν (i) να
πετούν χωρίς σύγκρουση, ακόμα και όταν αλλάζουν ξαφνικά κατεύθυνση, (ii) να
σκορπίζονται και να ανασυγκροτούνται γρήγορα κατά την αντίδραση σε εξωτερικές
απειλές και (iii) να αποφεύγουν αρπακτικά.
Οι τοπικές αλληλεπιδράσεις των πουλιών βασίζονται στο πρότυπο του
κοντινότερου γείτονα (”nearest neighbour principle”).
Ακολουθούν, δηλαδή,
συγκεκριμένους κανόνες, για να προσαρμόσουν την κίνησή τους με βάση τους
κοντινότερους γείτονες.
Αν και οι εσωτερικοί κανόνες της συμπεριφοράς τους
μπορούν να θεωρηθούν απλοί, το πέταγμα σε σμήνος είναι οπτικά πολύπλοκο, με
μια συνολική κίνηση που φαίνεται σαν ένα σώμα. Πρέπει να σημειωθεί εδώ ότι ο
κανόνας αποφυγής σύγκρουσης οδηγεί στον καθορισμό της ελάχιστης απαιτούμενης
απόστασης διαχωρισμού, ενώ ο κανόνας κοινής ταχύτητας βοηθά στη διατήρηση
αυτής της απόστασης διαχωρισμού. Έτσι, οι δύο κανόνες αλληλοσυμπληρώνονται.
24
Σχήμα 2.1: Σμήνος πουλιών¹
Σχήμα 2.2: Σμήνος μυρμηγκιών²
2.2 Swarm Decomposition
2.2.1 Swarming Model
To Swarm Decomposition [1] είναι ένας αλγόριθμος που εφαρμόζει τη Νοημοσύνη
Σμήνους στην επεξεργασία σήματος. Συγκεκριμένα, χρησιμοποιεί Swarm Intelligence, για να αποσυνθέσει μη στατικά σήματα σε πιο απλούς ρυθμούς. Το μοντέλο
προσομοιώνει τη διαδικασία κυνηγιού ενός θηράματος από ένα σμήνος, όπου η θέση
του θηράματος σε κάθε χρονική στιγμή pprey (n) αντιπροσωπεύει το σήμα εισόδου
x(n). Το σμήνος αποτελείται από έναν αριθμό από M μέλη, καθένα από τα οποία
25
Σχήμα 2.3: Σμήνος μελισσών³
χαρακτηρίζεται από τη θέση του pi (n) και από την ταχύτητά του vi (n) σε κάθε
χρονική στιγμή n.
Επιπλέον, το μοντέλο αποτελείται από δύο τύπους αλληλεπιδράσεων που
πραγματώνουν τη διαδικασία κηνυγιού. Από τη μία, έχουμε τη δύναμη οδήγησης, η
οποία προκαλείται από το θήραμα σε κάθε μέλος του σμήνους. Η δύναμη οδήγησης
n
FDr,i
, που εφαρμόζεται στο i-οστό μέλος του σμήνους τη χρονική στιγμή n, δίνεται
από τον τύπο,
n
FDr,i
= pprey [n] − pi [n − 1]
(2.1)
Από την άλλη, η δύναμη συνοχής εφαρμόζεται σε κάθε μέλος του σμήνους από τα
υπόλοιπα μέλη, ώστε να διασφαλίζεται η συνοχή του σμήνους. Αυτή η δύναμη έχει
δυαδική μορφή, ελκυστική για να κρατά τα μέλη σε κοντινές αποστάσεις μεταξύ
τους, αλλά και απωθητική για να αποφεύγονται οι συγκρούσεις. Η δύναμη συνοχής
26
n
FCoh,i
που εφαρμόζεται στο i-οστό μέλος την χρονική στιγμή n δίνεται από τον τύπο,
n
FCoh,i
=
M
∑
1
f (pi [n − 1] − pj [n − 1])
M − 1 j=1,j̸=i
f (d) = −sgn(d) ln
|d|
dcr
(2.2)
(2.3)
όπου η συνάρτηση f καθορίζει την εκλυστική/απωθητική συνεισφορά της
δύναμης συνοχής του j-οστού μέλους εφαρμοσμένης στο i-οστό μέλος, σε
απόσταση d. H dcr είναι η απόσταση στην οποία δύο μέλη δεν αλληλεπιδρούν, δηλ.
f (dcr )=0. Η συνάρτηση f (d), για d(−4, 4) και dcr =0.5, 1, 2, φαίνεται στο παρακάτω
σχήμα 1.7.
Σχήμα 2.4: Η συνάρτηση f (d), για d(−4, 4) και dcr =0.5, 1, 2⁴
Κατά τη διάρκεια του κυνηγιού, κάθε μέλος του σμήνους ενημερώνει την
κατάστασή του σύμφωνα με τις παρακάτω εξισώσεις.
27
n
n
+ FCoh,i
vi [n] = vi [n − 1] + δFDr,i
(2.4)
pi [n] = pi [n − 1] + δvi [n]
(2.5)
όπου το δ ελέγχει την ευελιξία του σμήνους. Ειδικότερα, το δ ελέγχει το εικονικό
χρονικό διάστημα μεταξύ δύο διαδοχικών χρονικών στιγμών. Το αποτέλεσμα της
παραπάνω διαδικασίας μπορεί να αποσπαστεί από το σμήνος, παίρνοντας τη
ζυγισμένη (με τον όρο β) μέση τιμή των θέσεων των μελών του σμήνους.
y[n] = β
M
∑
(2.6)
pi [n]
i=1
Όσον αφορά τις αρχικές συνθήκες, τα μέλη του σμήνους τοποθετούνται
συμμετρικά γύρω απο την αρχική τιμή του θηράματος pprey [0] και θεωρούνται
ακίνητα στην αρχή της διαδικασίας.
pi [0] = pprey [0] + dcr (i − 1 −
M
), ∀i = 1, ..., M
2
(2.7)
vi [0] = 0, ∀i = 1, ..., M
(2.8)
Η μοντελοποίηση αυτή, σε συνδυασμό με έναν γενετικό αλγόριθμο, καθιστά τον
αλγόριθμο Swarm Decomposition μία μέθοδο επεξεργασίας σημάτων.
2.2.2 Γενετικός Αλγόριθμος (Genetic Algorithm)
Ο
γενετικός
αλγόριθμος
(genetic
algorithm)
είναι
μία
μέθοδος
επίλυσης
προβλημάτων βελτιστοποίησης, που βασίζεται στη φυσική επιλογή, τη διαδικασία
της βιολογικής εξέλιξης, και ανήκει στην ευρύτερη κατηγορία των επαναστατικών
αλγορίθμων (evolutionary algorithms) [14]. Ο τρόπος που λειτουργεί είναι ο εξής:
• O αλγόριθμος ξεκινά δημιουργώντας έναν τυχαίο αρχικό πληθυσμό.
• Στη συνέχεια, ο αλγόριθμος δημιουργεί μία σειρά απο νέους πληθυσμούς.
Σε κάθε βήμα, χρησιμοποιεί τα μέλη του παρόντος πληθυσμού, για να
28
δημιουργήσει τον επόμενο. Για να το κάνει αυτό, λοιπόν, εκτελεί τα εξής
βήματα:
– Βαθμολογεί κάθε μέλος του τρέχοντος πληθυσμού, υπολογίζοντας την
αξία του (fitness value), η οποία δεν είναι άλλη από την τιμή της
συνάρτησης κόστους του προβλήματος βελτιστοποίησης.
– Κανονικοποιεί τις fitness values, ώστε να αποκτήσει ένα πιο χρήσιμο εύρος
τιμών (expactation values).
– Κάποια απο τα μέλη του παρόντος πληθυσμού έχουν πολύ χαμηλές τιμές
κόστους, γι’ αυτό και διαλέγονται ως προνομιούχα (elite) και περνούν
στον επόμενο πληθυσμό.
– Οι γονείς παράγουν παιδιά, είτε με τη διαδικασία της μετάλλαξης (mutation), όπου ο αλγόριθμος τυχαία αλλάζει τα γονίδια των γονέων, είτε με
τη διαδικασία της διασταύρωσης (crossover), όπου τα παιδά προκύπτουν
από συνδυασμούς τμημάτων των γονιδίων των γονέων.
– Αντικαθιστά τον τρέχοντα πληθυσμό με τα παιδιά, για να δημιουργήσει
τον επόμενο πληθυσμό.
• Ο αλγόριθμος σταματά, όταν ένα από τα κριτήρια τερματισμού ικανοποιείται.
Η παραπάνω διαδικασία απεικονίζεται στο σχήμα 2.5
2.2.3 Swarm Filtering
Σε αυτό το σημείο, με τη βοήθεια ενός γενετικού αλγορίθμου, θα δείξουμε τη σχέση
μεταξύ συχνοτήτων και των παραμέτρων Μ και δ του Swarming Model. Με τον
τρόπο αυτόν, θα διασαφηνιστεί η λειτουργία του μοντέλου σμήνους ως μεθόδου
επεξεργασίας σημάτων. Έστω οι εξής παραδοχές:
• Το Ω είναι ένα σύνολο συχνοτήτων που περιλαμβάνει τις συχνότητες ωl
ωl =
2πλ
rad, ∀l = 1, ..., 7
16
(2.9)
• Τα smono,l [n] είναι μονοσυχνοτικά σήματα, τέτοια ώστε:
smono,l [n] = wL [n − (l − 1)L] · cos ωl n,∀l = 1, ..., |Ω|
(2.10)
29
Σχήμα 2.5: Γενετικός Αλγόριθμος⁵.
• To smulti [n] είναι ένα μη στατικό, πολυσυχνοτικό σήμα, τέτοιο ώστε:
smulti [n] =
|Ω|
∑
(smono,l [n])
(2.11)
l=1
• Το yδ,M είναι η έξοδος του Swarm Filtering με παραμέτρους M και δ και είσοδο
το smulti [n]
Ο σκοπός του γενετικού αλγορίθμου σε κάθε επανάληψη είναι να υπολογίσει
τις παραμέτρους M και δ, με τις οποίες η διαδικασία Swarm Filtering με είσοδο
το smulti [n] έχει ως έξοδο ένα από τα μονοσυχνοτικά σήματα smono,l [n]. Από αυτό
καταλαβαίνουμε ότι η συνάρτηση κόστους θα έχει την εξής μορφή:
argminδ,M
∑
(|Yδ,M [k]| − |Smono,l [k]|)2
(2.12)
k
όπου τα |Yδ,M [k]| και |Smono,l [k]| αποτελούν τα μέτρα του Διακριτού
Μετασχηματισμού Fourier των yδ,M και smono,l [n] αντίστοιχα. Για να πάρουμε τη
σχέση για κάθε μονοσυχνοτικό σήμα, η διαδικασία αυτή επαναλαμβάνεται για όλες
τις συχνότητες του |Ω|. Τα αποτελέσματα φαίνονται στα παρακάτω σχήμα 2.6 :
Αν προσαρμόσουμε τις καμπύλες πάνω στα αποτελέσματα (Trust-Region algorithm για το και least square regression για το δ), προκύπτουν οι ακόλουθες σχέσεις:
30
Σχήμα 2.6: a) Η παράμετρος M του Swarm μοντέλου ως προς την κανονικοποιημένη συχνότητα ω
b) Η παράμετρος δ του Swarm μοντέλου ως προς την κανονικοποιημένη συχνότητα ω ⁶
M (ω) = 33.46 · ω −0.735 − 29.1
(2.13)
δ(ω) = −1.5 · ω 2 + 3.454 · ω − 0.01
(2.14)
Η παράμετρος dcr , που ελέγχει την κατανομή των μελών του σμήνους, πρέπει
να παίρνει τιμές που είναι προσαρμοσμένες στο σήμα εισόδου, όπως το rms, και το
β, το οποίο επηρεάζει την τάξη του Μ, πρέπει να παίρνει πολύ μικρές τιμές όπως
0.005.
2.2.4 Περιγραφή του αλγορίθμου Swarm Decomposition
O SwD αποτελείται από μια επαναληπτική διαδικασία, όπου σε κάθε βήμα της
επανάληψης, αρχικά υπολογίζεται η κυρίαρχη συχνότητα που επικρατεί και, με
βάση αυτήν, υπολογίζονται οι παράμετροι M και δ, μέσω των σχέσεων 2.13 και 2.14.
Στη συνέχεια, οι παράμετροι αυτές εισάγονται στον αλγόριθμο SwF και εξάγεται ο
αντίστοιχος ρυθμός. Έπειτα, ο ρυθμός αυτός αφαιρείται απο το αρχικό σήμα, και
το σήμα που μένει υποβάλλεται στην ίδια διαδικασία, ώσπου να μην υπάρχει πια
ισχυρό φασματικό περιεχόμενο.
Πιο συγκεκριμένα, έστω ότι το xit [n] είναι το σήμα στην i-οστή επανάληψη της
31
q
διαδικασίας (στην πρώτη επανάληψη έχουμε x0 [n] = smulti [n]) και το ωdom
είναι
η κυρίαρχη συχνότητα του xit [n]. Ο δείκτης q συμβολίζει την q-οστή αναγνώριση
της συχνότητας αυτής ως κυρίαρχης καθόλη τη διάρκεια της διαδικασίας, καθώς
ένας ρυθμός μπορεί να αναγνωριστεί ως κυρίαρχος σε περισσότερες από μια
q
επαναλήψεις του αλγορίθμου. Το ωdom
επιλέγεται ως η συχνότητα στην οποία η
φασματική ισχύς του xit [n] φτάνει σε μέγιστο. Επειδή το φάσμα πρέπει να είναι
λείο, χρησιμοποιείται το φίλτρο Savitzky-Golay (SGfilter) [15], καθώς αυτό διατηρεί
το ύψος των κορυφών.
Τρεις παράμετροι που συνδεόνται με το συγκεκριμένο
φίλτρο είναι το όριο στην επιλογή κορυφής Pth , ο βαθμός του φίλτρου SGdegree
και το μέγεθος του SGlength.
′
q
ωdom
= argmaxω (Sxit (ω) > Pth )
′
Sxit (ω) = SGf ilter(Sxit )
(2.15)
(2.16)
Η παράμετρος Pth συχνά παίρνει τιμές γύρω στο 0.1 και ελέγχει πόσοι ρυθμοί
εξάγονται στο τέλος.
Πιο μεγάλη τιμή του Pth σημαίνει και μικρότερο αριθμό
q
ρυθμών. Όταν το ωdom
υπολογιστεί, τροφοδοτείται στις σχέσεις 2.13 και 2.14, για
να υπολογιστούν οι παράμετροι M και δ. Έπειτα, οι παράμετροι αυτές εισάγονται
στον SwF 2.7. Καθώς μία μόνο επανάληψη του αλγορίθμου μπορεί να αφήσει
κατάλοιπα άλλων ρυθμών, ο αλγόριθμος SwF εκτελείται επαναληπτικά, ώσπου δύο
διαδοχικές εκτελέσεις του να απέχουν λιγότερο απο ένα όριο StDth .
32
Σχήμα 2.7: αλγόριθμος SwF⁷
′
Όταν τελειώσει ο SwF, το αποτέλεσμα xit ευθυγραμμίζεται και αφαιρείται από
το xit [n], ώστε να παραχθεί το σήμα για την επόμενη επανάληψη xit+1 [n].
xit+1 [n] = xit [n] − Cωdq [n]
′
(2.17)
Cωdq [n] = xit [n − tdelay ]
(2.18)
tdelay = argmaxt (Rx′ ,xit (t)
(2.19)
it
όπου η R είναι η συνάρτηση αυτοσυσχέτισης των δύο σημάτων. Αυτό συνεχίζεται
μέχρι να μην υπάρχουν πια άλλοι ρυθμοί, και έτσι κάθε ρυθμός, καθώς και το
κατάλοιπο, υπολογίζεται. Τελικά,
33
OCm = cω [n], ∀m = 1, ..., |Ωdominant |
cω [n] =
∑
cωdq [n], ∀ωϵΩdominant
(2.20)
(2.21)
q
r[n] = x[n]it=f inal
(2.22)
2.2.5 Multivariate Swarm Decomposition
O αλγόριθμος Multivariate Swarm Decomposition (MSwD) αποτελεί n-διάστατη
επέκταση του SwD. Τελευταία, τα δεδομένα υποβάλλονται σε πολυκάναλες
καταγραφές,
αφού υπάρχει η ανάγκη παρατήρησης ενός γεγονότος από
διαφορετικές οπτικές. Tα σήματα αυτά ονομάζονται πολυμεταβλητά σήματα (multivariate signals). Αν τα διαφορετικά κανάλια δεν περιέχουν ισχυρή σύζευξη μεταξύ
τους, τότε η ανάλυση κάθε καναλιού ξεχωριστά δεν οδηγεί στην απώλεια μεγάλου
ποσοστού της πληροφορίας. Αν όμως τα κανάλια είναι αρκετά συσχετισμένα, τότε
η νέα αυτή μέθοδος είναι απαραίτητη.
Η μόνη αλλαγή που παρατηρείται στον MSwD σε σχέση με τον SwD, είναι η
μετακίνηση του σήματος εισόδου, καθώς και όλου του αλγορίθμου, στον n-διάστατο
χώρο. Βέβαια, η σημαντικότερη διαφορά βρίσκεται στον υπολογισμό της κυρίαρχης
συχνότητας κατά τον επαναληπτικό αλγόριθμο. Στην περίπτωση αυτή, η ανάγκη
μονής φασματικής αναπαράστασης σε ένα πολυκάναλο σήμα ικανοποιείται με την
εισαγωγή του παρακάτω πίνακα μιγαδικών φασματικών ετεροσυσχετίσεων (σχήμα
2.8 ).
Σχήμα 2.8: Πίνακας μιγαδικών φασματικών ετεροσυσχετίσεων
34
Το GCS υπολογίζεται με τον παρακάτω τύπο:
γ(ω) =
1
(λmax (Σx (ω)) − 1)
N −1
(2.23)
ενώ η κυρίαρχη συχνότητα υπολογίζεται με τον τύπο:
∫ inf
ωdom =
0
γ(ω)2
ω ∫ inf
dω
γ(ω)2 dω
0
(2.24)
2.3 Μηχανική Μάθηση (Machine Learning)
Η μηχανική μάθηση είναι ένα υποσύνολο της τεχνητής νοημοσύνης, που αναπτύχθηκε
μέσω της μελέτης της αναγνώρισης προτύπων και της υπολογιστικής θεωρίας
μάθησης. Οι αλγόριθμοι στη μηχανική μάθηση αναλύουν μεγάλες ομάδες δεδομένων
και προσπαθούν να ανακαλύψουν πρότυπα μεταξύ αυτών των δεδομένων, ωστέ
να κάνουν τις καλύτερες δυνατές προβλέψεις, ενώ αυτο-εκπαιδεύονται και
βελτιώνονται με την εμπειρία, χωρίς να είναι ρητά προγραμματισμένοι να το
κάνουν.
Εφαρμογές της μηχανικής μάθησης βρίσκονται παντού γύρω μας, στα
σπίτια μας, στις αγορές μας, στην διασκέδασή μας, στην ιατρική μας περίθαλψη
κ.α.
Ωστόσο, χρειάζεται και η ανθώπινη παρέμβαση στη δημιουργία ενός συστήματος
μηχανικής μάθησης. Όταν πραγματοποιείται ανάλυση ενός περίπλοκου συνόλου
δεδομένων, ένα από τα κύρια προβλήματα που εμφανίζονται είναι ο καθορισμός
του αριθμού των μεταβλητών που θα χρησιμοποιηθούν για να περιγράψουν τα
δεδομένα. Η ανάλυση ενός τεράστιου αριθμού δεδομένων απαιτεί και τεράστια
υπολογιστική ισχύ και μνήμη, ενώ συγχρόνως εγκυμονεί κίνδυνο υπερεκπαίδευσης
(overfitting) και μη ικανότητας γενίκευσης σε νέα, άγνωστα δεδομένα.
Έτσι,
ο μηχανικός αξιοποιεί τις εξειδικευμένες γνώσεις του, ώστε να καταφέρει να
αναπαραστήσει την χαοτική και «ωμή» πληροφορία σε μια πιο περιεκτική
μορφή.
Η διαδικασία αυτή ονομάζεται «Εξαγωγή Χαρακτηριστικών» (”Fea-
ture Extraction”) και είναι από τα σημαντικότερα στάδια στην κατασκευή
ενός συστήματος μηχανικής μάθησης.
Παρ’ όλα αυτά, αν αυτή η αφαιρετική
διαδικασία δεν καταφέρει να επιτύχει μια ικανή αναπαράσταση και μια επαρκή
συσχέτιση των προτύπων μεταξύ του νέου συνόλου μεταβλητών με τα αρχικά
35
δεδομένα, οποιοδήποτε μοντέλο και να εφαρμοστεί σε αυτά, θα έχει περιορισμένες
δυνατότητες.
Η ειδοποιός διαφορά της μηχανικής μάθησης με την Βαθιά Μάθηση (Deep Learning), βρίσκεται στην διαφορετική διαχείριση των δεδομένων εισόδου. Σε αντίθεση
με αυτά που προαναφέρθηκαν, η βαθιά μάθηση χρησημοποιεί «ωμά» δεδομένα, των
οποίων η επεξεργασία γίνεται από έναν μεγάλο αριθμό στρωμάτων ενός νευρωνικού
δικτύου.
Ανεξαρτήτως του μοντέλου που θα χρησιμοποιηθεί, η φιλοσοφία της οργάνωσης
ενός συστήματος μηχανικής μάθησης παραμένει η ίδια. Αρχικά, πραγματοποείται η
εκπαίδευση του μοντέλου και η εκμάθηση των παραμέτρων μέσω της προσαρμογής
του σε ένα σύνολο δεδομένων εκπαίδευσης (training set).
Τα δεδομένα συχνά
οργανώνονται σε διανύσματα της μορφής εισόδου–εξόδου, όπου η έξοδος αποτελεί
το επιθυμητό αποτέλεσμα. Όταν το μοντέλο εκπαιδευτεί, χρησιμοποιείται για να
κάνει προβλέψεις και να παραγάγει αποτελέσματα πάνω σε ένα δεύτερο σύνολο
δεδομένων, που λέγεται σύνολο δεδομένων επικύρωσης (validation set). Το σύνολο
αυτό προσφέρει μια ανεπηρέαστη αξιολόγηση και προσαρμογή των παραμέτρων
από τον μηχανικό, ώστε να έχει τη βέλτιστη επίδοση. Τέλος, το σύνολο δεδομένων
δοκιμής (test set) είναι ένα σύνολο για την τελική αξιολόγηση του μοντέλου, το οποίο
δεν το συναντάμε σε κανένα άλλο στάδιο.
Στη συγκεκριμένη εργασία, ως μέθοδος επικύρωσης χρησιμοποιήθηκε η k-fold
validation (σχήμα 2.9. Με αυτή την τεχνική, το σύνολο δεδομένων εκπαίδευσης
χωρίζεται σε k υποσύνολα, εκ των οποίων ένα κάθε φορά αποτελεί το validation
set, ενώ τα υπόλοιπα αποτελόυν το train set. H εναλλαγή του validation set γίνεται
με τέτοιο τρόπο, ώστε να καλύψει όλο το εύρος των δεδομένων εκπαίδευσης, ενώ
δεν υπάρχει επικάλυψη μεταξύ του validation set σε μια επανάληψη (fold) με μια
άλλη. Η μέθοδος αυτή αποσκοπεί στην ανεπηρέαστη επεξεργασία των δεδομένων
και ανάπτυξη του μοντέλου, αντιμετωπίζοντας τον κίνδυνο της προσαρμογής του
μοντέλου σε ένα σύνολο δεδομένων που διαφοροποιείται σε μεγάλο βαθμό από τα
άλλα.
2.3.1 Κατηγορίες αλγορίθμων μηχανικής μάθησης
• Επιβλεπόμενη μάθηση ( Supervised Learning):
36
Σχήμα 2.9: 5 fold validation⁸.
Σε αυτό το έιδος αλγορίθμων, η μηχανή διδάσκεται μέσω της σύγκρισης των
εξόδων της με τις επιθυμητές τιμές.
Αποτελούνται απο ζέυγη δεδομένων
εισόδου και εξόδου, όπου η έξοδος αντιστοιχεί στην επιθυμητή τιμή. Σκοπός
είναι να καταφέρει το μοντέλο να μάθει έναν κανόνα αντιστοίχισης εισόδων
σε εξόδους και, αφού εκπαιδυτεί, να κάνει προβλέψεις σε εισόδους χωρίς να
γνωρίζει τις εξόδους τους.
• Μη επιβλεπόμενη μάθηση (Unsupervised Learning):
Στο συγκεκριμένο μοντέλο δεν υπάρχει η έννοια της επιθυμητής τιμής. Η
μηχανή μελετά τα δεδομένα εισόδου, μεγάλο μέρος των οποίων είναι χωρίς
ετικέτα, και προσπαθεί να αναγνωρίζει μοτίβα και συσχετίσεις. Βασίζεται
στον τρόπο με τον οποίο ο άνθρωπος παρατηρεί τον κόσμο, καθώς μέσω της
διαίσθησης και της εμπειρίας καταφέρνει να διακρίνει και να ομαδοποιεί
τα πράγματα.
Όσο η εμπειρία αυξάνεται, ενισχύεται και η ικάνοτητα
κατηγοριοποίησης.
Μερικά παραδείγματα τέτοιων αλγορίθμων είναι η
αναγνώριση προσώπου, η ανάλυση της γονιδιακής αλληλουχίας, η έρευνα
37
αγοράς, η ασφάλεια στον κυβερνοχώρο κ.α.
• Ενισχυτική µάθηση (Reinforcement learning):
Το μοντέλο µαθαίνει σε ένα διαδραστικό, δυναµικό περιβάλλον, µέσω δοκιµής
και σφάλµατος, χρησιµοποιώντας ανατροφοδότηση από τις δικές του ενέργειες
και εµπειρίες.
2.3.2 Νευρωνικά Δίκτυα
Η θεωρία των νευρωνικών δικτύων έχει αναπτυχθεί εδώ και σαράντα χρόνια.
Ωστόσο, η άνθηση του συγκερκιμένου τομέα παρατηρήθηκε την τελευταία
δεκαετία, κατά την οποία η τεχνολογική ανάπτυξη κατέστησε εφικτή τη χρήση
τους σε καθημερινή βάση.
Το κύριο χαρακτηριστικό τους είναι ότι οι αρχές
λειτουργίας τους βασίζονται στο νευρικό σύστημα ζωντανών οργανισμών, αν και
η μελέτη και έρευνα έχει προχωρήσει σε πολύ πιο υψηλό επίπεδο από αυτό. Οι
επιστήμονες στην περιοχή των νευρωνικών δικτύων προέρχονται σχεδόν από όλες
τις περιοχές των φυσικών επιστημών, γεγονός που δείχνει ότι για την ανάπτυξή
τους απαιτούνται γνώσεις από πολλούς τομείς.
Οι νευρώνες αποτελούν τα δομικά στοιχεία του δικτύου.
Λειτουργούν ως
αισθητήρες που δέχονται μία πληροφορία, την επεξεργάζονται και τη μεταδίδουν
στο επόμενο στάδιο. Χωρίζονται σε νευρώνες εισόδου, εξόδου και κρυμμένους
νευρώνες.
Οι νευρώνες εισόδου δεν υλοποιούν κάποιον υπολογισμό.
Το έργο
τους είναι να δέχονται τις εισόδους απο το περιβάλλον και να τις μεταφέρουν
στο ύπολοιπο δίκτυο. Οι κρυμμένοι νευρώνες πολλαπλασιάζουν κάθε είσοδό τους
με το αντίστοιχο βάρος και υπολογίζουν το ολικό άθροισμα των γινομένων. Το
άθροισμα αυτό τροφοδοτείται ως όρισμα στη συνάρτηση ενεργοποίησης, την οποία
υλοποιεί εσωτερικά κάθε κόμβος (σχήμα 2.10. Η τιμή που λαμβάνει η συνάρτηση
για το εν λόγω όρισμα είναι και η έξοδος του νευρώνα για τις τρέχουσες εισόδους.
Όλα αυτά περιγράφονται από την παρακάτω μαθηματική σχέση:
zj = F (
d
∑
(wj,u · xu + bj ))
(2.25)
u=1
όπου w είναι τα βάρη, b η λεγόμενη πόλωση, x η είσοδος, F η συνάρτηση
ενεργοποίησης και z η έξοδος. Η συνάρτηση ενεργοποίησης καθορίζει πότε ένας
38
νευρώνας είναι ενεργοποιημένος ή απενεργοποιημένος.
Κάθε νευρώνας ενός
στρώµατος, µπορεί να συνδέεται µε όλους τους νευρώνες του προηγούµενου
και του επόµενου στρώµατος. Στην περίπτωση που αυτό ισχύει για όλους τους
νευρώνες του νευρωνικού δικτύου, το δίκτυο ονοµάζεται Πλήρως Συνδεδεµένο
(Fully Connected - FC).
Η βελτιστοποίηση και η προσαρμογή των βαρών γίνεται μέσω της επαναληπτικής
διαδικασίας ελαχιστοποίησης της συνάρτησης κόστους. Αυτή η συνάρτηση, που
αλλάζει μορφή ανάλογα με το είδος του προβλήματος, συγκρίνει τις προβλέψεις
του μοντέλου με τις επιθυμητές τιμές και μετρά το συνολικό σφάλμα. Η κύρια
μέθοδος που χρησιμοποιείται για τη βελτιστοποίηση είναι η τεχνική της απότομης
καθόδου (gradient descent) που ακολουθεί τον κανόνα :
wm = wm − α ·
∂J
∂wm
(2.26)
όπου J η συνάρτηση κόστους και α μία παράμετρος που ονομάζεται ρυθμός
εκπαίδευσης (learning rate) και ρυθμίζει το πόσο απότομες αλλαγές θα συμβαίνουν
στα βάρη.
Προκειμένου να ενημερώνονται όλα τα βάρη, χρησιμοποιείται ο
αλγόριθμος της οπισθοδιάδοσης (back propagation), ο οποίος υπολογίζει τις τιμές
των μερικών παραγώγων από εμπρός προς τα πίσω με βάση τον κανόνα της
αλυσίδας.
2.3.3 Μοντέλα Βαθιάς Μηχανικής Μάθησης
Συνελικτικό Νευρωνικό Δίκτυο (Convolution Neural Network)
Τα συνελικτικά νευρωνικά δίκτυα ξεχωρίζουν για την επίδοσή τους στην
επεξεργασία εικόνας, ήχου και λόγου. Τα κυριότερα στρώματα είναι το στρώμα
συνέλιξης (convolution layer), το στρώμα ομαδοποίησης (pooling layer) και το
πλήρως συνδεδεμένο στρώμα (fully connected layer).
• Το συνελικτικό στρώμα είναι ο πυρήνας του συγκεκριμένου μοντέλου. Yπάρχει
o ανιχνευτής χαρακτηριστικών, γνωστός και ως kernel, ο οποίος κινείται σε
συγκεκριμένα πεδία μέσα στην εικόνα (ή στην είσοδο σε κάθε περίπτωση)
αναζητώντας χαρακτηριστικά. Η διαδικασία με την οποία γίνεται αυτή η
εξαγωγή χαρακτηριστικών ονομάζεται συνέλιξη.
39
Σχήμα 2.10: Βασική δομή νευρωνικών δικτύων.⁹.
Στην περίπτωση της εικόνας, τα φίλτρα (kernels) είναι δισδιάστατοι πίνακες
βαρών, οι οποίοι ποικίλλουν σε μέγεθος, με το πιο χαρακτηριστό να είναι το
3x3. To φίλτρο εφαρμόζεται σε περιοχές της εικόνας και πραγματοποιείται
εσωτερικό γινόμενο μεταξύ των τιμών των pixel και των βαρών του φίλτρου.
Το αποτέλεσμα τροφοδοτείται στην έξοδο. Έπειτα, το φίλτρο μετακινείται
κατά ένα βήμα (stride), το οποίο επίσης μπορεί να πάρει διαφορετικές τιμές,
μέχρι να ολοκληρωθεί η διαδικασία σε όλη την εικόνα. Το τελικό αποτέλεσμα
είναι ένας νεός πίνακας, που ονομάζεται χάρτης χαρακτηριστικών (feature
map). Κατόπιν, εφαρμόζεται η συνάρτηση ενεργοποίησης relu στον χάρτη
χαρακτηριστικών, ώστε το μοντέλο να αποκτήσει μη γραμμικές ιδιότητες. Το
ένα συνελικτικό στρώμα διαδέχεται το άλλο, δημιουργώντας μια ιεραρχική
κατανομή στους χάρτες χαρακτηριστικών.
40
• Το στρώμα ομαδοποίησης έχει ρόλο υποδειγματοληψίας και στοχεύει στην
μείωση των διαστάσεων και των συνολικών παραμέτρων του μοντέλου. Όπως
και στην παρπάνω περίπτωση, πάλι ένας πίνακας (kernel) κινείται κατά μήκος
όλης της εικόνας, αλλά εδώ απλώς εφαρμόζει μία συνάρτηση συνάθροισης.
Υπάρχουν δύο κύρια είδη τέτοιας συνάρτησης:
– Max Pooling: Εδώ επιλέγεται το στοιχείο με τη μεγαλύτερη τιμή στο
παράθυρο του kernel και οδηγείται στην έξοδο.
– Average Pooling:
Εδώ υπολογίζεται ο μέσος όρος των τιμών στο
παράθυρο του kernel και οδηγείται στην έξοδο.
• Το πλήρως συνδεδεμένο στρώμα απλώς διεκπεραιώνει τη διαδικασία της
κατηγοριοποίησης, συνδέοντας το τελευταίο συνελικτικό στρώμα με νευρώνες
ίσου αριθμού με τις ετικέτες του προβλήματος.
H παραπάνω διαδικασία εύκολα μεταφέρεται και σε μονοδιάστατα σήματα
(σχήμα 2.11).
Σχήμα 2.11: Convolutional Neural Network.¹⁰.
41
Αναδρομικά Νευρωνικά Δίκτυα (Reccurent Neural Networks)
To αναδρομικό νευρωνικό δίκτυο είναι ένα είδος δικτύου, που ασχολείται με
ακολουθιακά δεδομένα ή χρονοσειρές. Ξεχωρίζουν για τη μνήμη που διαθέτουν,
καθώς η πληροφορία απο προηγούμενες εισόδους επηρέαζει τις παροντικές
εισόδους και εξόδους. Άλλη χαρακτηριστική διαφορά αυτών των δικτύων έγκειται
στο ότι μοιράζονται τις ίδιες παραμέτρους σε κάθε στρώμα, ενώ κανονικά κάθε
κόμβος έχει και τα δικά του βάρη. Σε αυτή την περίπτωση, αν και η βελτιστοποίηση
των βαρών γίνεται και πάλι με την οπισθοδιάδοση, τα λάθη αθροίζονται από στρώμα
σε στρώμα, διότι μοιράζονται τις ίδιες παραμέτρους, κάτι που δεν συμβαίνει με
την κλασική προσέγγιση. Αυτό οδηγεί σε δύο γνωστά προβλήματα, το exploding
gradient και το vanishing gradient.
Ένα απλό RNN έχει έναν ϐρόχο ανατροφοδότησης.΄Εχει τρεις τύπους στρωµάτων,
το στρώµα εισόδου x, το κρυφό στρώµα h και το στρώµα εξόδου o. Αν ξεδιπλώσουµε
αυτόν τον ϐρόχο, το RNN µπορεί να ϑεωρηθεί ότι αντιγράφει την ίδια δοµή πολλές
ϕορές και η κατάσταση h κάθε αντιγράφου λαµβάνεται ως είσοδος από τον διάδοχό
του (σχήμα 2.12 ) .
Σχήμα 2.12: Reccurent Neural Network.¹¹.
42
Χρονικό Συνελικτικό Νευρωνικό Δίκτυο (Temporal Convolution Neural Network)
Ένας συνδυασμός των προαναφερθέντων δικτύων αποτελεί το TCN [2].
Το
TCN είναι ένα δίκτυο που βασίζεται στη δομή του CNN και προσπαθεί να
πετύχει παρόμοιες λειτουργίες με το RNN. To dilated causal convolution network
αποτελεί τον πυρήνα του και περιλαμβάνει δύο σημαντικά χαρακτηριστικά.
Το ένα είναι η αιτιολογική συνέλιξη (causal convolution), η οποία εμποδίζει
τη μετάδοση πληροφορίας από το μέλλον, καθώς επιτρέπει την εξάρτηση της
παροντικής εξόδου μόνο από παρελθοντικά στοιχεία της ακολουθίας. To δεύτερο
σημαντικό χαρακτηριστικό της είναι η dilated convolution, η οποία συμβάλλει στη
διεύρυνση του δεκτικού πεδίου (receptive field) του kernel και τελικά αυξάνει την
αποτελεσματικότητα του δικτύου, μειώνοντας τον αριθμό των παραμέτρων (σχήμα
2.13 ).
Σχήμα 2.13: Reccurent Neural Network.¹²
43
Batch Normalization
Η Κανονικοποίηση του Batch είναι μία τεχνική κανονικοποίησης που εφαρμόζεται
ανάμεσα στα στρώματα και εξυπηρετεί την καλύτερη απόδοση του δικτύου ως προς
τον χρόνο και την ικανότητα μάθησης. Κάνοντας κανονικοποίηση και μεταφέροντας
τα δεδομένα στο ίδιο εύρος τιμών, σε κάθε στρώμα και όχι μόνο στην είσοδο,
η τεχνική αυτή προφανώς βελτιώνει το δίκτυο. Επιπλέον, μειώνει τη μεταβολή
της κατανομής των δεδομένων κατά μήκος των διαφορετικών στρωμάτων, που
συμβαίνει λόγω των αμέτρητων υπολογισμών (internal covariate shift).
Residual Neural Network
Το ResNet χρησιμοποιεί παραλείψεις συνδέσεων μεταξύ των στρωμάτων (σχήμα
2.14). O λόγος που οδήγησε τους επιστήμονες [16] στην ανακάλυψή του ήταν η
παρατήρηση του κορεσμού των μετρικών απόδοσης με την αύξηση του βάθους του
νευρωνικού δικτύου, γεγονός το οποίο δεν οφειλόταν σε υπερ-προσαρμογή των
παραμέτρων, και έτσι το απέδωσαν στην ικανότητα βελτιστοποίησης του δικτύου.
Υπέθεσαν ότι, αν κάποια στρώματα μαθαίνουν μία συνάρτηση, τότε, αν στα ίδια
προσθέσουμε κάποια επιπλέον, τα οποία θα μαθαίνουν την ταυτοτική συνάρτηση,
θα έχουμε καλύτερες ή ίσες μετρικές με το προηγούμενο σενάριο.
Το μοντέλο αυτό βοηθάει στην επίλυση του προβλήματος του vanishing gradient, καθώς, κατά την οπισθοδιάδοση, το gradient δεν επηρεάζεται από όλες
τις συναρτήσεις ενεργοποίησης και δεν πολλαπλασιάζεται με όλους τους πίνακες
βαρών, με αποτέλεσμα να γίνεται ευκολότερη η διαδικασία βελτιστοποίησης.
2.4 Μετρικές Αξιολόγησης
• Πίνακας Σύγχυσης (Confusion Matrix)
O Πίνακας Σύγχυσης είναι ένας πίνακας που οπτικοποιεί την απόδοση ενός
αλγορίθμου μηχανικής μάθησης και κυρίως ενός προβλήματος επιβλεπόμενης
μάθησης. Ο αριθμός των διαστάσεων ισούται με τον αριθμό των ετικετών
κατηγοριοποίησης.
Κάθε γραμμή του πίνακα αναπαριστά τις επιθυμητές
τιμές, ενώ κάθε στήλη τις προβλεπόμενες.
44
Σχήμα 2.14: Residual Neural Network.¹³.
– True Positives (T P ): αριθµός παραδειγµάτων της ϑετικής κλάσης που
προϐλέφθηκαν σωστά.
– False Positives (F P ): αριθµός παραδειγµάτων της αρνητικής κλάσης που
λανϑασµένα προβλέφθηκαν ως ϑετικής.
– False Negatives (F N ): αριθµός παραδειγµάτων της ϑετικής κλάσης που
λανϑασµένα προβλέφθηκαν ως αρνητικής.
– True Negatives (T N ): αριθµός παραδειγµάτων της αρνητικής κλάσης που
προβλέφθηκαν σωστά.
• Η µετρική Precision εκφράζει τον λόγο του συνόλου των σωστών ϑετικών
προβλέψεων προς τον συνολικό αριθµό των ϑετικών προβλέψεων.
P recision =
TP
TP + FP
(2.27)
• Η µετρική Recall εκφράζει τον λόγο του συνόλου των σωστών ϑετικών
προβλέψεων προς τον συνολικό αριθµό των ϑετικών ετικετών.
Recall =
TP
TP + FN
(2.28)
45
Σχήμα 2.15: Confusion Matrix.¹⁴.
• Η µετρική F1 εκφράζει τον αρµονικό µέσο όρο των µετρικών Precision και
Recall.
F 1 − score = 2 ·
P recision · Recall
P recision + Recall
(2.29)
46
Κεφάλαιο 3
Υλικά και μέθοδοι
3.1 Δεδομένα
Τα δεδομένα που χρησιμοποιήθηκαν, συλλέχθηκαν από την πηγή ”A large scale
12-lead electrocardiogram database for arrythmia study” του PhysioNet [17].
H καταγραφή και η συλλογή των δεδομένων από την επιστημονική ομάδα
αναπτύχθηκε σε πέντε στάδια.
Πρώτα, κάθε υποκείμενο του πειράματος
υποβλήθηκε σε μία δωδεκάλεπτη εξέταση ECG, που διήρκεσε 10 s. Τα δεδομένα
αυτά αποθηκεύτηκαν στο σύστημα GE MUSE ECG. Έπειτα, ένας γιατρός
αναγνώρισε τους καρδιακούς ρυθμούς, καθώς και άλλες καρδιακές συνθήκες.
Επίσης, ένας άλλος γιατρός έκανε τους δικούς του σχολιασμούς και, αν υπήρχε
απόκλιση μεταξύ τους, τότε ένας τρίτος γιατρός έπαιρνε την τελική απόφαση. Οι
διαγνώσεις αποθηκεύτηκαν και αυτές στο GE MUSE ECG. Τελικά, τα δεδομένα
αυτά μετατράπηκαν σε WFDB format.
To WFDB format αποτελείται απο δύο αρχεία, ένα αρχείο Matlab που περιέχει
δυαδικά δεδομένα του ECG και ένα αρχείο κεφαλίδας (header), που περιέχει
πληροφορίες για την απαγωγή του ECG, την ηλικία, το φύλο και τις διαγνώσεις
των γιατρών.
Η βάση δεδομένων περιέχει συνολικά καταγραφές από 45, 152 ασθενείς.
Ο
αριθμός των βολτ του κάθε bit του Αναλογικού/Ψηφιακού μετατροπέα είναι 4.88
και ο μετατροπέας έχει 32-bit ανάλυση. Η μονάδα του μεγέθους είναι τα μικροβόλτ
και η συχνότητα δειγματοληψίας είναι τα 500Hz.
Στη συγκεκριμένη εργασία, o αριθμός των δειγμάτων που χρησιμοποιήθηκαν
είναι 8.700, οπότε η ανάλυση που ακολουθεί θα πραγματοποιηθεί σε ένα υποσύνολο
47
της παραπάνω βάσης δεδομένων. Επίσης, κάποιοι ρυθμοί με όμοια χαρακτηριστικά
έχουν συγχωνευτεί σε τρεις μεγαλύτερες κατηγορίες. Συγκεκριμένα, η κατηγορία
SB περιέχει την φλεβοκομβική βραδυκαρδία (sinus bradycardia), η κατηγορία AFIB
περιέχει την κολπική μαρμαρυγή (atrial fibrillation) και τον κολπικό πτερυγισμό
(atrial flutter) και, τέλος, η κατηγορία (SR) περιέχει τις sinus rythm και sinus irregularity.
3.2 Προεπεξεργασία
Οι αρχικές καταγραφές ECG των 10s υποβλήθηκαν σε διαδικασία προεπεξεργασίας.
Συγκεκριμένα, μετά από φασματική ανάλυση διαπιστώθηκε ότι τo φασματικό
τους περιεχόμενο ήταν συγκεντρωμένο στο συχνοτικό εύρος [0 − 50 Ηz] και έτσι
χρησιμοποιήθηκε ένα low-pass Βutterworth φίλτρο με συχνότητα αποκοπής τα 50
Hz. Επίσης, για την καλύτερη αποτελεσματικότητα του νευρωνικού δικτύου, μετά
την αποσύνθεση του αρχικού σήματος σε ρυθμούς, κάθε ρυθμός κάθε καναλιού
κανονικοποιήθηκε με βάση την τυπική απόκλιση και τη μέση τιμή του.
3.3 Αποσύνθεση του 12‐κάναλου ΗΚΓ σε ρυθμούς μέσω του
αλγορίθμου Multivariate Swarm Decomposition
H αποσύνθεση του ΗΚΓ σε ρυθμούς έγινε μέσω του αλγορίθμου Multivariate Swarm
Decomposition. Ως είσοδος στον αλγόριθμο χρησιμοποιείται το 12-κάναλο σήμα
ΗΚΓ, ενώ η κεντρική συχνότητα, που εντοπίζεται σε κάθε επανάληψη και δίνει τις
παραμέτρους Μ και δ του αλγορίθμου Swarm Filtering, υπολογίζεται σύμφωνα με
τις σχέσεις 2.23 και 2.24. Έτσι, κάθε ρυθμός κάθε καναλιού χρησιμοποιεί φασματική
πληροφορία από όλα τα υπόλοιπα κανάλια. H παράμετρος Pth ρυθμίστηκε στα 0.15,
που σημαίνει πως κανένας ρυθμός δεν ανιχνεύεται με φασματική πυκνότητα ισχύος
κάτω από αυτό το κατώφλι. Από τους ρυθμούς που εξήχθησαν, αποθηκεύτηκαν οι
πρώτοι δέκα. Ωστόσο, δεν υπήρχε φασματική ταξινόμηση ανάμεσά τους. Έτσι,
υπολογίστηκε η φασματική πυκνότητα ισχύος κάθε ρυθμού κάθε καναλιού και
εντοπίστηκε το μέγιστό της, ωστέ να καταταχθούν οι ρυθμοί από τους συχνοτικά
χαμηλότερους προς τους συχνοτικά υψηλότερους για κάθε κανάλι.
Παρακάτω, παρουσιάζεται η ανάλυση αυτή για μία από τις τρεις κατηγορίες
48
(afib).
Η απεικόνιση θα γίνει για το κανάλι 2, καθώς δεν υπάρχει σημαντική
φασματική διαφορά μεταξύ των καναλιών.Ωστόσο, η ίδια διαδικασία ακολουθείται
για κάθε κανάλι.
Οι ρυθμοί παρουσιάζονται απο τον χαμηλότερο προς τον
υψηλότερο φασματικά.
Σχήμα 3.1: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 0.97 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
Σχήμα 3.2: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 4.88 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
49
Σχήμα 3.3: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 6.83 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
Σχήμα 3.4: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας και πάλι στα 6.83 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού
του ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
50
Σχήμα 3.5: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον
ρυθμό με μέγιστο φασματικής πυκνότητας στα 11.7 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού
του ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
Σχήμα 3.6: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 17.57 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
51
Σχήμα 3.7: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 21.48 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
Σχήμα 3.8: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 28.32 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
52
Σχήμα 3.9: Από πάνω προς τα κάτω βλέπουμε: α) Το αρχικό σήμα ECG στο κανάλι 2, β) τον ρυθμό
με μέγιστο φασματικής πυκνότητας στα 31.25 Hz, γ) τη φασματική πυκνότητα ισχύος αυτού του
ρυθμού και δ) τη φασματική πυκνότητα ισχύος του αρχικού ECG.
Το σημαντικό βιολογικά φασματικό περιεχόμενο εντοπίζεται στις συχνότητες
0.5−11Ηz. Συγκεκριμένα, στο 1Ηz συναντάται συνήθως το φάσμα του φυσιολογικού
παλμού της καρδιάς (περίπου 60 χτύποι το λεπτό). Στα 4 Hz συναντάται το φάσμα
του κύματος T, ενώ στα 7 Hz βρίσκεται αυτό του κύματος P. Τέλος, η πληροφορία του
QRS συναντάται συνήθως στα 10 Hz. Τα παραπάνω ισχύουν για ένα φυσιολογικό
παλμό χωρίς προσθήκη θορύβου.
Στις παραπάνω γραφικές απεικονίσεις παρατηρείται πως ο πρώτος ρυθμός
περιλαμβάνει το φυσιολογικό παλμό της καρδιάς στα 0.9 Hz. O ρυθμός στα 4.8Ηz
εμφανίζει την πληροφορία του Τ κύματος, ενώ ο ρυθμός στα 11.7 Hz έχει την
πληροφορία του QRS. To P κύμα δεν είναι εμφανές στο συγκεκριμένο ΗΚΓ. Βέβαια,
υπάρχει και επικάλυψη πληροφορίας μεταξύ αυτών των ρυθμών.
3.4 Αποθορυβοποίηση του ΗΚΓ μέσω του αλγορίθμου Multivari‐
ate Swarm Decomposition και Non Local Means
Όπως διαπιστώθηκε παραπάνω, το 12-κάναλο ΗΚΓ αναλύεται με την μέθοδο Multivariate Swarm Decomposition και κάθε κανάλι αποσυντίθεται σε 10 ρυθμούς.
Ωστόσο, κάθε κανάλι περιέχει και θόρυβο, ο οποίος πρέπει να απομακρυνθεί.Στην
συνέχεια, περιγράφεται μια διαδικασία αποθορυβοποίησης που χρησιμοποιεί τους
53
εξαγόμενους ρυθμούς.
Η πληροφορία του baseline wonder εντοπίζεται κυρίως στους πρώτους δύο
ρυθμούς. Ωστόσο, εκεί συνυπάρχει και με άλλη φασματική πληροφορία, που ίσως
είναι χρήσιμη.
Έτσι, χρησιμοποιείται ένα φίλτρο butterworth με παραμέτρους
f p = 0.9, f s = 1 ,rp = 9.5 και rs = 14, καθώς σε αυτή τη φασματική περιοχή
βρίσκεται το πιο έντονο κομμάτι του baseline wonder. Το φίλτρο αυτό εφαρμόζεται
στους πρώτους δύο ρυθμους. Οι δύο φιλτραρισμένοι ρυθμοί προστίθενται μεταξύ
τους και αφαιρούνται αργότερα από το τελικό σήμα, ώστε να απαλλαγεί από το
είδος θορύβου που αναφέραμε.
Η εξάλειψη του θορύβου των γραμμών τροφοδοσίας, αλλά και άλλων
υψηλόσυχνων θορύβων (50hz και πάνω), γίνεται με την επιλογή μόνο των
ρυθμών εικείνων, που τα φάσματά τους παρουσιάζουν κορυφή κάτω από τα 40
Hz. Έτσι, το ΗΚΓ επανασυντίθεται από τους επιλεγμένους ρυθμούς και έπειτα
αφαιρείται το baseline wonder από το επανασυντιθέμενο σήμα.
Τέλος, το σήμα διοχετεύεται σε ένα τελευταίο στάδιο αποθορυβοποίησης,
στο οποίο εφαρμόζεται ο αλγόριθμος No Local Means. O αλγόριθμος No Local
Means αποσκοπεί στη διατήρηση των επαναλαμβανόμενων δομών στα σήματα.
Επανακατασκευάζει το αρχικό σήμα, προσθέτοντας όλα τα σημεία υπό την επήρεια
κάποιων βαρών και έπειτα παίρνοντας τον μέσο όρο τους. Τα βάρη καθορίζονται
από ένα μέτρο ομοιότητας μεταξύ των σημείων του σήματος.
∑
w(i, j) = exp −
S(i) =
δϵ∆ [D(i + δ) − D(j + δ)]
2Λ∆ λ2
∑
1
·
w(i, j)D(j)
Z(i)
2
(3.1)
(3.2)
jϵN (i)
Η συγκεκριμένη εφαρμογή του αλγορίθμου βασίζεται στην εκδοχή του Darbon
[18] , που τον έκανε πολύ πιο γρήγορο χρησιμοποιώντας vectorization και παράλληλο
προγραμματισμό. Παρακάτω, παρατίθενται δύο ΗΚΓ (afib και sb) μετά το πέρασμά
τους από τα παραπάνω στάδια αποθορυβοποίησης. Και σε αυτή τη περίπτωση η
απεικόνιση γίνεται μόνο για το κανάλι δύο, αλλά η ίδια διαδικασία εφαρμόζεται
και σε όλα τα υπόλοιπα κανάλια.
54
Aποθορυβοποίηση του ΗΚΓ με afib αρρυθμία.
Στο σχήμα 3.10 βλέπουμε την κατάσταση του σήματος πριν την διαδικασία
της αποθορυβοποίησης.
Ο υπολογισμός του baseline wonder γίνεται μέσω του
φιλτραρίσματος (σχήμα 3.11) του πρώτου ρυθμού (σχήμα 3.12).
Σε αυτή την
περίπτωση, ο δεύτερος ρυθμός δεν περιλαμβάνει πληροφορία του baseline wonder,
οπότε η συνεισφορά του στον υπολογισμό του είναι ελάχιστη (σχήμα 3.13). Tέλος,
μετά την αφαίρεση του baseline wonder και την ανακατασκευή του σήματος από
τους επιλεγμένους ρυθμούς, εφαρμόζεται και ο αλγόριθμος No Local Means, και το
αποτέλεσμα φαίνεται στο παρακάτω σχήμα (3.14).
Σχήμα 3.10: Το ΗΚΓ πριν την διαδικασία αποθορυβοποίησης.
55
Σχήμα 3.11: To baseline wonder που αντλήσαμε από τον ρυθμό 1.
Σχήμα 3.12: O πρώτος ρυθμός.
Aποθορυβοποίηση του ΗΚΓ με sb αρρυθμία.
H παραπάνω διαδικασία επαναλαμβάνεται στην περίπτωση ΗΚΓ με sb αρρυθμία.
Στο σχήμα 3.15 βλέπουμε την αρχική μορφή του σήματος. Έπειτα, μετά από την
αφαίρεση του baseline που προκύπτει από το φιλτράρισμα (σχήμα 3.16) του πρώτου
ρυθμού (σχήμα 3.17) και από το φιλτράρισμα (σχήμα 3.18) του δεύτερου ρυθμού
56
Σχήμα 3.13: To baseline wonder που αντλήσαμε από τον ρυθμό 2.
Σχήμα 3.14: Το σήμα μετά από όλα τα στάδια αποθορυβοποίησης.
(σχήμα 3.19), το σήμα εισάγεται στον αλγόριθμο Non Local Means και αποκτά την
τελική μορφή, που απεικονίζεται στο σχήμα 3.20.
57
Σχήμα 3.15: Το αρχικό σήμα.
Σχήμα 3.16: To baseline wonder που αντλήσαμε από τον πρώτο ρυθμό.
58
Σχήμα 3.17: O πρώτος ρυθμός.
Σχήμα 3.18: To baseline wonder που αντλήσαμε από τον δεύτερο ρυθμό.
59
Σχήμα 3.19: Ο δεύτερος ρυθμός.
Σχήμα 3.20: Το σήμα μετά από όλα τα στάδια αποθορυβοποίησης.
60
3.5 Το μοντέλο Βαθιάς Μάθησης
Μέχρι προσφάτως, τα ακολουθιακά δεδομένα μοντελοποιούνταν και αναλύονταν
με τη χρήση δικτύων όπως LSTM, RNN. Εντούτοις, τα προβλήματα που απέρρεαν
από αυτά, όπως το exploding ή vansishing gradient, οδήγησαν στην ανάπτυξη ενός
νέου δικτύου, του TCN. Mε την εισαγωγή αυτού του μοντέλου, αντιμετωπίστηκε
η αδυναμία εκμάθησης βαρών από πολύ παρελθοντικές τιμές του σήματος. Το
TCN είναι convolutional neural network, το οποίο όμως χαρακτηρίζεται από
αιτιότητα, καθώς δεν μπορεί να χρησιμοποιήσει μελλοντικές τιμές στην διαδικασία
της συνέλιξης. Επιπλέον, με την εισαγωγή του dilation και την αλληλουχία από
μπλοκ, έχει αυξηθεί το «οπτικό» πεδίο του δικτύου, ενώ παράλληλα χρησιμοποιεί
λιγότερες παραμέτρους σε σχέση με άλλα.
Το μοντέλο που χρησιμοποιήθηκε σε αυτή την εργασία δέχεται ως είσοδο τα 12κάναλα, αποθορυβοποιημένα ΗΚΓ των τριών κατηγοριών (afib, sb , sr). Αποτελείται
απο τέσσερα residual blocks και ένα fully connected layer, το οποίο συνδέεται τις
τρεις κατηγορίες αρρυθμιών. Το κάθε μπλοκ χωρίζεται σε δύο μέρη και έχει την
εξής δομή:
• Pad1 Layer: Κάνει padding στη μία πλευρά του σήματος (αριστερή), καθώς
αυτό είναι απαραίτητο για να δημιουργηθεί η αιτιότητα.
• Conv1 Layer: Σε αυτό το layer γίνεται η συνέλιξη του σήματος. Οι παράμετροι
που χρησιμοποιούνται είναι F t κανάλια , Kt kernel size και dilation = 2i , όπου
i είναι ο αριθμός των μπλοκ (ξεκινώντας από 0).
• ΒatchNorm1 Layer:
Αυτό το layer πραγματοποιεί κανονικοποιήση των
δεδομένων σε επίπεδο batch, καθώς έχει αποδειχθεί πως αυξάνει την
αποτελεσματικότητα του δικτύου.
• Αct1 Layer: Εδώ μια συνάρτηση Relu εισάγει μη γραμμικότητα στο δίκτυο.
Η δομή αυτή συνεχίζεται και στο δεύτερο μισό του μπλοκ και αποτελεί
αντιγραφή του πρώτου μισού. Έτσι, έχουμε τα ακόλουθα layers:
• Pad2 Layer
• Conv2 Layer, με ίδιες παραμέτρους.
61
• ΒatchNorm2 Layer
• Αct2 Layer
Στην είσοδο του δικτύου τοποθετείται ένα εισαγωγικό convolution layer, το οποίο
αυξάνει τον αριθμό των καναλιών από 12 σε 36, χρησιμοποιώντας φίλτρα με kernel
size=Kt.
Τέλος, πριν το πρώτο μπλοκ, γίνεται επίσης μια 1x1 συνέλιξη, και ο αριθμός
των καναλιών που εισάγεται στην αλληλουχία των μπλοκ είναι F t. H είσοδος κάθε
μπλοκ αποτελείται από το άθροισμα της εισόδου του προηγούμενου μπλοκ με την
έξοδο του προηγούμενου μπλοκ. Αυτό συνεισφέρει στην καταπολέμηση του exploding gradient.
Ο optimizer που χρησιμοποιήθηκε είναι ο Adam και η συνάρτηση σφάλματος
είναι η Cross Entropy Loss, που είναι ιδανική για προβληματα κατηγοριοποίησης.
O ρυθμός εκμάθησης (learning rate) προσαρμόστηκε μέσω ενός αρχικού σταδίου
προεκπαίδευσης, όπου, ξεκινώντας από πολύ μικρές τιμές και σταδιακά αυξάνοντάς
τες, υπολογίζεται κάθε φορα το loss. Από το σχήμα 3.21, ορίζεται η τιμή του
στα 10−5 .
Ο αριθμός των εποχών ορίστηκε στις 20, καθώς εκεί φάνηκε πως
βελτιστοποιείται το δίκτυο, και ο αριθμός των batches ορίστηκε στα 10. Παρακάτω
παρουσιάζονται κάποια πειράματα που έγιναν για τον καθορισμό των παραμέτρων
Kt και F t.
3.6 Πειράματα για τον προσδιορισμό των παραμέτρων του
μοντέλου βαθιάς μάθησης.
Προκειμένου να καθοριστούν οι παράμετροι Kt (μέγεθος kernel) και Ft (αριθμός
φίλτρων), έγιναν τα ακόλουθα πειράματα, με την εφαρμογή της μεθοδολογίας kfold-validation σε ένα σύνολο 7500 12-κάναλων καρδιογραφημάτων (2500 για κάθε
μία από τις κατηγορίες αρρυθμιών atrial fibrillation, sinus bradycardia, sinus rythm)
• Πρώτο Πείραμα : Kt = 20, Ft = 20
Τα αποτελέσματα των μετρικών val loss, για κάθε fold και για 20 εποχές,
φαίνονται στα παρακάτω διαγράμματα (σχήμα 3.22). Στην περίπτωση αυτή,
62
Σχήμα 3.21: Διαδικασία καθορισμού του βέλτιστου ρυθμού εκμάθησης (learning rate).
μετά απο 20 εποχές, το val loss κυμαίνεται γύρω στο 0.2, ενώ για το accuracy
ισχύει:
Fold 0
82.02%
Fold 1
82.83%
Fold 2
82.27%
Fold 3
84.08%
Fold 4
85.28%
Average
83.29%
• Δεύτερο Πείραμα : Kt = 40, Ft = 40
Τα αποτελέσματα των μετρικών val loss, για κάθε fold και για 20 εποχές,
φαίνονται στα παρακάτω διαγράμματα (σχήμα 3.23).
Εδώ, μετά από 20
εποχές, το val loss κυμαίνεται γύρω στο 0.12, ενώ για το accuracy ισχύει:
63
Fold 0
93.52%
Fold 1
93.47%
Fold 2
91.22%
Fold 3
91.83%
Fold 4
93.51%
Average
92.71%
• Τρίτο Πείραμα : Kt = 60, Ft = 60
Τέλος, σε αυτό το πείραμα, τα αποτελέσματα των μετρικών val loss, για κάθε
fold και για 20 εποχές, φαίνονται στα παρακάτω διαγράμματα (σχήμα 3.24).
Εδώ, μετά από 20 εποχές, το val loss κυμαίνεται γύρω στο 0.09, ενώ για το
accuracy ισχύει:
Fold 0
94.79%
Fold 1
94.93%
Fold 2
94.41%
Fold 3
94.25%
Fold 4
94.99%
Average
94.67%
Στο πρώτο πείραμα, βλέπουμε πως το val loss μειώνεται σχετικά ομαλά, αλλά
φτάνει μέχρι το 0.2, ενώ οι μετρικές val accuracy δεν είναι τόσο ικανοποιητικές.
Έτσι, ακυρώνεται η επιλογή παράμετρων Kt = 20 και F t = 20.
Μεταξύ των
άλλων δύο πειραμάτων, παρατηρούμε ότι η μετρική val loss μειώνεται πιο ομαλά
στο δεύτερο πείραμα, ωστόσο φτάνει σε ελάχιστη τιμή στο τρίτο πείραμα.
Άλλα πειράματα με παραμέτρους μεγαλύτερους από Kt = 60, F t = 60 δεν
πραγματοποιήθηκαν, διότι αυξάνονταν σημαντικά ο αριθμός των παραμέτρων του
μοντέλου χωρίς ιδιαίτερη αλλαγή στα αποτελέσματα.
Τελικά, ως μοντέλο επιλέγεται εκείνο της εποχής με την ελάχιστη μετρική val
loss ανάμεσα σε όλες τις εποχές και όλα τα folds, στο τρίτο πείραμα (Kt = 60, F t =
60). Αυτό ”επιτρέπεται”, καθώς η διαδικασία της εκπαίδευσης δεν αντιμετώπισε
πρόβλημα υπερπροσαρμογής σε ένα συγκεκριμένο μέρος του συνόλου δεδομένων,
όπως φανερώνουν και οι μετρικές που εξήχθησαν από την μέθοδο k-fold-validation.
64
(β)
(α)
(δ)
(γ)
(ε)
Σχήμα 3.22: (α) Val Loss-Fold 0, (β) Val Loss-Fold 1, (γ)Val Loss-Fold 2, (δ)Val Loss-Fold 3, (ε)Val
Loss-Fold 4
(α)
(β)
(γ)
(δ)
(ε)
Σχήμα 3.23: (α)Vall Loss-Fold 0, (β)Vall Loss-Fold 1, (γ)Vall Loss-Fold 2, (δ)Vall Loss-Fold 3, (ε)Vall
Loss-Fold 4
65
(α)
(β)
(δ)
(ε)
(γ)
Σχήμα 3.24: (α)Vall Loss-Fold 0, (β)Vall Loss-Fold 1, (γ)Vall Loss-Fold 2, (δ)Vall Loss-Fold 3, (ε)Vall
Loss-Fold 4
66
Κεφάλαιο 4
Αποτελέσματα
Το μοντέλο που προέκυψε εφαρμόστηκε για προβλέψεις σε ένα άλλο test set,
που αποτελείται από 1200 δείγματα (400 για κάθε κατηγορία αρρυθμίας).
Tα
αποτελέσματα ήταν τα εξής:
test loss: 0.099929,
test accuracy: 97.833
Στο σχήμα 4.1, φαίνεται ο confusion matrix για το τελευταίο test set.
Παρατηρούμε ότι οι λανθασμένες προβλέψεις συγκεντρώνονται ανάμεσα στις
κατηγορίες Sr και Sb, κάτι που είναι λογικό, καθώς το κριτήριο που τις διαχωρίζει
είναι ο καρδιακός παλμός να είναι κάτω από τα 60 για το Sb. Συνεπώς, όταν
βρίσκονται στο όριο (+-60), είναι εύκολο να γίνουν λάθη.
Επίσης, παρουσιάζονται οι καμπύλες ROC. Στο σχήμα 4.2, φαίνεται η καμπύλη
ROC της κατηγορίας afib σε σχέση με τις άλλες δύο. Στο σχήμα 4.3, φαίνεται η
καμπύλη ROC της κατηγορίας sb σε σχέση με τις άλλες δύο. Τέλος, στο σχήμα 4.4,
φαίνεται η καμπύλη ROC της κατηγορίας sr σε σχέση με τις άλλες δύο.
67
Σχήμα 4.1: Πίνακας σύγχυσης (Confusion Matrix) για το test set που αποτελείται από 1200 δείγματα.
Σχήμα 4.2: ROC καμπύλη afib vs other.
68
Σχήμα 4.3: ROC καμπύλη sb vs other.
Σχήμα 4.4: ROC καμπύλη sr vs other.
69
Κεφάλαιο 5
Συμπεράσματα
5.1 Συγκρίσεις με άλλα μοντέλα
Αρχικά, θα αναφέρω μερικές άλλες αξιόλογες προσπάθειες αποθορυβοποίησης.
Οι Weng, Blanco και Barner στο [19], στην προσπάθειά τους να εξαλείψουν τον
υψηλόσυχνο θόρυβο, χρησιμοποίησαν την μέθοδο EMD για την αποσύνθεση του
ECG. Καθώς οι πρώτοι ρυθμοί στον EMD είναι αυτοί που περιέχουν τις υψηλές
συχνότητες, επικεντρώθηκαν σε αυτούς. Ωστόσο, η απευθείας απομάκρυνσή τους
δεν είναι δυνατή, διότι περιέχουν και πληροφορίες του QRS διαστήματος. Συνεπώς,
χρησιμοποίησαν ένα tukey window σε κάθε ρυθμό, ώστε να διατηρήσουν το QRS
διάστημα.
Η επίπεδη περιοχή αυτού του παραθύρου προσαρμόζεται σε κάθε
ρυθμό, καθώς, όσο κατεβαίνουμε σε ρυθμούς, τόσο διευρύνεται το QRS διάστημα.
Έπειτα, για να εντοπίσουν τον αληθινό θόρυβο, στηρίχτηκαν στην παραδοχή ότι
είναι ένα σήμα μηδενικής μέσης τιμής. Έτσι, χρησιμοποιώντας ένα t-test, είδαν
ποιος από τους ρυθμούς ήταν μολυσμένος. Τελικά, το φιλτράρισμα ολοκληρώθηκε
ανακατασκευάζοντας το σήμα, με τους ρυθμούς που εντοπίστηκαν ως μολυσμένοι
από θόρυβο να πολλαπλασιάζονται με το παράθυρο.
Οι Paul και Mitra [20] εισήγαγαν έναν αποτελεσματικό τρόπο αφαίρεσης του
baseline wonder μέσω του EMD. Συγκεκριμένα, χώρισαν το σήμα σε υποσύνολα.
Στο τέλος κάθε υποσυνόλου, υπολόγισαν δύο σημεία (στο ίδιο τμήμα για κάθε
υποσύνολο). Ένωσαν αυτά τα σημεία, δημιουργώντας μια καμπύλη, και υπολόγισαν
την κλίση της. Στη συνέχεια, προσέθεσαν όλες τις κλίσεις, ορίζοντας την παγκόσμια
κλίση. Σε κάθε διαδοχικό βήμα, λοιπόν, αφαιρούν και έναν ρυθμό (ξεκινώντας από
το τέλος, καθώς οι τελευταίοι περιέχουν τις χαμηλές συχνότητες) και παρατηρούν
70
την παγκόσμια κλίση. Όταν αυτή φτάσει σε ελάχιστο, σημαίνει πως όλοι οι ρυθμοί
που περιείχαν πληροφορία του baseline wonder έχουν αφαιρεθεί αποτελεσματικά.
Οι Singh και Pradhan [21] χρησιμοποίησαν μία άλλη τεχνική, τον αλγόριθμο
VMD. Ειδικότερα, χρησιμοποίησαν τον VMD, για να αποσυνθέσουν το ΗΚΓ σε
ρυθμούς. Κατόπιν, το χώρισαν σε χαμηλές και υψηλές συχνότητες και εφάρμοσαν
τον Non Local Means για τις χαμηλές και τον Wavelet Decomposition για τις υψηλές,
ως δεύτερο στάδιο αποθορυβοποίησης.
Όλες αυτές οι τεχνικές, όπως και η μέθοδος που ανέπτυξα σε αυτή την εργασία,
έχουν ως κύριο πυλώνα μεθόδους που αποσυνθέτουν το σήμα με βάση τη φύση του
και τις μη στατικές ιδιότητες του, και δίνουν εξαιρετικά αποτελέσματα.
Όσον αφορά τον συνδυασμό τέτοιων αλγορίθμων με τη μηχανική μάθηση και
το classification των αρρυθμιών, στο [22] , οι επιστήμονες πέτυχαν 99.9 % accuracy
στο MIT-DATABASE, χρησιμοποιώντας τον συνδυασμό της μεθόδου CEMDAN και
ενός νευρωνιικού δικτύου. Η Raju [23] πέτυχε 98.31 % accuracy σε έξι αρρυθμίες,
εφαρμόζοντας τεχνικές όπως ο EMD και Local Fractal Dimension.
5.2 Σχόλια και μελλοντικές προεκτάσεις
Σε αυτή την εργασία, δόθηκε έμφαση κυρίως στην εφαρμογή του μοντέλου Multivariate Swarm Decomposition στο ΗΚΓ και στη διαχείριση των ρυθμών του, ώστε
να απαλλαγεί το σήμα από τον θόρυβο, κάτι το οποίο διεκπεραιώθηκε με μεγάλη
επιτυχία. Ωστόσο,αν και το μοντέλο βαθιάς μάθησης που επιλέχθηκε είναι πολύ
αποτελεσματικό ,όπως αποδείχθηκε, στην επεξεργασία σημάτων χρόνου, και με
σωστό καθορισμό των παραμέτρων του μπορεί να εντοπίσει τα χαρακτηριστικά
του ΗΚΓ με μεγάλη λεπτομέρια, πρέπει να δοκιμαστεί και σε μεγαλύτερα datasets
από το συγκεκριμένο. Επίσης, προτείνεται η επέκταση της εφαρμογής του Swarm
Decompostion και Swarm Intelligence και σε άλλα βιοϊατρικά σήματα, καθώς είναι
ιδιαίτερα ελπιδοφόρος τομέας αλγορίθμων.
71
Βιβλιογραφία
[1] Georgios K Apostolidis and Leontios J Hadjileontiadis. Swarm decomposition:
A novel signal analysis using swarm intelligence. Signal Processing, 132:40–50,
2017.
[2] Ashutosh Pandey and DeLiang Wang. Tcnn: Temporal convolutional neural
network for real-time speech enhancement in the time domain. In ICASSP
2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), pages 6875–6879. IEEE, 2019.
[3] Jiapu Pan and Willis J Tompkins. A real-time qrs detection algorithm. IEEE
transactions on biomedical engineering, (3):230–236, 1985.
[4] Francisco Castells, Pablo Laguna, Leif Sörnmo, Andreas Bollmann, and José Millet Roig. Principal component analysis in ecg signal processing. EURASIP Journal
on Advances in Signal Processing, 2007:1–21, 2007.
[5] Ashish Kumar, Ramana Ranganatham, Rama Komaragiri, and Manjeet Kumar. Efficient qrs complex detection algorithm based on fast fourier transform.
Biomedical engineering letters, 9:145–151, 2019.
[6] Nopadol Uchaipichat and Sakonthawat Inban. Development of qrs detection
using short-time fourier transform based technique. Int. J. Comput. Appl, 8:7–
10, 2010.
[7] Cuiwei Li, Chongxun Zheng, and Changfeng Tai. Detection of ecg characteristic
points using wavelet transforms. IEEE Transactions on biomedical Engineering,
42(1):21–28, 1995.
[8] JS Sahambi, SN Tandon, and RKP Bhatt. Using wavelet transforms for ecg
72
characterization. an on-line digital signal processing system. IEEE Engineering
in Medicine and Biology Magazine, 16(1):77–83, 1997.
[9] SZ Mahmoodabadi, Alireza Ahmadian, and MD Abolhasani. Ecg feature extraction using daubechies wavelets. In Proceedings of the fifth IASTED International
conference on Visualization, Imaging and Image Processing, pages 343–348, 2005.
[10] Manuel Blanco-Velasco, Binwei Weng, and Kenneth E Barner. Ecg signal denoising and baseline wander correction based on the empirical mode decomposition. Computers in biology and medicine, 38(1):1–13, 2008.
[11] Konstantin Dragomiretskiy and Dominique Zosso. Variational mode decomposition. IEEE transactions on signal processing, 62(3):531–544, 2013.
[12] James Kennedy. Swarm intelligence. Springer, 2006.
[13] James Kennedy and Russell Eberhart. Particle swarm optimization. In Proceedings of ICNN’95-international conference on neural networks, volume 4, pages
1942–1948. IEEE, 1995.
[14] John H Holland. Genetic algorithms. Scientific american, 267(1):66–73, 1992.
[15] Ronald W Schafer. What is a savitzky-golay filter?[lecture notes]. IEEE Signal
processing magazine, 28(4):111–117, 2011.
[16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision
and pattern recognition, pages 770–778, 2016.
[17] J Zheng, H Guo, and H Chu. A large scale 12-lead electrocardiogram database
for arrhythmia study. 2022.
[18] Jérôme Darbon, Alexandre Cunha, Tony F Chan, Stanley Osher, and Grant J
Jensen. Fast nonlocal filtering applied to electron cryomicroscopy. In 2008 5th
IEEE International Symposium on biomedical imaging: from nano to macro, pages
1331–1334. IEEE, 2008.
73
[19] Binwei Weng, Manuel Blanco-Velasco, and Kenneth E Barner. Ecg denoising
based on the empirical mode decomposition. In 2006 international conference of
the IEEE engineering in medicine and biology society, pages 1–4. IEEE, 2006.
[20] Saurabh Pal and Madhuchhanda Mitra. Empirical mode decomposition based
ecg enhancement and qrs detection. Computers in biology and medicine, 42(1):83–
92, 2012.
[21] Pratik Singh and Gayadhar Pradhan. Variational mode decomposition based
ecg denoising using non-local means and wavelet domain filtering. Australasian
physical & engineering sciences in medicine, 41:891–904, 2018.
[22] Fakheraldin YO Abdalla, Longwen Wu, Hikmat Ullah, Guanghui Ren, Alam
Noor, and Yaqin Zhao. Ecg arrhythmia classification using artificial intelligence
and nonlinear and nonstationary decomposition. Signal, Image and Video Processing, 13:1283–1291, 2019.
[23] Raju Sinha et al. An approach for classifying ecg arrhythmia based on features
extracted from emd and wavelet packet domains. 2012.
74
Download