Λοιπόν είδα τις παρατηρήσεις σας, κι έκανα εκτεταμένες διορθώσεις-προσθήκες στο manuscript. Άλλαξα και τα σύμβολα ώστε να είναι πιο κατανοητοί οι τύποι. k =first level kernel (minor kernel) SVMs k
=second level kernel HS-SVMs (only linear allowed) k
=second level kernel GS-SVMs (all admissible SVM kernels)
Έχω τις εξής παρατηρήσεις:
Έψαξα και είδα το report Zervakis-Blazadonakis HS-SVMs κλπ για data dependent kernels με
χρήση LDA/PCA/ICA. Σ’ αυτό προτείνετε αντί για Kernel1 να γίνεται 1 μετασχηματισμός
(LDA/PCA/ICA ) και μετά Kernel2 SVM. Το περιγράφετε ως εξής:
On the other hand hidden HSSVM arrive to a decision function:
Let X
,
1 2
, , f x x n
sgn
N
,
1
y k i i
x i
, x j
x j
, x
b
be the training set, if we define a mapping
(0.1)
X
Z of the form Z
( ) then we may find a new space separable. This new vector space z i
Z where X (the training set) may be more independent and linearly
Z could be described by functions of the form:
k
, i
1, 2, , N (0.2) then equation (0.1) could be written as: f x
sgn
N
,
1
y k k i i
sgn
N
,
1
x i
b
sgn y k i i
z z i
b
N
,
1
y k i i
z z i
b
. (0.3)
The transformation described in (0.2) could be function driven, k
like in HSSVM or data driven k
X
, as in LDA (Linear Dependent Analysis), PCA (Principal Component Analysis), ICA
(Independent Component Analysis), etc, where k
X
is a linear operator with a matrix k
defined by
X the training space.
Προτείνετε δηλαδή το ανάποδο απ’ ότι κάνουν οι αντίστοιχες μέθοδοι KLDA/KPCA/KICA. Αυτές
πρώτα εφαρμόζουν έναν οποιονδήποτε PD SVM Kernel και μετά εφαρμόζουν LDA κλπ.
Σε θεωρητικό επίπεδο το να κάνεις LDA/PCA/ICA για να βγάλεις κάποιον μετασχηματισμό Α και
μετά SVM με K2(A*X) φαίνεται καλός συνδυασμός. Βέβαια ότι και classifier να βάλεις σαν kernel2, ο PCA είναι πιθανό να έχει ήδη χάσει πληροφορία.
Τα δοκίμασα και στην πράξη και μόνο σε απλά & εύκολα artificial datasets έχουν καλή
απόδοση.
Το Projection Pursuit (PP) από την άλλη είναι τελείως ad-hoc μέθοδος, η οποία σύμφωνα με τη
βιβλιογραφία “rarely results το global minima”.
Παρακάτω είναι τα γραφήματα με τα πλήρη αποτελέσματα απ’ όλα τα σενάρια που δοκίμασα.
Είναι πολλά. Πρέπει να κάνουμε κάποιο summarization και να εστιάσουμε σε όσα είναι άξια
λόγου.
Όσον αφορά τα αποτελέσματα κατέληξα ότι πρέπει να δείξουμε σίγουρα:
1. μια σύγκριση μεταξύ HS-SVMs και GS-SVMs.
2. μια σύγκριση για τους non-Positive Definite kernels
3.
μια σύγκριση για τους Data Dependent Kernels (DDK)
4. συσχέτιση των τιμών Kernel-target alignment και με το τελικό accuracy.
Αυτές τις συγκρίσεις αναλύω στα experimental results. Δεν ξέρω αν είναι αρκετά ξεκάθαρα.
0.5
0.4
0.3
0.2
0.1
0
3.1 Unsupervised kernel-data metrics
0.5
x 10
4
0
-0.5
-1
-1.5
-2
-2.5
-3
-3.5
-4 lin poly rbf lin*linpoly*linrbf*lin lin*rbf poly*rbfrbf*rbf nd ep
Breast
Brain
W.Progn.BC
W.Diagn.BC
Diabetes
HeartScale
Difficult Dataset
Simple Problem sig pca pcldc lda nd*lin ep*lin sig*linpca*lin nd*rbf ep*rbf sig*rbfpca*rbf
1
0.9
0.8
0.7
0.6
Breast
Brain
W.Progn.BC
W.Diagn.BC
Diabetes
HeartScale
Difficult Dataset
Simple Problem lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf
SVMs HSSVMs GSSVMs non-PD
3.2 Detailed classification performance metrics non-PD HSSVMs non-PD GSSVMs
1
0.9
Breast
Brain
W.Progn.BC
W.Diagn.BC
Diabetes
HeartScale
Difficult Dataset
Simple Problem
0.8
0.7
0.6
0.5
lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf
SVMs HSSVMs
3.3 Summarized results
1
GSSVMs
0.9
0.8
0.7
0.6
non-PD non-PD HSSVMs non-PD GSSVMs
C=10
C=1
C=auto
0.5
lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf
SVMs
( εδώ φαίνεται ότι άσχετα με τις τιμές της παραμέτρου C δεν επηρεάζονται πολύ τα
αποτελέσματα)
HSSVMs
GSSVMs non-PD non-PD HSSVMs non-PD GSSVMs
1
0.9
0.8
0.7
0.6
0.5
lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf
SVMs HSSVMs GSSVMs non-PD non-PD HSSVMs non-PD GSSVMs
(αυτοί είναι οι μέσοι όροι του κάθε kernel σε όλα τα 8 datasets)
αυτά έχουν περαστεί στο paper
4.1 σύγκριση μεταξύ HS-SVMs και GS-SVMs.
Based on the summarized results graph (Fig. x) it can be seen that GS-SVMs consistently outperform HS-SVMs in terms of crossvalidated accuracy.
We additionally tried utilizing the 4 non-PD kernels into composite kernel models (HS-
SVMs/GS-SVMs). The performance gains of the resulting GS-SVM classifiers over the corresponding HS-SVM show a performance gain of 10%.
Compared to the baseline SVM models HS-SVMs show a lesser accuracy which is in contrast with the findings reported in [Zhang]. GS-SVMs manage to give accuracies equal or high than the baseline SVMs.
4.2
σύγκριση για τους non-PD kernels
In the actual simulations the non-PD kernels produced non-trivial negative eigenvalues in only 6
(25%) out of the 24 of the kernel-dataset combinations used.
The summarized results indicate that all 4 non-positive definite (non-PD) kernels (negative distance, Epanenchicov, sigmoid, PCA) exhibit very good accuracies with respect to typical
SVMs despite their numerical limitations.
The above observation is emphasized especially in the case of the artificial “difficult dataset”.
4.3 σύγκριση για τους Data Dependent Kernels (DDK)
“Data dependent kernels” is a term which defines a set if kernels that utilize information about the class and distribution of Xi in order to adjust the kernel’s parameters. In this sense mappings such as PCA and all of the primary kernels of GS-SVMs can be considered as members of this set.
4.4 συσχέτιση Kernel-target alignment με accuracy
In our experiments the kernel-target alignment metric attains higher values in the models utilizing linear second stage kernel components and noticeably decreased values in the models utilizing RBF and polynomial 2 nd stage kernels.
This behavior is in line with the theoretical background of this metric, which is designed to capture the linear correspondence of kernel values with the desired outcomes.
Yet it does not translate to high accuracies for the lineal-kernel methods, as shown in the following paragraphs. In fact the most effective models stem from GS-SVMs combining sigmoid and PCA non-PD kernels with and RBF second stage component.
Datasetwise the linearly separable “Simple Dataset” (and to a lesser extend the HeartScale and W.Diagn.BC datasets) result in overall highest KTA values across the whole range of kernels.