1 Data Dependent Kernels (DDK)

advertisement

Λοιπόν είδα τις παρατηρήσεις σας, κι έκανα εκτεταμένες διορθώσεις-προσθήκες στο manuscript. Άλλαξα και τα σύμβολα ώστε να είναι πιο κατανοητοί οι τύποι. k =first level kernel (minor kernel) SVMs k

=second level kernel HS-SVMs (only linear allowed) k



=second level kernel GS-SVMs (all admissible SVM kernels)

Έχω τις εξής παρατηρήσεις:

1 Data Dependent Kernels (DDK)

Έψαξα και είδα το report Zervakis-Blazadonakis HS-SVMs κλπ για data dependent kernels με

χρήση LDA/PCA/ICA. Σ’ αυτό προτείνετε αντί για Kernel1 να γίνεται 1 μετασχηματισμός

(LDA/PCA/ICA ) και μετά Kernel2 SVM. Το περιγράφετε ως εξής:

On the other hand hidden HSSVM arrive to a decision function:

Let X

 

,

1 2

, , f x x n

 sgn

N 

,

1

 y k i i

 x i

, x j

  x j

, x

 b

be the training set, if we define a mapping

(0.1)

X

Z of the form Z

 

( ) then we may find a new space separable. This new vector space z i

Z where X (the training set) may be more independent and linearly

Z could be described by functions of the form:

 k

  

, i

1, 2, , N (0.2) then equation (0.1) could be written as: f x

 sgn

N 

,

1

 y k k i i

 

 sgn

N 

,

1

 x i

 b

 sgn y k i i

 z z i

  b

N 

,

1

 y k i i

 z z i

  b

. (0.3)

The transformation described in (0.2) could be function driven, k

  

like in HSSVM or data driven k

X

, as in LDA (Linear Dependent Analysis), PCA (Principal Component Analysis), ICA

(Independent Component Analysis), etc, where k

X

 

is a linear operator with a matrix k

defined by

X the training space.

Προτείνετε δηλαδή το ανάποδο απ’ ότι κάνουν οι αντίστοιχες μέθοδοι KLDA/KPCA/KICA. Αυτές

πρώτα εφαρμόζουν έναν οποιονδήποτε PD SVM Kernel και μετά εφαρμόζουν LDA κλπ.

Σε θεωρητικό επίπεδο το να κάνεις LDA/PCA/ICA για να βγάλεις κάποιον μετασχηματισμό Α και

μετά SVM με K2(A*X) φαίνεται καλός συνδυασμός. Βέβαια ότι και classifier να βάλεις σαν kernel2, ο PCA είναι πιθανό να έχει ήδη χάσει πληροφορία.

Τα δοκίμασα και στην πράξη και μόνο σε απλά & εύκολα artificial datasets έχουν καλή

απόδοση.

Το Projection Pursuit (PP) από την άλλη είναι τελείως ad-hoc μέθοδος, η οποία σύμφωνα με τη

βιβλιογραφία “rarely results το global minima”.

2 Comparisons

Παρακάτω είναι τα γραφήματα με τα πλήρη αποτελέσματα απ’ όλα τα σενάρια που δοκίμασα.

Είναι πολλά. Πρέπει να κάνουμε κάποιο summarization και να εστιάσουμε σε όσα είναι άξια

λόγου.

Όσον αφορά τα αποτελέσματα κατέληξα ότι πρέπει να δείξουμε σίγουρα:

1. μια σύγκριση μεταξύ HS-SVMs και GS-SVMs.

2. μια σύγκριση για τους non-Positive Definite kernels

3.

μια σύγκριση για τους Data Dependent Kernels (DDK)

4. συσχέτιση των τιμών Kernel-target alignment και με το τελικό accuracy.

Αυτές τις συγκρίσεις αναλύω στα experimental results. Δεν ξέρω αν είναι αρκετά ξεκάθαρα.

3 Results

0.5

0.4

0.3

0.2

0.1

0

3.1 Unsupervised kernel-data metrics

0.5

x 10

4

0

-0.5

-1

-1.5

-2

-2.5

-3

-3.5

-4 lin poly rbf lin*linpoly*linrbf*lin lin*rbf poly*rbfrbf*rbf nd ep

Breast

Brain

W.Progn.BC

W.Diagn.BC

Diabetes

HeartScale

Difficult Dataset

Simple Problem sig pca pcldc lda nd*lin ep*lin sig*linpca*lin nd*rbf ep*rbf sig*rbfpca*rbf

1

0.9

0.8

0.7

0.6

Breast

Brain

W.Progn.BC

W.Diagn.BC

Diabetes

HeartScale

Difficult Dataset

Simple Problem lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf

SVMs HSSVMs GSSVMs non-PD

3.2 Detailed classification performance metrics non-PD HSSVMs non-PD GSSVMs

1

0.9

Breast

Brain

W.Progn.BC

W.Diagn.BC

Diabetes

HeartScale

Difficult Dataset

Simple Problem

0.8

0.7

0.6

0.5

lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf

SVMs HSSVMs

3.3 Summarized results

1

GSSVMs

0.9

0.8

0.7

0.6

non-PD non-PD HSSVMs non-PD GSSVMs

C=10

C=1

C=auto

0.5

lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf

SVMs

( εδώ φαίνεται ότι άσχετα με τις τιμές της παραμέτρου C δεν επηρεάζονται πολύ τα

αποτελέσματα)

HSSVMs

GSSVMs non-PD non-PD HSSVMs non-PD GSSVMs

1

0.9

0.8

0.7

0.6

0.5

lin poly rbf lin*lin poly*lin rbf*lin lin*rbf poly*rbf rbf*rbf nd ep sig pca nd*lin ep*lin sig*lin pca*lin nd*rbf ep*rbf sig*rbf pca*rbf

SVMs HSSVMs GSSVMs non-PD non-PD HSSVMs non-PD GSSVMs

(αυτοί είναι οι μέσοι όροι του κάθε kernel σε όλα τα 8 datasets)

4 Comments

αυτά έχουν περαστεί στο paper

4.1 σύγκριση μεταξύ HS-SVMs και GS-SVMs.

Based on the summarized results graph (Fig. x) it can be seen that GS-SVMs consistently outperform HS-SVMs in terms of crossvalidated accuracy.

We additionally tried utilizing the 4 non-PD kernels into composite kernel models (HS-

SVMs/GS-SVMs). The performance gains of the resulting GS-SVM classifiers over the corresponding HS-SVM show a performance gain of 10%.

Compared to the baseline SVM models HS-SVMs show a lesser accuracy which is in contrast with the findings reported in [Zhang]. GS-SVMs manage to give accuracies equal or high than the baseline SVMs.

4.2

σύγκριση για τους non-PD kernels

In the actual simulations the non-PD kernels produced non-trivial negative eigenvalues in only 6

(25%) out of the 24 of the kernel-dataset combinations used.

The summarized results indicate that all 4 non-positive definite (non-PD) kernels (negative distance, Epanenchicov, sigmoid, PCA) exhibit very good accuracies with respect to typical

SVMs despite their numerical limitations.

The above observation is emphasized especially in the case of the artificial “difficult dataset”.

4.3 σύγκριση για τους Data Dependent Kernels (DDK)

“Data dependent kernels” is a term which defines a set if kernels that utilize information about the class and distribution of Xi in order to adjust the kernel’s parameters. In this sense mappings such as PCA and all of the primary kernels of GS-SVMs can be considered as members of this set.

4.4 συσχέτιση Kernel-target alignment με accuracy

In our experiments the kernel-target alignment metric attains higher values in the models utilizing linear second stage kernel components and noticeably decreased values in the models utilizing RBF and polynomial 2 nd stage kernels.

This behavior is in line with the theoretical background of this metric, which is designed to capture the linear correspondence of kernel values with the desired outcomes.

Yet it does not translate to high accuracies for the lineal-kernel methods, as shown in the following paragraphs. In fact the most effective models stem from GS-SVMs combining sigmoid and PCA non-PD kernels with and RBF second stage component.

Datasetwise the linearly separable “Simple Dataset” (and to a lesser extend the HeartScale and W.Diagn.BC datasets) result in overall highest KTA values across the whole range of kernels.

Download