Uploaded by Chris Pap

Βαθιά Μάθηση & Τεχνητή Νοημοσύνη - Παρουσίαση

advertisement
Πανεπιστήμιο Πειραιώς
Τμήμα Ψηφιακών Συστημάτων
ΠΜΣ «Πληροφοριακά Συστήματα και Υπηρεσίες»
Ειδίκευση «Μεγάλα Δεδομένα και Αναλυτική»
Βαθιά Μάθηση και
Τεχνητή
Νοημοσύνη
28/3/2024
Δρ. Ανδριάνα Πρέντζα
Καθηγήτρια
aprentza@unipi.gr
Breaking news – AI Act
◼ The European Parliament has recently passed the
groundbreaking AI Act, establishing the world's
first comprehensive regulatory framework for
managing the risks associated with artificial
intelligence (AI).
 This legislation aims to address growing concerns
surrounding bias, privacy, and societal impacts
stemming from the rapid expansion of the AI sector.
Breaking news – AI Act
◼
Key highlights of the AI Act include:
 Risk-based classification: AI products will be categorized based on
their potential to cause harm, with varying levels of scrutiny applied
accordingly.
 Prohibition of high-risk applications: AI systems posing clear risks to
fundamental rights, such as those processing biometric data, will be
banned.
 Stringent requirements for high-risk systems: AI applications in
critical sectors like healthcare and law enforcement will be subject to
strict regulations.
 Lighter regulation for low-risk services: Products like spam filters will
face minimal oversight, reflecting the majority of AI services.
 Addressing risks in generative AI: Provisions targeting transparency
and compliance with copyright laws for systems like OpenAI's ChatGPT.
Breaking news – AI Act
◼
◼
◼
The AI Act is extremely significant positioning the EU as the global leader
in establishing binding requirements to mitigate AI risks.
This move is expected to set a standard for trustworthy AI worldwide, with
other regions, including the UK, anticipated to follow suit.
Despite the legislation still pending final approval, businesses are already
preparing to comply with its requirements.

◼
Numerous firms are already seeking guidance on scaling AI technologies and
ensuring legal compliance.
Overall, the EU AI Act represents a pivotal step towards fostering a more
human-centric approach to AI governance, promoting ethical AI
development, and providing legal certainty for businesses operating in this
rapidly evolving landscape.
Breaking news – AI Act
◼ The AI Act aims to provide AI developers
and deployers with clear requirements
and obligations regarding specific uses of
AI. At the same time, the regulation seeks
to reduce administrative and financial
burdens for business, in particular small
and medium-sized enterprises (SMEs).
Breaking news – AI Act
◼ The AI Act is part of a wider package of policy
measures to support the development of
trustworthy AI, which also includes the AI
Innovation Package and the Coordinated Plan on
AI. Together, these measures will guarantee the
safety and fundamental rights of people and
businesses when it comes to AI. They will also
strengthen uptake, investment and innovation in AI
across the EU.
Breaking news – AI Act
◼ The AI Act is the first-ever comprehensive
legal framework on AI worldwide. The aim of
the new rules is to foster trustworthy AI in
Europe and beyond, by ensuring that AI
systems respect fundamental rights, safety,
and ethical principles and by addressing risks
of very powerful and impactful AI models.
Why do we need rules on AI?
◼
The AI Act ensures that Europeans can trust what AI has to
offer. While most AI systems pose limited to no risk and can
contribute to solving many societal challenges, certain AI
systems create risks that we must address to avoid
undesirable outcomes.
 For example, it is often not possible to find out why an AI system
has made a decision or prediction and taken a particular action.
So, it may become difficult to assess whether someone has
been unfairly disadvantaged, such as in a hiring decision or in an
application for a public benefit scheme.
◼
Although existing legislation provides some protection, it is
insufficient to address the specific challenges AI systems may
bring.
Why do we need rules on AI?
◼
The proposed rules will:
 address risks specifically created by AI applications;
 prohibit AI practices that pose unacceptable risks;
 determine a list of high-risk applications;
 set clear requirements for AI systems for high-risk applications;
 define specific obligations deployers and providers of high-risk AI
applications;
 require a conformity assessment before a given AI system is put
into service or placed on the market;
 put enforcement in place after a given AI system is placed into
the market;
 establish a governance structure at European and national level.
A risk-based approach
◼
◼
The Regulatory Framework
defines 4 levels of risk for AI
systems.
All AI systems considered a
clear threat to the safety,
livelihoods and rights of
people will be banned, from
social scoring by
governments to toys using
voice assistance that
encourages dangerous
behaviour.
Pyramid showing the four
levels of risk
High risk
◼
AI systems identified as high-risk include AI technology used in:








critical infrastructures (e.g. transport), that could put the life and health of citizens at
risk;
educational or vocational training, that may determine the access to education and
professional course of someone’s life (e.g. scoring of exams);
safety components of products (e.g. AI application in robot-assisted surgery);
employment, management of workers and access to self-employment (e.g. CV-sorting
software for recruitment procedures);
essential private and public services (e.g. credit scoring denying citizens opportunity to
obtain a loan);
law enforcement that may interfere with people’s fundamental rights (e.g. evaluation of
the reliability of evidence);
migration, asylum and border control management (e.g. automated examination of
visa applications);
administration of justice and democratic processes (e.g. AI solutions to search for
court rulings).
High risk
◼
High-risk AI systems will be subject to strict obligations before they can be put on the
market:







◼
◼
◼
adequate risk assessment and mitigation systems;
high quality of the datasets feeding the system to minimise risks and discriminatory outcomes;
logging of activity to ensure traceability of results;
detailed documentation providing all information necessary on the system and its purpose for
authorities to assess its compliance;
clear and adequate information to the deployer;
appropriate human oversight measures to minimise risk;
high level of robustness, security and accuracy.
All remote biometric identification systems are considered high-risk and subject to strict
requirements. The use of remote biometric identification in publicly accessible spaces for
law enforcement purposes is, in principle, prohibited.
Narrow exceptions are strictly defined and regulated, such as when necessary to search
for a missing child, to prevent a specific and imminent terrorist threat or to detect, locate,
identify or prosecute a perpetrator or suspect of a serious criminal offence.
Those usages is subject to authorisation by a judicial or other independent body and to
appropriate limits in time, geographic reach and the data bases searched.
Limited risk
◼
◼
Limited risk refers to the risks associated with lack of transparency
in AI usage.
The AI Act introduces specific transparency obligations to ensure
that humans are informed when necessary, fostering trust.
 For instance, when using AI systems such as chatbots, humans should
be made aware that they are interacting with a machine so they can
take an informed decision to continue or step back.
◼
◼
Providers will also have to ensure that AI-generated content is
identifiable.
Besides, AI-generated text published with the purpose to inform the
public on matters of public interest must be labelled as artificially
generated. This also applies to audio and video content constituting
deep fakes.
Minimal or no risk
◼ The AI Act allows the free use of minimal-risk
AI.
◼ This includes applications such as AI-enabled
video games or spam filters.
◼ The vast majority of AI systems currently
used in the EU fall into this category.
How does it all work in practice for
providers of high-risk AI systems?
◼
Once an AI system is on the market, authorities are in charge of market
surveillance, deployers ensure human oversight and monitoring, and
providers have a post-market monitoring system in place. Providers and
deployers will also report serious incidents and malfunctioning.
Πανεπιστήμιο Πειραιώς
Τμήμα Ψηφιακών Συστημάτων
Clustering –
Συσταδοποίηση
Μέρος των διαφανειών είναι από:
P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
J. Han, M. Kamber «Data Mining: Concepts and Techniques», Morgan Kaufmann, 2012
και
Ε. Πιτουρά. Εξόρυξη Δεδομένων, Ακ. Έτος 2010-2011. Tμήμα Μηχανικών Η/Υ και
Πληροφορικής, Πανεπιστήμιο Ιωαννίνων
Συσταδοποίηση
◼ Ορισμοί
◼ Είδη συσταδοποίησης
◼ Αλγόριθμοι συσταδοποίησης
◼ Αξιολόγηση συσταδοποίησης
Συσταδοποίηση (Clustering)
H συσταδοποίηση (clustering) είναι μια περιγραφική
μέθοδος.
◼ Έχοντας ένα σύνολο δεδομένων, στόχος της
συσταδοποίησης είναι η δημιουργία συστάδων
(clusters), δηλαδή ομάδων/συλλογών αντικειμένων οι
οποίες θα περιέχουν όμοια ή παρεμφερή (σχετίζονται
με κάποιο τρόπο με τα υπόλοιπα δείγματα της ομάδας)
δείγματα, και οι οποίες θα είναι χρήσιμες (useful) και/ή
θα έχουν σημασία (meaningful).
◼
 Ουσιαστικά αναζητείται ένα πεπερασμένο σύνολο κατηγοριών ή
συστάδων, για να περιγράψει τα δεδομένα, για να συλλάβει τη
φυσική δομή των δεδομένων.
Ορισμός
◼ Δοθέντων
 Ενός συνόλου από σημεία που το καθένα έχει κάποια
γνωρίσματα
 Μιας μέτρησης ομοιότητας μεταξύ τους
◼ Εύρεση συστάδων (clusters) τέτοιων ώστε:
 Τα σημεία σε μία συστάδα είναι πιο όμοια μεταξύ τους
 Τα σημεία σε διαφορετικές συστάδες είναι λιγότερα
όμοια μεταξύ τους
Ομοιότητα – Ανομοιότητα
◼ Ομοιότητα (similarity)
 Μια αριθμητική μέτρηση για το πόσο όμοια είναι δύο
αντικείμενα
◼ Μεγαλύτερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους
◼ Συχνά τιμές στο [0, 1]
◼ Μη Ομοιότητα – Ανομοιότητα (dissimilarity)
 Μια αριθμητική μέτρηση για το πόσο
διαφορετικά/ανόμοια είναι δύο αντικείμενα
◼ Μικρότερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους
◼ Η ελάχιστη τιμή είναι συνήθως 0 (όταν τα αντικείμενα είναι
ίδια)
Ομοιότητα – «εγγύτητα»
απόσταση
◼ Εγγύτητα (proximity) αναφέρεται σε μία ομοιότητα
(similarity) ή ανομοιότητα (dissimilarity)
◼ Η ομοιότητα-ανομοιότητα μεταξύ δύο αντικειμένων
μετριέται συνήθως βάση μιας συνάρτησης
απόστασης ανάμεσα στα αντικείμενα
◼ Εξαρτάται από το είδος των δεδομένων, δηλαδή
από το είδος των γνωρισμάτων τους
Συναρτήσεις απόστασης
(distance functions)
Συχνές ιδιότητες:
1.
2.
3.
4.
d(i, j)  0
d(i, i) = 0 (ανακλαστική)
d(i, j) = d(j, i) (συμμετρική)
d(i, j)  d(i, h) + d(h, j) (τριγωνική ανισότητα) (αυξάνει
την αποδοτικότητα)
Όταν ισχύουν και οι τέσσερεις ιδιότητες, η συνάρτηση
απόστασης ονομάζεται και μετρική απόστασης (distance
metric)
Αποστάσεις
◼ Δύο μεγάλες κατηγορίες:
 Ευκλείδειες (βασισμένες στη θέση των
σημείων, αποστάσεις των σημείων στο χώρο,
έννοια της μέσης τιμής)
 Μη Ευκλείδειες (βασισμένες σε άλλες
ιδιότητες των σημείων πλην της θέσης τους)
Ορισμός Ευκλείδειας απόστασης
◼ Έστω δυο μεταβλητές i και j με n
γνωρίσματα xik και xjk , όπου i = (xi1, xi2,
…, xin) και j = (xj1, xj2, …, xjn)
◼ Ευκλείδεια απόσταση
d (i, j) = (| x − x | + | x − x | +...+ | x − x | )
i1 j1
i2 j 2
in jn
2
2
◼ Συνήθως χρησιμοποιείται για σημεία
δεδομένων στον Ευκλείδειο χώρο
2
Ορισμός Ευκλείδειας απόστασης
◼ Έστω δυο μεταβλητές i και j με n
γνωρίσματα xik και xjk , όπου i = (xi1, xi2,
…, xin) και j = (xj1, xj2, …, xjn)
◼ Χρήση βαρών στην Ευκλείδεια απόσταση
d (i, j) = (w | x − x |2 +w | x − x |2 +...+ wn | x − x |2 )
in jn
1 i1 j1
2 i2 j 2
 Όταν π.χ. κάποια κατηγορήματα είναι άσχετα
ή μερικά σχετικά είναι λιγότερο σημαντικά από
άλλα
Ορισμός απόστασης Manhattan
◼ Έστω δυο μεταβλητές i και j με n
γνωρίσματα xik και xjk , όπου i = (xi1, xi2,
…, xin) και j = (xj1, xj2, …, xjn)
◼ Aπόσταση Manhattan ή city-block
L (i, j) =| x − x | + | x − x | +...+ | x − x |
i1 j1
i2 j 2
in jn
1
Ορισμός απόστασης Manhattan
Το όνομα City block εξηγείται αν λάβουμε υπόψη δύο σημεία
στο xy-επίπεδο.
◼ Η μικρότερη απόσταση μεταξύ των δύο σημείων είναι κατά
μήκος της υποτείνουσας, η οποία είναι η Ευκλείδεια
απόσταση.
◼ Η απόσταση City block υπολογίζεται ως η απόσταση στο x
συν την απόσταση στο y, η οποία είναι παρόμοια με τον
τρόπο που κινείται κάποιος σε μια πόλη (όπως το Μανχάταν)
όπου πρέπει να μετακινηθεί γύρω από τα κτίρια αντί να
περάσει ευθεία.
◼ Επίσης taxicab ή snake.
◼
Manhattan και Ευκλείδεια
απόσταση
◼ Η απόσταση Manhattan είναι μεγαλύτερη
από την Ευκλείδεια και υπάρχουν
περισσότερα από ένα μονοπάτια.
Ορισμός απόστασης Minkowski
◼ Έστω δυο μεταβλητές i και j με n
γνωρίσματα xik και xjk , όπου i = (xi1, xi2,
…, xin) και j = (xj1, xj2, …, xjn)
◼ Aπόσταση Minkowski (p-norm)




p
p
L p (i, j) = | x − x | + | x − x | +...+ | x − x |
in
jn
i1 j1
i2 j 2
p 1/ p


Ορισμός απόστασης
◼ Αποτελεί γενίκευσης της απόστασης Manhattan και
της ευκλείδειας απόστασης
◼ p = 1. City block (Manhattan, taxicab, L1 norm).
 Hamming distance, όταν δυαδικά διανύσματα = αριθμός
bits που διαφέρουν
Ευκλείδεια απόσταση
◼ p →  “supremum” (Lmax norm, L  norm) απόσταση
◼ p = 2.
 Η μέγιστη απόσταση μεταξύ οποιουδήποτε γνωρίσματος
(διάστασης) των δυο διανυσμάτων
το maximum το όριο όταν το p τείνει στο ∞ στην Lp norm
Παράδειγμα
◼ Έστω δύο σημεία στον 7-διάστατο χώρο:
P1: (10, 2, 4, -1, 0, 9, 1)
P2: (14, 7, 11, 5, 2, 2, 18)
◼ Υπολογισμός Ευκλείδειας απόστασης ?
Παράδειγμα
◼ Έστω δύο σημεία στον 7-διάστατο χώρο:
P1: (10, 2, 4, -1, 0, 9, 1)
P2: (14, 7, 11, 5, 2, 2, 18)
◼ Υπολογισμός ευκλείδειας απόστασης
Euclidean distance =
sqrt[|-4|2+|-5|2+|-7|2+|-6|2+|-2|2+|7|2+|-17|2] =
sqrt[16 + 25 + 49 + 36 + 4 + 49 + 289] =
sqrt[468] = 21.6333
Παράδειγμα
◼ Έστω δύο σημεία στον 7-διάστατο χώρο:
P1: (10, 2, 4, -1, 0, 9, 1)
P2: (14, 7, 11, 5, 2, 2, 18)
◼ Υπολογισμός απόστασης Manhattan ?
Παράδειγμα
◼ Έστω δύο σημεία στον 7-διάστατο χώρο:
P1: (10, 2, 4, -1, 0, 9, 1)
P2: (14, 7, 11, 5, 2, 2, 18)
◼ Υπολογισμός απόστασης Manhattan
Manhattan distance =
|-4|+|-5|+|-7|+|-6|+|-2|+|7|+|-17| =
4 + 5 + 7 + 6 + 2 + 7 + 17 = 48
Μη Ευκλείδειες αποστάσεις
◼ Jaccard distance
◼ Cosine distance
◼ Edit distance
◼ Hamming distance
Δυαδικές μεταβλητές
◼ Συχνά δεδομένα με μόνο δυαδικά
γνωρίσματα (δυαδικά διανύσματα)
 Συμμετρικές (τιμές 0 και 1 έχουν την ίδια
σημασία)
◼ Invariant ομοιότητα
 Μη συμμετρικές (η συμφωνία στο 1 πιο
σημαντική – π.χ. όταν το 1 σηματοδοτεί την
ύπαρξη κάποιας ασθένειας)
◼ Non-invariant (Jaccard)
Cosine similarity
◼
◼
◼
◼
Χρησιμοποιείται για να μετρήσει πόσο παρόμοια είναι κάποια
έγγραφα ανεξάρτητα από το μέγεθός τους.
Μαθηματικά, μετρά το συνημίτονο της γωνίας μεταξύ δύο
διανυσμάτων που προβάλλονται σε έναν πολυδιάστατο χώρο.
Η ομοιότητα του συνημίτονου παρέχει το πλεονέκτημα ότι ακόμα κι
αν τα δύο παρόμοια έγγραφα απέχουν πολύ μεταξύ τους λόγω της
Ευκλείδειας απόστασης (λόγω του μεγέθους του εγγράφου), το
πιθανότερο είναι ότι μπορεί να εξακολουθούν να προσανατολίζονται
πιο κοντά μεταξύ τους.
Όσο μικρότερη είναι η γωνία, τόσο μεγαλύτερη είναι η ομοιότητα του
συνημίτονου.
Cosine similarity
◼
◼
◼
◼
◼
◼
Η ομοιότητα συνημίτονου χρησιμοποιείται γενικά ως μετρική για τη μέτρηση
της απόστασης όταν το μέγεθος των διανυσμάτων δεν έχει σημασία.
Αυτό συμβαίνει για παράδειγμα όταν έχουμε δεδομένα κειμένου που
αντιπροσωπεύονται από πλήθος λέξεων.
Θα μπορούσαμε να υποθέσουμε ότι όταν μια λέξη (π.χ. επιστήμη)
εμφανίζεται πιο συχνά στο έγγραφο 1 από ότι στο έγγραφο 2, αυτό το
έγγραφο 1 σχετίζεται περισσότερο με το θέμα της επιστήμης.
Ωστόσο, θα μπορούσε επίσης να έχουμε έγγραφα άνισου μήκους (άρθρα
της Wikipedia για παράδειγμα).
Στη συνέχεια, η επιστήμη πιθανότατα εμφανίστηκε περισσότερο στο
έγγραφο 1 μόνο και μόνο επειδή ήταν πολύ μεγαλύτερο από το έγγραφο 2.
ΟΜΩΣ η ομοιότητα συνημίτονου το διορθώνει αυτό.
Cosine similarity
◼ Η ομοιότητα συνημίτονου είναι μια τιμή στην
περιοχή 0 και 1.
 Όσο πιο κοντά είναι η τιμή στο 0 σημαίνει ότι τα
δύο διανύσματα είναι ορθογώνια ή κάθετα μεταξύ
τους.
 Όταν η τιμή είναι πιο κοντά στο 1, σημαίνει ότι η
γωνία είναι μικρότερη και τα κείμενα/ή οι εικόνες
είναι πιο παρόμοια.
Cosine similarity
◼ Καθώς η
μέτρηση της
ομοιότητας του
συνημίτονου
πλησιάζει το 1,
τότε η γωνία
μεταξύ των δύο
διανυσμάτων Α
και Β είναι
μικρότερη.
Ομοιότητα εγγράφων
◼
◼
◼
◼
Ένα σενάριο που περιλαμβάνει την απαίτηση προσδιορισμού της
ομοιότητας μεταξύ δύο εγγράφων είναι μια καλή περίπτωση χρήσης για τη
χρήση της ομοιότητας συνημίτονου ως ποσοτικοποίηση της μέτρησης της
ομοιότητας μεταξύ δύο αντικειμένων.
Για να βρούμε την ποσοτικοποίηση της ομοιότητας μεταξύ δύο εγγράφων,
πρέπει να μετατρέψουμε τις λέξεις ή τις φράσεις μέσα στο έγγραφο ή την
πρόταση σε μια διανυσματική μορφή αναπαράστασης.
Για τις διανυσματικές αναπαραστάσεις των εγγράφων μπορούμε να
υπολογίσουμε την ομοιότητα συνημίτονου για να ληφθεί μια
ποσοτικοποίηση της ομοιότητας.
Η ομοιότητα συνημίτονου του 1 υποδηλώνει ότι τα δύο έγγραφα είναι
ακριβώς ίδια και μια ομοιότητα συνημίτονου 0 θα οδηγούσε στο
συμπέρασμα ότι δεν υπάρχουν ομοιότητες μεταξύ των δύο εγγράφων.
Συσταδοποίηση (Clustering)
◼ Η συσταδοποίηση θεωρείται κατηγοριοποίηση
χωρίς επίβλεψη
 Δεν υπάρχουν προκαθορισμένες κατηγορίες
 Σε αντίθεση με την ταξινόμηση, οι συστάδες ΔΕΝ
είναι γνωστές από πριν.
 Μας δίνεται ένα σύνολο δεδομένων, χωρίς τις
αντίστοιχες κλάσεις-ετικέτες κάθε εγγραφής και
στόχος είναι η χρήση κάποιου αλγόριθμου, ώστε
αυτόματα να ανακαλύψουμε κάποια ενδεχομένως
ενδιαφέρουσα δομή των δεδομένων.
Συσταδοποίηση (Clustering)
◼ Οι κατηγορίες μπορεί να είναι:
 αμοιβαία αποκλειόμενες και εξαντλητικές ή
 να έχουν μία πιο σύνθετη αναπαράσταση,
όπως για παράδειγμα ιεραρχικές και
επικαλυπτόμενες.
Συσταδοποίηση (Clustering)
◼
Σας θυμίζω το στόχο της συσταδοποίησης (clustering):
◼
… να είναι οι συστάδες χρήσιμες (useful) και/ή να
έχουν σημασία (meaningful).
Παραδείγματα / εφαρμογές
«meaningful clustering»
◼ Βιολογία
 Ιεραρχική ταξινόμηση έμβιων όντων: βασίλειο,
συνομοταξία, κατηγορία, τάξη, οικογένεια, γένος
 Συσταδοποίηση γονιδίων με παρόμοιες λειτουργίες
◼ Ανάκτηση πληροφορίας
 Ανάκτηση πληροφορίας για ταινίες → ανάκτηση
σελίδων για reviews, trailers, theatres etc.
◼ Κλίμα
 Eύρεση περιοχών με σημαντική επίδραση στο κλίμα
 Εύρεση υποδειγμάτων ατμοσφαιρικής πίεσης,
πολικών περιοχών, περιοχών ωκεανών
Παραδείγματα / εφαρμογές
«meaningful clustering»
◼ Ψυχολογία και Ιατρική
 Συσταδοποίηση διαφορετικών μορφών
κατάθλιψης
◼ Επιχειρήσεις
 Συγκέντρωση πληροφοριών για πελάτες
 Ομαδοποίηση πελατών για περαιτέρω
ανάλυση, αγοραστικές δραστηριότητες και
διαφήμιση
Παραδείγματα / εφαρμογές
«clustering for utility»
◼ Summarization
 Αντί να εφαρμόσουμε έναν πολύπλοκο
αλγόριθμο σε όλα τα δεδομένα, τον
εφαρμόζουμε σε ορισμένα που αποτελούν
cluster prototypes
◼ Compression
 Χρήση cluster prototypes για συμπίεση,
δεδομένου ότι πολλά δεδομένα είναι πολύ
όμοια μεταξύ τους
Παράδειγμα συσταδοποίησης
◼
Αποτέλεσμα συσταδοποίησης φαρμακευτικών δεδομένων
 Έχουν δημιουργηθεί 3 συστάδες με βάση τα χαρακτηριστικά
«δοσολογία» και «διάρκεια επίδρασης»
Περί συσταδοποίησης
◼ Η συσταδοποίηση εφαρμόζεται όταν δεν υπάρχει
κάποια κατηγορία να προβλεφθεί
◼ Στόχος: διάκριση περιπτώσεων σε «φυσικές»
ομάδες
◼ Οι ομάδες μπορεί να είναι:
 disjoint vs. overlapping
 deterministic vs. probabilistic
 flat vs. hierarchical
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
3-διάστατα σημεία,
ευκλείδεια απόσταση
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
3-διάστατα σημεία,
ευκλείδεια απόσταση
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
3-διάστατα σημεία,
ευκλείδεια απόσταση
Πώς ΟΜΩΣ μετράμε την
ομοιότητα??
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
Όσο μεγαλύτερη η
ομοιότητα μέσα στην
ομάδα και μεγαλύτερη η
διαφορά μεταξύ των
ομάδων, τόσο καλύτερη ή
πιο διακριτή η
ομαδοποίηση!
3-διάστατα σημεία,
ευκλείδεια απόσταση
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
Οι αποστάσεις μέσα
στη συστάδα
ελαχιστοποιούνται
Όσο μεγαλύτερη η
ομοιότητα μέσα στην
ομάδα και μεγαλύτερη η
διαφορά μεταξύ των
ομάδων, τόσο καλύτερη ή
πιο διακριτή η
ομαδοποίηση!
3-διάστατα σημεία,
ευκλείδεια απόσταση
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε
τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
Οι αποστάσεις μέσα
στη συστάδα
ελαχιστοποιούνται
Όσο μεγαλύτερη η
ομοιότητα μέσα στην
ομάδα και μεγαλύτερη η
διαφορά μεταξύ των
ομάδων, τόσο καλύτερη ή
πιο διακριτή η
ομαδοποίηση!
Οι αποστάσεις
ανάμεσα στις
συστάδες
μεγιστοποιούνται
3-διάστατα σημεία,
ευκλείδεια απόσταση
Συσταδοποίηση – τι είναι?
◼
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε τα
αντικείμενα σε κάθε συστάδα να είναι όμοια (ή
παρεμφερή) μεταξύ τους και διαφορετικά (ή μη
σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων
Οι αποστάσεις μέσα
στη συστάδα
ελαχιστοποιούνται
Όσο μεγαλύτερη η
ομοιότητα μέσα στην
ομάδα και μεγαλύτερη η
διαφορά μεταξύ των
ομάδων, τόσο καλύτερη ή
πιο διακριτή η
ομαδοποίηση!
Οι αποστάσεις
ανάμεσα στις
συστάδες
μεγιστοποιούνται
3-διάστατα σημεία,
ευκλείδεια απόσταση
Η ποιότητα εξαρτάται από
Μέθοδο υλοποίησης
clustering
Μέτρο ομοιότητας
Εφαρμογές της Συσταδοποίησης
◼ Πεδία εφαρμογής
 Ψυχολογία και άλλες κοινωνικές επιστήμες
 Βιολογία
 Στατιστική
 Αναγνώριση προτύπων / Επεξεργασία
εικόνας
 Ανάκτηση πληροφορίας
 Μηχανική μάθηση
 Εξόρυξη δεδομένων
Εφαρμογές της Συσταδοποίησης
◼ Χρήση γης
 Εντοπισμός περιοχών με παρόμοια χρήση γης σε
ΒΔ με φωτογραφίες από δορυφόρους
◼ Χωροταξικά σχέδια
 Εντοπισμός ομάδων κτιρίων σύμφωνα με τύπο
κατοικίας, αξία, γεωγραφική περιοχή, κλπ.
◼ Σεισμογραφικές μελέτες
 Ομαδοποίηση με βάση τα επίκεντρα και άλλα
χαρακτηριστικά σεισμών
Εφαρμογές της Συσταδοποίησης
◼ Δεδομένα παγκοσμίου ιστού
 Ομαδοποίηση ιστοσελίδων, ομαδοποίηση
συμπεριφορών χρήσης
◼ Marketing
 Βοήθεια στην ανακάλυψη ομάδων πελατών
για στοχευμένη διαφήμιση
Εφαρμογές της Συσταδοποίησης
◼ Ανάλυση/Κατανόηση – αναπαράσταση φυσικής
δομής δεδομένων
 Ομαδοποίηση σχετιζόμενων αρχείων για browsing
 Ομαδοποίηση ομάδων γονιδίων και πρωτεϊνών με
παρόμοια λειτουργία
 Ομαδοποίηση διαφορετικών τύπων κατάθλιψης και
αναγνώριση προτύπων χωρικής ή χρονικής
κατανομής στην ασθένεια
 Ομαδοποίηση μετοχών με παρόμοιες διακυμάνσεις
τιμών
Εφαρμογές της Συσταδοποίησης
◼ Περίληψη/Προεπεξεργασία
 Μείωση μεγέθους μεγάλων συνόλων
δεδομένων χρησιμοποιώντας
αντιπροσωπευτικά σημεία από κάθε συστάδα
– πρωτότυπα (prototypes)
 Συμπίεση
 Εύρεση κοντινότερου γείτονα – κατασκευή
ευρετηρίων
Παράδειγμα
Συσταδοποίηση επιπέδου βροχής (precipitation) στην
Αυστραλία!
Παράδειγμα – Ομαδοποίηση
εγγράφων
Στόχος: Εύρεση ομάδων εγγράφων που είναι παρόμοια
μεταξύ τους με βάση τους σημαντικούς όρους που
εμφανίζονται σε αυτά.
◼ Προσέγγιση: Προσδιορισμός όρων που εμφανίζονται συχνά
σε κάθε έγγραφο. Προσδιορισμός ενός μέτρου ομοιότητας με
βάση τις συχνότητες διαφορετικών όρων. Χρησιμοποίηση
μέτρου για ομαδοποίηση.
◼ Όφελος: Η ανάκτηση πληροφοριών μπορεί να χρησιμοποιήσει
την ομαδοποίηση για να συσχετίσει ένα νέο έγγραφο ή για να
αναζητήσει έναν όρο σε ομαδοποιημένα έγγραφα.
◼
Παράδειγμα – Ομαδοποίηση
εγγράφων
◼ Έγγραφα για ομαδοποίηση: 3000 άρθρα των New
York Times.
◼ Μέτρο ομοιότητας: πλήθος κοινών λέξεων μεταξύ
δύο εγγράφων μετά από κάποιο φιλτράρισμα.
◼ Κατηγορίες
 Financial
 Foreign
 National
 Sports
 Entertainment
Τι ΔΕΝ είναι συσταδοποίηση
◼ Supervised classification
 Η πληροφορία για το label της κλάσης είναι
γνωστή
◼ Απλό segmentation
 Διαχωρισμός ομάδων φοιτητών κατά
αλφαβητική σειρά του επιθέτου τους
◼ Αποτελέσματα ενός query
 Ομαδοποιήσεις ως αποτέλεσμα μίας
εξωτερικής προδιαγραφής
Θέματα Συσταδοποίησης
◼ Διαχείριση ακραίων σημείων (outliers)
 Aνακάλυψη ή απομάκρυνση με τεχνικές
εξόρυξης ακραίων σημείων
◼ Χειρισμός μεγάλων δεδομένων
◼ Eρμηνεία αποτελεσμάτων
◼ Αξιολόγηση αποτελεσμάτων
◼ Αριθμός ομάδων
◼ Εξελιξιμότητα (Scalability)
Επίδραση ακραίων σημείων
◼
Έχουν αναπτυχθεί ειδικές τεχνικές για
ανίχνευση/εξόρυξη ακραίων σημείων (outlier
detection/mining)
Ασάφεια... Τι αποτελεί μία ομάδα?
Πόσες Ομάδες?
Ασάφεια... Τι αποτελεί μία ομάδα?
Πόσες Ομάδες?
2 ομάδες
Ασάφεια... Τι αποτελεί μία ομάδα?
Πόσες Ομάδες?
2 ομάδες
4 ομάδες
Ασάφεια... Τι αποτελεί μία ομάδα?
Πόσες Ομάδες?
6 ομάδες
2 ομάδες
4 ομάδες
Ασάφεια... Τι αποτελεί μία ομάδα?
◼
◼
◼
Πόσες Ομάδες?
6 ομάδες
2 ομάδες
4 ομάδες
Διαφορετικοί τρόποι διάκρισης των 20 σημείων σε ομάδες
Η διάκριση των δύο μεγάλων ομάδων σε τρεις υπο-ομάδες μπορεί να είναι απλά
artifact του ανθρώπινου οπτικού συστήματος
ΑΡΑ ο ορισμός μίας ομάδας είναι ανακριβής και ο καλύτερος ορισμός εξαρτάται από
τη φύση των δεδομένων και τα επιθυμητά αποτελέσματα
Πότε μια συσταδοποίηση είναι
καλή?
◼ Μια μέθοδος συσταδοποίησης είναι καλή αν
παράγει συστάδες καλής ποιότητας
 Μεγάλη ομοιότητα εντός της συστάδας και
 Μικρή ομοιότητα ανάμεσα στις συστάδες
◼ Η ποιότητα εξαρτάται από τη
 Μέτρηση ομοιότητας και
 Μέθοδο υλοποίησης της συσταδοποίησης
Το πρόβλημα της
συσταδοποίησης
◼
Δοθέντων:
 μιας ΒΔ D={t1, t2, … tn} από εγγραφές
 ενός μέτρου ομοιότητας sim(ti, tj) μεταξύ δύο εγγραφών της ΒΔ και
 μιας ακέραιας τιμής k,
◼
το πρόβλημα της συσταδοποίησης είναι η εύρεση μίας
αντιστοίχισης f : D → {1, …, k} όπου κάθε εγγραφή ti της ΒΔ
αντιστοιχίζεται σε μία συστάδα Κj, 1≤j ≤k, έτσι ώστε:
 για κάθε εγγραφή η ομοιότητα μεταξύ αυτής και οποιασδήποτε
εγγραφής από την ίδια συστάδα να είναι μεγαλύτερη από την ομοιότητα
μεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες.
◼
Μία συστάδα Κj, περιέχει ακριβώς εκείνες τις πλειάδες που
αντιστοιχίζονται σε αυτήν.
Συσταδοποίηση σπιτιών
με βάση τη γεωγραφική απόσταση
Συσταδοποίηση σπιτιών
με βάση τη γεωγραφική απόσταση
με βάση κάποιο άλλο
χαρακτηριστικό (π.χ. μέγεθος)
Συσταδοποίηση
Εύκολη ορισμένες φορές
Μερικές φορές αδύνατη
Και κάποιες άλλες φορές κάτι ενδιάμεσο
Συσταδοποίηση
Εύκολη ορισμένες φορές
Μερικές φορές αδύνατη
Και κάποιες άλλες φορές κάτι ενδιάμεσο
Συσταδοποίηση
Εύκολη ορισμένες φορές
Μερικές φορές αδύνατη
Και κάποιες άλλες φορές κάτι ενδιάμεσο
Μέθοδοι Συσταδοποίησης
◼ Οι μέθοδοι μπορούν να κατηγοριοποιηθούν
με βάση:
 τον τύπο δεδομένων που εισάγονται στον
αλγόριθμο.
 τη μέθοδο που καθορίζει τη συσταδοποίηση του
συνόλου των δεδομένων.
 τη θεωρία και τις θεμελιώδεις έννοιες στις οποίες
είναι βασισμένες οι τεχνικές ανάλυσης συστάδας.
Προσεγγίσεις συσταδοποίησης
Είδη συσταδοποίησης
Μια συσταδοποίηση είναι ένα σύνολο από συστάδες
◼ Βασική διάκριση ανάμεσα στα ιεραρχικά (hierarchical –
nested) και διαχωριστικά (partitional – unnested) σύνολα
από ομάδες
◼ Διαχωριστική (διαμέρισης) Συσταδοποίηση (Partitional
Clustering)
◼
 Διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα (non-
overlapping) υποσύνολα (συστάδες) έτσι ώστε κάθε αντικείμενο
να ανήκει σε ακριβώς ένα υποσύνολο
◼
Ιεραρχική Συσταδοποίηση (Hierarchical clustering)
 Ένα σύνολο από εμφωλευμένες (nested) ομάδες
 Επιτρέπουμε σε μια συστάδα να έχει υπο-συστάδες
οργανωμένες σε ένα ιεραρχικό δέντρο (hierarchical tree)
Είδη συσταδοποίησης
◼ Διαχωριστική Συσταδοποίηση (Partitional
Clustering)
 Όλες οι συστάδες ορίζονται ταυτόχρονα
◼ Ορισμός του αριθμού των ομάδων εκ των προτέρων
◼ Ιεραρχική Συσταδοποίηση (Hierarchical
clustering)
 Οι νέες ομάδες συσταδοποίησης βασίζονται σε
προηγούμενες
Διαχωριστική συσταδοποίηση
στον 3-σδιάστατο χώρο
Οι αποστάσεις μέσα
στη συστάδα
ελαχιστοποιούνται
Οι αποστάσεις
ανάμεσα στις
συστάδες
μεγιστοποιούνται
Διαχωριστική συσταδοποίηση
Πόσες Ομάδες?
Διαχωριστική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
Διαχωριστική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
4 ομάδες
Διαχωριστική συσταδοποίηση
Πόσες Ομάδες?
6 ομάδες
2 ομάδες
4 ομάδες
Διαχωριστική συσταδοποίηση
◼
Πόσες Ομάδες?
6 ομάδες
2 ομάδες
4 ομάδες
Κάθε συλλογή των ομάδων που προκύπτουν παραπάνω αποτελεί αποτέλεσμα
διαχωριστικής συσταδοποίησης
Ιεραρχική συσταδοποίηση
Πόσες Ομάδες?
Ιεραρχική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
Ιεραρχική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
2 υπο-ομάδες ανά ομάδα =
4 ομάδες
Ιεραρχική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
Μία από τις υπο-ομάδες έχει
2 υπο-ομάδες = 6 ομάδες
2 υπο-ομάδες ανά ομάδα =
4 ομάδες
Ιεραρχική συσταδοποίηση
Πόσες Ομάδες?
2 ομάδες
◼
◼
◼
Μία από τις υπο-ομάδες έχει
2 υπο-ομάδες = 6 ομάδες
2 υπο-ομάδες ανά ομάδα =
4 ομάδες
Επιτρέποντας στις ομάδες να έχουν υπο-ομάδες, έχουμε ιεραρχική συσταδοποίηση, όπου
το σύνολο των εμφωλευμένων ομάδων οργανώνεται σε δέντρο.
Κάθε κόμβος (ομάδα) στο δέντρο (εκτός από τα φύλλα) είναι η ένωση των παιδιών του
(υπο-ομάδες) και η ρίζα του δέντρου περιέχει όλα τα αντικείμενα.
ΑΡΑ η μεγάλη ομάδα των 20 σημείων περιέχει δύο μεγάλες υπο-ομάδες, και η κάθε υποομάδα περιέχει 2 υπο-ομάδες και η μία από τις υπο-ομάδες περιέχει 2 υπο-ομάδες.
Ιεραρχική συσταδοποίηση
Αποστάσεις οδήγησης μεταξύ πόλεων στην Ιταλία
Διαχωριστική συσταδοποίηση
Αρχικά σημεία
Διαχωριστική συσταδοποίηση
Αρχικά σημεία
Διαχωριστική
συσταδοποίηση
Ιεραρχική συσταδοποίηση
p1
p3
p4
p2
p1 p2
Παραδοσιακή ιεραρχική
συσταδοποίηση
p3 p4
Παραδοσιακό
δενδρόγραμμα(dendrogram)
p1
p3
p4
p2
p1 p2
Μη-παραδοσιακή ιεραρχική
συσταδοποίηση
p3 p4
Μη-παραδοσιακό δενδρόγραμμα
(dendrogram)
Ιεραρχική Συσταδοποίηση:
Βασικά
◼ Παράγει ένα σύνολο από εμφωλευμένες συστάδες
οργανωμένες σε ένα ιεραρχικό δέντρο
◼ Μπορεί να παρασταθεί με ένα δένδρο-γραμμα
 ‘Ένα διάγραμμα που μοιάζει με δένδρο και
καταγράφει τις ακολουθίες από συγχωνεύσεις
(merges) και διαχωρισμούς (splits)
5
6
0.2
4
3
4
2
0.15
5
2
0.1
1
0.05
3
0
1
3
2
5
4
6
1
Ιεραρχική Συσταδοποίηση:
Πλεονεκτήματα
◼ Δε χρειάζεται να υποθέσουμε ένα
συγκεκριμένο αριθμό από συστάδες
 Οποιοσδήποτε επιθυμητός αριθμός από
συστάδες μπορεί να επιτευχθεί κόβοντας το
δενδρόγραμμα στο κατάλληλο επίπεδο
◼ Μπορεί να αντιστοιχούν σε λογικές
ταξινομήσεις
 Για παράδειγμα στις βιολογικές επιστήμες
(ζωικό βασίλειο, phylogeny reconstruction, …)
Άλλες διακρίσεις μεταξύ των
συνόλων συστάδων
◼ Επικαλυπτόμενα ή όχι (Non-exclusive vs
exclusive)
 Σε επικαλυπτόμενες συσταδοποιήσεις, τα σημεία μπορούν
να ανήκουν σε περισσότερες από μία ομάδες.
 Αναπαράσταση πολλαπλών κατηγοριών ή ‘οριακών’
σημείων, τα οποία μπορεί να είναι «μεταξύ» δύο ή
περισσοτέρων ομάδων (τοποθέτηση σε όλους τους
“equally good” clusters)
 Παράδειγμα: ένα άτομο σε ένα πανεπιστήμιο μπορεί να
είναι ταυτόχρονα και εγγεγραμμένος φοιτητής και
υπάλληλος του πανεπιστημίου.
Άλλες διακρίσεις μεταξύ των
συνόλων συστάδων
◼ Ασαφή ή όχι (Fuzzy vs non-fuzzy)
 Σε ασαφή συσταδοποίηση, ένα σημείο ανήκει σε
κάθε ομάδα με κάποιο βάρος μεταξύ 0 (δεν ανήκει
εντελώς) και 1 (ανήκει εντελώς)
 Το άθροισμα των βαρών είναι 1
 Η πιθανοτική συσταδοποίηση έχει παρόμοια
χαρακτηριστικά
 Στην πράξη συνήθως το κάθε σημείο τοποθετείται
στην ομάδα για την οποία το βάρος έχει τη
μεγαλύτερη τιμή
Άλλες διακρίσεις μεταξύ των
συνόλων συστάδων
◼ Μερική – πλήρης (Partial vs complete)
 Μερικά αντικείμενα σε ένα σύνολο δεδομένων
μπορεί να μην ανήκουν σε καλά ορισμένες
ομάδες
 Σε κάποιες περιτπώσεις μπορεί να θέλουμε να
ομαδοποιήσουμε μόνο μερικά δεδομένα (τα
υπόλοιπα μπορεί να είναι θόρυβος ή ακραία
σημεία ή background που δεν μας ενδιαφέρει)
Άλλες διακρίσεις μεταξύ των
συνόλων συστάδων
◼ Παράδειγμα Μερικής – πλήρους
συσταδοποίησης (Partial vs complete)
 Κάποια άρθρα εφημερίδας μπορεί να αναφέρονται
στο global warming και επομένως αναζήτηση των
σημαντικών άρθρων του τελευταίου μήνα με αυτό
το θέμα
 Σε αντίθεση με την πλήρη συσταδοποίηση όταν
π.χ κάποιος θέλει να οργανώσει έγγραφα για
φυλλομέτρηση. Τότε πρέπει κάποιος να εγγυηθεί
ότι όλα τα φύλλα μπορούν να φυλλομετρηθούν
Άλλες διακρίσεις μεταξύ των
συνόλων συστάδων
◼ Ετερογενή – ομογενή (Heterogeneous vs
homogeneous)
 Συστάδες με πολύ διαφορετικά μεγέθη,
σχήματα και πυκνότητες
Τύποι συστάδων
◼ Καλώς διαχωρισμένες συστάδες (well-separated)
◼ Συστάδες βασισμένες σε κέντρο (center-based) ή σε
πρότυπα (prototype-based)
◼ Συστάδες βασισμένες σε γράφους (graph-based)
◼ Συνεχείς συστάδες (contiguous)
◼ Συστάδες βασισμένες στην πυκνότητα (density-based)
◼ Εννοιολογική συσταδοποίηση (shared property or
conceptual)
◼ Συστάδες βασισμένες σε μια αντικειμενική συνάρτηση
(objective function)
Καλώς διαχωρισμένες συστάδες
(well-separated)
◼
Μια συστάδα είναι ένα σύνολο από σημεία τέτοια ώστε κάθε
σημείο μιας συστάδας είναι κοντινότερο σε (ή πιο όμοιο με)
όλα τα άλλα σημεία της συστάδας από ότι σε οποιοδήποτε
άλλο σημείο που δεν ανήκει στη συστάδα.
3 καλώς-διαχωρισμένες συστάδες
▪
Συχνά υπάρχει η έννοια του κατωφλιού (threshold)
▪
Όχι απαραίτητα κυκλικοί (οποιοδήποτε σχήμα)
Συστάδες βασισμένες σε κέντρο
ή σε πρότυπα
Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε
ένα αντικείμενο στη συστάδα είναι κοντινότερο σε (ή πιο
όμοιο με) το «κέντρο» της συστάδας από ότι από το κέντρο
οποιασδήποτε άλλης συστάδας
◼ Το κέντρο της ομάδας είναι συχνά
◼
 ένα centroid, ο μέσος όρος των σημείων της συστάδας, ή
 ένα medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας
4 συστάδες βασισμένες σε κέντρο
Τείνουν στο να
είναι κυκλικές
Συστάδες βασισμένες σε
γράφους
◼ Αν τα δεδομένα αναπαρίστανται με τη μορφή
γράφου όπου οι κόμβοι είναι τα αντικείμενα και οι
σύνδεσμοι είναι οι συνδέσεις μεταξύ των
αντικειμένων, τότε μία συστάδα μπορεί να οριστεί
ως μία συνεκτική συνιστώσα ή μία κλίκα του
γραφήματος).
◼ Π.χ. οι βασισμένες στη γειτνίαση συστάδες όπου
δύο αντικείμενα συνδέονται μόνο αν βρίσκονται σε
μία καθορισμένη απόσταση μεταξύ τους.
Συνεχείς συστάδες (contiguous)
◼
Κοντινότερος γείτονας ή μεταβατικά – Βάσει γειτνίασης
 Μια συστάδα είναι ένα σύνολο σημείων τέτοιο ώστε κάθε σημείο σε μία
συστάδα είναι πιο κοντά σε ένα ή περισσότερα σημεία της
συστάδας από ό,τι σε οποιοδήποτε άλλο σημείο εκτός συστάδας
◼
◼
Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με
αλληλοπλεκόμενα σχήματα – ή όταν έχουμε γραφήματα και θέλουμε
να βρούμε συνεκτικά υπογραφήματα
Πρόβλημα με θόρυβο – παράδειγμα: η μικρή γέφυρα γαλάζιων
σημείων μπορεί να ενώσει δύο διακριτές συστάδες
8 συνεχείς συστάδες
Συστάδες βασισμένες στην
πυκνότητα (density-based)
◼ Μια συστάδα είναι μια πυκνή περιοχή από σημεία
την οποία χωρίζουν από άλλες περιοχές μεγάλης
πυκνότητας περιοχές χαμηλής πυκνότητας
◼ Συχνά σε περιπτώσεις συστάδων με μη κανονικό
σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν
θόρυβος ή outliers
6 συστάδες βασισμένες στην πυκνότητα
Εννοιολογική συσταδοποίηση
(Property or Conceptual)
◼ Συστάδες που μοιράζονται κάποια κοινή ιδιότητα ή
αναπαριστούν μία συγκεκριμένη έννοια (concept)
2 αλληλοκαλυπτόμενοι κύκλοι
Συστάδες βασισμένες σε
αντικειμενική συνάρτηση
◼ Εύρεση συστάδων που ελαχιστοποιούν ή
μεγιστοποιούν μια αντικειμενική συνάρτηση
◼ Απαρίθμηση όλων των δυνατών τρόπων
χωρισμού των σημείων σε συστάδες και
υπολογισμού του «πόσο καλό» (“goodness”)
είναι κάθε πιθανό σύνολο από συστάδες
χρησιμοποιώντας τη δοθείσα αντικειμενική
συνάρτηση
Συστάδες βασισμένες σε
αντικειμενική συνάρτηση
◼ Οι στόχοι μπορεί να είναι ολικοί (global) ή τοπικοί (local):
 Αλγόριθμοι ιεραρχικής συσταδοποίησης: συνήθως τοπικοί
στόχοι
 Aλγόριθμοι διαχωριστικής συσταδοποίησης: συνήθως ολικοί
στόχοι
◼ Μία παραλλαγή της προσέγγισης με την ολική
αντικειμενική συνάρτηση είναι η προσαρμογή των
δεδομένων σε ένα παραμετρικό μοντέλο
 Οι παράμετροι του μοντέλου καθορίζονται από τα δεδομένα
 Παράδειγμα – τα gaussian mixture models (GMM)
υποθέτουν ότι τα δεδομένα είναι μείγμα από ένα
συγκεκριμένο αριθμό κατανομών Gauss.
Σημαντικά τα χαρακτηριστικά
των δεδομένων εισόδου!
◼ Τύπος εγγύτητας ή μέτρο πυκνότητας
(Type of proximity or density measure)
 Αυτό είναι παράγωγο μέτρο αλλά κεντρικό
στην ομαδοποίηση
◼ Σπανιότητα (Sparseness)
 Υπαγορεύει τον τύπο ομοιότητας (type of
similarity)
 Προσθέτει στην αποτελεσματικότητα
Σημαντικά τα χαρακτηριστικά
των δεδομένων εισόδου!
◼ Τύπος χαρακτηριστικού (Attribute)
 Υπαγορεύει τον τύπο ομοιότητας (type of
similarity)
◼ Tύπος δεδομένων (Data)
 Υπαγορεύει τον τύπο ομοιότητας (type of
similarity)
 Άλλα χαρακτηριστικά, π.χ. αυτοσυσχέτιση
◼ Διάσταση (Dimensionality)
◼ Θόρυβος και ακραίες τιμές (Outliers)
◼ Τύπος κατανομής
Γενικές απαιτήσεις
συστάδα
outliers
Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως
προς τις συνηθισμένες ή αναμενόμενες τιμές
Βασικές Έννοιες – Ορισμοί
◼ Ένα αντικείμενο x είναι ένα διάνυσμα d
τιμών: x = (x1, ... xd), όπου xi είναι η τιμή
τoυ i-οστού χαρακτηριστικού (feature) του
αντικειμένου και d η διάσταση του
αντικειμένου ή του χώρου που
δημιουργείται από τα αντικείμενα.
Ορισμοί συνέχεια…
◼
Για μια συστάδα N σημείων:
◼
Centroid (κέντρο βάρους):
◼
Radius (ακτίνα): μέση απόσταση των σημείων της
συστάδας από το κέντρο βάρους
◼
Diameter (διάμετρος): μέση ανά-δύο απόσταση των
σημείων της συστάδας
Μέρη συσταδοποίησης
◼ Αντιπροσώπευση δεδομένων με
χαρακτηριστικά
◼ Υπολογισμός απόστασης
χαρακτηριστικών
◼ Ομαδοποίηση (ιεραρχική ή διαχωριστική)
◼ «Εγκυρότητα» ομάδων
Αντιπροσώπευση δεδομένων
Μέσω χαρακτηριστικών ή επιλογής μιας υποομάδας
δεδομένων
◼ Είδη χαρακτηριστικών:
◼
 Ποσοτικά, π.χ. αριθμητικές τιμές, διάρκεια
 Ποιοτικά, π.χ. χρώμα, ένταση ήχου
Πολύ σημαντικό μέρος της διαδικασίας
◼ Καλή επιλογή χαρακτηριστικών οδηγεί σε απλή και
εύκολα κατανοητή συσταδοποίηση
◼ Κακή επιλογή χαρακτηριστικών μπορεί να οδηγήσει σε
πολύπλοκη συσταδοποίηση που δεν αντιπροσωπεύει
καλά τις φυσικές ομάδες των δεδομένων
◼
Αλγόριθμοι συσταδοποίησης
◼ K-means και παραλλαγές (διαχωριστική
συσταδοποίηση)
◼ Ιεραρχική Συσταδοποίηση
◼ Συσταδοποίηση με βάση την πυκνότητα
(DBSCAN)
K-means συσταδοποίηση
◼ Προσέγγιση διαχωριστικής συσταδοποίησης
◼ Συστάδες βασισμένες σε κέντρο (center-based)
 Κάθε συστάδα συσχετίζεται με ένα κεντρικό σημείο
(centroid)
◼ Κάθε σημείο ανατίθεται στη συστάδα με το
κοντινότερο κεντρικό σημείο
◼ Ο αριθμός των συστάδων, Κ, πρέπει να καθοριστεί
και αποτελεί είσοδο στον αλγόριθμο
◼ Εφαρμόζεται σε αντικείμενα σε συνεχή n-διάστατο
χώρο
K-means συσταδοποίηση –
βήματα
◼
◼
◼
◼
◼
◼
◼
◼
Επιλογή K (πλήθος συστάδων) – παράμετρος που καθορίζεται από το
χρήστη
Επιλογή τυχαίων κεντρικών σημείων
Υπολογισμός αποστάσεων μεταξύ του κάθε αρχικού σημείου και όλων
των σημείων προς ομαδοποίηση
Με βάση την πιο μικρή απόσταση, ανάθεση κάθε σημείου στο πιο
γειτονικό από τα Κ αρχικά σημεία
Επανα-υπολογισμός του κέντρου (centroid) κάθε μίας από τις K
συστάδες
Επανα-υπολογισμός αποστάσεων και νέα ανάθεση σημείων
Επανα-υπολογισμός νέων centroids
Επανάληψη μέχρι να μην έχουμε αλλαγές
 Κανένα σημείο δεν αλλάζει συστάδα
 Ισοδύναμα: τα κέντρα παραμένουν τα ίδια
K-means συσταδοποίηση
◼ Βασικός αλγόριθμος
K-means συσταδοποίηση
1. Ανάθεση των αρχικών κέντρων, vi i = 1, 2, ..., c, για τις c συστάδες.
Για κάθε επανάληψη r = 1, ..., rmax:
2. Υπολογισμός της απόστασης κάθε στοιχείου του συνόλου δεδομένων από
το κέντρο κάθε συστάδας dki = (xk - vi)2, k = 1, 2, .., n i = 1, 2, ..., c
3. Κάθε στοιχείο xk αντιστοιχίζεται στη συστάδα με την ελάχιστη απόσταση
4. Υπολογισμός των νέων κέντρων των συστάδων
όπου ni ο αριθμός των στοιχείων που ανήκουν στην i συστάδα μέχρι στιγμής.
5.
then stop
else
r = r + 1, goto 2
Σύμβολα και περιγραφές
Σύμβολο Περιγραφή
x
Αντικείμενο
Ci
Η συστάδα i
ci
Το κέντρο βάρους της συστάδας i
c
Το κέντρο βάρους όλων των σημείων
mi
Το πλήθος αντικειμένων της συστάδας i
m
Το πλήθος αντικειμένων του συνόλου δεδομένων
K
Το πλήθος των συστάδων
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ Πώς προχωράμε?
◼ Ποια σημεία θα ανήκουν στο ένα cluster και
ποια στο άλλο?
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
Cluster 1 Cluster 2
Point Dist to 3 Dist to 4 #Cluster
2
1
2
1
4
1
0
2
10
7
6
2
12
9
8
2
3
0
1
1
20
17
16
2
30
27
26
2
11
8
7
2
25
22
21
2
Cluster 1 Cluster 2
Point Dist to 3 Dist to 4 #Cluster
2
1
2
1
4
1
0
2
10
7
6
2
12
9
8
2
3
0
1
1
20
17
16
2
30
27
26
2
11
8
7
2
25
22
21
2
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη:
 Κ1={2, 3}
 Κ2={4, 10, 12, 20, 30, 11, 25}
 m1=?
 m2=?
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη:
 Κ1={2, 3}
 Κ2={4, 10, 12, 20, 30, 11, 25}
 m1=2.5
 m2=16
Παράδειγμα k-means σε 1
διάσταση
◼
1η επανάληψη:
 Κ1={2, 3}
 Κ2={4, 10, 12, 20, 30, 11, 25}
 m1=2.5
 m2=16
Cluster 1 Cluster 2
Point Dist to 2.5 Dist to 16 #Cluster
2
0,5
14
1
4
1,5
12
1
10
7,5
6
2
12
9,5
4
2
3
0,5
13
1
20
17,5
4
2
30
27,5
14
2
11
8,5
5
2
25
22,5
9
2
Cluster 1 Cluster 2
Point Dist to 2.5 Dist to 16 #Cluster
2
0,5
14
1
4
1,5
12
1
10
7,5
6
2
12
9,5
4
2
3
0,5
13
1
20
17,5
4
2
30
27,5
14
2
11
8,5
5
2
25
22,5
9
2
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11,
25}, m1=2.5, m2=16
◼ 2η επανάληψη:
 Κ1={2, 3, 4}
 Κ2={10, 12, 20, 30, 11, 25}
 m1=?
 m2=?
Παράδειγμα k-means σε 1
διάσταση
◼ Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11,
25}, m1=2.5, m2=16
◼ 2η επανάληψη:
 Κ1={2, 3, 4}
 Κ2={10, 12, 20, 30, 11, 25}
 m1=3
 m2=18
Παράδειγμα k-means σε 1
διάσταση
◼
2η επανάληψη:
 Κ1={2, 3, 4}
 Κ2={10, 12, 20, 30, 11, 25}
 m1=3
 m2=18
Cluster 1 Cluster 2
Point Dist to 3 Dist to 18 #Cluster
2
1
16
1
4
1
14
1
10
7
8
1
12
9
6
2
3
0
15
1
20
17
2
2
30
27
12
2
11
8
7
2
25
22
7
2
Cluster 1 Cluster 2
Point Dist to 3 Dist to 18 #Cluster
2
1
16
1
4
1
14
1
10
7
8
1
12
9
6
2
3
0
15
1
20
17
2
2
30
27
12
2
11
8
7
2
25
22
7
2
Παράδειγμα k-means σε 1
διάσταση
Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11, 25}, m1=2.5,
m2=16
◼ 2η επανάληψη: Κ1={2, 3, 4}, Κ2={10, 12, 20, 30, 11, 25}, m1=3,
m2=18
◼ 3η επανάληψη:
◼
 Κ1={2, 3, 4, 10}
 Κ2={12, 20, 30, 11, 25}
 m1=?
 m2=?
Παράδειγμα k-means σε 1
διάσταση
Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11, 25}, m1=2.5,
m2=16
◼ 2η επανάληψη: Κ1={2, 3, 4}, Κ2={10, 12, 20, 30, 11, 25}, m1=3,
m2=18
◼ 3η επανάληψη:
◼
 Κ1={2, 3, 4, 10}
 Κ2={12, 20, 30, 11, 25}
 m1=4.75
 m2=19.6
Παράδειγμα k-means σε 1
διάσταση
◼
3η επανάληψη:
 Κ1={2, 3, 4,10}
 Κ2={12, 20, 30, 11, 25}
 m1=4.75
 m2=19.6
Cluster 1 Cluster 2
Point Dist to 4.75 Dist to 19.6 #Cluster
2
2,75
17,6
1
4
0,75
15,6
1
10
5,25
9,6
1
12
7,25
7,6
1
3
1,75
16,6
1
20
15,25
0,4
2
30
25,25
10,4
2
11
6,25
8,6
1
25
20,25
5,4
2
Cluster 1 Cluster 2
Point Dist to 4.75 Dist to 19.6 #Cluster
2
2,75
17,6
1
4
0,75
15,6
1
10
5,25
9,6
1
12
7,25
7,6
1
3
1,75
16,6
1
20
15,25
0,4
2
30
25,25
10,4
2
11
6,25
8,6
1
25
20,25
5,4
2
Παράδειγμα k-means σε 1
διάσταση
◼
◼
◼
◼
◼
◼
Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
Τυχαία επιλέγουμε, έστω m1=3, m2=4
1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11, 25}, m1=2.5, m2=16
2η επανάληψη: Κ1={2, 3, 4}, Κ2={10, 12, 20, 30, 11, 25}, m1=3, m2=18
3η επανάληψη: Κ1={2, 3, 4, 10}, Κ2={12, 20, 30, 11, 25}, m1=4.75,
m2=19.6
4η επανάληψη:
 Κ1={2, 3, 4, 10, 11, 12}
 Κ2={20, 30, 25}
 m1=?
 m2=?
Παράδειγμα k-means σε 1
διάσταση
◼
◼
◼
◼
◼
◼
Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
Τυχαία επιλέγουμε, έστω m1=3, m2=4
1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11, 25}, m1=2.5, m2=16
2η επανάληψη: Κ1={2, 3, 4}, Κ2={10, 12, 20, 30, 11, 25}, m1=3, m2=18
3η επανάληψη: Κ1={2, 3, 4, 10}, Κ2={12, 20, 30, 11, 25}, m1=4.75,
m2=19.6
4η επανάληψη:
 Κ1={2, 3, 4, 10, 11, 12}
 Κ2={20, 30, 25}
 m1=7
 m2=25
Παράδειγμα k-means σε 1
διάσταση
◼
4η επανάληψη:
 Κ1={2, 3, 4,10,11,12}
 Κ2={20, 30, 25}
 m1=7
 m2=25
Cluster 1 Cluster 2
Point Dist to 7 Dist to 25 #Cluster
2
5
23
1
4
3
21
1
10
3
15
1
12
5
13
1
3
4
22
1
20
13
5
2
30
23
5
2
11
4
14
1
25
18
0
2
Cluster 1 Cluster 2
Point Dist to 7 Dist to 25 #Cluster
2
5
23
1
4
3
21
1
10
3
15
1
12
5
13
1
3
4
22
1
20
13
5
2
30
23
5
2
11
4
14
1
25
18
0
2
Παράδειγμα k-means σε 1
διάσταση
Δίνεται: {2, 4, 10, 12, 3, 20, 30, 11, 25}, k=2
◼ Τυχαία επιλέγουμε, έστω m1=3, m2=4
◼ 1η επανάληψη: Κ1={2, 3}, Κ2={4, 10, 12, 20, 30, 11, 25}, m1=2.5,
m2=16
◼ 2η επανάληψη: Κ1={2, 3, 4}, Κ2={10, 12, 20, 30, 11, 25}, m1=3,
m2=18
◼ 3η επανάληψη: Κ1={2, 3, 4, 10}, Κ2={12, 20, 30, 11, 25}, m1=4.75,
m2=19.6
◼ 4η επανάληψη: Κ1={2, 3, 4, 10, 11, 12}, Κ2={20, 30, 25}, m1=7,
m2=25
◼ 5η επανάληψη: δεν αλλάζει τίποτα. Τέλος
◼
K-means συσταδοποίηση –
παρατηρήσεις (1)
◼ Τα αρχικά κεντρικά σημεία συνήθως
επιλέγονται τυχαία
 Οι συστάδες που παράγονται διαφέρουν από το
ένα τρέξιμο του αλγορίθμου στο άλλο
◼ Το κεντρικό σημείο (centroid) είναι
(συνήθως) ο μέσος (mean) των σημείων της
συστάδας (συνήθως δεν είναι ένα από τα
δεδομένα εισόδου!)
K-means συσταδοποίηση –
παρατηρήσεις (2)
◼ Η «εγγύτητα»
των σημείων υπολογίζεται με
βάση κάποια απόσταση που εξαρτάται από
το είδος των σημείων, π.χ. Ευκλείδεια
απόσταση, ομοιότητα συνημιτόνου,
συσχέτιση
 Εμείς θα θεωρήσουμε την Ευκλείδεια
απόσταση
 Επειδή η απόσταση υπολογίζεται συχνά, o
υπολογισμός πρέπει να είναι σχετικά απλός!!!
Συναρτήσεις εγγύτητας
Συνάρτηση εγγύτητας
Κέντρο
Βάρους
Αντικειμενική Συνάρτηση
Manhattan (L1)
Διάμεσος
Ελαχιστοποιεί το άθροισμα της
απόστασης L1 ενός αντικειμένου από
το κέντρο βάρους της συστάδας του
Τετραγωνική Ευκλείδεια
(L22)
Μέσος
Ελαχιστοποιεί το άθροισμα της
τετραγωνικής απόστασης L2 ενός
αντικειμένου από το κέντρο βάρους
της συστάδας του
Συνημιτόνου
Μέσος
Μεγιστοποιεί το άθροισμα της
ομοιότητας συνημιτόνου ενός
αντικειμένου από το κέντρο βάρους
της συστάδας του
K-means συσταδοποίηση –
παρατηρήσεις (3)
◼ Για συνηθισμένα μέτρα ομοιότητας, ο
αλγόριθμος συγκλίνει και η σύγκλιση
συμβαίνει συνήθως στις αρχικές πρώτες
επαναλήψεις
◼ Συχνά η τελική συνθήκη αλλάζει σε
 Until
◼ σχετικά
λίγα σημεία να αλλάζουν συστάδα,
ή
◼ η απόσταση μεταξύ των νέων centroids από
τα παλιά να είναι μικρή
K-means συσταδοποίηση
◼
Αρχική κατάσταση
 Κ = 3 συσταδες
 Αρχικά σημεία k1, k2, k3
K-means συσταδοποίηση
◼
1η επανάληψη – τα σημεία ανατίθενται στο πλησιέστερο από τα 3
αρχικά σημεία με βάση την απόσταση από το κέντρο του cluster
K-means συσταδοποίηση
◼
Επανα-υπολογισμός του νέου κέντρου (centroid) κάθε συστάδας
K-means συσταδοποίηση
◼
2η επανάληψη – νέα ανάθεση σημείων
K-means συσταδοποίηση
◼
3 σημεία αλλάζουν cluster
K-means συσταδοποίηση
◼
Νέα centroids, εκχώρηση σημείων στο πλησιέστερο cluster
K-means συσταδοποίηση
Δεν αλλάζει τίποτα -> επομένως ο αλγόριθμος έχει συγκλίνει
◼ ΤΕΛΟΣ!
◼
K-means συσταδοποίηση
◼
Αρχική κατάσταση
◼
Τελική κατάσταση
Παράδειγμα εφαρμογής
αλγόριθμου K-means
◼
Step 0
 Select number of clusters
 Select initial cluster means randomly
◼
Step 1
1.
2.
3.
◼
Step 2
1.
◼
Compute distances
Assign each case to the cluster with the smallest distance
Recalculate cluster means
Recalculate distances for the two new means and repeat steps
1.2 and 1.3
Step 3
 Algorithm has converged – no change
Πότε τερματίζει?
◼ Δίνουμε ένα συγκεκριμένο αριθμό επαναλήψεων
(μέγιστο αριθμό επαναλήψεων)
◼ Φτάνει σε μία κατάσταση όπου δεν υπάρχουν σημεία
που να μετατοπίζονται από μία συστάδα σε μία άλλη
και επομένως να μην αλλάζουν τα κέντρα βάρους.
◼ Πιο αδύναμη συνθήκη: να επαναλαμβάνεται μέχρι το
1% των σημείων να αλλάζει συστάδα
◼ Στο τετραγωνικό σφάλμα
K-means συσταδοποίηση
◼ Χώρος: αποθηκεύουμε μόνα τα κέντρα ->
ΑΡΑ όχι μεγάλες αποθηκευτικές απαιτήσεις
 Ο((n + K) * d)
◼ Η πολυπλοκότητα είναι O(n * K * l * d)
 n = αριθμός σημείων,
 K = αριθμός συστάδων,
 I = αριθμός επαναλήψεων,
 d = αριθμός γνωρισμάτων
Επιλογή αριθμού συστάδων
◼ Πόσες συστάδες?
◼ Πώς επιλέγεται το k?
Επιλογή αριθμού συστάδων
◼ Πόσες συστάδες?
◼ Πώς επιλέγεται το k?
◼ ΔΕΝ υπάρχει κάποιος αυτοματοποιημένος τρόπος
επιλογής του k.... 
◼ Mειονέκτημα....
◼ Ο αριθμός των συστάδων δίνεται ως είσοδος από
τον χρήστη και η επιλογή του σωστού αριθμού
επαφίεται στη δική του γνώση και εμπειρία.
Επιλογή αριθμού συστάδων
◼ Επομένως τι κάνουμε...?
◼ Πώς βρίσκουμε το k?
Επιλογή αριθμού συστάδων
◼ Επομένως τι κάνουμε...?
◼ Πώς βρίσκουμε το k?
◼ H διαδικασία επιλογής του αριθμού συστάδων,
ενδεχομένως, να απαιτήσει την εξερεύνηση και
μελέτη των δεδομένων, για παράδειγμα, μέσα από
οπτικοποιήσεις, προκειμένου να καταλήξουμε
στον σωστό αριθμό συστάδων.
Επιλογή αριθμού συστάδων
◼ Μπορεί διφορούμενα δεδομένα...
Πόσες Ομάδες?
Επιλογή αριθμού συστάδων
◼ Μπορεί διφορούμενα δεδομένα...
Πόσες Ομάδες?
2 ομάδες
Επιλογή αριθμού συστάδων
◼ Μπορεί διφορούμενα δεδομένα...
Πόσες Ομάδες?
2 ομάδες
4 ομάδες
Επιλογή αριθμού συστάδων
◼ Μπορεί διφορούμενα δεδομένα...
Πόσες Ομάδες?
6 ομάδες
2 ομάδες
4 ομάδες
Αξιολόγηση K-means
συσταδοποίησης
◼
◼
Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την
απόσταση όλων των σημείων από ένα σημείο της συστάδας
Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετραγώνων του
λάθους (Sum of Squared Error (SSE))
 Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη
συστάδα
 Για να υπολογίσουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών
και τα προσθέτουμε
K
SSE =   dist2 ( mi , x )
i =1 xCi
 όπου dist είναι η Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci
και ci είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci
Αξιολόγηση K-means
συσταδοποίησης
◼ Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί
το SSE για τη συστάδα είναι ο μέσος όρος (κέντρο
βάρους της i συστάδας) ci = 1/mi Σ x Ci x
(1,1), (2,3) και (6,2) είναι ((1+2+6)/3),((1+3+2)/3)) = (3,2)
◼ Δοθέντων δύο συνόλων συστάδων, μπορούμε να
επιλέξουμε το σύνολο με το μικρότερο λάθος γιατί αυτό
σημαίνει ότι τα centroids αυτού του συνόλου αποτελούν
καλύτερη αναπαράσταση των σημείων στη συστάδα τους
Άθροισμα Τετραγωνικού Σφάλματος
(ΑΤΣ) – Sum of Squared Error (SSE)
Για όλες τις Κ συστάδες
K
SSE (  ) =   dist 2 (mi , x)
i =1 xCi
Τετραγωνικό λάθος, για κάθε συστάδα Ci,
Για όλα τα σημεία x  Ci, παίρνουμε την
απόστασή τους από ένα αντιπροσωπευτικό
σημείο (mi) της συστάδας (το κέντρο βάρους
για Ευκλείδειες αποστάσεις)
◼
Το σημείο που ελαχιστοποιεί το σφάλμα είναι το κέντρο
βάρους κάθε πλειάδας
Άθροισμα Απόλυτου Σφάλματος
(ΑΑΣ)
Για όλες τις Κ συστάδες
K
 =   distL1(mi , x)
i =1 xCi
Διαφορετικές συναρτήσεις σφάλματος,
π.χ. Manhattan (L1)
◼
Το σημείο που ελαχιστοποιεί το σφάλμα είναι το (μεσαίο
σημείο) διάμεσος
Αξιολόγηση K-means
συσταδοποίησης
◼ Εύκολος τρόπος μείωσης SSE → αύξηση
του K, αριθμού των συστάδων
 Μία καλή συσταδοποίηση με μικρότερο Κ
μπορεί να έχει μικρότερο SSE από μία κακή
συσταδοποίηση με μεγαλύτερο Κ.
Επιλογή αριθμού συστάδων
◼
Χρήση SSE (άθροισμα τετραγώνων αποστάσεων) για
υπολογισμό του σωστού αριθμού συστάδων
χρησιμοποιώνας τον k-means
◼
k=5 και 10 φαίνονται καλές τιμές
Επιλογή αριθμού συστάδων
◼
«ο κανόνας του αγκώνα» (the elbow rule)
◼
Ο κανόνας του αγκώνα δείχνει ότι
η επιλογή k=3 είναι αρκετά καλή.
Ωστόσο, υπάρχουν περιπτώσεις,
όπου η γραφική είναι πιο ομαλή
και δεν έχει τον τύπο σχήματος
του αγκώνα, με αποτέλεσμα η
επιλογή και πάλι να μην είναι
ξεκάθαρη.
Επιλογή αριθμού συστάδων
Δύο διαφορετικά αποτελέσματα K-means
συσταδοποίησης
3
2.5
2
Αρχικά σημεία
y
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
2.5
2.5
2
2
1.5
1.5
y
3
y
3
1
1
0.5
0.5
0
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
Optimal Clustering
Global minimum of SSE for the 3 clusters
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
Sub-optimal Clustering
Local minimum of SSE
K-means συσταδοποίηση – σημασία επιλογής
αρχικών centroids
Iteration 1
Iteration 2
Iteration 3
2.5
2.5
2.5
2
2
2
1.5
1.5
1.5
y
3
y
3
y
3
1
1
1
0.5
0.5
0.5
0
0
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-2
-1.5
-1
-0.5
x
0
0.5
1
1.5
2
-2
Iteration 4
Iteration 5
2.5
2
2
2
1.5
1.5
1.5
1
1
1
0.5
0.5
0.5
0
0
0
-0.5
0
x
0.5
1
1.5
2
0
0.5
1
1.5
2
1
1.5
2
y
2.5
y
2.5
y
3
-1
-0.5
Iteration 6
3
-1.5
-1
x
3
-2
-1.5
x
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
2
-2
-1.5
-1
-0.5
0
x
0.5
K-means συσταδοποίηση – σημασία επιλογής
αρχικών centroids
Iteration 6
3
2.5
2
y
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
Αν και τα αρχικά centroids προέρχονται από την ίδια φυσική συστάδα, η
συσταδοποίηση με το ελάχιστο SSE έχει βρεθεί! Καλό αποτέλεσμα ☺
K-means συσταδοποίηση – σημασία επιλογής
αρχικών centroids
Iteration 1
Iteration 2
2.5
2.5
2
2
1.5
1.5
y
3
y
3
1
1
0.5
0.5
0
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-2
-1.5
-1
-0.5
x
0
0.5
Iteration 3
2.5
2
2
2
1.5
1.5
1.5
y
2.5
y
2.5
y
3
1
1
1
0.5
0.5
0.5
0
0
0
-1
-0.5
0
x
0.5
2
Iteration 5
3
-1.5
1.5
Iteration 4
3
-2
1
x
1
1.5
2
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
2
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
2
K-means συσταδοποίηση – σημασία επιλογής
αρχικών centroids
Iteration 5
3
2.5
2
y
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
Αν και τα αρχικά centroids φαίνεται να είναι καλύτερα κατανεμημένα, τελικά
πετυχαίνουμε sub-optimal clustering με μεγαλύτερο SSE! Κακό αποτέλεσμα 
Προβλήματα με την επιλογή των
αρχικών σημείων
◼ Αν υπάρχουν K «πραγματικές» συστάδες, η πιθανότητα
να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή,
 Σχετικά μικρή πιθανότητα αν το Κ είναι μεγάλο
 Αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε:
 Για παράδειγμα, αν Κ = 10, η πιθανότητα είναι = 10!/1010 =
0.00036
 Μερικές φορές τα αρχικά centroids θα επαναπροσαρμόσουν
τους εαυτούς τους με το ‘σωστό’ τρόπο, και μερικές φορές όχι
Λύσεις για το πρόβλημα
επιλογής αρχικών centroids
◼ Πολλαπλά τρεξίματα
 Βοηθάει, αλλά...probability is not on your side
◼ Δειγματοληψία και χρήση ιεραρχικής συσταδοποίησης
για τον καθορισμό των αρχικών centroids
◼ Επιλογή περισσότερων από k αρχικών centroids και
στη συνέχεια επιλογή k από αυτά τα αρχικά centroids
 Επιλογή αυτών που είναι τα πιο απομακρυσμένα
◼ Post-processing
◼ K-means με διχοτόμηση (Bisecting K-means)
 Όχι τόσο ευαίσθητος σε θέματα αρχικοποίησης
Λύσεις για το πρόβλημα
επιλογής αρχικών centroids
◼ Σταδιακή επιλογή
 Επιλογή του πρώτου σημείου τυχαία ή ως το
μέσο όλων των σημείων
 Για καθένα από τα υπόλοιπα αρχικά σημεία
◼ επέλεξε αυτό που είναι πιο μακριά από τα μέχρι τώρα
επιλεγμένα αρχικά σημεία
◼ Μπορεί να οδηγήσει στην επιλογή outliers
◼ Ο υπολογισμός του πιο απομακρυσμένου
σημείου είναι δαπανηρός
◼ Συχνά εφαρμόζεται σε δείγματα
Παράδειγμα 10
συστάδων
Iteration
4
8
6
4
y
2
0
-2
-4
-6
0
5
10
15
20
x
Τα δεδομένα αποτελούνται από πέντε ζευγάρια συστάδων, όπου οι συστάδες
σε κάθε (πάνω-κάτω) ζευγάρι είναι πιο κοντά μεταξύ τους απ’ ότι στις
συστάδες του άλλου ζευγαριού
Παράδειγμα 10 συστάδων
Iteration 2
8
6
6
4
4
2
2
y
y
Iteration 1
8
0
0
-2
-2
-4
-4
-6
-6
0
5
10
15
20
0
5
x
6
6
4
4
2
2
0
-2
-4
-4
-6
-6
x
15
20
0
-2
10
20
Iteration 4
8
y
y
Iteration 3
5
15
x
8
0
10
15
20
0
5
10
x
Ξεκινώντας με δύο αρχικά centroids στη μία συστάδα κάθε ζεύγους συστάδων
Παράδειγμα 10 συστάδων
Iteration 4
8
6
4
y
2
0
-2
-4
-6
0
5
10
x
Εύρεση των «πραγματικών» συστάδων!
15
20
Παράδειγμα 10 συστάδων
Iteration 2
8
6
6
4
4
2
2
y
y
Iteration 1
8
0
0
-2
-2
-4
-4
-6
-6
0
5
10
15
20
0
5
8
8
6
6
4
4
2
2
0
-2
-4
-4
-6
-6
5
10
x
15
20
15
20
0
-2
0
10
x
Iteration
4
y
y
x
Iteration
3
15
20
0
5
10
x
Ξεκινώντας με κάποια ζευγάρια συστάδων να έχουν τρία αρχικά centroids και άλλα μόνο ένα
Παράδειγμα 10 Iteration
συστάδων
4
8
6
4
y
2
0
-2
-4
-6
0
5
10
15
20
x
Δύο από τις «πραγματικές» συστάδες έχουν συνενωθεί και μία «φυσική» συστάδα έχει
χωριστεί σε δύο!
Χειρισμός άδειων συστάδων
◼ Ο βασικός αλγόριθμος μπορεί να οδηγήσει σε άδειες
αρχικές συστάδες
◼ Διάφορες στρατηγικές για την επιλογή του
αντικαταστάτη centroid
 Επιλογή του σημείου που είναι πιο μακριά από όλα τα
τωρινά κέντρα = επιλογή του σημείου που συμβάλει
περισσότερο στο SSE
 Επιλογή ενός σημείου από τη συστάδα με το υψηλότερο
SSE – θα οδηγήσει σε «σπάσιμό» της άρα σε μείωση του
λάθους
 Αν υπάρχουν πολλές άδειες συστάδες, τα παραπάνω
βήματα μπορεί να επαναληφτούν πολλές φορές
Σταδιακή ενημέρωση centroids
Στο βασικό Κ-means αλγόριθμο, τα centroids ενημερώνονται
αφού όλα τα σημεία έχουν ανατεθεί σε ένα centroid
◼ Μια παραλλαγή είναι να ενημερώνονται τα centroids μετά από
κάθε ανάθεση (incremental approach)
◼
 Κάθε ανάθεση ενημερώνει 0 ή 2 centroids
Ένα σημείο είτε μετακινείται σε νέα συστάδα (2 ενημερώσεις)
◼ Ένα σημείο παραμένει στην ίδια συστάδα (0 ενημερώσεις)
◼
 Πιο δαπανηρό
 Έχει σημασία η σειρά εισαγωγής/εξέτασης των σημείων
 Δεν υπάρχουν άδειες συστάδες – όλες οι συστάδες ξεκινούν με ένα
σημείο και αν η συστάδα έχει ένα σημείο, τότε το σημείο αυτό θα
ανατεθεί στην ίδια συστάδα
 Μπορεί να χρησιμοποιηθούν βάρη για την αλλαγή της επίδρασης
Pre-processing
◼ Κανονικοποίηση των δεδομένων
◼ Απομάκρυνση των outliers
Post-processing
◼ Split-Merge (διατηρώντας το ίδιο K)
 Διαχωρισμός (split) συστάδων με το σχετικά μεγαλύτερο
SSE
 Δημιουργία μια νέας συστάδας: π.χ. επιλέγοντας το σημείο
που είναι πιο μακριά από όλα τα centroids ή τυχαία
επιλογή σημείου ή επιλογή του σημείου με το μεγαλύτερο
SSE
 Συνένωση (merge) συστάδων που είναι σχετικά κοντινές
(τα centroids τους έχουν τη μικρότερη απόσταση) ή τις δυο
συστάδες που οδηγούν στη μικρότερη αύξηση του SSE
 Διαγραφή συστάδας και ανακατανομή των σημείων της σε
άλλες συστάδες (αυτό που οδηγεί στη μικρότερη αύξηση
του SSE)
K-means με διχοτόμηση
(bisecting k-means)
◼ Παραλλαγή που μπορεί να παράγει μια
διαχωριστική ή ιεραρχική συσταδοποίηση
 Για να έχουμε Κ συστάδες, χωρίζουμε το σύνολο των
σημείων σε 2 συστάδες, επιλέγουμε μία από τις
συστάδες για να τη χωρίσουμε πάλι σε 2 κοκ μέχρι να
έχουμε Κ συστάδες
K-means με διχοτόμηση
(bisecting k-means)
◼ Ποια συστάδα να διασπάσουμε?
 Τη μεγαλύτερη
 Αυτή με το μεγαλύτερο SSE
 Συνδυασμό των παραπάνω
◼ Μπορεί να χρησιμοποιηθεί και ως
ιεραρχικός
K-means με διχοτόμηση
(bisecting k-means)
Περιορισμοί του K-means
◼ O αλγόριθμος K-means έχει προβλήματα
όταν οι συστάδες έχουν
 Διαφορετικά μεγέθη
 Διαφορετικές πυκνότητες
 Μη-κυκλικά σχήματα (non-globular shapes)
◼ O αλγόριθμος K-means έχει προβλήματα
όταν τα δεδομένα έχουν outliers
Περιορισμοί του K-means
◼ O αλγόριθμος K-means πάντα θα βρει k
συστάδες, ανεξάρτητα από την
πραγματική δομή των δεδομένων! Ακόμη
κι αν είναι τυχαία κατανεμημένα!
Περιορισμοί του K-means:
διαφορετικά μεγέθη
Μεγάλη κόκκινη συστάδα
Αρχικά σημεία
Περιορισμοί του K-means:
διαφορετικά μεγέθη
Αρχικά σημεία
K-means (3 Clusters)
Δεν μπορεί να βρει τη μεγάλη κόκκινη συστάδα, γιατί είναι πολύ μεγαλύτερη
από τις άλλες! Η μεγαλύτερη συστάδα «σπάει», η κάθε μικρότερη συστάδα
συνενώνεται με μέρος της μεγαλύτερης συστάδας
Περιορισμοί του K-means:
διαφορετικές πυκνότητες
Δύο πολύ πυκνές μικρές
συστάδες
Αρχικά σημεία
Περιορισμοί του K-means:
διαφορετικές πυκνότητες
Αρχικά σημεία
K-means (3 Clusters)
Δεν μπορεί να διαχωρίσει τις δύο μικρές συστάδες, γιατί είναι πολύ πυκνές
σε σχέση με τη μία μεγάλη!
Περιορισμοί του K-means: μηκυκλικά σχήματα
Μη κυκλικά σχήματα
Αρχικά σημεία
Περιορισμοί του K-means: μηκυκλικά σχήματα
Αρχικά σημεία
K-means (2 Clusters)
Δεν μπορεί να βρει τις δύο συστάδες, γιατί έχουν μη κυκλικά σχήματα!
Ξεπερνώντας τους
περιορισμούς του K-means
Αρχικά σημεία
K-means Clusters
Μία λύση είναι η χρήση πολλών συστάδων
Βρίσκει τμήματα των φυσικών συστάδων, αλλά πρέπει να τα συγκεντρώσουμε
Ξεπερνώντας τους
περιορισμούς του K-means
Αρχικά σημεία
K-means Clusters
Ξεπερνώντας τους
περιορισμούς του K-means
Αρχικά σημεία
K-means Clusters
Κάθε μικρότερη συστάδα είναι «αγνή» δεδομένου ότι περιέχει σημεία από
μόνο μία από τις «φυσικές» συστάδες!
Γενικές απαιτήσεις
◼
◼
◼
◼
◼
◼
Scalability – στον αριθμό σημείων και διαστάσεων
Να υποστηρίζει διαφορετικούς τύπους δεδομένων
Να υποστηρίζει συστάδες με διαφορετικά σχήματα (συνήθως,
«σφαίρες»)
Να είναι εύκολο να δώσουμε τιμές στις παραμέτρους εισόδου
(αριθμό συστάδων, μέγεθος κλπ)
Να μην εξαρτάται από τη σειρά επεξεργασίας των σημείων εισόδου
Δυναμικά μεταβαλλόμενα δεδομένα
 Αλλαγή συστάδων με το πέρασμα του χρόνου
◼
Απόδοση (scaling)
 Disk-resident vs Main memory
Παράδειγμα με outliers
Πόσα clusters???
https://educlust.dbvis.de
Παράδειγμα με outliers
4 clusters…
https://educlust.dbvis.de
Παράδειγμα με outliers
3 clusters…
https://educlust.dbvis.de
Παράδειγμα με outliers
5 clusters…
https://educlust.dbvis.de
Παράδειγμα με outliers
2 clusters!
https://educlust.dbvis.de
Παράδειγμα με σχήματα
Πόσα clusters???
https://educlust.dbvis.de
Παράδειγμα με σχήματα
2 clusters…
https://educlust.dbvis.de
Παράδειγμα με σχήματα
3 clusters!
https://educlust.dbvis.de
Παράδειγμα με καμπύλα
σχήματα
Πόσα clusters???
https://educlust.dbvis.de
Παράδειγμα με καμπύλα
σχήματα
2 clusters…
https://educlust.dbvis.de
Παράδειγμα με καμπύλα
σχήματα
3 clusters…
https://educlust.dbvis.de
Παράδειγμα με καμπύλα
σχήματα
4 clusters…
https://educlust.dbvis.de
Πηγές / Acknowledgements
◼
◼
◼
◼
◼
◼
◼
◼
◼
◼
◼
◼
P.-N. Tan, M. Steinbach, V. Kumar. “Introduction to Data Mining”, Addison Wesley, 2006.
Ε. Πιτουρά. Εξόρυξη Δεδομένων, Ακ. Έτος 2010-2011. Tμήμα Μηχανικών Η/Υ και
Πληροφορικής, Πανεπιστήμιο Ιωαννίνων
T. Mitchell. Machine Learning. McGraw-Hill (International Edition), 1997.
C.M. Bishop. Neural Networks for Pattern Recognition. Oxford, Great Britain: Oxford University
Press, 2004.
I.W.Witten, E. Frank, M.A. Hall. Data Mining, Ch. 1 Practical Machine Learning Tools and
Techniques
Jeff Howbert, Introduction to Machine Learning, 2021
Βερύκιος, Β., Καγκλής, Β., Σταυρόπουλος, Η. 2015. Συσταδοποίηση. [Κεφάλαιο Συγγράμματος].
Στο Βερύκιος, Β., Καγκλής, Β., Σταυρόπουλος, Η. 2015. Η επιστήμη των δεδομένων μέσα από
τη γλώσσα R. [ηλεκτρ. βιβλ.] Αθήνα:Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών. κεφ 6.
Διαθέσιμο στο: http://hdl.handle.net/11419/2972
Πετρίδης, Δ. 2015. ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ. [Κεφάλαιο Συγγράμματος]. Στο Πετρίδης, Δ. 2015.
Ανάλυση πολυμεταβλητών τεχνικών. [ηλεκτρ. βιβλ.] Αθήνα:Σύνδεσμος Ελληνικών Ακαδημαϊκών
Βιβλιοθηκών. κεφ 5. Διαθέσιμο στο: http://hdl.handle.net/11419/2130
Κύρκος, Ε. 2015. Ανάλυση Συστάδων. [Κεφάλαιο Συγγράμματος]. Στο Κύρκος, Ε. 2015.
Επιχειρηματική ευφυΐα και εξόρυξη δεδομένων. [ηλεκτρ. βιβλ.] Αθήνα:Σύνδεσμος Ελληνικών
Ακαδημαϊκών Βιβλιοθηκών. κεφ 11. Διαθέσιμο στο: http://hdl.handle.net/11419/1238
Μ. Φιλιππάκης, Εξόρυξη Δεδομένων και Αναλυτική Προβλεπτική, Ακ. Έτος 2019-2020.
https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html
J. Fuchs, P. Isenberg, A. Bezerianos, M. Miller, D. A. Keim, Teaching Clustering Algorithms With
EduClust: Experience Report and Future Directions, IEEE Computing Edge, January 2022
Download