تحميل

advertisement
‫المحاضرة للمرحلة الرابعة ‪ /‬قسم علوم الحاسبات‬
‫محاور المحاضرة‬
‫‪ .1‬مفهوم تصنيف البيانات‬
‫‪ .2‬أنواع التصنيف‬
‫‪ .3‬رسم انواع التصنيف‬
‫‪ .4‬خوارزميات تصنيف البيانات‬
‫الهدف الخاص للمحاضرة‬
‫ان يكتسب الطلبة المهارات والمعلومات حول مفهوم تصنيف البيانات وانواع خوارزميات التصنيف في‬
‫مجال تنقيب البيانات‪.‬‬
‫االهداف السلوكية للمحاضرة‬
‫‪ .1‬أن يعّرف الطالب التصنيف كما في المقرر الدراسي وبدقة‪.‬‬
‫‪ .2‬أن يعدد الطالب انواع التصنيف كما في المقرر الدراسي ‪.‬‬
‫‪ .3‬أن يشرح الطالب انواع التصنيف كما في المقرر وبصورة مثالية ‪.‬‬
‫‪ .4‬أن يرسم الطالب انواع التصنيف وبدقة عالية ‪.‬‬
‫‪ .5‬أن يشرح الطالب خوارزميات التصنيف كما في المقرر الدراسي وبدقة‪.‬‬
‫‪ .6‬أن يقارن الطالب بين خوارزميات التصنيف من ناحية الدقة والوقت في تصنيف البيانات الجديدة‪.‬‬
‫يطور الطالب خوارزمية تصنيف مناسبة لزيادة الدقة‪.‬‬
‫‪ .7‬أن ّ‬
‫‪ .8‬أن يبيّن الطالب رأية في أفضل خوارزمية تصنيف‪.‬‬
‫‪1‬‬
‫المقدمة‬
‫أصبح مفهوم تصنيف البيانات من المفاهيم المهمة التي تدخل في اغلب االتجاهات في الحاسبات بصورة‬
‫عامة وفي مجال تنقيب البيانات بصورة خاصة‪.‬‬
‫التعرف على مفهوم التصنيف وما هي اهم فوائد التي نستطيع ان‬
‫ولذلك ألهمية تصنيف البيانات يجب‬
‫ٌ‬
‫التعرف على الخوارزميات والطرق المستخدمة في التصنيف وما‬
‫نستفاد منها من التصنيف وكذلك يجب‬
‫ٌ‬
‫هو دور وعمل كل طريقة من طرق التصنيف‪.‬‬
‫التعرف على مفهوم تصنيف البيانات والطرق المستخدمة عندها يجب معرفة انواع‬
‫وأخر محور وهو بعد‬
‫ٌ‬
‫الطرق لتقويم األداء وكفاءة الخوارزميات المستخدمة بالتصنيف‪.‬‬
‫‪2‬‬
Concept of Classification:
Classification is a form of data analysis that extracts model
describing important data classes. Such models, called classifiers,
predict categorical (discrete, unordered) class labels. For example, a
classification model can be built to categorize bank loan applications as
either safe or risky.
A bank loan officer needs analysis of her data to learn which loan
applicants are “safe” and which are “risky” for the bank. A marketing
manager needs data analysis to help guess whether a customer with a
given profile will buy a new computer.
Figure 1: Illustrating Classification Task
3
The target function is also known informally as a classification
model. A classification model is useful for the following purposes.
Descriptive Modeling: A classification model can serve as an
explanatory tool to distinguish between objects of different classes.
Predictive Modeling: A classification model can also be used to predict
the class label of unknown records.
Classification Techniques:
The major models include decision tree induction, Bayesian
classification, and neural network classification although each model has
its particular trait, all of them share a common two step processing
feature: a training stage and a classification stage.
1- Classification by Decision Tree Induction
Decision tree induction is the learning of decision trees from class
labeled training tuples. A decision tree is a flowchart like tree structure,
where each internal node (non leaf node) denotes a test on an attribute,
each branch represents an outcome of the test, and each leaf node (or
terminal node) holds a class label. The topmost node in a tree is the root
node.
4
Figure 2: Example of Decision Tree
2- Bayesian Classification
Bayesian classifiers are statistical classifiers. They can predict class
membership probabilities, such as the probability that a given tuples
belongs to a particular class. Bayesian classification is based on Bayes
theorem. Bayesian classifiers have also exhibited high accuracy and
speed when applied to large databases.
3- Rule-Based Classification
Where the learned model is represented as a set of IF-THEN rules.
First examine how such rules are used for classification. Then study
ways in which they can be generated, either from a decision tree or
5
directly from the training data. Rules are a good way of representing
information or bits of knowledge.
Figure 3: Rule Based Classification
Classification Algorithms
A decision tree model consists of two parts: creating the tree and
applying the tree to the database. To achieve this, decision trees use
several different algorithms. The most widely-used algorithms by
computer scientists are ID3, C4.5, and C5.0. The most popular algorithm
in the statistical community is Classification and Regression Trees
(CART).
1- ID3 Decision Tree Induction Algorithm
Interactive Dichotomizer 3 (ID3) uses a basic tree induction algorithm
that assigns an attribute to a tree node based on how much information is
6
gained from that node. ID3 algorithm searches through the attributes of a
data set for the one that conveys the most information about the desired
target. For example to illustrate ID3 algorithm show table 1.
Table (1) the Weather Data Example
Day
D1
D2
Outlook Temperature Humidity
Sunny
Hot
High
Sunny
Hot
High
Wind
Weak= False
Strong =True
Play golf
No
No
D3
Overcast
Hot
High
Weak= False
Yes
D4
Rain
Mild
High
Weak= False
Yes
D5
Rain
Cool
Normal
Weak= False
Yes
D6
Rain
Cool
Normal
Strong =True
No
D7
Overcast
Cool
Normal
Strong =True
Yes
D8
Sunny
Mild
High
Weak= False
No
D9
Sunny
Cool
Normal
Weak= False
Yes
D10
Rain
Mild
Normal
Weak= False
Yes
D11
Sunny
Mild
Normal
Strong =True
Yes
D12
Overcast
Mild
High
Strong =True
Yes
D13
Overcast
Hot
Normal
Weak= False
Yes
D14
Rain
Mild
High
Strong =True
No
Figure 4: Decision Tree for the Weather Data
7
‫‪2- C4.5 Algorithm‬‬
‫‪This algorithm is an extension to ID3 developed by Quinlan Ross.‬‬
‫‪It is also based on Hunt’s algorithm. C4.5 handles both categorical and‬‬
‫‪continuous attributes to build a decision tree. In order to handle‬‬
‫‪continuous attributes, C4.5 splits the attribute values into two partitions‬‬
‫‪based on the selected threshold such that all the values above the‬‬
‫‪threshold as one child and the remaining as another child. It also handles‬‬
‫‪missing attribute values. C4.5 uses gain ratio as an attribute selection‬‬
‫‪measure to build a decision tree.‬‬
‫الخاتمة‬
‫في نهاية المحاضرة وبعد اكمال المنهج المخصص للمحاضرة نستطيع ان نغلق الدرس بالنتائج التالية وهي‬
‫ان الطلبة اكتسبت المعرفة بمفهوم تصنيف البيانات ويستطيع ان يميز بين انواع التصنيف و استخدام كل نوع‬
‫وكذلك يستطيع الطالب التمييز ومعرفة الفروقات بين خوارزميات التصنيف وتحديد الكفاءة بين كل‬
‫خوارزمية ‪.‬‬
‫وبالنهاية نستطيع صياغة االسئلة االمتحانية من االهداف السلوكية للمحاضرة التي تم ذكرها وتوضيحها سابقا‬
‫وهي‬
‫عرف مفهوم تصنيف البيانات‪.‬‬
‫‪ّ .1‬‬
‫‪ .2‬عدد انواع التصنيف‪.‬‬
‫‪ .3‬اشرح انواع التصنيف‪.‬‬
‫‪ .4‬ارسم نوع التصنيف االول ‪ Decision Tree‬وبدقة عالية‪.‬‬
‫‪ .5‬عدد انواع خوارزميات التصنيف‪.‬‬
‫‪ .6‬قارن بين خوارزميات التصنيف‪.‬‬
‫‪ .7‬أعطي رأيك في افضل خوارزمية تصنيف ولماذا؟‬
‫‪8‬‬
References
[1]
Pang-Ning
Tan,
Michael
Steinbach,
&
Vipin
Kumar,
“Introduction to Data Mining”, Addison-Wesley, March 2006.
[2] Lior Rokach, & Oded Maimon, “Data Mining With Decision
Trees Theory and Applications”, Series in Machine Perception and
Artificial Intelligence Vol. 69, World Scientific Publishing Co. Pte.
Ltd, 2008.
[3] Ian H. Witten, Eibe Frank, & Mark A. Hall, “Data Mining
Practical Machine Learning Tools and Techniques”, Third Edition,
Morgan Kaufmann, 2011.
9
Download