المحاضرة للمرحلة الرابعة /قسم علوم الحاسبات محاور المحاضرة .1مفهوم تصنيف البيانات .2أنواع التصنيف .3رسم انواع التصنيف .4خوارزميات تصنيف البيانات الهدف الخاص للمحاضرة ان يكتسب الطلبة المهارات والمعلومات حول مفهوم تصنيف البيانات وانواع خوارزميات التصنيف في مجال تنقيب البيانات. االهداف السلوكية للمحاضرة .1أن يعّرف الطالب التصنيف كما في المقرر الدراسي وبدقة. .2أن يعدد الطالب انواع التصنيف كما في المقرر الدراسي . .3أن يشرح الطالب انواع التصنيف كما في المقرر وبصورة مثالية . .4أن يرسم الطالب انواع التصنيف وبدقة عالية . .5أن يشرح الطالب خوارزميات التصنيف كما في المقرر الدراسي وبدقة. .6أن يقارن الطالب بين خوارزميات التصنيف من ناحية الدقة والوقت في تصنيف البيانات الجديدة. يطور الطالب خوارزمية تصنيف مناسبة لزيادة الدقة. .7أن ّ .8أن يبيّن الطالب رأية في أفضل خوارزمية تصنيف. 1 المقدمة أصبح مفهوم تصنيف البيانات من المفاهيم المهمة التي تدخل في اغلب االتجاهات في الحاسبات بصورة عامة وفي مجال تنقيب البيانات بصورة خاصة. التعرف على مفهوم التصنيف وما هي اهم فوائد التي نستطيع ان ولذلك ألهمية تصنيف البيانات يجب ٌ التعرف على الخوارزميات والطرق المستخدمة في التصنيف وما نستفاد منها من التصنيف وكذلك يجب ٌ هو دور وعمل كل طريقة من طرق التصنيف. التعرف على مفهوم تصنيف البيانات والطرق المستخدمة عندها يجب معرفة انواع وأخر محور وهو بعد ٌ الطرق لتقويم األداء وكفاءة الخوارزميات المستخدمة بالتصنيف. 2 Concept of Classification: Classification is a form of data analysis that extracts model describing important data classes. Such models, called classifiers, predict categorical (discrete, unordered) class labels. For example, a classification model can be built to categorize bank loan applications as either safe or risky. A bank loan officer needs analysis of her data to learn which loan applicants are “safe” and which are “risky” for the bank. A marketing manager needs data analysis to help guess whether a customer with a given profile will buy a new computer. Figure 1: Illustrating Classification Task 3 The target function is also known informally as a classification model. A classification model is useful for the following purposes. Descriptive Modeling: A classification model can serve as an explanatory tool to distinguish between objects of different classes. Predictive Modeling: A classification model can also be used to predict the class label of unknown records. Classification Techniques: The major models include decision tree induction, Bayesian classification, and neural network classification although each model has its particular trait, all of them share a common two step processing feature: a training stage and a classification stage. 1- Classification by Decision Tree Induction Decision tree induction is the learning of decision trees from class labeled training tuples. A decision tree is a flowchart like tree structure, where each internal node (non leaf node) denotes a test on an attribute, each branch represents an outcome of the test, and each leaf node (or terminal node) holds a class label. The topmost node in a tree is the root node. 4 Figure 2: Example of Decision Tree 2- Bayesian Classification Bayesian classifiers are statistical classifiers. They can predict class membership probabilities, such as the probability that a given tuples belongs to a particular class. Bayesian classification is based on Bayes theorem. Bayesian classifiers have also exhibited high accuracy and speed when applied to large databases. 3- Rule-Based Classification Where the learned model is represented as a set of IF-THEN rules. First examine how such rules are used for classification. Then study ways in which they can be generated, either from a decision tree or 5 directly from the training data. Rules are a good way of representing information or bits of knowledge. Figure 3: Rule Based Classification Classification Algorithms A decision tree model consists of two parts: creating the tree and applying the tree to the database. To achieve this, decision trees use several different algorithms. The most widely-used algorithms by computer scientists are ID3, C4.5, and C5.0. The most popular algorithm in the statistical community is Classification and Regression Trees (CART). 1- ID3 Decision Tree Induction Algorithm Interactive Dichotomizer 3 (ID3) uses a basic tree induction algorithm that assigns an attribute to a tree node based on how much information is 6 gained from that node. ID3 algorithm searches through the attributes of a data set for the one that conveys the most information about the desired target. For example to illustrate ID3 algorithm show table 1. Table (1) the Weather Data Example Day D1 D2 Outlook Temperature Humidity Sunny Hot High Sunny Hot High Wind Weak= False Strong =True Play golf No No D3 Overcast Hot High Weak= False Yes D4 Rain Mild High Weak= False Yes D5 Rain Cool Normal Weak= False Yes D6 Rain Cool Normal Strong =True No D7 Overcast Cool Normal Strong =True Yes D8 Sunny Mild High Weak= False No D9 Sunny Cool Normal Weak= False Yes D10 Rain Mild Normal Weak= False Yes D11 Sunny Mild Normal Strong =True Yes D12 Overcast Mild High Strong =True Yes D13 Overcast Hot Normal Weak= False Yes D14 Rain Mild High Strong =True No Figure 4: Decision Tree for the Weather Data 7 2- C4.5 Algorithm This algorithm is an extension to ID3 developed by Quinlan Ross. It is also based on Hunt’s algorithm. C4.5 handles both categorical and continuous attributes to build a decision tree. In order to handle continuous attributes, C4.5 splits the attribute values into two partitions based on the selected threshold such that all the values above the threshold as one child and the remaining as another child. It also handles missing attribute values. C4.5 uses gain ratio as an attribute selection measure to build a decision tree. الخاتمة في نهاية المحاضرة وبعد اكمال المنهج المخصص للمحاضرة نستطيع ان نغلق الدرس بالنتائج التالية وهي ان الطلبة اكتسبت المعرفة بمفهوم تصنيف البيانات ويستطيع ان يميز بين انواع التصنيف و استخدام كل نوع وكذلك يستطيع الطالب التمييز ومعرفة الفروقات بين خوارزميات التصنيف وتحديد الكفاءة بين كل خوارزمية . وبالنهاية نستطيع صياغة االسئلة االمتحانية من االهداف السلوكية للمحاضرة التي تم ذكرها وتوضيحها سابقا وهي عرف مفهوم تصنيف البيانات. ّ .1 .2عدد انواع التصنيف. .3اشرح انواع التصنيف. .4ارسم نوع التصنيف االول Decision Treeوبدقة عالية. .5عدد انواع خوارزميات التصنيف. .6قارن بين خوارزميات التصنيف. .7أعطي رأيك في افضل خوارزمية تصنيف ولماذا؟ 8 References [1] Pang-Ning Tan, Michael Steinbach, & Vipin Kumar, “Introduction to Data Mining”, Addison-Wesley, March 2006. [2] Lior Rokach, & Oded Maimon, “Data Mining With Decision Trees Theory and Applications”, Series in Machine Perception and Artificial Intelligence Vol. 69, World Scientific Publishing Co. Pte. Ltd, 2008. [3] Ian H. Witten, Eibe Frank, & Mark A. Hall, “Data Mining Practical Machine Learning Tools and Techniques”, Third Edition, Morgan Kaufmann, 2011. 9