Slide 16 Tiếp theo em xin được nói về phân lớp dữ liệu. Đầu tiên là Tổng quan về phân lớp dữ liệu Đây là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model). Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu Qúa trình phân lớp dữ liệu nằm trong lĩnh vực học có giám sát (Supervised Learning) của học máy (Machine Learning) Slide 17 Tiếp theo là về Các phương pháp phân lớp Có rất nhiều các phương pháp phân lớp có thể kể đến như là phân lớp bằng hồi quy logistic, bằng thuật toán SVM (Support Vector Machines), bằng mạng nơ ron (Neural Network), random forest và gradient boosting, k-nearest neighbors, cây quyết định và nhiều hơn thế nữa Slide 18 Kế tiếp nhóm em sẽ lấy ví dụ về phân lớp dữ liệu trong thực tế. Đây là hình ảnh dự đoán thời tiết nắng hay mưa dựa trên mẫu dữ liệu đầu vào bao gồm các thuộc tính như độ ẩm, nhiệt độ, áp suất và lượng mưa. Việc phân lớp này cũng có thể được xem như một bài toán phân loại nhị phân. Slide 19 Phần tiếp theo nhóm em sẽ nói rõ hơn về các phương pháp phân lớp, quy trình phân lớp cũng như tính hiệu quả của các mô hình phân lớp Nhóm em xin đề cập đến 3 phương pháp chính: Slide 20 Đầu tiên là phương pháp phân lớp bằng Hồi quy Logistic. Đây là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector) Slide 21 Tiếp theo sẽ là phân lớp bằng cây quyết định. Đây là một trong những công cụ hữu hiệu và mạnh mẽ của Orange trong việc hỗ trợ trong việc ra quyết định bằng cách tính toán khả năng một phần tử sẽ thuộc vào một phân lớp nhất định với xác suất là bao nhiêu. Slide 22 Và cuối cùng sẽ là phân lớp dữ liệu bằng thuật toán SVM. Thuật toán này xem những dữ liệu đầu vào như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Slide 23 Tiếp đến nhóm em xin được nói về quy trình phân lớp. Gồm 2 bước Bước 1: Xây dựng mô hình Hình trên mô tả quá trình học (Learning). Đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lí. Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp. Ở đây, thuộc tính phân lớp là quyết định cho vay (loan decision) gồm 2 giá trị là rủi ro (risky) và an toàn (safe), và mô hình đã huấn luyện (đầu ra) sẽ được biểu diễn dưới dạng các quy tắc phân lớp (classification rules) Slide 24 Bước 2: Sử dụng mô hình (trong đó gồm 2 bước nhỏ là đánh giá mô hình và phân lớp dữ liệu mới) Đánh giá mô hình Dữ liệu này là một tập dữ liệu mẫu khác với dữ liệu huấn luyện và đã được gán nhãn và tiền xử lí. Tuy nhiên, khi đưa vào mô hình phân lớp, ta sẽ “lờ” đi thuộc tính đã được gán nhãn. Và độ chính xác của mô hình được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu và kết quả phân lớp của mô hình Phân lớp dữ liệu mới Đầu vào là dữ liệu bị khuyết thuộc tính cần dự đoán lớp. Mô hình sẽ tự động gán nhãn cho các đối tượng của bộ dữ liệu này dựa trên những gì đã được huấn luyện Slide 25 Cuối cùng là Đánh giá tính hiệu quả của mô hình phân lớp Một mô hình phù hợp là mô hình không quá phức tạp, cũng không quá đơn giản, không quá nhạy cảm với nhiễu, tránh quá khớp (overfitting) và không khớp (underfitting) Đối với các thông số như Độ chính xác (Accuracy), Precision, Recall và F1 Score nhóm em sẽ phân tích kĩ trong phần tiếp theo Các kết quả thực nghiệm. Ở đây nhóm em sẽ nói về đường cong ROC và AUC ROC và AUC Đường cong ROC có thể được tạo bằng cách vẽ biểu đồ biểu diễn tỉ lệ dự báo True Positive Rate so với tỉ lệ dự báo False Positive Rate tại các ngưỡng khác nhau (threshold) Mô hình hiệu quả khi có TPR cao và FPR thấp thấp tức là tồn tại một điểm trên ROC gần với điểm có toạ độ (0, 1) trên đồ thị (góc trên bên trái) ROC chỉ diễn tả trực quan các mô hình phân loại nhưng không trực tiếp cung cấp một giá trị số để chúng ta có thể so sánh. Và AUC (Area under curve) cung cấp cho ta số liệu đó. AUC là một số dương nhỏ hơn hoặc bằng 1 và giá trị này càng lớn càng tốt