Uploaded by Minh Chau Ta Thi

script

advertisement
Slide 16
Tiếp theo em xin được nói về phân lớp dữ liệu.
Đầu tiên là Tổng quan về phân lớp dữ liệu
Đây là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô
hình phân lớp (model). Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng
trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá trình phân lớp là quá trình gán nhãn
cho đối tượng dữ liệu
Qúa trình phân lớp dữ liệu nằm trong lĩnh vực học có giám sát (Supervised Learning) của học
máy (Machine Learning)
Slide 17
Tiếp theo là về Các phương pháp phân lớp
Có rất nhiều các phương pháp phân lớp có thể kể đến như là phân lớp bằng hồi quy logistic, bằng
thuật toán SVM (Support Vector Machines), bằng mạng nơ ron (Neural Network), random forest
và gradient boosting, k-nearest neighbors, cây quyết định và nhiều hơn thế nữa
Slide 18
Kế tiếp nhóm em sẽ lấy ví dụ về phân lớp dữ liệu trong thực tế. Đây là hình ảnh dự đoán thời tiết
nắng hay mưa dựa trên mẫu dữ liệu đầu vào bao gồm các thuộc tính như độ ẩm, nhiệt độ, áp suất
và lượng mưa. Việc phân lớp này cũng có thể được xem như một bài toán phân loại nhị phân.
Slide 19
Phần tiếp theo nhóm em sẽ nói rõ hơn về các phương pháp phân lớp, quy trình phân lớp cũng
như tính hiệu quả của các mô hình phân lớp
Nhóm em xin đề cập đến 3 phương pháp chính:
Slide 20
Đầu tiên là phương pháp phân lớp bằng Hồi quy Logistic. Đây là một mô hình xác suất dự đoán
giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)
Slide 21
Tiếp theo sẽ là phân lớp bằng cây quyết định. Đây là một trong những công cụ hữu hiệu và mạnh
mẽ của Orange trong việc hỗ trợ trong việc ra quyết định bằng cách tính toán khả năng một phần
tử sẽ thuộc vào một phân lớp nhất định với xác suất là bao nhiêu.
Slide 22
Và cuối cùng sẽ là phân lớp dữ liệu bằng thuật toán SVM. Thuật toán này xem những dữ liệu
đầu vào như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách
xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
Slide 23
Tiếp đến nhóm em xin được nói về quy trình phân lớp.
Gồm 2 bước
Bước 1: Xây dựng mô hình
Hình trên mô tả quá trình học (Learning). Đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lí.
Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp. Ở đây, thuộc tính phân lớp là quyết
định cho vay (loan decision) gồm 2 giá trị là rủi ro (risky) và an toàn (safe), và mô hình đã huấn
luyện (đầu ra) sẽ được biểu diễn dưới dạng các quy tắc phân lớp (classification rules)
Slide 24
Bước 2: Sử dụng mô hình (trong đó gồm 2 bước nhỏ là đánh giá mô hình và phân lớp dữ liệu
mới)

Đánh giá mô hình
Dữ liệu này là một tập dữ liệu mẫu khác với dữ liệu huấn luyện và đã được gán nhãn và tiền xử
lí. Tuy nhiên, khi đưa vào mô hình phân lớp, ta sẽ “lờ” đi thuộc tính đã được gán nhãn. Và độ
chính xác của mô hình được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu và kết
quả phân lớp của mô hình

Phân lớp dữ liệu mới
Đầu vào là dữ liệu bị khuyết thuộc tính cần dự đoán lớp. Mô hình sẽ tự động gán nhãn cho các
đối tượng của bộ dữ liệu này dựa trên những gì đã được huấn luyện
Slide 25
Cuối cùng là Đánh giá tính hiệu quả của mô hình phân lớp
Một mô hình phù hợp là mô hình không quá phức tạp, cũng không quá đơn giản, không quá nhạy
cảm với nhiễu, tránh quá khớp (overfitting) và không khớp (underfitting)
Đối với các thông số như Độ chính xác (Accuracy), Precision, Recall và F1 Score nhóm em sẽ
phân tích kĩ trong phần tiếp theo Các kết quả thực nghiệm.
Ở đây nhóm em sẽ nói về đường cong ROC và AUC

ROC và AUC
Đường cong ROC có thể được tạo bằng cách vẽ biểu đồ biểu diễn tỉ lệ dự báo True Positive Rate
so với tỉ lệ dự báo False Positive Rate tại các ngưỡng khác nhau (threshold)
Mô hình hiệu quả khi có TPR cao và FPR thấp thấp tức là tồn tại một điểm trên ROC gần với
điểm có toạ độ (0, 1) trên đồ thị (góc trên bên trái)
ROC chỉ diễn tả trực quan các mô hình phân loại nhưng không trực tiếp cung cấp một giá trị số
để chúng ta có thể so sánh. Và AUC (Area under curve) cung cấp cho ta số liệu đó. AUC là một
số dương nhỏ hơn hoặc bằng 1 và giá trị này càng lớn càng tốt
Download