DỰ ĐOÁN CHẤT LƯỢNG RƯỢU SỬ DỤNG MÔ HÌNH OLS (ORDINARY LEAST SQUARES) Tóm tắt. Báo cáo này trình bày về việc sử dụng phương pháp hồi quy tuyến tính để dự đoán chất lượng rượu thông qua các chỉ số đo đạc được. Mô hình OLS (Ordinary least squares) được sử dụng để đưa các giá trị của dữ liệu về dạng tuyến tính để dễ dàng dự đoán. OLS giúp việc tính toán trở nên dễ dàng và nâng được độ chính xác lên cao hơn. 1. Giới thiệu Ngày nay thì việc sử dụng máy móc vào việc tính toán cũng dần trở nên phổ biến và cần thiết hơn giúp nâng cao năng suất công việc cũng như nâng cao về độ chính xác. Phương pháp hồi quy tuyến tuyến được biết đến với sự đơn giản bằng cách tìm ra sự phụ thuộc của giá trị đầu ra với các giá trị đầu vào và sử dụng các sự phụ thuộc đấy để dự đoán kết quả cho các giá trị sau này. Ở báo cáo này sử dụng đến phương pháp hồi quy tuyến tuyến để phân tích các số liệu đo đạc được của loại rượu để đưa ra được đánh giá về chất lượng rượu sao cho phù hợp nhất. Ta có thể sử dụng các thông tin về độ cồn, độ pH, độ axit, độ ngọt,… để xây dựng được mô hình đánh giá chất lượng rượu. 2. Linear regression Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X. Mô hình hóa sử dụng hàm tuyến tính (bậc 1). Các tham số của mô hình (hay hàm số) được ước lượng từ dữ liệu. Hồi quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất đơn giản hóa của hồi quy. Nó cũng dễ ước lượng. Mô hình / phương trình hồi quy tuyến tính: Y 0 1 X1 2 X 2 ... n X n Trong đó: Y là giá trị biến phụ thuộc X1 , X 2 ,... X n là các biến độc lập 0 , 1 , 2 ,..., n là các trọng số của phương trình Y X Tổng quát: Trong đó: Y là giá trị biến phụ thuộc X là vector biến độc lập là các vector trọng số của phương trình Với phương pháp hồi quy tuyến tính thì các giá trị của mô hình được ước lượng thông qua giá trị của X , Y từ tập dữ liệu. Từ các giá trị của mô hình chúng ta có thể dự đoán được giá trị Y từ giá trị đầu vào X . 3. Ordinary least squares Mô hình hồi quy bằng phương pháp bình phương nhỏ nhất (OLS) là một trường hợp đặc biệt của phương pháp bình phương tổng quát (generalized least squares method – GLS) để tìm đường hồi quy gần nhất với giá trị liên tục của biến phụ thuộc – tổng bình phương của các sai số nhỏ nhất. Công thức tổng bình phương sai số: n S yi x Y X Y X 2 T i i Khi arg min S 0 Tương đương Y X 0 Thì ta có: với là bộ tham số hợp với Y và X nhất X Y Để rút gọn phía trái của thì ta nhân thêm một lượng để chúng thành ma trận đơn vị. Ta có X không phải là ma trận vuông nên ta nhân thêm X T vào bên trái ta được: X T X X TY Ta nhân thêm ma trận nghịch đảo của X T X để rút gọn phía trái của , ta được: X X 1 X X 1 T Với T X T X X T X X TY 1 XT X I Rút gọn biểu thức ta được: X T X X TY 1 Như vậy với mô hình hồi quy bằng phương pháp bình phương nhỏ nhất ta có thể tính ra các giá trị của từ tập dữ liệu X , Y bằng công thức sau: X T X X TY 1 4. Đánh giá Để đánh giá được mô hình hồi quy tuyến tính ta xây dựng một số công thức như sau: Total sum of squares (TSS) là biến thiên vốn có trong đáp ứng trước khi hồi quy được thực hiện. TSS y y 2 Residual sum of squares (ESS) là lượng biến thiên không giải thích được. RSS y y 2 R-squares là hệ số xác định r2 (coefficient of determination) thể hiện độ mạnh của mô hình hồi quy với tỉ lệ phần trăm biến thiên của các biến phụ thuộc. R2 TSS RSS TSS Mean absolute error là trung bình tuyệt đối lỗi. Thể hệ độ sai bậc nhất giữa giá trị dự đoán và giá trị thực tế. 1 n MAE | yi yi | n i1 Root Mean Squared Error là căn của trung bình bình phương lỗi. Thể hệ độ sai bậc hai giữa giá trị dự đoán và giá trị thực tế. 1 n RMSE yi yi n i 1 2 Với tập dữ liệu Red wine quality sau khi chia ra tỉ lệ 8:2 cho tập train và test thông qua mô hình ta được các chỉ số sau: R^2 MAE RMSE Train 0.3573 0.5052 0.6521 Test 0.2726 0.4757 0.619 5. Kết luận Trong báo cáo này đã thể hiện được việc sử dụng mô hình hồi bằng phương pháp bình phương nhỏ nhất để đánh giá các mối liên hệ tương quan và xây dựng được mô hình dự đoán chất lượng rượu vang đỏ dựa trên tập dữ liệu Red wine quality. Phương pháp này giúp việc thiết lập được mô hình trở nên đơn giản hơn bằng cách nhận các ma trận. Bên cạnh đó phương pháp này không tối ưu về mặt thời gian đối với các tập dữ liệu có kích thước khổng lồ. 6. Phụ lục [1] Red wine quality dataset: https://archive.ics.uci.edu/ml/datasets/wine+quality [2] Code from this report: https://bit.ly/SE150180_MAI