Uploaded by ntnnvc

07-AnhPN

advertisement
DỰ ĐOÁN CHẤT LƯỢNG RƯỢU SỬ DỤNG MÔ HÌNH OLS
(ORDINARY LEAST SQUARES)
Tóm tắt. Báo cáo này trình bày về việc sử dụng phương pháp hồi quy tuyến
tính để dự đoán chất lượng rượu thông qua các chỉ số đo đạc được. Mô hình
OLS (Ordinary least squares) được sử dụng để đưa các giá trị của dữ liệu về
dạng tuyến tính để dễ dàng dự đoán. OLS giúp việc tính toán trở nên dễ dàng
và nâng được độ chính xác lên cao hơn.
1. Giới thiệu
Ngày nay thì việc sử dụng máy móc vào việc tính toán cũng dần trở nên phổ
biến và cần thiết hơn giúp nâng cao năng suất công việc cũng như nâng cao
về độ chính xác. Phương pháp hồi quy tuyến tuyến được biết đến với sự đơn
giản bằng cách tìm ra sự phụ thuộc của giá trị đầu ra với các giá trị đầu vào và
sử dụng các sự phụ thuộc đấy để dự đoán kết quả cho các giá trị sau này. Ở
báo cáo này sử dụng đến phương pháp hồi quy tuyến tuyến để phân tích các
số liệu đo đạc được của loại rượu để đưa ra được đánh giá về chất lượng rượu
sao cho phù hợp nhất. Ta có thể sử dụng các thông tin về độ cồn, độ pH, độ
axit, độ ngọt,… để xây dựng được mô hình đánh giá chất lượng rượu.
2. Linear regression
Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa
biến phụ thuộc Y với một hay nhiều biến độc lập X. Mô hình hóa sử dụng hàm
tuyến tính (bậc 1). Các tham số của mô hình (hay hàm số) được ước lượng từ
dữ liệu. Hồi quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất
đơn giản hóa của hồi quy. Nó cũng dễ ước lượng.
Mô hình / phương trình hồi quy tuyến tính:
Y  0  1 X1  2 X 2  ...  n X n
Trong đó: Y là giá trị biến phụ thuộc
X1 , X 2 ,... X n là các biến độc lập
0 , 1 , 2 ,..., n là các trọng số của phương trình
Y X
Tổng quát:
Trong đó: Y là giá trị biến phụ thuộc
X là vector biến độc lập
 là các vector trọng số của phương trình
Với phương pháp hồi quy tuyến tính thì các giá trị  của mô hình được ước
lượng thông qua giá trị của X , Y từ tập dữ liệu. Từ các giá trị  của mô hình
chúng ta có thể dự đoán được giá trị Y từ giá trị đầu vào X .
3. Ordinary least squares
Mô hình hồi quy bằng phương pháp bình phương nhỏ nhất (OLS) là một
trường hợp đặc biệt của phương pháp bình phương tổng quát (generalized
least squares method – GLS) để tìm đường hồi quy gần nhất với giá trị liên
tục của biến phụ thuộc – tổng bình phương của các sai số nhỏ nhất.
Công thức tổng bình phương sai số:
n
S       yi  x   Y  X   Y  X  
2
T
i i
Khi
arg min  S      0

Tương đương Y  X   0
Thì ta có:
với  là bộ tham số hợp với Y và X nhất
X Y
Để rút gọn phía trái của  thì ta nhân thêm một lượng để chúng thành ma
trận đơn vị. Ta có X không phải là ma trận vuông nên ta nhân thêm X T vào
bên trái ta được:
X T X   X TY
Ta nhân thêm ma trận nghịch đảo của X T X để rút gọn phía trái của  , ta
được:
X X 
1
X X 
1
T
Với
T
X T X    X T X  X TY
1
XT X  I
Rút gọn biểu thức ta được:
   X T X  X TY
1
Như vậy với mô hình hồi quy bằng phương pháp bình phương nhỏ nhất ta
có thể tính ra các giá trị của  từ tập dữ liệu X , Y bằng công thức sau:
   X T X  X TY
1
4. Đánh giá
Để đánh giá được mô hình hồi quy tuyến tính ta xây dựng một số công thức
như sau:
 Total sum of squares (TSS) là biến thiên vốn có trong đáp ứng trước khi hồi
quy được thực hiện.

TSS   y  y

2
 Residual sum of squares (ESS) là lượng biến thiên không giải thích được.

RSS   y  y

2
 R-squares là hệ số xác định r2 (coefficient of determination) thể hiện độ mạnh
của mô hình hồi quy với tỉ lệ phần trăm biến thiên của các biến phụ thuộc.
R2 
TSS  RSS
TSS
 Mean absolute error là trung bình tuyệt đối lỗi. Thể hệ độ sai bậc nhất giữa
giá trị dự đoán và giá trị thực tế.
1 n
MAE  | yi  yi |
n i1
 Root Mean Squared Error là căn của trung bình bình phương lỗi. Thể hệ độ
sai bậc hai giữa giá trị dự đoán và giá trị thực tế.

1 n
RMSE 
 yi  yi
n i 1

2
Với tập dữ liệu Red wine quality sau khi chia ra tỉ lệ 8:2 cho tập train và
test thông qua mô hình ta được các chỉ số sau:
R^2
MAE
RMSE
Train
0.3573
0.5052
0.6521
Test
0.2726
0.4757
0.619
5. Kết luận
Trong báo cáo này đã thể hiện được việc sử dụng mô hình hồi bằng phương
pháp bình phương nhỏ nhất để đánh giá các mối liên hệ tương quan và xây
dựng được mô hình dự đoán chất lượng rượu vang đỏ dựa trên tập dữ liệu
Red wine quality. Phương pháp này giúp việc thiết lập được mô hình trở nên
đơn giản hơn bằng cách nhận các ma trận. Bên cạnh đó phương pháp này
không tối ưu về mặt thời gian đối với các tập dữ liệu có kích thước khổng lồ.
6. Phụ lục
[1] Red wine quality dataset: https://archive.ics.uci.edu/ml/datasets/wine+quality
[2] Code from this report: https://bit.ly/SE150180_MAI
Download