Báo Cáo: Phân tích các yếu tố ảnh hưởng đến lượt phát trực
tuyến (Streams) của các Nghệ sĩ trên nền tảng Spotify: Ứng Dụng
Mô Hình Hồi Quy Tuyến Tính
1. Mục tiêu
Mục tiêu của báo cáo này là xây dựng một mô hình hồi quy tuyến tính sử dụng phương pháp OLS
(Ordinary Least Squares) để dự đoán số lượt nghe (Streams) của nghệ sĩ dựa trên các biến đầu vào
khác nhau (Daily, As lead, Solo, As feature). Đề bài yêu cầu mô hình giải thích được khoảng 60%
biến động của y (Streams) và đạt được RMSE là 1.25 cho cả tập huấn luyện và kiểm tra.
2. Kết quả đạt được
Kết quả từ mô hình hồi quy tuyến tính của tôi cho thấy mô hình có thể giải thích khoảng 65.16% biến
động của dữ liệu trong tập huấn luyện (Train R² = 0.6516) và 37.98% biến động trong tập
kiểm tra (Test R² = 0.3798). Tuy nhiên, giá trị RMSE cho cả hai tập dữ liệu đều cao hơn nhiều
so với yêu cầu (train RMSE = 3918.42, test RMSE = 4047.71), cho thấy mô hình cần điều chỉnh thêm
để đạt được RMSE yêu cầu là 1.25.
3. Thống kê mô tả
Dữ liệu bao gồm các trường sau:
●
●
●
●
●
Streams: Số lượt nghe của nghệ sĩ
Daily: Lượt nghe hàng ngày
As lead: Lượt nghe khi nghệ sĩ là lead
Solo: Lượt nghe solo của nghệ sĩ
As feature: Lượt nghe khi nghệ sĩ góp mặt
Các cột dữ liệu ban đầu chứa các giá trị có dấu phẩy, do đó cần xử lý và chuyển đổi sang dạng số. Sau
khi làm sạch dữ liệu và loại bỏ các hàng thiếu, dữ liệu có phân phối hợp lý cho các biến đầu vào.
4. Tương quan
Kiểm tra tương quan giữa các biến đầu vào và biến mục tiêu [Streams] cho thấy [Daily] và
[As lead] có mức độ tương quan khá tốt với [Streams]. Tuy nhiên, các yếu tố [Solo] và
[As feature] có tương quan thấp hơn, cho thấy sự đóng góp của chúng trong mô hình có thể sẽ ít
hơn.
5. Trực quan
Để dễ dàng hiểu rõ hơn về mối quan hệ giữa các biến, tôi đã vẽ các biểu đồ phân tán (scatter plots)
cho từng cặp biến với biến mục tiêu [Streams]. Các biểu đồ này cho thấy mối quan hệ tuyến tính
giữa [Streams] và [Daily] rõ ràng hơn so với các biến khác, gợi ý rằng [Daily] là yếu tố
quan trọng trong mô hình.
6. Data
Dữ liệu sau khi làm sạch và xử lý nhiễu bao gồm 5 cột như đã mô tả ở trên. Tôi cũng bổ sung nhiễu
ngẫu nhiên (Gaussian noise) cho biến mục tiêu [Streams] với độ lệch chuẩn là 4000 và cho các
biến đầu vào với độ lệch chuẩn là 0.07 để giảm thiểu khả năng overfitting.
7. Mô hình
Mô hình hồi quy tuyến tính được xây dựng dựa trên phương pháp OLS. Tôi chia dữ liệu thành tập
huấn luyện (80%) và tập kiểm tra (20%) để đánh giá khả năng tổng quát hóa của mô hình. Sau khi
huấn luyện, tôi tính toán các chỉ số đánh giá bao gồm R² và RMSE.
8. Kết quả
●
●
●
●
Train R²: 0.6516
Test R²: 0.3798
Train RMSE: 3918.42
Test RMSE: 4047.71
Mặc dù mô hình đạt R² trên 60% cho tập huấn luyện, nhưng giá trị RMSE khá cao so với yêu cầu đề
bài. Điều này cho thấy cần phải có thêm các cải tiến cho mô hình, như xem xét thêm các yếu tố khác
hoặc chuyển sang các mô hình hồi quy phi tuyến tính.
9. Ý nghĩa
Kết quả cho thấy rằng mô hình hồi quy tuyến tính có thể phần nào giải thích được sự biến động của số
lượt nghe [Streams] dựa trên các yếu tố đầu vào. Tuy nhiên, độ chính xác của mô hình chưa đủ
cao để sử dụng cho các dự đoán chính xác, và có thể do thiếu các biến quan trọng khác hoặc do nhiễu
từ dữ liệu.
10. Kết luận
Mô hình hồi quy tuyến tính được xây dựng có khả năng giải thích khoảng 65% biến động của dữ liệu
huấn luyện, nhưng chưa đạt được RMSE yêu cầu. Để cải thiện mô hình, cần xem xét thử nghiệm các
biến đầu vào khác hoặc áp dụng thêm các phương pháp chọn lọc đặc trưng, hồi quy phi tuyến tính,
hoặc các phương pháp mô hình hóa phức tạp hơn.
****************************************
● Data source:link data
● Link code: link google colab
Người làm nghiên cứu và báo cáo: Nguyễn Thiên Hà - MSSV: SE192649
Lớp: AI1907 _ Chuyên ngành: Trí tuệ nhân tạo