Uploaded by Đặng Hồ Minh Huy

NCKH K43-2 (1)

advertisement
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN
Tên đề tài:
PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU
Mã số đề tài: S2021.702.03
Lĩnh vực nghiên cứu: Khoa học tự nhiên
(Chuyên ngành Toán và Thống kê)
Bình Định, 5/2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN
Tên đề tài:
PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU
Mã số đề tài: S2021.702.03
Lĩnh vực nghiên cứu: Khoa học tự nhiên
(Chuyên ngành Toán và Thống kê)
Sinh viên thực hiện
: Huỳnh Đăng Tiến
Dân tộc
: Kinh
Lớp
: Toán ứng dụng K43
Khoa
: Khoa Toán và Thống kê
Ngành học
: Toán ứng dụng
Người hướng dẫn
: Thái Trung Hiếu
Đơn vị công tác
: Khoa Toán và Thống kê
Nam, Nữ: Nam
Năm thứ: 2
Học vị: Tiến sĩ
Bình Định, 5/2022
Số năm đào tạo: 4
Mục lục
Thông tin kết quả nghiên cứu đề tài
2
Lời cảm ơn
5
1 Lý thuyết
1.1 Hiểu biết về khoa học dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Tầm quan trọng của EDA . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Các giai đoạn trong EDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Ý nghĩa của dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Dữ liệu số (Numerical data): . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Dữ liệu phân loại (Categorical data): . . . . . . . . . . . . . . . .
1.4.3 Quy mô đo (Measurement scales): . . . . . . . . . . . . . . . . . .
1.5 So sánh phân tích khám phá dữ liệu với phân tích dữ liệu cổ điển và
phân tích dữ liệu suy luận Bayes: . . . . . . . . . . . . . . . . . . . . . . .
1.6 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Đo lường xu hướng trung tâm (Measures of central tendency)
1.6.2 Thước đo phân tán (Meansures of dispersion) . . . . . . . . . .
8
8
10
10
11
11
12
13
2 Thực hành
2.1 Chuẩn bị dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Đặt câu hỏi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Phân tích theo khách hàng . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Phương diện mua hàng . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Thu nhập của khách hàng . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Độ tuổi của khách hàng . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Phân tích theo chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Doanh thu và số đơn đặt hàng trung bình theo tháng trong năm
2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy nhất qua mỗi năm
2.4.3 Phân tích việc bán hàng xe đạp theo mùa . . . . . . . . . . . . .
2.5 Phân tích theo khu vực địa lý . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Phân tích theo khuyến mãi . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
22
24
24
24
26
26
26
29
30
35
37
41
1
14
15
15
18
THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI
1.Thông tin chung:
• Tên đề tài: Phân tích khám phá dữ liệu trong khoa học dữ liệu
• Mã số: S2021.702.03
• Nhóm sinh viên thực hiện:
- Đặng Hồ Minh Huy
- Huỳnh Đăng Tiến
- Hoàng Viết Vũ
- Lê Đào Tuấn.
• Lớp, Khoá, Khoa: Lớp Toán Ứng Dụng, Khóa K43, Khoa Toán và Thống Kê.
• Giáo viên hướng dẫn: TS. Thái Trung Hiếu.
2.Mục tiêu đề tài:
• Thành thạo một số kĩ thuật cơ bản của EDA. Từ đó không chỉ đưa ra nhiều
phân tích có giá trị về dữ liệu mà còn giúp thực hiện lựa chọn các đặc trưng
quan trọng trong dữ liệu để xây dựng mô hình học máy giúp dự đoán khi phải
xử lí các dữ liệu mới trong tương lai.
• Đây là một trong những đề tài nghiên cứu khoa học sinh viên đầu tiên ở khoa
Toán và Thống kê về chủ đề EDA. Đề tài sẽ là một tài liệu có giá trị giúp sinh
viên ngành Toán ứng dụng tiếp cận các kĩ thuật quan trọng của phân tích dữ
liệu.
3. Tính mới và sáng tạo:
• Áp dụng phân tích khám phá dữ liệu để phân tích bộ dữ liệu về những khách
hàng của một cửa hàng bách hóa lớn như: Big C, Co.opmart Quy Nhơn,... từ đó
biết được những thông tin cần thiết về các trường hợp mua hàng khác nhau và
hiểu rõ nó để có thể đưa ra các chiến lược cho hành động trong tương lai.
4. Kết quả nghiên cứu:
• Nhóm đã thành công áp dụng phân tích khám phá dữ liệu vào bộ dữ liệu khách
hàng của một doanh nghiệp chuyên về đồ thể thao mạo hiểm toàn cầu. Phân
tích tình hình mua hàng của khách hàng, số khách hàng mới, đề xuất các ý
tưởng nhằm tăng doanh thu cho doanh nghiệp.
5. Đóng góp về mặt kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng và
khả năng áp dụng của đề tài:
2
• Đề tài hoàn thành là tài liệu tham khảo hữu ích cho những ai muốn tìm hiểu
rõ hơn về một tập dữ liệu, đưa ra các đánh giá về chất lượng, tính hữu ích và
tính đầy đủ, dựa vào đó để có được các câu trả lời cần thiết trước khi đưa ra bất
kỳ giả định nào về tập dữ liệu đó. Hơn nữa, đề tài còn bổ sung thêm các kiến
thức về toán và thống kê.
Nhận xét của người hướng dẫn về những đóng góp khoa học của sinh viên thực
hiện đề tài:
• Nhóm sinh viên thực hiện đề tài đã dành rất nhiều thời gian và công sức để
tìm đọc các tài liệu chuyên ngành bằng tiếng Anh về Phân tích dữ liệu khám
phám (Explanatory Data Analysis). Bên cạnh đó, nhóm cũng phải tự học một
số kiến thức cơ bản về kế toán và tài chính để có thể hiểu bối cảnh của những
bộ dữ liệu về kinh doanh. Trong quá trình thực hiện đề tài, nhóm cũng chủ
động kết nối với các anh chị chuyên gia về phân tích dữ liệu để trao đổi, học
hỏi thêm nhiều kiến thức, kĩ năng và kinh nghiệm.
• Sau một thời gian làm quen với các kiến thức căn bản, nhóm đã mạnh dạn thử
sức ở một số bộ dữ liệu khó và phức tạp. Những kết quả mà nhóm đã đạt được
là rất đáng khích lệ. Tôi đánh giá rất cao tinh thần chủ động và tích cực của
nhóm. Nhóm đã hoàn thành xuất sắc các vấn đề mà người hướng dẫn đã đặt
ra
Ngày ... tháng ... năm 2022
Trưởng khoa
Người hướng dẫn
PGS.TS. Lê Công Trình
TS. Thái Trung Hiếu
3
THÔNG TIN VỀ SINH VIÊN CHỊU TRÁCH NHIỆM
CHÍNH THỰC HIỆN ĐỀ TÀI
I. SƠ LƯỢC VỀ SINH VIÊN:
Họ và tên:
Huỳnh Đăng Tiến
Sinh ngày:
25 tháng 9 năm 2002
Nơi sinh:
Quy Nhơn
Lớp:
Toán ứng dụng
Khoa:
Toán và Thống kê
Khóa: 43
Địa chỉ liên hệ: Tổ 7, Khu vực 8, phường Nhơn Phú
Điện thoại:
0984753469
Email:
huynhdangtien259@gmail.com
II. QUÁ TRÌNH HỌC TẬP:
* Năm thứ 1:
Ngành học: Toán ứng dụng
Khoa: Toán và Thống kê
Kết quả xếp loại học tập: Khá
Sơ lược thành tích: Giải khuyến khích cuộc thi Data GotTalent
Ngày ... tháng ... năm 2022
Trưởng khoa
Sinh viên chịu trách nhiệm chính
PGS.TS. Lê Công Trình
Huỳnh Đăng Tiến
4
Lời cảm ơn
Để hoàn thành bài báo cáo nghiên cứu khoa học này, trước tiên chúng em xin
gửi đến các quý thầy, cô giáo trường Đại học Quy Nhơn nói chung và khoa Toán và
Thống kê nói riêng lời cảm ơn chân thành và sâu sắc nhất.
Đặc biệt, chúng em xin gửi đến TS.Thái Trung Hiếu - người đã tận tình hướng
dẫn, giúp đỡ nhóm em hoàn thành bài báo cáo đề tài nghiên cứu khoa học này lời
cảm ơn sâu sắc nhất.
Mặc dù nhóm chúng em đã có nhiều cố gắng trong qua trình thực hiện đề tài,
nhưng bên cạnh đó vẫn còn có những mặt hạn chế, thiếu sót hoặc những nội dung
khiến người đọc cảm giác khó hiểu. Chúng em kính mong quý thầy cô, các chuyên
gia, những người quan tâm đề tài, anh chị và bạn bè tiếp tục có những ý kiến đóng
góp, giúp đỡ cho đề tài này được hoàn thiện hơn.
Một lần nữa chúng em xin chân thành cảm ơn!
Quy Nhơn, ngày ... tháng ... năm 2022
Trưởng nhóm
Huỳnh Đăng Tiến
5
Mở đầu
1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài:
Phân tích khám phá dữ liệu (EDA) là một bước thiết yếu trong bất kỳ phân tích
nghiên cứu nào. Mục đích chính của phân tích khám phá là kiểm tra dữ liệu về sự
phân bố, các giá trị ngoại lai và các điểm bất thường để định hướng việc kiểm tra
cụ thể giả thuyết của bạn. Nó cũng cung cấp các công cụ để tạo giả thuyết bằng
cách trực quan hóa và hiểu dữ liệu thường thông qua biểu đồ. Cuối cùng, các kỹ
thuật lựa chọn đặc trưng thường rơi vào EDA. Kể từ công trình đầu tiên của Tukey
vào năm 1977, EDA đã thu được một lượng lớn người theo dõi như là phương pháp
tiêu chuẩn vàng để phân tích tập dữ liệu. Theo Howard Seltman (Đại học Carnegie
Mellon), “nói một cách lỏng lẻo, bất kỳ phương pháp xem xét dữ liệu nào không
bao gồm mô hình thống kê chính thức và suy luận đều thuộc thuật ngữ phân tích
dữ liệu khám phá”.
2. Lý do chọn đề tài:
Phân tích khám phá dữ liệu (Exploratory Data Analysis) có giá trị to lớn đối
với các dự án khoa học dữ liệu bởi nó đảm bảo các kết quả dự đoán trong tương
lai chắc chắn sẽ hợp lệ, được diễn giải một cách chính xác và có thể áp dụng cho
các bối cảnh kinh doanh mà các nhà kinh doanh mong muốn. Mức độ chắc chắn ở
trên chỉ có thể đạt được sau khi dữ liệu thô được xác thực và kiểm tra các điểm bất
thường, đảm bảo rằng tập dữ liệu được thu thập không có lỗi.
EDA giúp tìm ra nhiều thông tin về một doanh nghiệp cụ thể. Tuy nhiên đi
cùng với đó cũng có nhiều thông tin không rõ ràng hoặc không đáng để các bên
liên quan điều tra. EDA được thực hiện để xác định và tinh chỉnh việc lựa chọn
các biến đặc trưng sẽ được sử dụng cho học máy. Khi các nhà khoa học dữ liệu đã
quen với tập dữ liệu, họ thường phải quay lại bước kỹ thuật xây dựng đặc trưng vì
các đặc trưng ban đầu có thể không phục vụ mục đích dự kiến của họ. Sau khi giai
đoạn EDA hoàn tất, các nhà khoa học dữ liệu sẽ có được bộ đặc trưng chắc chắn
mà họ cần cho học máy giám sát và học máy không giám sát.
3. Mục tiêu đề tài:
Thành thạo một số kĩ thuật cơ bản của EDA. Từ đó không chỉ đưa ra nhiều phân
tích có giá trị về dữ liệu mà còn giúp thực hiện lựa chọn các đặc trưng quan trọng
trong dữ liệu để xây dựng mô hình học máy giúp dự đoán khi phải xử lí các dữ liệu
mới trong tương lai.
6
Đây là một trong những đề tài nghiên cứu khoa học sinh viên đầu tiên ở khoa
Toán và Thống kê về chủ đề EDA. Đề tài sẽ là một tài liệu có giá trị giúp sinh viên
ngành Toán ứng dụng tiếp cận các kĩ thuật quan trọng của phân tích dữ liệu.
4. Phương pháp nghiên cứu:
Tìm hiểu cơ sở lý thuyết của các kỹ thuật trong các tài liệu chuyên ngành.
Tham khảo các nguồn tài liệu và dữ liệu mở để triển khai và áp dụng các kỹ
thuật phân tích khám phá dữ liệu trên các bài toán trong thực tế.
5. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu: các kỹ thuật phân tích khám phá dữ liệu.
Phạm vi nghiên cứu: nghiên cứu lý thuyết và triển khai các kỹ thuật, nghiên
cứu lí thuyết cơ bản và thực hành trên dữ liệu thực tế.
7
Chương 1
Lý thuyết
1.1
Hiểu biết về khoa học dữ liệu
• Khoa học dữ liệu đang ở đỉnh cao của sự cường điệu và các kỹ năng về xử lý dữ
liệu các nhà khoa học đang thay đổi. Giờ đây, các nhà khoa học dữ liệu không
chỉ được yêu cầu xây dựng những điều cần thiết mà họ phải giải thích kết quả
thu được và sử dụng kết quả đó cho kinh doanh thông minh.
• Khoa học dữ liệu liên quan đến kiến thức đa ngành từ khoa học máy tính, dữ
liệu, thống kê và toán học. Có một số giai đoạn của phân tích dữ liệu, bao gồm
các yêu cầu dữ liệu, thu thập dữ liệu, xử lý dữ liệu, làm sạch dữ liệu, phân tích
dữ liệu khám phá, mô hình hóa và thuật toán cũng như sản phẩm dữ liệu và
liên lạc. Các giai đoạn này tương tự như Quy trình tiêu chuẩn công nghiệp
CROSS về dữ liệu khung khai thác (CRISP) trong khai thác dữ liệu.
• Bài học chính rút ra ở đây là các giai đoạn của EDA, vì nó là một khía cạnh
quan trọng của phân tích dữ liệu và khai thác dữ liệu.
• Các giai đoạn của Phân tích dữ liệu:
– Yêu cầu dữ liệu (Data requirements): Thu thập dữ liệu được định nghĩa là
quy trình thu thập, đo lường và phân tích những hiểu biết chính xác cho
nghiên cứu bằng cách sử dụng các kỹ thuật đã được xác thực tiêu chuẩn.
Một nhà nghiên cứu có thể đánh giá giả thuyết của họ trên cơ sở dữ liệu
thu thập được. Trong hầu hết các trường hợp, thu thập dữ liệu là bước
chính và quan trọng nhất để nghiên cứu, không phân biệt lĩnh vực nghiên
cứu. Cách tiếp cận thu thập dữ liệu khác nhau đối với các lĩnh vực nghiên
cứu khác nhau, tùy thuộc vào thông tin được yêu cầu.
– Thu thập về dữ liệu (Data collection): Xử lý dữ liệu xảy ra khi dữ liệu được
thu thập và chuyển thành thông tin có thể sử dụng được. Thường được
thực hiện bởi một nhà khoa học dữ liệu hoặc nhóm các nhà khoa học dữ
liệu, điều quan trọng là việc xử lý dữ liệu phải được thực hiện chính xác để
không ảnh hưởng tiêu cực đến sản phẩm cuối cùng hoặc đầu ra dữ liệu.
8
Quá trình xử lý dữ liệu bắt đầu với dữ liệu ở dạng thô và chuyển nó thành
một định dạng dễ đọc hơn (đồ thị, tài liệu, v.v.), tạo cho nó dạng và ngữ
cảnh cần thiết để máy tính diễn giải và nhân viên trong tổ chức sử dụng.
– Xử lý dữ liệu (Data processing): Xử lý dữ liệu xảy ra khi dữ liệu được thu
thập và chuyển thành thông tin có thể sử dụng được. Thường được thực
hiện bởi một nhà khoa học dữ liệu hoặc nhóm các nhà khoa học dữ liệu,
điều quan trọng là việc xử lý dữ liệu phải được thực hiện chính xác để
không ảnh hưởng tiêu cực đến sản phẩm cuối cùng hoặc đầu ra dữ liệu.
Quá trình xử lý dữ liệu bắt đầu với dữ liệu ở dạng thô và chuyển nó thành
một định dạng dễ đọc hơn (đồ thị, tài liệu, v.v.), tạo cho nó dạng và ngữ
cảnh cần thiết để máy tính diễn giải và nhân viên trong tổ chức sử dụng.
– Làm sạch dữ liệu (Data cleaning): Dữ liệu được xử lý trước vẫn chưa sẵn
sàng để phân tích chi tiết .Làm sạch dữ liệu là quá trình sửa chữa hoặc xóa
dữ liệu không chính xác, bị hỏng, định dạng không chính xác, trùng lặp
hoặc không đầy đủ trong tập dữ liệu. Khi kết hợp nhiều nguồn dữ liệu, có
nhiều cơ hội để dữ liệu bị trùng lặp hoặc gắn nhãn sai. Nếu dữ liệu không
chính xác, kết quả và thuật toán không đáng tin cậy, mặc dù chúng có thể
đúng. Không có một cách tuyệt đối nào để quy định các bước chính xác
trong quy trình làm sạch dữ liệu bởi vì các quy trình sẽ khác nhau giữa các
tập dữ liệu. Nhưng điều quan trọng là phải thiết lập một khuôn mẫu cho
quy trình làm sạch dữ liệu của bạn để bạn biết rằng mình đang làm đúng
cách mọi lúc.
– Phân tích dữ liệu và khám phá (EDA - Exploratory Data Analysis): Như
đã đề cập trước đây, phân tích giữ liệu và khám phá là giai đoạn mà chúng
ta thực sự bắt đầu hiểu thông điệp có trong dữ liệu. Cần lưu ý rằng một số
loại kỹ thuật chuyển đổi dữ liệu có thể được yêu cầu trong quá trình thăm
dò. Phần này yêu cầu kiến thức sâu về thống kê đặc biệt là thống kê mô tả.
– Mô hình hóa và thuật toán (Modeling and algorithm): Từ quan điểm khoa
học dữ liệu, các mô hình tổng quát hoặc các công thức toán học có thể
biểu diễn hoặc thể hiện mối quan hệ giữa các các biến, chẳng hạn như
mối tương quan hoặc quan hệ nhân quả. Các mô hình hoặc phương trình
này liên quan đến một hoặc nhiều biến phụ thuộc vào các biến khác để
gây ra một sự kiện.
– Sản phẩm dữ liệu (Data Product): Bất kỳ phần mềm máy tính nào sử dụng
dữ liệu làm đầu vào, sản xuất đầu ra và cung cấp phản hồi dựa trên kết quả
đầu ra để kiểm soát môi trường được gọi là một sản phẩm dữ liệu. Một sản
phẩm dữ liệu thường dựa trên một mô hình được phát triển trong quá
trình phân tích dữ liệu.
– Truyền thông (Communication): Giai đoạn này giải quyết việc phổ biến
kết quả để kết thúc các bên liên quan sử dụng kết quả cho hoạt động kinh
doanh thông minh. Một trong những điều đáng chú ý nhất trong giai đoạn
này là trực quan hóa dữ liệu. Hình ảnh hóa liên quan đến thông tin chuyển
tiếp các kỹ thuật như bảng, biểu đồ, sơ đồ tóm tắt và biểu đồ thanh để hiển
thị kết quả đã phân tích.
9
1.2
Tầm quan trọng của EDA
• Các lĩnh vực khoa học, kinh tế, kỹ thuật và tiếp thị khác nhau tích lũy và lưu
trữ dữ liệu chủ yếu trong cơ sở dữ liệu điện tử. Các quyết định phù hợp và có
cơ sở nên được thực hiện bằng cách sử dụng dữ liệu thu thập được. Thực tế
là không thể hiểu được bộ dữ liệu chứa nhiều điểm dữ liệu mà không cần sự
trợ giúp của các chương trình máy tính. Nghiên cứu phân tích dữ liệu là chìa
khóa và thường là bài tập đầu tiên trong khai thác dữ liệu. Nó cho phép chúng
ta hình dung dữ liệu để hiểu nó cũng như để tạo ra các giả thuyết để phân tích
sâu hơn. Việc nghiên cứu, phân tích xoay quanh việc tạo tóm tắt dữ liệu hoặc
thông tin chi tiết cho các bước tiếp theo trong dự án khai thác dữ liệu.
• EDA thực sự tiết lộ sự thật cơ bản về nội dung mà không đưa ra bất kỳ điều
gì giả định cơ bản. Đây là thực tế mà các nhà khoa học dữ liệu sử dụng quá
trình này để thực sự hiểu loại mô hình và giả thuyết nào có thể được tạo ra.
Các thành phần chính của dữ liệu khám phá phân tích bao gồm tổng hợp dữ
liệu, phân tích thống kê và trực quan hóa dữ liệu. Python cung cấp các công
cụ chuyên dụng để phân tích, khám phá, khai thác dữ liệu, xử lý dữ liệu và mô
hình hóa – trực quan hóa dữ liệu.
1.3
Các giai đoạn trong EDA
• Sau khi hiểu EDA là gì và ý nghĩa của nó, chúng ta hãy hiểu các bước khác nhau
tham gia vào phân tích dữ liệu. Về cơ bản, nó bao gồm bốn bước khác nhau:
– Định nghĩa về vấn đề (Problem definition):
* Trước khi cố gắng trích xuất thông tin chi tiết hữu ích từ dữ liệu,việc
cốt yếu là xác định vấn đề kinh doanh cần giải quyết. Định nghĩa vấn
đề hoạt động cũng như động lực để thực hiện kế hoạch phân tích dữ
liệu.
* Các nhiệm vụ chính tham gia vào định nghĩa vấn đề là xác định mục
tiêu chính của phân tích, xác định các sản phẩm chính, vạch ra các vai
trò và trách nhiệm chính, có được trạng thái hiện tại của dữ liệu, xác
định thời gian biểu và thực hiện Phân tích lợi ích chi phí. Dựa trên định
nghĩa vấn đề như vậy, một kế hoạch có thể được hoàn thiện.
– Chuẩn bị dữ liệu (Data preparation):
* Bước này liên quan đến các phương pháp chuẩn bị trước tập dữ liệu
phân tích thực tế. Trong bước này, chúng ta xác định các nguồn dữ
liệu, xác định các lược đồ dữ liệu và bảng, hiểu các đặc điểm chính của
dữ liệu, làm sạch tập dữ liệu, xóa tập dữ liệu không liên quan, chuyển
đổi dữ liệu và chia dữ liệu thành các khối cần thiết để phân tích.
10
– Phân tích dữ liệu (Data analysis):
* Đây là một trong những bước quan trọng nhất liên quan đến thống kê
mô tả và phân tích dữ liệu. Các nhiệm vụ chính liên quan đến việc tóm
tắt dữ liệu, tìm kiếm mối tương quan ẩn và mối quan hệ giữa các dữ
liệu, phát triển mô hình dự đoán, đánh giá mô hình và tính toán độ
chính xác.
* Một số các kỹ thuật được sử dụng để tóm tắt dữ liệu là bảng tóm tắt, đồ
thị, thống kê mô tả, thống kê suy luận, thống kê tương quan, tìm kiếm,
phân nhóm và các mô hình toán học.
– Phát triển và trình bày kết quả (Development and representation of the
results):
* Bước này bao gồm việc trình bày tập dữ liệu cho đối tượng mục tiêu
dưới dạng biểu đồ, bảng tóm tắt, bản đồ, và sơ đồ. Đây cũng là một
bước thiết yếu vì kết quả được phân tích từ tập dữ liệu phải được các
bên liên quan trong kinh doanh có thể hiểu được. Đó là một trong
những mục tiêu chính của EDA.
* Hầu hết các kỹ thuật phân tích đồ họa bao gồm các biểu đồ phân tán,
các biểu đồ ký tự, biểu đồ, các ô hộp, các ô còn lại, các ô trung bình và
những thứ khác.
1.4
Ý nghĩa của dữ liệu
• Điều quan trọng là phải xác định loại dữ liệu được phân tích. Trong phần này,
chúng tôi sẽ tìm hiểu về các loại dữ liệu khác nhau lưu trữ có thể gặp trong quá
trình phân tích.
• Các ngành khác nhau lưu trữ các loại dữ liệu khác nhau cho các mục đích khác
nhau. Ví dụ, các bệnh viện lưu trữ dữ liệu của bệnh nhân, các trường đại học
lưu trữ dữ liệu của học sinh và dữ liệu của giáo viên. Một tập dữ liệu chứ nhiều
quan sát về một đối tượng cụ thể. chẳng hạn, một bộ dữ liệu về bệnh nhân
trong bệnh viện có thể chứ nhiều quan sát. Mỗi đặc tính mô tả một bệnh nhân
là một biến. Mỗi quan sát có thể có một giá trị cụ thể cho mỗi biến.
• Hầu hết các tập dữ liệu rộng rãi rơi vào 2 nhóm dữ liệu số và dữ liệu phân loại.
1.4.1
Dữ liệu số (Numerical data):
• Dữ liệu số đề cập đến dữ liệu ở dạng số và không bằng bất kỳ ngôn ngữ hoặc
dạng mô tả nào. Thường được gọi là dữ liệu định lượng, dữ liệu số được thu
thập trong biểu mẫu số và ngăn chặn khác với bất kỳ dạng dữ liệu số nào do
khả năng được tính toán thống kê và số học.
11
• Đặc điểm của dữ liệu số này được thao tác theo số học làm cho nó trở thành
một bộ dữ liệu tốt nhất cho việc phân tích dữ liệu thống kế.
• Có hai dạng dữ liệu số là dữ liệu rời rạc và dữ liệu liên tục. Cả hai dạng này đều
được sử dụng rõ ràng trong mục đích thống kê và nghiên cứu và được chứng
minh là cung cấp dữ liệu tốt nhất thông qua các phương pháp nghiên cứu.
– Dữ liệu rời rạc (Discrete data):
* Dữ liệu rời rạc là dữ liệu có thể đếm được và các giá trị của nó có thể
được liệt kê. Nó có thể lấy cả hai dạng số và phân loại và nhóm chúng
vào một danh sách. Danh sách này cũng có thể là hữu hạn hoặc vô
hạn.
* Một biến đại diện cho bộ dữ liệu rời rạc được gọi là biến rời rạc. Biến
rời rạc lấy một số lượng các giá trị riêng biệt cố định và thiếu thứ tự vốn
có. Ví dụ, biến quốc gia có thể có các giá trị như Việt Nam, Nhật bản,
Thụy Điển,... Nó là cố định.
* Trong hầu hết các thực tiễn, dữ liệu rời rạc được hiển thị theo đồ thị
thanh, biểu đồ thân và lá; biểu đồ hình tròn.
– Dữ liệu liên tục (Continuous data):
* Một biến có thể có vô hạn các giá trị số trong phạm vi cụ thể được phân
loại là dữ liệu liên tục.
* Một biến mô tả dữ liệu liên tục là một biến liên tục. Ví dụ như nhiệt độ
trong ngày là một biến liên tục, không thể liệt kê hết tất cả các giá trị
có thể. Ngoài ra, chiều cao, cân nặng cũng được coi là biến liên tục.
* Dữ liệu liên tục được chia thành hai loại: khoảng (Interval) và tỷ lệ (Ratio).
· Dữ liệu khoảng (Interval data): chỉ có thể đo dọc theo thang điểm ở
khoảng cách bằng nhau. Ví dụ: Nhiệt độ cơ thể có thể được đo ở độ
C và độ Fahrenheit và cả hai đều có thể là 0.
· Dữ liệu tỷ lệ (Ratio data): không giống như dữ liệu khoảng, dữ liệu
tỷ lệ không có điểm 0.
1.4.2
Dữ liệu phân loại (Categorical data):
• Loại dữ liệu này đại điện cho các đặc điểm của một đối tượng. Ví dụ như:
giới tính, tình trạng hôn nhân, thể loại của bộ phim, nhóm máu hoặc các loại
thuốc. Dữ liệu này thường được gọi là bộ dữ liệu định tính trong thống kê.
• Một biến mô ta dữ liệu phân loại được gọi là một biến phân loại. Những loại
biến này có thể có một trong số lượng giá trị hạn chế. Có nhiều loại biến phân
loại khác nhau:
12
Figure 1.1: Bảng so sánh giữa biến rời rạc và biến liên tục
– Một biến phân loại nhị phân có thể mất chính xác hai giá trị và nó còn có
tên gọi khác là một biến phân đôi. Ví dụ: khi bạn tạo một thí nghiệm, kết
quả là thành công hoặc thất bại. Do đó, kết quả là một biến phân loại nhị
phân.
– Biến đa dạng là các biến phân loại có thể có nhiều hơn hai giá trị. Ví dụ,
thể loại phim có thể có một số giá trị như: hành động, lãng mạn, phiêu
lưu, khoa học viễn tưỡng, lịch sử, kinh dị, hài kịch, triết học,...
• Hầu hết các bộ dữ liệu phân loại theo quy mô đo lường danh nghĩa (nominal)
hoặc thứ tự (ordinal).
1.4.3
Quy mô đo (Measurement scales):
Theo danh nghĩa (Nominal):
• Quy mô đo theo danh nghĩa được coi là quy mô định tính và các phép đo được
thực hiện bằng cách sử dụng quy mô định tính được coi là dữ liệu định tính.
Tuy nhiên, sự tiến bộ trong nghiên cứu định tính đã tạo ra sự nhầm lẫn sẽ chắc
chắn được coi là định tính. Không có hình thức tính toán số học có thể được
thực hiện trên các biện pháp đo lường danh nghĩa.
• Nếu bạn biết dữ liệu của mình theo thang đo danh nghĩa, bạn có thể sử dụng
biểu đồ hình tròn hoặc biểu đồ thanh. Hiểu loại dữ liệu có liên quan để hiểu
loại tính toán nào bạn có thể thực hiện, loại mô hình bạn nên phù hợp với bộ
dữ liệu và loại hình ảnh trực quan nào bạn có thể tạo.
13
Theo thứ tự (Ordinal):
• Sự khác biệt giữa quy mô đo theo thứ tự và danh nghĩa là thứ tự. Trong quy mô
đo thứ tự thì thứ tự các giá trị là một yếu tố quan trọng.
• Thang đo thứ tự bao gồm loại dữ liệu thống kê nơi các biến theo thứ tự hoặc
cấp bậc nhưng không có mức độ khác biệt giữa các loại.
• Ví dụ như thang đo Likert , thang đo thứ tự có thể đo lường tần suất, mức độ
quan trọng, sự hài lòng, khả năng xảy ra, chất lượng và trải nghiệm,...
1.5
So sánh phân tích khám phá dữ liệu với phân
tích dữ liệu cổ điển và phân tích dữ liệu suy
luận Bayes:
Figure 1.2: So sánh giữa phân tích khám phá dữ liệu với cổ điển và suy
luận Bayes
14
1.6
1.6.1
Thống kê mô tả
Đo lường xu hướng trung tâm (Measures of central
tendency)
Các biến của dữ liệu được đo lường hoặc đếm có thể có hàng nghìn giá trị khác
nhau. Một bước cơ bản để khám giá dữ liệu là lấy được "giá trị điển hình" của từng
biến - một ước lượng về vị trí của phần lớn dữ liệu, tức là xu hướng trung tâm. Giá
trị trung bình, giá trị trung vị, yếu vị là một số "giá trị điển hình" phổ biến nhất để
đo lường xu hướng trung tâm.
Giá trị trung bình: là ước lượng cơ bản nhất của đo lường xu hướng trung tâm.Về
mặt toán học, đó là tổng của tất cả các giá trị chia cho số giá trị.
Figure 1.3: Giá trị trung bình trong một phân bố xác suất.
Giá trị trung vị: Cho một tập dữ liệu được sắp xếp theo thứ tự tăng dần hoặc giảm
dần, giá trị trung vị chia dữ liệu thành hai phần bằng nhau. Công thức để tính giá
trị trung vị như sau:
.
+ Nếu n(số mẫu) là lẻ, giá trị trung vị là giá trị phần tử thứ n+1
2
+ Nếu n là chẳn, giá trị trung vị là giá trị trung bình của 2 phần tử thứ n2 và n+2
2 .
Figure 1.4: Giá trị trung vị trong một phân bố xác suất.
15
Yếu vị: là giá trị có tần suất xuất hiện cao nhất trong tập dữ liệu.
Figure 1.5: Yếu vị trong một phân bố xác suất.
Một trong những vấn đề với yếu vị là nó không phải là duy nhất, vì vậy nó khiến
chúng ta gặp vấn đề khi chúng ta có hai hoặc nhiều giá trị có chung tần số cao
nhất, chẳng hạn như bên dưới:
Figure 1.6: 2 yếu vị trong một phân bố xác suất.
Bây giờ chúng ta đang bị mắc kẹt không biết yếu vị nào mô tả tốt nhất xu hướng
trung tâm của dữ liệu. Điều này đặc biệt có vấn đề khi chúng ta có dữ liệu liên tục
nên chúng ta có nhiều khả năng không có bất kỳ giá trị nào xuất hiện thường xuyên
16
hơn giá trị kia. Ví dụ: việc đo cân nặng của 30 người (chính xác đến 0,1 kg). Khả
năng chúng ta tìm thấy hai hoặc nhiều người có cùng trọng lượng chính xác như
nhau (ví dụ: 67,4 kg) là bao nhiêu? Câu trả lời, có lẽ là rất khó xảy ra, bạn khó có thể
tìm thấy hai người có cùng trọng lượng chính xác; nghĩa là, chính xác đến 0,1 kg.
Đây là lý do tại sao yếu vị rất hiếm khi được sử dụng với dữ liệu liên tục.
Cái nào tốt hơn, giá trị trung bình hay giá trị trung vị hay yếu vị?
Không cái nào về bản chất là “tốt hơn” cái kia. Chúng cho ta biết những điều khác
nhau về xu hướng trung tâm của một phân phối. Bất cứ khi nào ta xem tập dữ liệu
và kết quả thống kê, ta nên xem tất cả các thước đo của xu hướng trung tâm. Bởi vì
ta muốn hiểu tất cả những gì có thể về tập dữ liệu và ta xem càng nhiều thống kê
mô tả, thì ta càng có thể hiểu rõ hơn về dữ liệu. Ta sẽ không bao giờ mắc sai lầm
khi chọn cái này hơn cái kia. Tuy nhiên, ở từng trường hợp cụ thể sẽ có thước đo tốt
nhất của xu hướng trung tâm.
Đối với phân phối lệch, giá trị trung vị là tốt hơn. Ví dụ, giá nhà thường lệch về bên
phải, có nghĩa là một số trong số đó cao bất thường. Một số lượng nhỏ giá cao sẽ có
tác động lớn đến giá trị trung bình. Do đó, giá trị trung vị tốt hơn trong việc miêu tả
giá của một ngôi nhà "thông thường".
Figure 1.7: Phân phối của giá nhà
17
Khi tính tập thể quan trọng, giá trị trung bình sẽ tốt hơn. Ví dụ, khi so sánh tiến độ
phát triển kinh tế của hai quốc gia, giá trị trung bình (GDP bình quân đầu người)
là một thống kê tốt hơn giá trị trung vị. Đó là bởi vì nó không chỉ cho chúng ta biết
sức mạnh kinh tế trung bình của mỗi người, nó còn chứa nhiều thông tin về GDP
của quốc gia.
Yếu vị thì đặt biệt tốt đối với các biến của dữ liệu phân loại, mà nó cho chúng ta
biết danh mục nào là phổ biến nhất.
1.6.2
Thước đo phân tán (Meansures of dispersion)
Loại thống kê mô tả thứ hai là thước đo phân tán, còn được gọi là thước đo biến
thiên. Nó được sử dụng để mô tả sự thay đổi trong một tập dữ liệu, có thể là một
mẫu hoặc tổng thể. Nó thường được sử dụng cùng với thước đo xu hướng trung
tâm, để cung cấp một mô tả tổng thể về một bộ dữ liệu. Một thước đo phân tán
mang lại cho chúng ta một ý tưởng về xu hướng trung tâm đại diện cho dữ liệu tốt
như thế nào. Nếu chúng ta phân tích bộ dữ liệu chặt chẽ, đôi khi, trung bình có thể
không phải là đại diện tốt nhất của dữ liệu vì nó sẽ thay đổi khi có những biến thể
lớn giữa dữ liệu. Trong trường hợp như vậy, một thước đo phân tán sẽ đại diện cho
sự thay đổi trong một bộ dữ liệu chính xác hơn nhiều.
• Độ lệch chuẩn (Standard deviation): Hiểu một cách đơn giản, độ lệch chuẩn
là mức trung bình của sự khác biệt giữa mỗi giá trị trong bộ dữ liệu với mức
trung bình của nó; hay nói cách khác độ lệch chuẩn là cách dữ liệu được trải
ra từ giá trị trung bình. Nếu độ lệch chuẩn của bộ dữ liệu thấp, thì các điểm dữ
liệu có xu hướng gần với giá trị trung bình của bộ dữ liệu, nếu không, các điểm
dữ liệu được trải rộng trên phạm vi giá trị rộng hơn.
Figure 1.8: Độ lệch chuẩn
18
• Phương sai (Variance): Phương sai là bình phương trung bình của sự khác
biệt giữa mỗi giá trị trong bộ dữ liệu với mức trung bình của nó.Nói cách khác,
phương sai chính là bình phương của của độ lệch chuẩn.
Figure 1.9: Phương sai
• Độ xiên (Skewness): Trong lý thuyết và thống kê xác suất, độ xiên là thước đo
sự bất đối xứng của biến trong bộ dữ liệu về ý nghĩa của nó. Giá trị độ lệch có
thể dương hoặc âm, hoặc không xác định. Giá trị độ xiên cho chúng ta biết liệu
dữ liệu bị lệch hoặc đối xứng hay không. Dưới đây là một hình ảnh minh họa
của một tập dữ liệu sai lệch dương, dữ liệu đối xứng và một số dữ liệu sai lệch
âm.
Figure 1.10: Độ xiên
19
– Biểu đồ ở phía bên phải có phần đuôi dài hơn phần đuôi ở bên tay phải.
Điều này cho thấy rằng việc phân phối dữ liệu bị lệch sang bên trái. Nếu
bạn chọn bất kỳ điểm nào ở đuôi dài hơn bên trái, giá trị trung bình sẽ nhỏ
hơn số yếu vị. Trường hợp này được gọi là độ xiên âm.
– Biểu đồ ở phía bên trái có phần đuôi dài hơn ở phía bên phải. Nếu bạn
chọn bất kỳ điểm nào ở đuôi bên phải, giá trị trung bình lớn hơn số yếu vị.
Trường hợp này được gọi là độ xiên dương.
– Biểu đồ ở giữa có đuôi bên phải giống với đuôi bên trái. Điều kiện này
được gọi là điều kiện đối xứng.
• Độ nhọn (Kurtosis):
– Về cơ bản, Độ nhọn là một thước đo thống kê minh họa độ "béo" của phần
đuôi của phân phối khác với phân phối chuẩn. Kỹ thuật này có thể xác
định liệu một phân phối nhất định chứa các giá trị cực trị. Vậy Độ xiên và
Độ nhọn có tương tự nhau không? Độ xiên thường đo lường tính đối xứng
của phân phối đã cho. Mặt khác, Độ nhọn đo lường mức độ nặng nề của
các đuôi phân phối. Độ nhọn, không giống như độ xiên, không phải là về
đỉnh hoặc độ phẳng. Nó là thước đo của sự hiện diện ngoại lệ trong một
phân phối nhất định. Cả Độ nhọn cao và thấp đều là một chỉ số cho thấy
dữ liệu cần được điều tra thêm. Độ nhọn càng cao, các giá trị ngoại lai càng
cao.
– Các kiểu của Độ nhọn: Độ nhọn có 3 kiểu chính là: mesokurtic, leptokurtic
và platykurtic.
Figure 1.11: Độ nhọn
20
* Mesokurtic: Nếu bất kỳ bộ dữ liệu nào tuân theo một phân phối chuẩn,
nó tuân theo phân phối Mesokurtic. Nó có Độ nhọn bằng 0.
* Leptokurtic: Trong trường hợp này, phân phối có Độ nhọn lớn hơn 3
và các đuôi "béo" chỉ ra rằng phân phối tạo ra nhiều ngoại lệ hơn.
* Platykurtic: Trong trường hợp này, phân phối có Độ nhọn âm và đuôi
rất mỏng so với phân phối bình thường.
• Bách phân vị (Percentiles):
– Trong thống kê, phân vị thứ k là điểm dưới đó phần trăm k nhất định của
điểm trong phân phối tần số của nó giảm hoặc điểm bằng hoặc thấp hơn
tỷ lệ phần trăm đã cho. Ví dụ: phân vị thứ 50 là điểm thấp hơn hoặc bằng
50% điểm trong phân phối có thể được tìm thấy.
– Công thức tính bách phân vị của X = (Số giá trị bé hơn X) ÷ (Tổng số quan
sát) ×100
– Giả sử chúng ta có dữ liệu đã cho: 1, 2, 2, 3, 4, 5, 6, 7, 7, 8, 9, 10. Khi đó,
4
phân vị của 4 = 12
× 100 = 33, 33%. Điều này đơn giản có nghĩa là 33,33% dữ
liệu nhỏ hơn 4.
• Tứ phân vị (Quartiles):
– Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu.
Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá
trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến
lớn) thành 4 phần có số lượng quan sát đều nhau. Giá trị tứ phân vị thứ
hai Q 2 chính bằng giá trị trung vị. Giá trị tứ phân vị thứ nhất Q 1 bằng trung
vị phần dưới. Giá trị tứ phân vị thứ ba Q 3 bằng trung vị phần trên.
– Ví dụ: Tập dữ liệu bao gồm 5, 7, 9, 14, 25, 34, 48. Tập dữ liệu trên đã được
sắp xếp theo thứ tự tăng dần, dễ dàng nhận thấy giá trị trung vị nằm giữa
chính là 14. Trung vị của tập dữ liệu phần dưới 5, 7, 9 là 7. Và trung vị của
tập dữ liệu phần trên 25, 34, 48 là 34. Vậy Q 1 = 7, Q 2 = 14, Q 3 = 3
21
Chương 2
Thực hành
2.1
Chuẩn bị dữ liệu
• Năm 2012, hãng phần mềm Microsoft đã giới thiệu cơ sở dữ liệu minh họa
mới có tên AdventureWorks mà báo cáo này sẽ sử dụng để thực hành phân
tích khám phá dữ liệu.
• Cơ sở dữ liệu minh họa AdventureWorks lấy bối cảnh trên dữ liệu của 1 công
ty hư cấu có tên Adventure Works Cycles. Đây được cho là 1 công ty sản xuất
đa quốc gia có qui mô lớn. Công ty sản xuất và kinh doanh xe đạp làm từ kim
loại và các chất liệu tổng hợp. Thị trường của công ty này bao gồm cả khu
vực Bắc Mỹ, Châu Âu và Châu Úc. Trong khi trụ sở chính của công ty lại được
đặt ở Bothell, Washington gồm có 290 nhân viên, công ty cũng có 1 vài nhóm
nhân viên kinh doanh khu vực ở các thị trường hoạt động của mình. Công ty
Adventure Works Cycles đang tìm cách mở rộng thị phần bằng cách tập trung
vào các hoạt động bán hàng cho các khách hàng quan trọng nhất của họ, mở
rộng thông tin sản phẩm thông qua hệ thống Website đồng thời tiết giảm chi
phí bán hàng bằng cách giảm sản lượng sản xuất các sản phẩm không quan
trọng.
2.2
Đặt câu hỏi
Đứng ở góc độ là chuyên gia phân tích dữ liệu cấp cao của một doanh nghiệp
chuyên về đồ thể thao mạo hiểm toàn cầu AdventureWorks. Doanh nghiệp đang
xây dựng chiến lược kinh doanh giai đoạn 2021-2025. Với bộ dữ liệu được cung
cấp, chúng cần trả lời một số cầu hỏi sau:
→ Khách hàng mà chúng ta cần nhắm đến là ai?
→ Thị trường tiêu thụ chính của chúng ta nằm ở đâu?
→ Sản phẩm nào là sản phẩm cần được đẩy mạnh hoặc cắt giảm sản xuất?
→ Chúng ta đang tiếp thị sản phẩm như thế nào? Liệu có cần thay đổi chiến lược
tiếp thị hay không? Nếu có thì thay đổi như thế nào?
22
Figure 2.1: Tổng quan về dữ liệu
23
2.3
2.3.1
Phân tích theo khách hàng
Phương diện mua hàng
Figure 2.2: Số lượng khách hàng qua các năm
• Hầu hết khách hàng mua ở năm 2017 đều không quay lại mua ở năm 2018.
• Tuy nhiên, phần lớn khách hàng mua ở 2 năm 2017, 2018 quay lại mua hàng ở
năm 2019.
2.3.2
Thu nhập của khách hàng
• Khách hàng có thu nhập ở mức trung bình chiếm phần lớn. Số lượng khách
hàng có thu nhập cao trên 100.000 USD chỉ chiếm 8.8% tổng số khách hàng
của công ty.
24
Figure 2.3: Phần trăm thu nhập của khách hàng
Figure 2.4: Doanh thu theo nhóm thu nhập
25
2.3.3
Độ tuổi của khách hàng
• Khách hàng chủ yếu ở nhóm tuổi trung nhiên từ 34 – 70 tuổi. Ở đây ta thấy
công ty bị mất đi một nhóm khách hàng ở độ tuổi dưới 34 tuổi trong khi những
người ở độ tuổi này có nhu cầu thể thao khá lớn.
Figure 2.5: Phần trăm tuổi của khách hàng
2.4
2.4.1
Phân tích theo chuỗi thời gian
Doanh thu và số đơn đặt hàng trung bình theo tháng
trong năm
• Doanh thu, số đơn đặt hàng ở tháng 1 là thấp nhất, và thấp hơn nhiều so với
các tháng còn lại.
• Doanh thu, số đơn đặt hàng ở tháng 6 tăng mạnh so với tháng 5, tháng 7.
• Nhìn chung doanh thu, số đơn đặt hàng có xu hướng tăng dần từ đầu năm đến
cuối năm, sau đó lại đột ngột giảm mạnh ở tháng 1.
26
Figure 2.6: Doanh thu trung bình theo tháng trong năm
27
Figure 2.7: Số đơn hàng trung bình theo tháng trong năm
28
2.4.2
Những sản phẩm xe đạp, phụ kiện bán chạy nhất
qua mỗi năm
Figure 2.8: Số lượng bán được của mỗi loại xe đạp qua các năm
• Về số lượng thì dòng Xe đạp đường bộ(Road Bikes) bán chạy nhất. Nhưng xu
hướng cho thấy dòng Xe đạp leo núi(Mountain Bikes) có khả năng đem lại lợi
nhuận lớn nhất.
• Vì vậy ta nên đẩy mạnh việc bán những mẫu xe thuộc dòng Xe đạp leo núi(Mountain
Bikes).
• Lốp và săm xe đạp(Tires and Tubes) bán chạy nhất đồng thời mang lại lợi
nhuận lớn nhất trong các dòng phụ kiện.
• Ngoài ra, Mũ bảo hiểm(Helmets) có biên lợi nhuận ròng rất lớn. Cần được thúc
đẩy nhiều hơn nữa.
• Nhìn chung, các mặt hàng phụ kiến bán được rất nhiều sản phẩm. Nhưng lợi
nhuận mang lại không đáng kể so với việc bán xe đạp.
• Vì vậy, chúng ta cần ưu tiên tập trung vào mảng bán xe đạp.
29
Figure 2.9: Lợi nhuận ròng của mỗi loại xe đạp qua các năm
2.4.3
Phân tích việc bán hàng xe đạp theo mùa
• Giai đoạn trước tháng 6 năm 2018, sản lượng cũng như lợi nhuận chủ yếu đến
từ dòng Xe đạp đường bộ (Road Bikes).
• Nhưng sau đó cho đến năm 2020, lợi nhuận đến từ dòng Xe đạp leo núi(Mountain
Bikes) đang có xu hướng tăng mạnh, cuối năm 2019, lợi nhuận đến từ dòng
Mountain Bikes gấp gần 2 lần so với Xe đạp đường bộ(Road Bikes).
• Ngoài ra, Xe đạp du lịch(Touring Bikes) là một dòng xe tiềm năng, đem lại biên
lợi nhuận ròng lớn. Dù chỉ mới được bán ở cuối năm 2018 nhưng đang có xu
hướng phát triển rất nhanh.
30
Figure 2.10: Số lượng bán được của mỗi loại phụ kiện qua các năm
31
Figure 2.11: Lợi nhuận ròng của mỗi loại phụ kiện qua các năm
32
Figure 2.12: Số lượng bán được của mỗi loại xe đạp qua các tháng
33
Figure 2.13: Lợi nhuận của mỗi loại xe đạp qua các tháng
34
2.5
Phân tích theo khu vực địa lý
Figure 2.14: Tổng doanh thu bán hàng của mỗi quốc gia
• Doanh thu ở Hoa Kỳ là cao nhất (hơn 20 nghìn đơn hàng được bán ra).
• Các nước ở Châu Âu có doanh thu thấp hơn so với Hoa Kỳ và Úc.
• Canada có doanh thu thấp nhất trong tất cả cả quốc gia
• Ở Úc, Xe đạp đường bộ(Road Bikes) có số lượng bán ra vượt trội hơn so với Xe
đạp leo núi(Mountain Bikes).
• Ở Úc, mặc dù 2 loại Xe đạp leo núi(Mountain Bikes) và Xe đạp du lịch(Touring
Bikes) thấp hơn Hoa Kỳ nhưng dòng xe đạp đương bộ(Road Bikes) lại cao hơn.
• Những khách hàng ở Úc nằm ở trình độ Cử nhân là chiếm số lượng lớn nhất.
35
Figure 2.15: Số lượng xe đạp bán được của mỗi quốc gia
Figure 2.16: Trình độ giáo dục của khách hàng ở mỗi quốc gia
36
Figure 2.17: Số lượng và phần trăm đơn hàng của các chiến dịch khuyến
mãi
2.6
Phân tích theo khuyến mãi
• Khách hàng mua hàng không có khuyến mãi chiếm số lượng nhiều nhất với
tổng số đơn hàng là 58247, chiếm đến 96.4% trong tổng số đơn hàng. Các chiến
dịch còn lại có số lượng đơn hàng rất ít là Volume Discount 11 to 14, Touring
-3000 Promotion và Touring -1000 Promotion, chiếm chưa tới 4%.
Figure 2.18: Doanh thu và phần trăm doanh thu của các chiến dịch
khuyến mãi
37
• Chiến dịch Volume Discount 11 to 14 mang lại doanh thu nhiều nhất trong
số các chiến dịch khuyến mãi khi chiếm tới hơn 98% trong tổng số các chiến
dịch.
Figure 2.19: Doanh thu trung bình của mỗi sản phẩm
• Tuy vậy doanh thu trung bình trên mỗi sản phẩm của chiến dịch Touring -1000
Promotion lại cao nhất.
Figure 2.20: Chiến dịch Volume Discount 11 to 14
• Trong chiến dịch Volume Discount 11 to 14, những sản phẩm được mua nhiều
nhất là Săm và lốp xe đạp(Tires and Tubes), Xe đạp leo núi(Mountain Bikes)
và Xe đạp đường bộ(Road Bikes).
38
Figure 2.21: Doanh thu và trung bình doanh thu của từng sản phẩm
• Đối với doanh thu và trung bình doanh thu trên từng sản phẩm của chiến
dịch Volume Discount 11 to 14,Xe đạp leo núi(Mountain Bikes),xe đạp đường
bộ(Road Bikes) và Xe đạp du lịch(Touring Bikes) mang lại nhiều nhất.
Figure 2.22: Phần trăm doanh thu của các chiến dịch khuyến mãi
• Tuy là khuyến mãi nhưng các chiến dịch lại đóng góp rất nhỏ trong tổng số
doanh thu, chiếm chưa tới 3%.
• Đối với chiến dịch Touring -1000 Promotion và Touring -3000 Promotion, thời
gian khuyến mãi chỉ kéo dài trong 3 tháng từ cuối tháng 12/2018 đến cuối
tháng 3/2019, trong khi đó khách hàng lại mua Xe đạp du lịch(Touring Bikes)
trong thời gian từ cuối tháng 12/2018 đến cuối tháng 12/2019.
39
Figure 2.23: Các đơn hàng Touring Bikes được đặt theo thời gian
Figure 2.24: Bảng thông tin các chiến dịch khuyến mãi
40
• Còn đối với chiến dịch Volume Discount 11 to 14, tuy thời gian khuyến mãi kéo
dài nhưng vì phần trăm giảm giá quá thấp, không đủ để thu hút khách hàng
mua sản phẩm có khuyến mãi này.
2.7
Kết luận
• Khách hàng chủ yếu đến từ độ tuổi từ 34 – 70, có thu nhập trung bình.
• Nên tập trung vào việc bán xe đạp.
• Cần đẩy mạnh các mẫu xe đạp thuộc dòng xe leo núi (Mountain Bikes), xe đạp
du lịch (Touring Bikes).
• Nên tổ chức khuyến mãi và marketing vào tháng 6 hoặc tháng 12.
• Nên đẩy mạnh bán hàng ở Hoa Kỳ.
• Nên tập trung bán dòng xe đạp đường bộ (Road Bikes) ở Úc.
• Ở Úc, nên đẩy mạnh bán hàng đối với khách hàng có trình độ giáo dục Cử
nhân.
• Doanh thu đến từ việc khuyến mãi còn rất thấp.
• Hai chiến dịch khuyến mãi sản phẩm mới nên đặt vào những tháng cuối năm
có doanh thu bán hàng cao.
41
Tài liệu tham khảo
[1] AdventureWorks sample databases.
[2] Practical Statistics for Data Scientists, Peter Bruce, Andrew Bruce, 2017.
[3] Exploratory Data Analysis Matthieu Komorowski, Dominic C. Marshall, Justin
D. Salciccioli Yves Crutain, 2016.
[4] Hands-On Exploratory Data Analysis with Python, Suresh Kumar Mukhiya, Usman Ahmed, 2020.
42
Download