BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN Tên đề tài: PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU Mã số đề tài: S2021.702.03 Lĩnh vực nghiên cứu: Khoa học tự nhiên (Chuyên ngành Toán và Thống kê) Bình Định, 5/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN Tên đề tài: PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU Mã số đề tài: S2021.702.03 Lĩnh vực nghiên cứu: Khoa học tự nhiên (Chuyên ngành Toán và Thống kê) Sinh viên thực hiện : Huỳnh Đăng Tiến Dân tộc : Kinh Lớp : Toán ứng dụng K43 Khoa : Khoa Toán và Thống kê Ngành học : Toán ứng dụng Người hướng dẫn : Thái Trung Hiếu Đơn vị công tác : Khoa Toán và Thống kê Nam, Nữ: Nam Năm thứ: 2 Học vị: Tiến sĩ Bình Định, 5/2022 Số năm đào tạo: 4 Mục lục Thông tin kết quả nghiên cứu đề tài 2 Lời cảm ơn 5 1 Lý thuyết 1.1 Hiểu biết về khoa học dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Tầm quan trọng của EDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Các giai đoạn trong EDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Ý nghĩa của dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Dữ liệu số (Numerical data): . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Dữ liệu phân loại (Categorical data): . . . . . . . . . . . . . . . . 1.4.3 Quy mô đo (Measurement scales): . . . . . . . . . . . . . . . . . . 1.5 So sánh phân tích khám phá dữ liệu với phân tích dữ liệu cổ điển và phân tích dữ liệu suy luận Bayes: . . . . . . . . . . . . . . . . . . . . . . . 1.6 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Đo lường xu hướng trung tâm (Measures of central tendency) 1.6.2 Thước đo phân tán (Meansures of dispersion) . . . . . . . . . . 8 8 10 10 11 11 12 13 2 Thực hành 2.1 Chuẩn bị dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Đặt câu hỏi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Phân tích theo khách hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Phương diện mua hàng . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Thu nhập của khách hàng . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Độ tuổi của khách hàng . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Phân tích theo chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Doanh thu và số đơn đặt hàng trung bình theo tháng trong năm 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy nhất qua mỗi năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa . . . . . . . . . . . . . 2.5 Phân tích theo khu vực địa lý . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Phân tích theo khuyến mãi . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 22 24 24 24 26 26 26 29 30 35 37 41 1 14 15 15 18 THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI 1.Thông tin chung: • Tên đề tài: Phân tích khám phá dữ liệu trong khoa học dữ liệu • Mã số: S2021.702.03 • Nhóm sinh viên thực hiện: - Đặng Hồ Minh Huy - Huỳnh Đăng Tiến - Hoàng Viết Vũ - Lê Đào Tuấn. • Lớp, Khoá, Khoa: Lớp Toán Ứng Dụng, Khóa K43, Khoa Toán và Thống Kê. • Giáo viên hướng dẫn: TS. Thái Trung Hiếu. 2.Mục tiêu đề tài: • Thành thạo một số kĩ thuật cơ bản của EDA. Từ đó không chỉ đưa ra nhiều phân tích có giá trị về dữ liệu mà còn giúp thực hiện lựa chọn các đặc trưng quan trọng trong dữ liệu để xây dựng mô hình học máy giúp dự đoán khi phải xử lí các dữ liệu mới trong tương lai. • Đây là một trong những đề tài nghiên cứu khoa học sinh viên đầu tiên ở khoa Toán và Thống kê về chủ đề EDA. Đề tài sẽ là một tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận các kĩ thuật quan trọng của phân tích dữ liệu. 3. Tính mới và sáng tạo: • Áp dụng phân tích khám phá dữ liệu để phân tích bộ dữ liệu về những khách hàng của một cửa hàng bách hóa lớn như: Big C, Co.opmart Quy Nhơn,... từ đó biết được những thông tin cần thiết về các trường hợp mua hàng khác nhau và hiểu rõ nó để có thể đưa ra các chiến lược cho hành động trong tương lai. 4. Kết quả nghiên cứu: • Nhóm đã thành công áp dụng phân tích khám phá dữ liệu vào bộ dữ liệu khách hàng của một doanh nghiệp chuyên về đồ thể thao mạo hiểm toàn cầu. Phân tích tình hình mua hàng của khách hàng, số khách hàng mới, đề xuất các ý tưởng nhằm tăng doanh thu cho doanh nghiệp. 5. Đóng góp về mặt kinh tế - xã hội, giáo dục và đào tạo, an ninh, quốc phòng và khả năng áp dụng của đề tài: 2 • Đề tài hoàn thành là tài liệu tham khảo hữu ích cho những ai muốn tìm hiểu rõ hơn về một tập dữ liệu, đưa ra các đánh giá về chất lượng, tính hữu ích và tính đầy đủ, dựa vào đó để có được các câu trả lời cần thiết trước khi đưa ra bất kỳ giả định nào về tập dữ liệu đó. Hơn nữa, đề tài còn bổ sung thêm các kiến thức về toán và thống kê. Nhận xét của người hướng dẫn về những đóng góp khoa học của sinh viên thực hiện đề tài: • Nhóm sinh viên thực hiện đề tài đã dành rất nhiều thời gian và công sức để tìm đọc các tài liệu chuyên ngành bằng tiếng Anh về Phân tích dữ liệu khám phám (Explanatory Data Analysis). Bên cạnh đó, nhóm cũng phải tự học một số kiến thức cơ bản về kế toán và tài chính để có thể hiểu bối cảnh của những bộ dữ liệu về kinh doanh. Trong quá trình thực hiện đề tài, nhóm cũng chủ động kết nối với các anh chị chuyên gia về phân tích dữ liệu để trao đổi, học hỏi thêm nhiều kiến thức, kĩ năng và kinh nghiệm. • Sau một thời gian làm quen với các kiến thức căn bản, nhóm đã mạnh dạn thử sức ở một số bộ dữ liệu khó và phức tạp. Những kết quả mà nhóm đã đạt được là rất đáng khích lệ. Tôi đánh giá rất cao tinh thần chủ động và tích cực của nhóm. Nhóm đã hoàn thành xuất sắc các vấn đề mà người hướng dẫn đã đặt ra Ngày ... tháng ... năm 2022 Trưởng khoa Người hướng dẫn PGS.TS. Lê Công Trình TS. Thái Trung Hiếu 3 THÔNG TIN VỀ SINH VIÊN CHỊU TRÁCH NHIỆM CHÍNH THỰC HIỆN ĐỀ TÀI I. SƠ LƯỢC VỀ SINH VIÊN: Họ và tên: Huỳnh Đăng Tiến Sinh ngày: 25 tháng 9 năm 2002 Nơi sinh: Quy Nhơn Lớp: Toán ứng dụng Khoa: Toán và Thống kê Khóa: 43 Địa chỉ liên hệ: Tổ 7, Khu vực 8, phường Nhơn Phú Điện thoại: 0984753469 Email: huynhdangtien259@gmail.com II. QUÁ TRÌNH HỌC TẬP: * Năm thứ 1: Ngành học: Toán ứng dụng Khoa: Toán và Thống kê Kết quả xếp loại học tập: Khá Sơ lược thành tích: Giải khuyến khích cuộc thi Data GotTalent Ngày ... tháng ... năm 2022 Trưởng khoa Sinh viên chịu trách nhiệm chính PGS.TS. Lê Công Trình Huỳnh Đăng Tiến 4 Lời cảm ơn Để hoàn thành bài báo cáo nghiên cứu khoa học này, trước tiên chúng em xin gửi đến các quý thầy, cô giáo trường Đại học Quy Nhơn nói chung và khoa Toán và Thống kê nói riêng lời cảm ơn chân thành và sâu sắc nhất. Đặc biệt, chúng em xin gửi đến TS.Thái Trung Hiếu - người đã tận tình hướng dẫn, giúp đỡ nhóm em hoàn thành bài báo cáo đề tài nghiên cứu khoa học này lời cảm ơn sâu sắc nhất. Mặc dù nhóm chúng em đã có nhiều cố gắng trong qua trình thực hiện đề tài, nhưng bên cạnh đó vẫn còn có những mặt hạn chế, thiếu sót hoặc những nội dung khiến người đọc cảm giác khó hiểu. Chúng em kính mong quý thầy cô, các chuyên gia, những người quan tâm đề tài, anh chị và bạn bè tiếp tục có những ý kiến đóng góp, giúp đỡ cho đề tài này được hoàn thiện hơn. Một lần nữa chúng em xin chân thành cảm ơn! Quy Nhơn, ngày ... tháng ... năm 2022 Trưởng nhóm Huỳnh Đăng Tiến 5 Mở đầu 1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài: Phân tích khám phá dữ liệu (EDA) là một bước thiết yếu trong bất kỳ phân tích nghiên cứu nào. Mục đích chính của phân tích khám phá là kiểm tra dữ liệu về sự phân bố, các giá trị ngoại lai và các điểm bất thường để định hướng việc kiểm tra cụ thể giả thuyết của bạn. Nó cũng cung cấp các công cụ để tạo giả thuyết bằng cách trực quan hóa và hiểu dữ liệu thường thông qua biểu đồ. Cuối cùng, các kỹ thuật lựa chọn đặc trưng thường rơi vào EDA. Kể từ công trình đầu tiên của Tukey vào năm 1977, EDA đã thu được một lượng lớn người theo dõi như là phương pháp tiêu chuẩn vàng để phân tích tập dữ liệu. Theo Howard Seltman (Đại học Carnegie Mellon), “nói một cách lỏng lẻo, bất kỳ phương pháp xem xét dữ liệu nào không bao gồm mô hình thống kê chính thức và suy luận đều thuộc thuật ngữ phân tích dữ liệu khám phá”. 2. Lý do chọn đề tài: Phân tích khám phá dữ liệu (Exploratory Data Analysis) có giá trị to lớn đối với các dự án khoa học dữ liệu bởi nó đảm bảo các kết quả dự đoán trong tương lai chắc chắn sẽ hợp lệ, được diễn giải một cách chính xác và có thể áp dụng cho các bối cảnh kinh doanh mà các nhà kinh doanh mong muốn. Mức độ chắc chắn ở trên chỉ có thể đạt được sau khi dữ liệu thô được xác thực và kiểm tra các điểm bất thường, đảm bảo rằng tập dữ liệu được thu thập không có lỗi. EDA giúp tìm ra nhiều thông tin về một doanh nghiệp cụ thể. Tuy nhiên đi cùng với đó cũng có nhiều thông tin không rõ ràng hoặc không đáng để các bên liên quan điều tra. EDA được thực hiện để xác định và tinh chỉnh việc lựa chọn các biến đặc trưng sẽ được sử dụng cho học máy. Khi các nhà khoa học dữ liệu đã quen với tập dữ liệu, họ thường phải quay lại bước kỹ thuật xây dựng đặc trưng vì các đặc trưng ban đầu có thể không phục vụ mục đích dự kiến của họ. Sau khi giai đoạn EDA hoàn tất, các nhà khoa học dữ liệu sẽ có được bộ đặc trưng chắc chắn mà họ cần cho học máy giám sát và học máy không giám sát. 3. Mục tiêu đề tài: Thành thạo một số kĩ thuật cơ bản của EDA. Từ đó không chỉ đưa ra nhiều phân tích có giá trị về dữ liệu mà còn giúp thực hiện lựa chọn các đặc trưng quan trọng trong dữ liệu để xây dựng mô hình học máy giúp dự đoán khi phải xử lí các dữ liệu mới trong tương lai. 6 Đây là một trong những đề tài nghiên cứu khoa học sinh viên đầu tiên ở khoa Toán và Thống kê về chủ đề EDA. Đề tài sẽ là một tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận các kĩ thuật quan trọng của phân tích dữ liệu. 4. Phương pháp nghiên cứu: Tìm hiểu cơ sở lý thuyết của các kỹ thuật trong các tài liệu chuyên ngành. Tham khảo các nguồn tài liệu và dữ liệu mở để triển khai và áp dụng các kỹ thuật phân tích khám phá dữ liệu trên các bài toán trong thực tế. 5. Đối tượng và phạm vi nghiên cứu: Đối tượng nghiên cứu: các kỹ thuật phân tích khám phá dữ liệu. Phạm vi nghiên cứu: nghiên cứu lý thuyết và triển khai các kỹ thuật, nghiên cứu lí thuyết cơ bản và thực hành trên dữ liệu thực tế. 7 Chương 1 Lý thuyết 1.1 Hiểu biết về khoa học dữ liệu • Khoa học dữ liệu đang ở đỉnh cao của sự cường điệu và các kỹ năng về xử lý dữ liệu các nhà khoa học đang thay đổi. Giờ đây, các nhà khoa học dữ liệu không chỉ được yêu cầu xây dựng những điều cần thiết mà họ phải giải thích kết quả thu được và sử dụng kết quả đó cho kinh doanh thông minh. • Khoa học dữ liệu liên quan đến kiến thức đa ngành từ khoa học máy tính, dữ liệu, thống kê và toán học. Có một số giai đoạn của phân tích dữ liệu, bao gồm các yêu cầu dữ liệu, thu thập dữ liệu, xử lý dữ liệu, làm sạch dữ liệu, phân tích dữ liệu khám phá, mô hình hóa và thuật toán cũng như sản phẩm dữ liệu và liên lạc. Các giai đoạn này tương tự như Quy trình tiêu chuẩn công nghiệp CROSS về dữ liệu khung khai thác (CRISP) trong khai thác dữ liệu. • Bài học chính rút ra ở đây là các giai đoạn của EDA, vì nó là một khía cạnh quan trọng của phân tích dữ liệu và khai thác dữ liệu. • Các giai đoạn của Phân tích dữ liệu: – Yêu cầu dữ liệu (Data requirements): Thu thập dữ liệu được định nghĩa là quy trình thu thập, đo lường và phân tích những hiểu biết chính xác cho nghiên cứu bằng cách sử dụng các kỹ thuật đã được xác thực tiêu chuẩn. Một nhà nghiên cứu có thể đánh giá giả thuyết của họ trên cơ sở dữ liệu thu thập được. Trong hầu hết các trường hợp, thu thập dữ liệu là bước chính và quan trọng nhất để nghiên cứu, không phân biệt lĩnh vực nghiên cứu. Cách tiếp cận thu thập dữ liệu khác nhau đối với các lĩnh vực nghiên cứu khác nhau, tùy thuộc vào thông tin được yêu cầu. – Thu thập về dữ liệu (Data collection): Xử lý dữ liệu xảy ra khi dữ liệu được thu thập và chuyển thành thông tin có thể sử dụng được. Thường được thực hiện bởi một nhà khoa học dữ liệu hoặc nhóm các nhà khoa học dữ liệu, điều quan trọng là việc xử lý dữ liệu phải được thực hiện chính xác để không ảnh hưởng tiêu cực đến sản phẩm cuối cùng hoặc đầu ra dữ liệu. 8 Quá trình xử lý dữ liệu bắt đầu với dữ liệu ở dạng thô và chuyển nó thành một định dạng dễ đọc hơn (đồ thị, tài liệu, v.v.), tạo cho nó dạng và ngữ cảnh cần thiết để máy tính diễn giải và nhân viên trong tổ chức sử dụng. – Xử lý dữ liệu (Data processing): Xử lý dữ liệu xảy ra khi dữ liệu được thu thập và chuyển thành thông tin có thể sử dụng được. Thường được thực hiện bởi một nhà khoa học dữ liệu hoặc nhóm các nhà khoa học dữ liệu, điều quan trọng là việc xử lý dữ liệu phải được thực hiện chính xác để không ảnh hưởng tiêu cực đến sản phẩm cuối cùng hoặc đầu ra dữ liệu. Quá trình xử lý dữ liệu bắt đầu với dữ liệu ở dạng thô và chuyển nó thành một định dạng dễ đọc hơn (đồ thị, tài liệu, v.v.), tạo cho nó dạng và ngữ cảnh cần thiết để máy tính diễn giải và nhân viên trong tổ chức sử dụng. – Làm sạch dữ liệu (Data cleaning): Dữ liệu được xử lý trước vẫn chưa sẵn sàng để phân tích chi tiết .Làm sạch dữ liệu là quá trình sửa chữa hoặc xóa dữ liệu không chính xác, bị hỏng, định dạng không chính xác, trùng lặp hoặc không đầy đủ trong tập dữ liệu. Khi kết hợp nhiều nguồn dữ liệu, có nhiều cơ hội để dữ liệu bị trùng lặp hoặc gắn nhãn sai. Nếu dữ liệu không chính xác, kết quả và thuật toán không đáng tin cậy, mặc dù chúng có thể đúng. Không có một cách tuyệt đối nào để quy định các bước chính xác trong quy trình làm sạch dữ liệu bởi vì các quy trình sẽ khác nhau giữa các tập dữ liệu. Nhưng điều quan trọng là phải thiết lập một khuôn mẫu cho quy trình làm sạch dữ liệu của bạn để bạn biết rằng mình đang làm đúng cách mọi lúc. – Phân tích dữ liệu và khám phá (EDA - Exploratory Data Analysis): Như đã đề cập trước đây, phân tích giữ liệu và khám phá là giai đoạn mà chúng ta thực sự bắt đầu hiểu thông điệp có trong dữ liệu. Cần lưu ý rằng một số loại kỹ thuật chuyển đổi dữ liệu có thể được yêu cầu trong quá trình thăm dò. Phần này yêu cầu kiến thức sâu về thống kê đặc biệt là thống kê mô tả. – Mô hình hóa và thuật toán (Modeling and algorithm): Từ quan điểm khoa học dữ liệu, các mô hình tổng quát hoặc các công thức toán học có thể biểu diễn hoặc thể hiện mối quan hệ giữa các các biến, chẳng hạn như mối tương quan hoặc quan hệ nhân quả. Các mô hình hoặc phương trình này liên quan đến một hoặc nhiều biến phụ thuộc vào các biến khác để gây ra một sự kiện. – Sản phẩm dữ liệu (Data Product): Bất kỳ phần mềm máy tính nào sử dụng dữ liệu làm đầu vào, sản xuất đầu ra và cung cấp phản hồi dựa trên kết quả đầu ra để kiểm soát môi trường được gọi là một sản phẩm dữ liệu. Một sản phẩm dữ liệu thường dựa trên một mô hình được phát triển trong quá trình phân tích dữ liệu. – Truyền thông (Communication): Giai đoạn này giải quyết việc phổ biến kết quả để kết thúc các bên liên quan sử dụng kết quả cho hoạt động kinh doanh thông minh. Một trong những điều đáng chú ý nhất trong giai đoạn này là trực quan hóa dữ liệu. Hình ảnh hóa liên quan đến thông tin chuyển tiếp các kỹ thuật như bảng, biểu đồ, sơ đồ tóm tắt và biểu đồ thanh để hiển thị kết quả đã phân tích. 9 1.2 Tầm quan trọng của EDA • Các lĩnh vực khoa học, kinh tế, kỹ thuật và tiếp thị khác nhau tích lũy và lưu trữ dữ liệu chủ yếu trong cơ sở dữ liệu điện tử. Các quyết định phù hợp và có cơ sở nên được thực hiện bằng cách sử dụng dữ liệu thu thập được. Thực tế là không thể hiểu được bộ dữ liệu chứa nhiều điểm dữ liệu mà không cần sự trợ giúp của các chương trình máy tính. Nghiên cứu phân tích dữ liệu là chìa khóa và thường là bài tập đầu tiên trong khai thác dữ liệu. Nó cho phép chúng ta hình dung dữ liệu để hiểu nó cũng như để tạo ra các giả thuyết để phân tích sâu hơn. Việc nghiên cứu, phân tích xoay quanh việc tạo tóm tắt dữ liệu hoặc thông tin chi tiết cho các bước tiếp theo trong dự án khai thác dữ liệu. • EDA thực sự tiết lộ sự thật cơ bản về nội dung mà không đưa ra bất kỳ điều gì giả định cơ bản. Đây là thực tế mà các nhà khoa học dữ liệu sử dụng quá trình này để thực sự hiểu loại mô hình và giả thuyết nào có thể được tạo ra. Các thành phần chính của dữ liệu khám phá phân tích bao gồm tổng hợp dữ liệu, phân tích thống kê và trực quan hóa dữ liệu. Python cung cấp các công cụ chuyên dụng để phân tích, khám phá, khai thác dữ liệu, xử lý dữ liệu và mô hình hóa – trực quan hóa dữ liệu. 1.3 Các giai đoạn trong EDA • Sau khi hiểu EDA là gì và ý nghĩa của nó, chúng ta hãy hiểu các bước khác nhau tham gia vào phân tích dữ liệu. Về cơ bản, nó bao gồm bốn bước khác nhau: – Định nghĩa về vấn đề (Problem definition): * Trước khi cố gắng trích xuất thông tin chi tiết hữu ích từ dữ liệu,việc cốt yếu là xác định vấn đề kinh doanh cần giải quyết. Định nghĩa vấn đề hoạt động cũng như động lực để thực hiện kế hoạch phân tích dữ liệu. * Các nhiệm vụ chính tham gia vào định nghĩa vấn đề là xác định mục tiêu chính của phân tích, xác định các sản phẩm chính, vạch ra các vai trò và trách nhiệm chính, có được trạng thái hiện tại của dữ liệu, xác định thời gian biểu và thực hiện Phân tích lợi ích chi phí. Dựa trên định nghĩa vấn đề như vậy, một kế hoạch có thể được hoàn thiện. – Chuẩn bị dữ liệu (Data preparation): * Bước này liên quan đến các phương pháp chuẩn bị trước tập dữ liệu phân tích thực tế. Trong bước này, chúng ta xác định các nguồn dữ liệu, xác định các lược đồ dữ liệu và bảng, hiểu các đặc điểm chính của dữ liệu, làm sạch tập dữ liệu, xóa tập dữ liệu không liên quan, chuyển đổi dữ liệu và chia dữ liệu thành các khối cần thiết để phân tích. 10 – Phân tích dữ liệu (Data analysis): * Đây là một trong những bước quan trọng nhất liên quan đến thống kê mô tả và phân tích dữ liệu. Các nhiệm vụ chính liên quan đến việc tóm tắt dữ liệu, tìm kiếm mối tương quan ẩn và mối quan hệ giữa các dữ liệu, phát triển mô hình dự đoán, đánh giá mô hình và tính toán độ chính xác. * Một số các kỹ thuật được sử dụng để tóm tắt dữ liệu là bảng tóm tắt, đồ thị, thống kê mô tả, thống kê suy luận, thống kê tương quan, tìm kiếm, phân nhóm và các mô hình toán học. – Phát triển và trình bày kết quả (Development and representation of the results): * Bước này bao gồm việc trình bày tập dữ liệu cho đối tượng mục tiêu dưới dạng biểu đồ, bảng tóm tắt, bản đồ, và sơ đồ. Đây cũng là một bước thiết yếu vì kết quả được phân tích từ tập dữ liệu phải được các bên liên quan trong kinh doanh có thể hiểu được. Đó là một trong những mục tiêu chính của EDA. * Hầu hết các kỹ thuật phân tích đồ họa bao gồm các biểu đồ phân tán, các biểu đồ ký tự, biểu đồ, các ô hộp, các ô còn lại, các ô trung bình và những thứ khác. 1.4 Ý nghĩa của dữ liệu • Điều quan trọng là phải xác định loại dữ liệu được phân tích. Trong phần này, chúng tôi sẽ tìm hiểu về các loại dữ liệu khác nhau lưu trữ có thể gặp trong quá trình phân tích. • Các ngành khác nhau lưu trữ các loại dữ liệu khác nhau cho các mục đích khác nhau. Ví dụ, các bệnh viện lưu trữ dữ liệu của bệnh nhân, các trường đại học lưu trữ dữ liệu của học sinh và dữ liệu của giáo viên. Một tập dữ liệu chứ nhiều quan sát về một đối tượng cụ thể. chẳng hạn, một bộ dữ liệu về bệnh nhân trong bệnh viện có thể chứ nhiều quan sát. Mỗi đặc tính mô tả một bệnh nhân là một biến. Mỗi quan sát có thể có một giá trị cụ thể cho mỗi biến. • Hầu hết các tập dữ liệu rộng rãi rơi vào 2 nhóm dữ liệu số và dữ liệu phân loại. 1.4.1 Dữ liệu số (Numerical data): • Dữ liệu số đề cập đến dữ liệu ở dạng số và không bằng bất kỳ ngôn ngữ hoặc dạng mô tả nào. Thường được gọi là dữ liệu định lượng, dữ liệu số được thu thập trong biểu mẫu số và ngăn chặn khác với bất kỳ dạng dữ liệu số nào do khả năng được tính toán thống kê và số học. 11 • Đặc điểm của dữ liệu số này được thao tác theo số học làm cho nó trở thành một bộ dữ liệu tốt nhất cho việc phân tích dữ liệu thống kế. • Có hai dạng dữ liệu số là dữ liệu rời rạc và dữ liệu liên tục. Cả hai dạng này đều được sử dụng rõ ràng trong mục đích thống kê và nghiên cứu và được chứng minh là cung cấp dữ liệu tốt nhất thông qua các phương pháp nghiên cứu. – Dữ liệu rời rạc (Discrete data): * Dữ liệu rời rạc là dữ liệu có thể đếm được và các giá trị của nó có thể được liệt kê. Nó có thể lấy cả hai dạng số và phân loại và nhóm chúng vào một danh sách. Danh sách này cũng có thể là hữu hạn hoặc vô hạn. * Một biến đại diện cho bộ dữ liệu rời rạc được gọi là biến rời rạc. Biến rời rạc lấy một số lượng các giá trị riêng biệt cố định và thiếu thứ tự vốn có. Ví dụ, biến quốc gia có thể có các giá trị như Việt Nam, Nhật bản, Thụy Điển,... Nó là cố định. * Trong hầu hết các thực tiễn, dữ liệu rời rạc được hiển thị theo đồ thị thanh, biểu đồ thân và lá; biểu đồ hình tròn. – Dữ liệu liên tục (Continuous data): * Một biến có thể có vô hạn các giá trị số trong phạm vi cụ thể được phân loại là dữ liệu liên tục. * Một biến mô tả dữ liệu liên tục là một biến liên tục. Ví dụ như nhiệt độ trong ngày là một biến liên tục, không thể liệt kê hết tất cả các giá trị có thể. Ngoài ra, chiều cao, cân nặng cũng được coi là biến liên tục. * Dữ liệu liên tục được chia thành hai loại: khoảng (Interval) và tỷ lệ (Ratio). · Dữ liệu khoảng (Interval data): chỉ có thể đo dọc theo thang điểm ở khoảng cách bằng nhau. Ví dụ: Nhiệt độ cơ thể có thể được đo ở độ C và độ Fahrenheit và cả hai đều có thể là 0. · Dữ liệu tỷ lệ (Ratio data): không giống như dữ liệu khoảng, dữ liệu tỷ lệ không có điểm 0. 1.4.2 Dữ liệu phân loại (Categorical data): • Loại dữ liệu này đại điện cho các đặc điểm của một đối tượng. Ví dụ như: giới tính, tình trạng hôn nhân, thể loại của bộ phim, nhóm máu hoặc các loại thuốc. Dữ liệu này thường được gọi là bộ dữ liệu định tính trong thống kê. • Một biến mô ta dữ liệu phân loại được gọi là một biến phân loại. Những loại biến này có thể có một trong số lượng giá trị hạn chế. Có nhiều loại biến phân loại khác nhau: 12 Figure 1.1: Bảng so sánh giữa biến rời rạc và biến liên tục – Một biến phân loại nhị phân có thể mất chính xác hai giá trị và nó còn có tên gọi khác là một biến phân đôi. Ví dụ: khi bạn tạo một thí nghiệm, kết quả là thành công hoặc thất bại. Do đó, kết quả là một biến phân loại nhị phân. – Biến đa dạng là các biến phân loại có thể có nhiều hơn hai giá trị. Ví dụ, thể loại phim có thể có một số giá trị như: hành động, lãng mạn, phiêu lưu, khoa học viễn tưỡng, lịch sử, kinh dị, hài kịch, triết học,... • Hầu hết các bộ dữ liệu phân loại theo quy mô đo lường danh nghĩa (nominal) hoặc thứ tự (ordinal). 1.4.3 Quy mô đo (Measurement scales): Theo danh nghĩa (Nominal): • Quy mô đo theo danh nghĩa được coi là quy mô định tính và các phép đo được thực hiện bằng cách sử dụng quy mô định tính được coi là dữ liệu định tính. Tuy nhiên, sự tiến bộ trong nghiên cứu định tính đã tạo ra sự nhầm lẫn sẽ chắc chắn được coi là định tính. Không có hình thức tính toán số học có thể được thực hiện trên các biện pháp đo lường danh nghĩa. • Nếu bạn biết dữ liệu của mình theo thang đo danh nghĩa, bạn có thể sử dụng biểu đồ hình tròn hoặc biểu đồ thanh. Hiểu loại dữ liệu có liên quan để hiểu loại tính toán nào bạn có thể thực hiện, loại mô hình bạn nên phù hợp với bộ dữ liệu và loại hình ảnh trực quan nào bạn có thể tạo. 13 Theo thứ tự (Ordinal): • Sự khác biệt giữa quy mô đo theo thứ tự và danh nghĩa là thứ tự. Trong quy mô đo thứ tự thì thứ tự các giá trị là một yếu tố quan trọng. • Thang đo thứ tự bao gồm loại dữ liệu thống kê nơi các biến theo thứ tự hoặc cấp bậc nhưng không có mức độ khác biệt giữa các loại. • Ví dụ như thang đo Likert , thang đo thứ tự có thể đo lường tần suất, mức độ quan trọng, sự hài lòng, khả năng xảy ra, chất lượng và trải nghiệm,... 1.5 So sánh phân tích khám phá dữ liệu với phân tích dữ liệu cổ điển và phân tích dữ liệu suy luận Bayes: Figure 1.2: So sánh giữa phân tích khám phá dữ liệu với cổ điển và suy luận Bayes 14 1.6 1.6.1 Thống kê mô tả Đo lường xu hướng trung tâm (Measures of central tendency) Các biến của dữ liệu được đo lường hoặc đếm có thể có hàng nghìn giá trị khác nhau. Một bước cơ bản để khám giá dữ liệu là lấy được "giá trị điển hình" của từng biến - một ước lượng về vị trí của phần lớn dữ liệu, tức là xu hướng trung tâm. Giá trị trung bình, giá trị trung vị, yếu vị là một số "giá trị điển hình" phổ biến nhất để đo lường xu hướng trung tâm. Giá trị trung bình: là ước lượng cơ bản nhất của đo lường xu hướng trung tâm.Về mặt toán học, đó là tổng của tất cả các giá trị chia cho số giá trị. Figure 1.3: Giá trị trung bình trong một phân bố xác suất. Giá trị trung vị: Cho một tập dữ liệu được sắp xếp theo thứ tự tăng dần hoặc giảm dần, giá trị trung vị chia dữ liệu thành hai phần bằng nhau. Công thức để tính giá trị trung vị như sau: . + Nếu n(số mẫu) là lẻ, giá trị trung vị là giá trị phần tử thứ n+1 2 + Nếu n là chẳn, giá trị trung vị là giá trị trung bình của 2 phần tử thứ n2 và n+2 2 . Figure 1.4: Giá trị trung vị trong một phân bố xác suất. 15 Yếu vị: là giá trị có tần suất xuất hiện cao nhất trong tập dữ liệu. Figure 1.5: Yếu vị trong một phân bố xác suất. Một trong những vấn đề với yếu vị là nó không phải là duy nhất, vì vậy nó khiến chúng ta gặp vấn đề khi chúng ta có hai hoặc nhiều giá trị có chung tần số cao nhất, chẳng hạn như bên dưới: Figure 1.6: 2 yếu vị trong một phân bố xác suất. Bây giờ chúng ta đang bị mắc kẹt không biết yếu vị nào mô tả tốt nhất xu hướng trung tâm của dữ liệu. Điều này đặc biệt có vấn đề khi chúng ta có dữ liệu liên tục nên chúng ta có nhiều khả năng không có bất kỳ giá trị nào xuất hiện thường xuyên 16 hơn giá trị kia. Ví dụ: việc đo cân nặng của 30 người (chính xác đến 0,1 kg). Khả năng chúng ta tìm thấy hai hoặc nhiều người có cùng trọng lượng chính xác như nhau (ví dụ: 67,4 kg) là bao nhiêu? Câu trả lời, có lẽ là rất khó xảy ra, bạn khó có thể tìm thấy hai người có cùng trọng lượng chính xác; nghĩa là, chính xác đến 0,1 kg. Đây là lý do tại sao yếu vị rất hiếm khi được sử dụng với dữ liệu liên tục. Cái nào tốt hơn, giá trị trung bình hay giá trị trung vị hay yếu vị? Không cái nào về bản chất là “tốt hơn” cái kia. Chúng cho ta biết những điều khác nhau về xu hướng trung tâm của một phân phối. Bất cứ khi nào ta xem tập dữ liệu và kết quả thống kê, ta nên xem tất cả các thước đo của xu hướng trung tâm. Bởi vì ta muốn hiểu tất cả những gì có thể về tập dữ liệu và ta xem càng nhiều thống kê mô tả, thì ta càng có thể hiểu rõ hơn về dữ liệu. Ta sẽ không bao giờ mắc sai lầm khi chọn cái này hơn cái kia. Tuy nhiên, ở từng trường hợp cụ thể sẽ có thước đo tốt nhất của xu hướng trung tâm. Đối với phân phối lệch, giá trị trung vị là tốt hơn. Ví dụ, giá nhà thường lệch về bên phải, có nghĩa là một số trong số đó cao bất thường. Một số lượng nhỏ giá cao sẽ có tác động lớn đến giá trị trung bình. Do đó, giá trị trung vị tốt hơn trong việc miêu tả giá của một ngôi nhà "thông thường". Figure 1.7: Phân phối của giá nhà 17 Khi tính tập thể quan trọng, giá trị trung bình sẽ tốt hơn. Ví dụ, khi so sánh tiến độ phát triển kinh tế của hai quốc gia, giá trị trung bình (GDP bình quân đầu người) là một thống kê tốt hơn giá trị trung vị. Đó là bởi vì nó không chỉ cho chúng ta biết sức mạnh kinh tế trung bình của mỗi người, nó còn chứa nhiều thông tin về GDP của quốc gia. Yếu vị thì đặt biệt tốt đối với các biến của dữ liệu phân loại, mà nó cho chúng ta biết danh mục nào là phổ biến nhất. 1.6.2 Thước đo phân tán (Meansures of dispersion) Loại thống kê mô tả thứ hai là thước đo phân tán, còn được gọi là thước đo biến thiên. Nó được sử dụng để mô tả sự thay đổi trong một tập dữ liệu, có thể là một mẫu hoặc tổng thể. Nó thường được sử dụng cùng với thước đo xu hướng trung tâm, để cung cấp một mô tả tổng thể về một bộ dữ liệu. Một thước đo phân tán mang lại cho chúng ta một ý tưởng về xu hướng trung tâm đại diện cho dữ liệu tốt như thế nào. Nếu chúng ta phân tích bộ dữ liệu chặt chẽ, đôi khi, trung bình có thể không phải là đại diện tốt nhất của dữ liệu vì nó sẽ thay đổi khi có những biến thể lớn giữa dữ liệu. Trong trường hợp như vậy, một thước đo phân tán sẽ đại diện cho sự thay đổi trong một bộ dữ liệu chính xác hơn nhiều. • Độ lệch chuẩn (Standard deviation): Hiểu một cách đơn giản, độ lệch chuẩn là mức trung bình của sự khác biệt giữa mỗi giá trị trong bộ dữ liệu với mức trung bình của nó; hay nói cách khác độ lệch chuẩn là cách dữ liệu được trải ra từ giá trị trung bình. Nếu độ lệch chuẩn của bộ dữ liệu thấp, thì các điểm dữ liệu có xu hướng gần với giá trị trung bình của bộ dữ liệu, nếu không, các điểm dữ liệu được trải rộng trên phạm vi giá trị rộng hơn. Figure 1.8: Độ lệch chuẩn 18 • Phương sai (Variance): Phương sai là bình phương trung bình của sự khác biệt giữa mỗi giá trị trong bộ dữ liệu với mức trung bình của nó.Nói cách khác, phương sai chính là bình phương của của độ lệch chuẩn. Figure 1.9: Phương sai • Độ xiên (Skewness): Trong lý thuyết và thống kê xác suất, độ xiên là thước đo sự bất đối xứng của biến trong bộ dữ liệu về ý nghĩa của nó. Giá trị độ lệch có thể dương hoặc âm, hoặc không xác định. Giá trị độ xiên cho chúng ta biết liệu dữ liệu bị lệch hoặc đối xứng hay không. Dưới đây là một hình ảnh minh họa của một tập dữ liệu sai lệch dương, dữ liệu đối xứng và một số dữ liệu sai lệch âm. Figure 1.10: Độ xiên 19 – Biểu đồ ở phía bên phải có phần đuôi dài hơn phần đuôi ở bên tay phải. Điều này cho thấy rằng việc phân phối dữ liệu bị lệch sang bên trái. Nếu bạn chọn bất kỳ điểm nào ở đuôi dài hơn bên trái, giá trị trung bình sẽ nhỏ hơn số yếu vị. Trường hợp này được gọi là độ xiên âm. – Biểu đồ ở phía bên trái có phần đuôi dài hơn ở phía bên phải. Nếu bạn chọn bất kỳ điểm nào ở đuôi bên phải, giá trị trung bình lớn hơn số yếu vị. Trường hợp này được gọi là độ xiên dương. – Biểu đồ ở giữa có đuôi bên phải giống với đuôi bên trái. Điều kiện này được gọi là điều kiện đối xứng. • Độ nhọn (Kurtosis): – Về cơ bản, Độ nhọn là một thước đo thống kê minh họa độ "béo" của phần đuôi của phân phối khác với phân phối chuẩn. Kỹ thuật này có thể xác định liệu một phân phối nhất định chứa các giá trị cực trị. Vậy Độ xiên và Độ nhọn có tương tự nhau không? Độ xiên thường đo lường tính đối xứng của phân phối đã cho. Mặt khác, Độ nhọn đo lường mức độ nặng nề của các đuôi phân phối. Độ nhọn, không giống như độ xiên, không phải là về đỉnh hoặc độ phẳng. Nó là thước đo của sự hiện diện ngoại lệ trong một phân phối nhất định. Cả Độ nhọn cao và thấp đều là một chỉ số cho thấy dữ liệu cần được điều tra thêm. Độ nhọn càng cao, các giá trị ngoại lai càng cao. – Các kiểu của Độ nhọn: Độ nhọn có 3 kiểu chính là: mesokurtic, leptokurtic và platykurtic. Figure 1.11: Độ nhọn 20 * Mesokurtic: Nếu bất kỳ bộ dữ liệu nào tuân theo một phân phối chuẩn, nó tuân theo phân phối Mesokurtic. Nó có Độ nhọn bằng 0. * Leptokurtic: Trong trường hợp này, phân phối có Độ nhọn lớn hơn 3 và các đuôi "béo" chỉ ra rằng phân phối tạo ra nhiều ngoại lệ hơn. * Platykurtic: Trong trường hợp này, phân phối có Độ nhọn âm và đuôi rất mỏng so với phân phối bình thường. • Bách phân vị (Percentiles): – Trong thống kê, phân vị thứ k là điểm dưới đó phần trăm k nhất định của điểm trong phân phối tần số của nó giảm hoặc điểm bằng hoặc thấp hơn tỷ lệ phần trăm đã cho. Ví dụ: phân vị thứ 50 là điểm thấp hơn hoặc bằng 50% điểm trong phân phối có thể được tìm thấy. – Công thức tính bách phân vị của X = (Số giá trị bé hơn X) ÷ (Tổng số quan sát) ×100 – Giả sử chúng ta có dữ liệu đã cho: 1, 2, 2, 3, 4, 5, 6, 7, 7, 8, 9, 10. Khi đó, 4 phân vị của 4 = 12 × 100 = 33, 33%. Điều này đơn giản có nghĩa là 33,33% dữ liệu nhỏ hơn 4. • Tứ phân vị (Quartiles): – Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau. Giá trị tứ phân vị thứ hai Q 2 chính bằng giá trị trung vị. Giá trị tứ phân vị thứ nhất Q 1 bằng trung vị phần dưới. Giá trị tứ phân vị thứ ba Q 3 bằng trung vị phần trên. – Ví dụ: Tập dữ liệu bao gồm 5, 7, 9, 14, 25, 34, 48. Tập dữ liệu trên đã được sắp xếp theo thứ tự tăng dần, dễ dàng nhận thấy giá trị trung vị nằm giữa chính là 14. Trung vị của tập dữ liệu phần dưới 5, 7, 9 là 7. Và trung vị của tập dữ liệu phần trên 25, 34, 48 là 34. Vậy Q 1 = 7, Q 2 = 14, Q 3 = 3 21 Chương 2 Thực hành 2.1 Chuẩn bị dữ liệu • Năm 2012, hãng phần mềm Microsoft đã giới thiệu cơ sở dữ liệu minh họa mới có tên AdventureWorks mà báo cáo này sẽ sử dụng để thực hành phân tích khám phá dữ liệu. • Cơ sở dữ liệu minh họa AdventureWorks lấy bối cảnh trên dữ liệu của 1 công ty hư cấu có tên Adventure Works Cycles. Đây được cho là 1 công ty sản xuất đa quốc gia có qui mô lớn. Công ty sản xuất và kinh doanh xe đạp làm từ kim loại và các chất liệu tổng hợp. Thị trường của công ty này bao gồm cả khu vực Bắc Mỹ, Châu Âu và Châu Úc. Trong khi trụ sở chính của công ty lại được đặt ở Bothell, Washington gồm có 290 nhân viên, công ty cũng có 1 vài nhóm nhân viên kinh doanh khu vực ở các thị trường hoạt động của mình. Công ty Adventure Works Cycles đang tìm cách mở rộng thị phần bằng cách tập trung vào các hoạt động bán hàng cho các khách hàng quan trọng nhất của họ, mở rộng thông tin sản phẩm thông qua hệ thống Website đồng thời tiết giảm chi phí bán hàng bằng cách giảm sản lượng sản xuất các sản phẩm không quan trọng. 2.2 Đặt câu hỏi Đứng ở góc độ là chuyên gia phân tích dữ liệu cấp cao của một doanh nghiệp chuyên về đồ thể thao mạo hiểm toàn cầu AdventureWorks. Doanh nghiệp đang xây dựng chiến lược kinh doanh giai đoạn 2021-2025. Với bộ dữ liệu được cung cấp, chúng cần trả lời một số cầu hỏi sau: → Khách hàng mà chúng ta cần nhắm đến là ai? → Thị trường tiêu thụ chính của chúng ta nằm ở đâu? → Sản phẩm nào là sản phẩm cần được đẩy mạnh hoặc cắt giảm sản xuất? → Chúng ta đang tiếp thị sản phẩm như thế nào? Liệu có cần thay đổi chiến lược tiếp thị hay không? Nếu có thì thay đổi như thế nào? 22 Figure 2.1: Tổng quan về dữ liệu 23 2.3 2.3.1 Phân tích theo khách hàng Phương diện mua hàng Figure 2.2: Số lượng khách hàng qua các năm • Hầu hết khách hàng mua ở năm 2017 đều không quay lại mua ở năm 2018. • Tuy nhiên, phần lớn khách hàng mua ở 2 năm 2017, 2018 quay lại mua hàng ở năm 2019. 2.3.2 Thu nhập của khách hàng • Khách hàng có thu nhập ở mức trung bình chiếm phần lớn. Số lượng khách hàng có thu nhập cao trên 100.000 USD chỉ chiếm 8.8% tổng số khách hàng của công ty. 24 Figure 2.3: Phần trăm thu nhập của khách hàng Figure 2.4: Doanh thu theo nhóm thu nhập 25 2.3.3 Độ tuổi của khách hàng • Khách hàng chủ yếu ở nhóm tuổi trung nhiên từ 34 – 70 tuổi. Ở đây ta thấy công ty bị mất đi một nhóm khách hàng ở độ tuổi dưới 34 tuổi trong khi những người ở độ tuổi này có nhu cầu thể thao khá lớn. Figure 2.5: Phần trăm tuổi của khách hàng 2.4 2.4.1 Phân tích theo chuỗi thời gian Doanh thu và số đơn đặt hàng trung bình theo tháng trong năm • Doanh thu, số đơn đặt hàng ở tháng 1 là thấp nhất, và thấp hơn nhiều so với các tháng còn lại. • Doanh thu, số đơn đặt hàng ở tháng 6 tăng mạnh so với tháng 5, tháng 7. • Nhìn chung doanh thu, số đơn đặt hàng có xu hướng tăng dần từ đầu năm đến cuối năm, sau đó lại đột ngột giảm mạnh ở tháng 1. 26 Figure 2.6: Doanh thu trung bình theo tháng trong năm 27 Figure 2.7: Số đơn hàng trung bình theo tháng trong năm 28 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy nhất qua mỗi năm Figure 2.8: Số lượng bán được của mỗi loại xe đạp qua các năm • Về số lượng thì dòng Xe đạp đường bộ(Road Bikes) bán chạy nhất. Nhưng xu hướng cho thấy dòng Xe đạp leo núi(Mountain Bikes) có khả năng đem lại lợi nhuận lớn nhất. • Vì vậy ta nên đẩy mạnh việc bán những mẫu xe thuộc dòng Xe đạp leo núi(Mountain Bikes). • Lốp và săm xe đạp(Tires and Tubes) bán chạy nhất đồng thời mang lại lợi nhuận lớn nhất trong các dòng phụ kiện. • Ngoài ra, Mũ bảo hiểm(Helmets) có biên lợi nhuận ròng rất lớn. Cần được thúc đẩy nhiều hơn nữa. • Nhìn chung, các mặt hàng phụ kiến bán được rất nhiều sản phẩm. Nhưng lợi nhuận mang lại không đáng kể so với việc bán xe đạp. • Vì vậy, chúng ta cần ưu tiên tập trung vào mảng bán xe đạp. 29 Figure 2.9: Lợi nhuận ròng của mỗi loại xe đạp qua các năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa • Giai đoạn trước tháng 6 năm 2018, sản lượng cũng như lợi nhuận chủ yếu đến từ dòng Xe đạp đường bộ (Road Bikes). • Nhưng sau đó cho đến năm 2020, lợi nhuận đến từ dòng Xe đạp leo núi(Mountain Bikes) đang có xu hướng tăng mạnh, cuối năm 2019, lợi nhuận đến từ dòng Mountain Bikes gấp gần 2 lần so với Xe đạp đường bộ(Road Bikes). • Ngoài ra, Xe đạp du lịch(Touring Bikes) là một dòng xe tiềm năng, đem lại biên lợi nhuận ròng lớn. Dù chỉ mới được bán ở cuối năm 2018 nhưng đang có xu hướng phát triển rất nhanh. 30 Figure 2.10: Số lượng bán được của mỗi loại phụ kiện qua các năm 31 Figure 2.11: Lợi nhuận ròng của mỗi loại phụ kiện qua các năm 32 Figure 2.12: Số lượng bán được của mỗi loại xe đạp qua các tháng 33 Figure 2.13: Lợi nhuận của mỗi loại xe đạp qua các tháng 34 2.5 Phân tích theo khu vực địa lý Figure 2.14: Tổng doanh thu bán hàng của mỗi quốc gia • Doanh thu ở Hoa Kỳ là cao nhất (hơn 20 nghìn đơn hàng được bán ra). • Các nước ở Châu Âu có doanh thu thấp hơn so với Hoa Kỳ và Úc. • Canada có doanh thu thấp nhất trong tất cả cả quốc gia • Ở Úc, Xe đạp đường bộ(Road Bikes) có số lượng bán ra vượt trội hơn so với Xe đạp leo núi(Mountain Bikes). • Ở Úc, mặc dù 2 loại Xe đạp leo núi(Mountain Bikes) và Xe đạp du lịch(Touring Bikes) thấp hơn Hoa Kỳ nhưng dòng xe đạp đương bộ(Road Bikes) lại cao hơn. • Những khách hàng ở Úc nằm ở trình độ Cử nhân là chiếm số lượng lớn nhất. 35 Figure 2.15: Số lượng xe đạp bán được của mỗi quốc gia Figure 2.16: Trình độ giáo dục của khách hàng ở mỗi quốc gia 36 Figure 2.17: Số lượng và phần trăm đơn hàng của các chiến dịch khuyến mãi 2.6 Phân tích theo khuyến mãi • Khách hàng mua hàng không có khuyến mãi chiếm số lượng nhiều nhất với tổng số đơn hàng là 58247, chiếm đến 96.4% trong tổng số đơn hàng. Các chiến dịch còn lại có số lượng đơn hàng rất ít là Volume Discount 11 to 14, Touring -3000 Promotion và Touring -1000 Promotion, chiếm chưa tới 4%. Figure 2.18: Doanh thu và phần trăm doanh thu của các chiến dịch khuyến mãi 37 • Chiến dịch Volume Discount 11 to 14 mang lại doanh thu nhiều nhất trong số các chiến dịch khuyến mãi khi chiếm tới hơn 98% trong tổng số các chiến dịch. Figure 2.19: Doanh thu trung bình của mỗi sản phẩm • Tuy vậy doanh thu trung bình trên mỗi sản phẩm của chiến dịch Touring -1000 Promotion lại cao nhất. Figure 2.20: Chiến dịch Volume Discount 11 to 14 • Trong chiến dịch Volume Discount 11 to 14, những sản phẩm được mua nhiều nhất là Săm và lốp xe đạp(Tires and Tubes), Xe đạp leo núi(Mountain Bikes) và Xe đạp đường bộ(Road Bikes). 38 Figure 2.21: Doanh thu và trung bình doanh thu của từng sản phẩm • Đối với doanh thu và trung bình doanh thu trên từng sản phẩm của chiến dịch Volume Discount 11 to 14,Xe đạp leo núi(Mountain Bikes),xe đạp đường bộ(Road Bikes) và Xe đạp du lịch(Touring Bikes) mang lại nhiều nhất. Figure 2.22: Phần trăm doanh thu của các chiến dịch khuyến mãi • Tuy là khuyến mãi nhưng các chiến dịch lại đóng góp rất nhỏ trong tổng số doanh thu, chiếm chưa tới 3%. • Đối với chiến dịch Touring -1000 Promotion và Touring -3000 Promotion, thời gian khuyến mãi chỉ kéo dài trong 3 tháng từ cuối tháng 12/2018 đến cuối tháng 3/2019, trong khi đó khách hàng lại mua Xe đạp du lịch(Touring Bikes) trong thời gian từ cuối tháng 12/2018 đến cuối tháng 12/2019. 39 Figure 2.23: Các đơn hàng Touring Bikes được đặt theo thời gian Figure 2.24: Bảng thông tin các chiến dịch khuyến mãi 40 • Còn đối với chiến dịch Volume Discount 11 to 14, tuy thời gian khuyến mãi kéo dài nhưng vì phần trăm giảm giá quá thấp, không đủ để thu hút khách hàng mua sản phẩm có khuyến mãi này. 2.7 Kết luận • Khách hàng chủ yếu đến từ độ tuổi từ 34 – 70, có thu nhập trung bình. • Nên tập trung vào việc bán xe đạp. • Cần đẩy mạnh các mẫu xe đạp thuộc dòng xe leo núi (Mountain Bikes), xe đạp du lịch (Touring Bikes). • Nên tổ chức khuyến mãi và marketing vào tháng 6 hoặc tháng 12. • Nên đẩy mạnh bán hàng ở Hoa Kỳ. • Nên tập trung bán dòng xe đạp đường bộ (Road Bikes) ở Úc. • Ở Úc, nên đẩy mạnh bán hàng đối với khách hàng có trình độ giáo dục Cử nhân. • Doanh thu đến từ việc khuyến mãi còn rất thấp. • Hai chiến dịch khuyến mãi sản phẩm mới nên đặt vào những tháng cuối năm có doanh thu bán hàng cao. 41 Tài liệu tham khảo [1] AdventureWorks sample databases. [2] Practical Statistics for Data Scientists, Peter Bruce, Andrew Bruce, 2017. [3] Exploratory Data Analysis Matthieu Komorowski, Dominic C. Marshall, Justin D. Salciccioli Yves Crutain, 2016. [4] Hands-On Exploratory Data Analysis with Python, Suresh Kumar Mukhiya, Usman Ahmed, 2020. 42