ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT GIAO THÔNG BÁO CÁO BÀI TẬP LỚN Môn học: XÁC SUẤT THÔNG KÊ Lớp: L12 _ Nhóm: 10 Giảng viên hướng dẫn: Nguyễn Bá Thi Danh sách thành viên: MSSV Ngành/Khoa 1 Nguyễn Thanh An 2210025 Kỹ thuật Giao Thông 2 Bạch Ngọc AnhKhoa 2211579 Kỹ thuật Giao Thông 3 Huỳnh Hữu Kha 2211413 Kỹ thuật Giao Thông 4 Lê Minh Đạt 2210678 Kỹ thuật Giao Thông 5 Nguyễn Tuấn Kiệt 2211768 Kỹ thuật Giao Thông 6 Phạm Huy Hoàng 2211112 Kỹ thuật Giao Thông STT Họ và tên Thành phố Hồ Chí Minh – 2023 Ghi chú MỤC LỤC LỜI MỞ ĐẦU ........................................................................................................................................ 1 I. TỔNG QUAN DỮ LIỆU ................................................................................................................... 2 II. KIẾN THỨC NỀN .......................................................................................................................... 3 1.Phân tích phương sai một nhân tố .................................................................................. 3 1.1 Định nghĩa ................................................................................................................ 3 1.2 Các bước phân tích phương sai một nhân tố:........................................................... 3 2. Hồi quy tuyến tính bội ..................................................................................................... 6 2.1. Cơ sở lý thuyết mô hình hồi quy tuyến tính bội ........................................................ 6 2.2 Phương trình hồi quy tuyến tính bội .......................................................................... 7 2.3 Ý nghĩa các hệ số hồi quy ......................................................................................... 7 2.4 Xác định giá trị các tham số trong mô hình hồi quy tuyến tính bội ............................. 8 2.5 Kiểm định giả thuyết thống kê trong mô hình hồi quy tuyến tính bội. ......................... 9 III. TIỀN XỬ LÝ SỐ LIỆU ................................................................................................................ 10 1. Đọc dữ liệu: .................................................................................................................. 10 2. Bớt biến:....................................................................................................................... 10 3.Xử lý dữ liệu khuyết: ..................................................................................................... 11 IV. THỐNG KÊ TẢ .............................................................................................................................. 11 1.Thống kê số lượng hành khách trong từng năm: ........................................................... 12 2. Thống kê số lượng hành khách theo hãng hàng không: ............................................... 15 3.Thống kê số lượng khách hàng theo vùng .................................................................... 16 4. Thống kê số lượng hành khách theo tháng .................................................................. 18 V. THỐNG KÊ SUY DIỄN ................................................................................................................. 24 1. Các giả định cần kiểm tra trong Anova một nhân tố:..................................................... 24 Kiểm tra giả định phân phối chuẩn: ............................................................................... 24 Kiểm định giả định về tính đồng nhất của các phương sai: ........................................... 30 Thực hiện ANOVA 1 nhân tố: ........................................................................................ 31 2. Phân tích hồi quy:........................................................................................................ 32 TÀI LIỆU THAM KHẢO .................................................................................................................. 36 LỜI MỞ ĐẦU Với mỗi sinh viên nói chung và sinh viên nhóm ngành khoa học kỹ thuật nói riêng, việc tích lũy kiến thức qua các giáo trình, bài giảng trên lớp rất quan trọng và cần thiết. Tuy nhiên sẽ thật là thiếu sót nếu như chúng ta không thực hành và tìm hiểu ứng dụng của những kiến thức đó trong cuộc sống và sản xuất. Môn học Xác suất thống kê có tầm quan trọng giúp sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần thiết cho các môn học chuyên ngành cũng như công việc sau này.Sự phát triển và ra đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ môn Xác suất thống kê. Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn. Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan trọng và có tính cấp thiết.Ở bài tập lớn này nhóm sẽ thực hiện nội dung: “Phân tích phương sai Anova phân tích dữ liệu mẫu”. Đây là một phương pháp phân tích dữ liệu mẫu khá phổ biến để so sánh, đối sánh chỉ ra những sai khác, chênh lệch về giá trị các đại lượng của các nhóm quần thể thống kê, từ đó rút ra được mức độ tác động của các nhân tố đến quần thể.Ngoài ra, hoạt động 2 của nhóm còn liên quan đến bài toán phân tích hồi quy. Bài toán nghiên cứu về mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập), với ý tưởng ước lượng được giá trị trung bình (tổng thể) của biến phụ thuộc theo giá trị của biến độc lập, dựa trên mẫu được biến trước.Trong suốt quá trình thực hiện bài tập lớn này, nhóm đã nhận được nhiều sự quan tâm và giúp đỡ tận tình của Thầy và các bạn .Với lượng kiến thức còn hạn hẹp và sự am hiểu chưa chuyên sâu về môn học, đây cũng là những kiến thức hoàn toàn mới đối với chúng em. Nên trong bài tập lớn của chúng em vẫn còn nhiều chỗ thiếu sót mong nhận được sự góp ý và phê bình từ Thầy để bài tập lớn của chúng em thêm hoàn thiện. Cả nhóm xin chân thành cảm ơn Thầy đã đọc, nhận xét, phê bình và góp ý bài tập lớn của nhóm! 1 I. TỔNG QUAN DỮ LIỆU Tập tin: Air_Traffic_Passenger_Statistics.csv Bộ dữ liệu này chứa thông tin về số liệu thống kê hành khách không lưu của hãng hàng không. Nó bao gồm thông tin về các hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và đến. Nó cũng bao gồm thông tin về loại hoạt động, loại giá, nhà ga, khu vực lên máy bay và số lượng hành khách Cách sử dụng tập dữ liệu: Số liệu thống kê hành khách không lưu có thể là một công cụ hữu ích để hiểu ngành hàng không và lập kế hoạch du lịch. Tập dữ liệu này từ Open Flight chứa thông tin về số liệu thống kê hành khách không lưu theo hãng hàng không trong năm 2017. Dữ liệu bao gồm số lượng hành khách, hãng hàng không khai thác, hãng hàng không được công bố, khu vực địa lý, mã loại hoạt động, mã danh mục giá, nhà ga, khu vực lên máy bay, năm và tháng của chuyến bay Các loại biến: Activity Period: Kỳ hoạt động, đại diện cho một thời gian cụ thể Operating Airline: Hãng hàng không vận hành chuyến bay Operating Airline IATA Code: Mã IATA của hãng hàng không vận hành chuyến bay Published Airline: Hãng hàng không công bố giá vé cho chuyến bay Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuyến bay GEO Summary: Tổng quan địa lý GEO Region: Khu vực địa lý Activity Type Code: Loại hoạt động Price Category Code: Các loại giá của giá vé Terminal: Nhà ga của chuyến bay Boarding Area: Khu vực lên máy bay của chuyến bay Passenger Count: Số lượng hành khách trên chuyến bay Adjusted Activity Type Code: Loại hoạt động, được điều chỉnh cho dữ liệu bị thiếu. 2 Adjusted Passenger Count: Số lượng hành khách đã điều chỉnh Year: Năm của hoạt động Month: Tháng của hoạt động II. KIẾN THỨC NỀN 1.Phân tích phương sai một nhân tố 1.1 Định nghĩa Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu Bài toán Giả sử ta có k nhóm 𝑛1 , 𝑛2 , … ,𝑛𝑘 quan sát từ k tổng thể. Giả định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA. Các tổng thể này có phân phối bình thường, các phương sai tổng thể bằng nhau. các mẫu là độc lập với nhau. Nếu trung bình các tổng thể được kí hiệu là μ1 = μ2 = ⋯ = μ𝑘 thì khi các giả định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng : { 𝐻0 : 𝑦ế𝑢 𝑡ố 𝑘ế𝑡 𝑞𝑢ả 𝑘ℎô𝑛𝑔 𝑏ị ả𝑛ℎ ℎưở𝑛𝑔 𝑏ở𝑖 𝑦ế𝑢 𝑡ố đ𝑎𝑛𝑔 𝑥é𝑡 𝐻1 ∶ 𝑦ế𝑢 𝑡ố 𝑘ế𝑡 𝑞𝑢ả 𝑏ị ả𝑛ℎ ℎưở𝑛𝑔 𝑏ở𝑖 𝑦ế𝑢 𝑡ố đ𝑎𝑛𝑔 𝑥é𝑡 { 𝐻0 : μ1 = μ2 = ⋯ = μ𝑘 𝐻1 ∶ Tồn tại ít nhất một cặp trung bình tổng thể khác nhau 1.2 Các bước phân tích phương sai một nhân tố: ̅ cho tất cả các nhóm như Bước 1: Tính các trung bình mẫu 𝒙̅𝒊 cho từng nhóm và 𝒙 trong trường hợp tổng quát từ bảng sau: 3 Tính các trung bình mẫu 𝑥̅𝑖 cho từng nhóm và 𝑥̅ cho tất cả các nhóm theo công thức: 𝒏𝒊 𝟏 ∑ 𝒙𝒊𝒋 𝑥̅𝑖 = 𝒏𝒊 𝒋=𝟏 𝑘 1 𝑥̅ = ∑ 𝑥̅𝑖 𝑛𝑖 𝑛 𝑖=1 𝑘 𝑉ớ𝑖 𝑛 = ∑ 𝑛𝑖 𝑖=1 Bước 2 :Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW và tổng các chênh lệch bình phương giữa các nhóm SSG . - Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SSW phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể / nhóm đang so sánh). - Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức: 𝑛 𝑖 Nhóm 1: 𝑆𝑆1 = ∑𝑗=1 (𝑥1𝑗 − 𝑥̅1 )2 𝑛 𝑖 Nhóm 2: 𝑆𝑆2 = ∑𝑗=1 (𝑥2𝑗 − ̅̅̅) 𝑥2 2 Tương tự như vậy ta tính cho đến nhóm thứ k được 𝑆𝑆𝑘 . Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau: 𝑆 𝑆 𝑊 = 𝑆𝑆1 + 𝑆𝑆2 + ⋯ + 𝑆𝑆𝑘 4 - Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các chênh lệch này đều được nhân thêm với số quan sát tương ứng của từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu. 𝑆 𝑆 𝐺 = ∑𝑘𝑖=1 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2 -Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (𝑥𝑖𝑗 ) với trung bình toàn bộ (x). SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của tất cả các nguyên nhân. 𝑛 𝑖 2 𝑆 𝑆 𝑇 = ∑𝑘𝑖=1 ∑𝑗=1 (𝑥 ̅̅̅̅ 𝑖𝑗 − 𝑥̅ ) - Tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm. 𝑆𝑆𝑇 =𝑆𝑆𝑊 +𝑆𝑆𝐺 -Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được phân tích thành hai thành phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW). Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở đề bác bỏ 𝐻0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả Bước 3: Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các nhóm) Ta ký hiệu: k là số nhóm (mẫu); n là tổng số quan sát của các nhóm Khi đó, các phương sai được tính theo công thức sau MSW = 𝑺𝑺𝑾 MSB = 𝒏−𝒌 Trong đó: MSW: Là phương sai nội bộ nhóm SSB: Là phương sai giữa các nhóm 5 𝑺𝑺𝑩 𝒌−𝟏 Bước 4: Kiểm định giả thuyết: Tính tiêu chuẩn kiểm định F (F thực nghiệm) F= 𝑀𝑆𝐵 𝑀𝑆𝑊 F >F((k-1;n-k);𝛼) Ta bác bỏ giả thuyết 𝐻0 cho rằng giá trị trung bình của k tổng thể bằng nhau Tìm F lý thuyết (F tiêu chuẩn = F(k-1;n-k;𝛼)): F lý thuyết là giá tị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai ở tử số và n-k bậc tự do của phương sai ở mẫu số với mức ý nghĩa 𝛼. F lý thuyết có thể tra qua hàm FINV (𝛼; k-1;n-1) trong EXCEL. Nếu F thực nghiệm > F lý thuyết, bác bỏ 𝐻0 , nghĩa là các số trung bình của k tổng thể không bằng nhau. Bảng phân tích phương sai 1 yếu tố khi sử dụng máy tính (phần mềm EXCEL hoặc SPSS) tóm tắt như sau: (ANOVA) Nguồn biến động Tổng độ lệch bình phương (SS) Bậc tự do Phương sai (MS) Giữa các mẫu SSB k-1 MSB Trong nội bộ các mẫu SSW n-k MSW Tổng số SST n-1 F – Tỷ số F= 𝑀𝑆𝐵 𝑀𝑆𝑊 2. Hồi quy tuyến tính bội 2.1. Cơ sở lý thuyết mô hình hồi quy tuyến tính bội Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn. Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích khác. Biến c thuộc (biến được giải thích) Y tốt và đầy đủ hơn so với m húng ta muốn dự đoán được gọi là biến phản hồi( hoặc đôi khi là biến phụ thuộc). Các biến mà chúng ta sử dụng để dự đoán giá trị của biến phản hồi được gọi là 6 các biến giải thích ( hoặc đôi khi là biến dự đoán, biến phụ thuộc). Trong thực tế, mô hình hồi quy tuyến tính bội được sử dụng khá rộng rãi vì đối với nhiều trường hợp nó giúp giải thích về hành vi của biến phụ ô hình hồi quy tuyến tính đơn. 2.2 Phương trình hồi quy tuyến tính bội Mô hình hồi quy trong đó: biến phụ thuộc Y có liên hệ với k biến độc lập x1, x2,..., xk có dạng như sau: Hàm hồi quy tổng thể (PRF): E(Y| x1, x2, …, xk) = β0 + β1x1+ β2x2 + ⋯ + βkxk Mô hình hồi quy tổng thể (PRM): Y = β0 + β1x1 + β2x2 + ⋯ + βkxk + ε Ta biết rằng dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến biến phụ thuộc mà không được đưa vào mô hình vì nhiều lí do (không có số liệu hoặc không muốn đưa vào). Do đó mô hình vẫn tồn tại sai số ngẫu nhiên ε đại diện cho các yếu tố khác ngoài các biến xj (j=1,2,… k) có tác động đến Y nhưng không là biến số. Xét một mẫu ngẫu nhiên với n quan sát cụ thể, ta có hồi quy mẫu như sau: Yi = β0 + β1x1 + β2x2 + ⋯ + βkxk + εi Với εi là phần dư tại quan sát i , được tính bởi công thức sau: εi = Yi – Y 2.3 Ý nghĩa các hệ số hồi quy Xuất phát từ hàm hồi quy tổng thể: E(Y|x1, x2, …, x𝑘 ) = β0 + β1x1 + β2x2 + ⋯ + βkxk Tham số β0 được gọi là hệ số chặn (intercept) của mặt phẳng, nghĩa là β0 là giá trị của Y khi x1 = x2 = … = xk = 0 Các tham số βj ( j = 1, 2, …, k ) được gọi là hệ số hồi quy riêng, thể hiện sự thay đổi của Y theo mỗi đơn vị của xj khi các biến còn lại giữ nguyên. Cụ thể, khi xj tăng hay giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay đổi βj đơn vị. Có 3 khả năng có thể xảy ra với hệ số βj: βj > 0: khi đó mối quan hệ giữa Y và xj là thuận chiều, nghĩa là khi xj tăng (hay giảm) trong điều kiện các biến độc lập khác không thay đổi thì Y cũng tăng (hoặc giảm). 7 βj < 0: khi đó mối quan hệ giữa Y và xj là nghịch chiều, nghĩa là khi xj tăng (hay giảm) trong điều kiện các biến độc lập khác không thay đổi thì Y sẽ giảm (hoặc tăng). βj = 0: có thể cho rằng giữa Y và xj không có tương quan với nhau, cụ thể là Y không phụ thuộc vào xj , hay nói cách khác xj không ảnh hưởng đến Y. ε là phần sai lệch giữa giá trị của 𝑌 trong phương trình và giá trị thực tế của 𝑌 . Thực chất, mô hình này thường chỉ dự đoán tốt kỳ vọng của 𝑌 chứ không phải giá trị của 𝑌 trong thực tế, hay nói cách khác E(Y|xi theo các i) = β0 + β1x1 + β2x2 + ⋯ + βkxk , còn ε là một biến ngẫu nhiên có kỳ vọng là 0 và phương sai 𝜎 2 . Mô hình hồi quy tuyến tính bội cũng thường được dùng để xấp xỉ giá trị của hàm số. Nghĩa là, mối quan hệ chính xác giữa biến Y và x1, x2, x3, …. là chưa biết, nhưng trên những khoảng xác định của các biến độc lập (biến hồi quy), giá trị của mô hình hồi quy tuyến tính là phù hợp. 2.4 Xác định giá trị các tham số trong mô hình hồi quy tuyến tính bội Có nhiều cách để xác định giá trị của các tham số, tuy nhiên, trong số đó, phương pháp bình phương cực tiểu (phương pháp OLS) là phương pháp thường được sử dụng nhất. 𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 +𝑢̂𝑖 Trong đó 𝛽̂1 , 𝛽̂2 là các ước lượng không chênh lệch của các hệ số hồi quy 𝛽1 , 𝛽2 và 𝑢̂𝑖 là ước lượng không chênh lệch của sai số 𝑢𝑖 . Theo đó giá trị ước lượng không chênh lệch của E(𝑌𝑖 |𝑋𝑖 ) kí hiệu là 𝑌̂𝑖 sẽ bằng 𝛽̂1 + 𝛽̂2 𝑋𝑖 và từ đó sẽ suy ra: 𝑌𝑖 = 𝑌̂𝑖 + 𝑢̂𝑖 𝑢̂𝑖 = 𝑌𝑖 − 𝑌̂𝑖 Phương trình này cho biết phần dư 𝑢̂𝑖 là hiệu số của giá trị hiện thực Y thực tế và giá trị Y ước lượng không chênh lệnh vào thời điểm i. Ta xét tổng bình phương của các phần dư ( được gọi là RSS) sao cho chúng là nhỏ nhất. Điều này được diễn tả như sau : ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1( 𝑌𝑖 − 𝑌̂𝑖 )2 = ∑𝑛𝑖=1( 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 min Theo kiến thức đã học, đây là một phương trình bậc hai nên muốn tìm điểm cực trị ta phải xét đạo hàm 𝛽̂1 , 𝛽̂2 và cho chúng bằng không: 𝜕𝑅𝑆𝑆 = −2 ∑(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 ̂ 𝜕𝛽2 8 𝜕𝑅𝑆𝑆 = −2 ∑(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 𝜕𝛽̂1 Hai phương trình trên tạo ra một hệ phương trình hai ẩn và có thể giải ra để tìm được hai nghiệm như sau: 𝛽̂2 = 𝑛 ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 𝛽̂1 = 𝑌̅-𝛽̂2 𝑋̅ Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy. 2.5 Kiểm định giả thuyết thống kê trong mô hình hồi quy tuyến tính bội. Bài kiểm định cho ý nghĩa của mô hình hồi quy là một bài kiểm định nhằm xác định xem có hay không một mối quan hệ tuyến tính tồn tại giữa biến 𝑌 và một nhóm biến hồi quy 𝑥 1, 𝑥 2, 𝑥 3, …. Khi đó giả thiết thống kê hợp lí là: 𝐻0:𝛽0=𝛽1=𝛽2=⋯=𝛽𝑘 =0 𝐻 1 : 𝛽 𝑗 ≠ 0 với ít nhất một 𝑗 Bác bỏ 𝐻 0 đồng nghĩa với việc ta chấp nhận có ít nhất một trong các biến hồi quy 𝑥 1, 𝑥 2, 𝑥 3, … có ảnh hưởng đáng kể đến mô hình. Có thể đánh giá điều đó qua hệ số xác định bội. Ký hiệu R2 được sử dụng cho hệ số xác định của hàm hồi quy bội (hệ số xác định bội) như là một ký hiệu chung cho các hàm hồi quy với số biến bất kỳ. Ta có: Tính tổng bình phương sai số (SSE) của mô hình hồi quy tuyến tính bằng cách tính tổng bình phương của sai số (chênh lệch giữa giá trị dự đoán và giá trị thực tế) cho tất cả các điểm dữ liệu trong tập huấn luyện: SSE = Σ(y - ŷ)² Trong đó: y là giá trị thực tế của biến phụ thuộc. ŷ là giá trị dự đoán của biến phụ thuộc dựa trên các giá trị độc lập được sử dụng trong mô hình. 9 Tính tổng bình phương sai số của trung bình (SST) bằng cách tính tổng bình phương chênh lệch giữa giá trị thực tế và giá trị trung bình của biến phụ thuộc cho tất cả các điểm dữ liệu trong tập huấn luyện: SST = Σ(y - ȳ)² Trong đó: ȳ là giá trị trung bình của biến phụ thuộc. Khi đó hệ số xác định (R²) bằng cách tính tỷ lệ phần trăm giải thích được của biến phụ thuộc bởi các biến độc lập trong mô hình: R² = 1 - (SSE / SST) Giá trị R² sẽ nằm trong khoảng từ 0 đến 1. Giá trị càng gần 1 thì mô hình càng tốt vì phần lớn sự biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. Giá trị càng gần 0 thì mô hình càng kém vì các biến độc lập không giải thích được phần lớn sự biến thiên của biến phụ thuộc. Ngoài ra, việc đưa thêm một biến số mới vào mô hình cũng tạo ra những tác động không tốt đến chất lượng của các ước lượng. Để tổng hòa giữa tác động tích cực của việc đưa thêm biến, thể hiện bằng sự gia tăng trong 𝑅 2 và tác động tiêu cực này, người ta đưa ra khái niệm 𝑅 2 hiệu chỉnh, ký hiệu là 𝑅̅2 và được định nghĩa như sau: 𝑅̅2 = 1 − (1 − 𝑅 2 ) ( 𝑛 − 1) (𝑛 − 𝑘 − 1) Giá trị 𝑅̅2 thường được sử dụng thay 𝑅2 khi 2 mô hình có cùng biến phụ thuộc nhưng số biến độc lập khác nhau. III. TIỀN XỬ LÝ SỐ LIỆU 1. Đọc dữ liệu: Dùng lệnh read.csv để đọc dữ liệu từ tệp Air_Traffic_Passenger_Statistics.csv vào R. 2. Bớt biến: Sử dụng toán tử %in% để kiểm tra tên của các biến trong data. Các biến có tên tương ứng với "Activity.Period", "Adjusted.Activity.Type.Code", 10 "Published.Airline.IATA.Code", "Adjusted.Passenger.Count" và "Published.Airline" sẽ được loại bỏ khỏi data. Kết quả sẽ là một bản sao của data chỉ chứa các biến cần thiết. 3.Xử lý dữ liệu khuyết: Dùng hàm apply() được sử dụng để lặp qua các hàng của đối tượng dữ liệu và tìm các vị trí của các giá trị thiếu trong mỗi hàng sử dụng hàm which(is.na(x)). Kết quả của đoạn mã này là một đối tượng missing_rows là một danh sách (list), trong đó mỗi phần tử tương ứng với một hàng trong dữ liệu, và chứa các vị trí của các giá trị thiếu trong hàng đó. Không có dữ liệu khuyết nên kết quả trả về sẽ là một danh sách rỗng (empty list). IV. THỐNG KÊ TẢ Thống kê mô tả là quá trình sắp xếp, tóm tắt và diễn giải dữ liệu để hiểu và mô tả các đặc điểm quan trọng của dữ liệu. Thông qua thống kê mô tả, chúng ta có thể trình bày các thông tin quan trọng như trung bình, phương sai, phân phối, tương quan và sự biến động trong dữ liệu. 11 1.Thống kê số lượng hành khách trong từng năm: Tính toán thống kê mô tả cho biến "Passenger Count"(số lượng hành khách) trong dữ liệu bằng hàm Summary. Nhóm dữ liệu theo năm (theo cột "Year") . Bảng kết quả của hàm Summary. Trong đó: "Min." là giá trị nhỏ nhất trong tập dữ liệu, thường là giá trị ở đầu dưới cùng của biểu đồ boxplot. "Q1" (First Quartile) là giá trị mà 25% các giá trị trong tập dữ liệu nhỏ hơn nó và 75% các giá trị lớn hơn nó. Nó là giá trị ở đầu dưới của hộp trong biểu đồ boxplot. "Median" là giá trị trung vị của tập dữ liệu, chia tập dữ liệu thành hai phần bằng nhau. Nó là giá trị ở giữa của hộp trong biểu đồ boxplot. "Mean" là giá trị trung bình của tập dữ liệu, được tính bằng tổng của tất cả các giá trị trong tập dữ liệu chia cho số lượng giá trị. "Q3" (Third Quartile) là giá trị mà 75% các giá trị trong tập dữ liệu nhỏ hơn nó và 25% các giá trị lớn hơn nó. Nó là giá trị ở đầu trên của hộp trong biểu đồ boxplot. 12 "Max." là giá trị lớn nhất trong tập dữ liệu, thường là giá trị ở đầu trên cùng của biểu đồ boxplot. Dùng hàm ggplot để vẽ biểu đồ thể hiện thống kê hành khách theo năm. Biểu đồ cho ra: Nhận xét: Trong mọi hoạt động trong năm 2005: - Số lượng hành khách cao nhất là 443656. - Số lượng hành khách thấp nhất là 10. - Số lượng hành khách trung bình là 24780 - 25% hoạt động có ít hơn 4545 hành khách. 13 - 50% hoạt động có ít hơn 8271 hành khách. - 75% hoạt động có ít hơn 206634 hành khách. Trong năm 2006: - - Số lượng hành khách cao nhất là 433650. - Số lượng hành khách thấp nhất là 1. - Số lượng hành khách trung bình là 24348. - 25% hoạt động có ít hơn 4532 hành khách. - 50% hoạt động có ít hơn 8361 hành khách. - 75% hoạt động có ít hơn 20076 hành khách. Trong năm 2007: - - Số lượng hành khách cao nhất là 419569. - Số lượng hành khách thấp nhất là 2. - Số lượng hành khách trung bình là 25234. - 25% hoạt động có ít hơn 4989 hành khách. - 50% hoạt động có ít hơn 8563 hành khách. - 75% hoạt động có ít hơn 20518 hành khách. Trong năm 2008: - - Số lượng hành khách cao nhất là 396295. - Số lượng hành khách thấp nhất là 1. - Số lượng hành khách trung bình là 24348. - 25% hoạt động có ít hơn 4991 hành khách. - 50% hoạt động có ít hơn 8555 hành khách. - 75% hoạt động có ít hơn 20851 hành khách. Trong năm 2009: - - Số lượng hành khách cao nhất là 423758. - Số lượng hành khách thấp nhất là 2. - Số lượng hành khách trung bình là 26805. - 25% hoạt động có ít hơn 4599hành khách. - 50% hoạt động có ít hơn 8814 hành khách. - 75% hoạt động có ít hơn 19200 hành khách. Trong năm 2010: - - Số lượng hành khách cao nhất là 428141. 14 - Số lượng hành khách thấp nhất là 5. - Số lượng hành khách trung bình là 28383. - 25% hoạt động có ít hơn 5484 hành khách. - 50% hoạt động có ít hơn 9371 hành khách. - 75% hoạt động có ít hơn 28383 hành khách. 2. Thống kê số lượng hành khách theo hãng hàng không: Tính toán thống kê mô tả cho biến "Passenger Count"(số lượng hành khách) trong dữ liệu bằng hàm Summary. Nhóm dữ liệu theo hãng hàng không (theo cột "Published.Airline"). Bảng kết quả: Dùng hàm ggplot để vẽ biểu đồ thể hiện thống kê hành khách theo từng hãng. 15 Biểu đồ: 3.Thống kê số lượng khách hàng theo vùng Dùng hàm Summary tính thống kê khách hàng theo vùng . 16 Bảng cho ra: Dùng gói thư viện ggplot để vẽ đồ thị stripplot hiển thị số lượng hành khách theo vùng địa lý. Biểu đồ: 17 Nhận xét: - US có lượng hành khách cao nhất, hơn hẳn tất cả các khu vực khác. - Các khu vực còn lại ố lượng hành khách phân bố ít hơn, chệch lệch tương đối. 4. Thống kê số lượng hành khách theo tháng Dùng hàm Summarize tính thống kê khách hàng theo tháng. Dùng ggplot vẽ biểu đồ cột thể hiện số lượng khách hàng qua từng tháng. Biểu đồ: 18 Nhận xét: - Số lượng hành khách phân bố tương đối đều. Cao nhất trong tháng 8 và thấp nhất trong tháng 2. Thống kê tổng quan địa lý (GEO Summary): a) Thống kê theo số lượng của biến Dùng table đếm số lượng giá trị. Bảng: Dùng ggplot vẽ biểu đồ cột so sánh số lượng hoạt động trong cột GEO Summary. 19 Biểu đồ: Nhận xét: - Số hoạt động các chuyến bay quốc tế (International) nhiều hơn nội địa (Domestic) b) Thống kê theo khách hàng( Passenger Cout) Dùng summarize kết hợp hàm sum để tính tổng số lượng khác hàng. Dùng hàm Plotly vẽ biểu đồ tròn thể hiện tương quan số lượng khách hàng của 2 khu vực quốc tế và nội địa của biến GEO_Summary. 20 Nhận xét: - Dù số hoạt động ít hơn nhưng số lượng hành khách của các chuyến bay nội địa (Domestic) nhiều gấp hơn 3 lần các chuyến bay quốc tế (International) . Thống kê theo các loại giá của giá vé (Price Category Code) a) Thống kê theo số lượng biến Dùng summarize kết hợp hàm sum để tính tổng số lượng hoạt động của các loại giá vé. 21 Dùng hàm ggplot vẽ biểu cột thể hiện số loại hoạt động của từng loại giá vé. Biểu đồ: Nhận xét: - Vé giá rẻ chiếm 12.8%. b) Thống kê theo khách hàng( Passenger Cout) Dùng summarize kết hợp hàm sum để tính tổng số lượng khác hàng sử dụng các loại giá vé. 22 Dùng hàm Plotly vẽ biểu đồ tròn thể hiện tương quan số lượng khách hàng sử dụng các loại giá vé Biểu đồ: Nhận xét: - Số khách hàng dùng vé giá rẻ chiếm hơn 17%. 23 V. THỐNG KÊ SUY DIỄN 1. Các giả định cần kiểm tra trong Anova một nhân tố: - Giả định phân phối chuẩn:Số lượng hành khách ở các chuyến bay tuân theo phân phối chuẩn. - Tính đồng nhất của các phương sai: Phương sai số lượng hành khách ở các hãng bay bằng nhau. Biến phụ thuộc: Passenger . Count Các nhân tố( hay biến độc lập): Operating . Airline Kiểm tra giả định phân phối chuẩn: Nhận xét: 24 Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không ATA Airlines không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa 𝛼 = 0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến dep_delay ở hãng hang không ATA-Airlines không tuân theo phân phối chuẩn. Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không Alaska Airlines không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không Alaska Airlines không tuân theo phân phối chuẩn. 25 Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không US Airways không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng hàng không US Airways không tuân theo phân phối chuẩn. 26 Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không AirTran Airways không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng hàng không AirTran Airways không tuân theo phân phối chuẩn. 27 Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không British Airways không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng hàng không British Airways không tuân theo phân phối chuẩn. 28 Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không Air NewZealand tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test lớn hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta chấp nhận giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng hàng không Air NewZealand tuân theo phân phối chuẩn. 29 Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không Philippine Airlines không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng hàng không Philippine Airlines không tuân theo phân phối chuẩn. Kiểm định giả định về tính đồng nhất của các phương sai: Giả thuyết Ho: Phương sai số lượng hành khách của các hãng hàng không bằng nhau. Đối thuyết H1: Có ít nhất 2 hãng hàng không có phương sai số lượng hành khách khác nhau. 30 Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa 𝛼 = 0,05, nên ta bác bỏ giả thuyết Ho, vậy ta có thể đưa ra kết luận là có ít nhất 2 hãng hàng không có phương sai số lượng hành khách khác nhau. Thực hiện ANOVA 1 nhân tố: Nhận xét: Dựa trên kết quả ANOVA cho thấy: +SSB= 1.113e+13, bậc tự do k-1 = 76(k=77) +SSW=3,990e+13, bậc tự do N-k = 15007-77=14930(N là tổng số phần tử khảo sát ở tất cả các nhóm) +MSB=SSB/(k-1)= (1.113e+13)/76=1,465e+11 +MSW=SSW/(N-k)=(3,990e+13)/14930=2,673e+09 +Gía trị thống kê kiểm định: f=MSB/MSW=(1,465e+11)/( 2,673e+09)=54,82 31 +Mức ý nghĩa quan sát: p-value <(2e-16) Dựa vào p-value <2e-16 rất bé so với mức ý nghĩa 𝛼 = 0,05 nên ta bác bỏ được giả thuyết Ho. 2. Phân tích hồi quy: Phân tích các yếu tố ảnh hưởng đến số lượng khách hàng, ta xem biến Passenger.cout là biến phụ thuộc, và các biến độc lập là Operating.Airline, Boarding.Area, GEO.Region, Activity.Type.Code, Price.Category.Code. Đây là các yếu tô dự báo có thể giải thích về sự biến đổi số lượng khách hàng. Mô hình được biểu diễn như sau: Passenger.cout = 𝛽 0 + 𝛽 1. Operating.AirlineAeromexico + 𝛽 2. Operating.AirlineAir Berlin + 𝛽 3. Operating.AirlineAir Canada+ 𝛽 4. Operating.AirlineAir Canada Jazz + 𝛽 5. Operating.AirlineAir China+ 𝛽 6. Operating.AirlineAir France+ … + 𝜀 32 Nhận xét: Đồ thị Residuals vs Fitted vẽ các giá trị sai số hồi quy. Giúp kiểm tra các giả định: Mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc, các sai số có kỳ vọng bằng 0, phương sai của các sai số là hằng số. - Đường màu đỏ chưa phải là đường thẳng nên tính tuyến tính chưa thỏa mãn giả định mối quan hệ tuyến tính giữa X và Y. - Đường màu đỏ không nằm sát với đường thẳng bằng 0, nên giả định các sai số có kỳ vọng bằng 0 không thỏa mãn. - Các điểm sai số hồi quy không phân tán ngẫu nhiên trải dọc theo đường màu đỏ mà phân tán theo cụm, nên chưa thỏa mãn giả định phương sai của các sai số là hằng số. 33 Đồ thị Normal Q-Q vẽ các sai số đã được chuẩn hóa dùng để kiểm tra giả định phân phối chuẩn của các sai số. Ở hai đầu các giá trị sai số đã được chuẩn hóa lệch ra khỏi đường kỳ vọng của phân phối chuẩn (đường thẳng nét đứt). Như vậy giả định về phân phối chuẩn của các sai số không thỏa mãn. Đồ thị Scale-Location vẽ căn bậc 2 của các giá trị sai số đã được chuẩn hóa dùng để kiểm tra giả định phương sai của các sai số là hằng số. Các giá trị sai số trong đồ thị cơ bản phân tán ngẫu nhiên và đường màu đỏ không tuyến tinh nên giả định về phương sai của các sai số là hằng số không thỏa mãn. 34 Đồ thị Residuals vs Leverage vẽ những điểm ảnh hưởng cao trong bộ dữ liệu. Trong đồ thị không thấy các điểm outliers nằm ngoài đường Cook’s distance (đường nét đứt màu đỏ). Ta thấy có các quan trắc thứ 417, 11381 và 11382 có thể là các điểm có ảnh hưởng cao trong bộ dữ liệu và các điểm này chưa vượt qua đường thẳng khoảng cách Cook, vì vậy các điểm này chưa thực sự là các điểm có ảnh hưởng cao trong bộ dữ liệu nên ta không cần phải loại bỏ chúng khi phân tích. 35 TÀI LIỆU THAM KHẢO 1. Nguyễn Đình Huy, Đậu Thế Cấp và Lưu Xuân Đại (2019), Giáo trình Xác suất Thống kê, Nxb. ĐHQG Tp Hồ Chí Minh, Tp Hồ Chí Minh. 2. Nguyễn Văn Tuấn, Phân tích số liệu và biểu đồ bằng R, https://cran.rproject.org/doc/contrib/Intro_to_R_Vietnamese.pdf. 3. https://www.kaggle.com/code/kyingh/airline-passenger-trends _ YING HAO KOO 36