Uploaded by Đạt Thành

BTL Xác suất thống kê - nhóm 10 -L12

advertisement
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT GIAO THÔNG
BÁO CÁO BÀI TẬP LỚN
Môn học: XÁC SUẤT THÔNG KÊ
Lớp: L12 _ Nhóm: 10
Giảng viên hướng dẫn: Nguyễn Bá Thi
Danh sách thành viên:
MSSV
Ngành/Khoa
1 Nguyễn Thanh An
2210025
Kỹ thuật Giao Thông
2 Bạch Ngọc AnhKhoa
2211579
Kỹ thuật Giao Thông
3 Huỳnh Hữu Kha
2211413
Kỹ thuật Giao Thông
4 Lê Minh Đạt
2210678
Kỹ thuật Giao Thông
5 Nguyễn Tuấn Kiệt
2211768
Kỹ thuật Giao Thông
6 Phạm Huy Hoàng
2211112
Kỹ thuật Giao Thông
STT
Họ và tên
Thành phố Hồ Chí Minh – 2023
Ghi chú
MỤC LỤC
LỜI MỞ ĐẦU ........................................................................................................................................ 1
I. TỔNG QUAN DỮ LIỆU ................................................................................................................... 2
II. KIẾN THỨC NỀN .......................................................................................................................... 3
1.Phân tích phương sai một nhân tố .................................................................................. 3
1.1 Định nghĩa ................................................................................................................ 3
1.2 Các bước phân tích phương sai một nhân tố:........................................................... 3
2. Hồi quy tuyến tính bội ..................................................................................................... 6
2.1. Cơ sở lý thuyết mô hình hồi quy tuyến tính bội ........................................................ 6
2.2 Phương trình hồi quy tuyến tính bội .......................................................................... 7
2.3 Ý nghĩa các hệ số hồi quy ......................................................................................... 7
2.4 Xác định giá trị các tham số trong mô hình hồi quy tuyến tính bội ............................. 8
2.5 Kiểm định giả thuyết thống kê trong mô hình hồi quy tuyến tính bội. ......................... 9
III. TIỀN XỬ LÝ SỐ LIỆU ................................................................................................................ 10
1. Đọc dữ liệu: .................................................................................................................. 10
2. Bớt biến:....................................................................................................................... 10
3.Xử lý dữ liệu khuyết: ..................................................................................................... 11
IV. THỐNG KÊ TẢ .............................................................................................................................. 11
1.Thống kê số lượng hành khách trong từng năm: ........................................................... 12
2. Thống kê số lượng hành khách theo hãng hàng không: ............................................... 15
3.Thống kê số lượng khách hàng theo vùng .................................................................... 16
4. Thống kê số lượng hành khách theo tháng .................................................................. 18
V. THỐNG KÊ SUY DIỄN ................................................................................................................. 24
1. Các giả định cần kiểm tra trong Anova một nhân tố:..................................................... 24
Kiểm tra giả định phân phối chuẩn: ............................................................................... 24
Kiểm định giả định về tính đồng nhất của các phương sai: ........................................... 30
Thực hiện ANOVA 1 nhân tố: ........................................................................................ 31
2. Phân tích hồi quy:........................................................................................................ 32
TÀI LIỆU THAM KHẢO .................................................................................................................. 36
LỜI MỞ ĐẦU
Với mỗi sinh viên nói chung và sinh viên nhóm ngành khoa học kỹ thuật nói riêng,
việc tích lũy kiến thức qua các giáo trình, bài giảng trên lớp rất quan trọng và cần
thiết. Tuy nhiên sẽ thật là thiếu sót nếu như chúng ta không thực hành và tìm hiểu ứng
dụng của những kiến thức đó trong cuộc sống và sản xuất. Môn học Xác suất thống kê
có tầm quan trọng giúp sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần
thiết cho các môn học chuyên ngành cũng như công việc sau này.Sự phát triển và ra
đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng đã hỗ trợ rất
nhiều trong quá trình học tập và nghiên cứu bộ môn Xác suất thống kê. Việc phân
tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn. Vì vậy mà việc tìm hiểu
R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan
trọng và có tính cấp thiết.Ở bài tập lớn này nhóm sẽ thực hiện nội dung: “Phân tích
phương sai Anova phân tích dữ liệu mẫu”. Đây là một phương pháp phân tích dữ liệu
mẫu khá phổ biến để so sánh, đối sánh chỉ ra những sai khác, chênh lệch về giá trị
các đại lượng của các nhóm quần thể thống kê, từ đó rút ra được mức độ tác động của
các nhân tố đến quần thể.Ngoài ra, hoạt động 2 của nhóm còn liên quan đến bài toán
phân tích hồi quy. Bài toán nghiên cứu về mối liên hệ phụ thuộc của một biến (gọi là
biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập), với ý tưởng ước
lượng được giá trị trung bình (tổng thể) của biến phụ thuộc theo giá trị của biến độc
lập, dựa trên mẫu được biến trước.Trong suốt quá trình thực hiện bài tập lớn này, nhóm
đã nhận được nhiều sự quan tâm và giúp đỡ tận tình của Thầy và các bạn .Với lượng
kiến thức còn hạn hẹp và sự am hiểu chưa chuyên sâu về môn học, đây cũng là những
kiến thức hoàn toàn mới đối với chúng em. Nên trong bài tập lớn của chúng em vẫn
còn nhiều chỗ thiếu sót mong nhận được sự góp ý và phê bình từ Thầy để bài tập lớn
của chúng em thêm hoàn thiện.
Cả nhóm xin chân thành cảm ơn Thầy đã đọc, nhận xét, phê bình và góp ý bài tập lớn
của nhóm!
1
I. TỔNG QUAN DỮ LIỆU
Tập tin: Air_Traffic_Passenger_Statistics.csv
Bộ dữ liệu này chứa thông tin về số liệu thống kê hành khách không lưu của hãng hàng
không. Nó bao gồm thông tin về các hãng hàng không, sân bay và khu vực mà các
chuyến bay khởi hành và đến. Nó cũng bao gồm thông tin về loại hoạt động, loại giá,
nhà ga, khu vực lên máy bay và số lượng hành khách
Cách sử dụng tập dữ liệu:
Số liệu thống kê hành khách không lưu có thể là một công cụ hữu ích để hiểu ngành
hàng không và lập kế hoạch du lịch. Tập dữ liệu này từ Open Flight chứa thông tin về
số liệu thống kê hành khách không lưu theo hãng hàng không trong năm 2017. Dữ liệu
bao gồm số lượng hành khách, hãng hàng không khai thác, hãng hàng không được công
bố, khu vực địa lý, mã loại hoạt động, mã danh mục giá, nhà ga, khu vực lên máy bay,
năm và tháng của chuyến bay
Các loại biến:
 Activity Period: Kỳ hoạt động, đại diện cho một thời gian cụ thể
 Operating Airline: Hãng hàng không vận hành chuyến bay
 Operating Airline IATA Code: Mã IATA của hãng hàng không vận hành chuyến
bay
 Published Airline: Hãng hàng không công bố giá vé cho chuyến bay
 Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá
vé cho chuyến bay
 GEO Summary: Tổng quan địa lý
 GEO Region: Khu vực địa lý
 Activity Type Code: Loại hoạt động
 Price Category Code: Các loại giá của giá vé
 Terminal: Nhà ga của chuyến bay
 Boarding Area: Khu vực lên máy bay của chuyến bay
 Passenger Count: Số lượng hành khách trên chuyến bay
 Adjusted Activity Type Code: Loại hoạt động, được điều chỉnh cho dữ liệu bị
thiếu.
2
 Adjusted Passenger Count: Số lượng hành khách đã điều chỉnh
 Year: Năm của hoạt động
 Month: Tháng của hoạt động
II. KIẾN THỨC NỀN
1.Phân tích phương sai một nhân tố
1.1 Định nghĩa
Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên nhân
(dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định lượng) đang
nghiên cứu
Bài toán
Giả sử ta có k nhóm 𝑛1 , 𝑛2 , … ,𝑛𝑘 quan sát từ k tổng thể. Giả định sau đây về các
nhóm tổng thể được tiến hành phân tích ANOVA. Các tổng thể này có phân phối bình
thường, các phương sai tổng thể bằng nhau. các mẫu là độc lập với nhau. Nếu trung bình
các tổng thể được kí hiệu là μ1 = μ2 = ⋯ = μ𝑘 thì khi các giả định trên được đáp ứng,
mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng :
{
𝐻0 : 𝑦ế𝑢 𝑡ố 𝑘ế𝑡 𝑞𝑢ả 𝑘ℎô𝑛𝑔 𝑏ị ả𝑛ℎ ℎưở𝑛𝑔 𝑏ở𝑖 𝑦ế𝑢 𝑡ố đ𝑎𝑛𝑔 𝑥é𝑡
𝐻1 ∶ 𝑦ế𝑢 𝑡ố 𝑘ế𝑡 𝑞𝑢ả 𝑏ị ả𝑛ℎ ℎưở𝑛𝑔 𝑏ở𝑖 𝑦ế𝑢 𝑡ố đ𝑎𝑛𝑔 𝑥é𝑡
{
𝐻0 : μ1 = μ2 = ⋯ = μ𝑘
𝐻1 ∶ Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
1.2 Các bước phân tích phương sai một nhân tố:
̅ cho tất cả các nhóm như
Bước 1: Tính các trung bình mẫu 𝒙̅𝒊 cho từng nhóm và 𝒙
trong trường hợp tổng quát từ bảng sau:
3
Tính các trung bình mẫu 𝑥̅𝑖 cho từng nhóm và 𝑥̅ cho tất cả các nhóm theo công thức:
𝒏𝒊
𝟏
∑ 𝒙𝒊𝒋
𝑥̅𝑖 =
𝒏𝒊
𝒋=𝟏
𝑘
1
𝑥̅ = ∑ 𝑥̅𝑖 𝑛𝑖
𝑛
𝑖=1
𝑘
𝑉ớ𝑖 𝑛 = ∑ 𝑛𝑖
𝑖=1
Bước 2 :Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW và tổng
các chênh lệch bình phương giữa các nhóm SSG .
- Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng
nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SSW phản ánh phần biến
thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố
nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể / nhóm đang so
sánh).
- Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
𝑛
𝑖
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1
(𝑥1𝑗 − 𝑥̅1 )2
𝑛
𝑖
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1
(𝑥2𝑗 − ̅̅̅)
𝑥2 2
Tương tự như vậy ta tính cho đến nhóm thứ k được 𝑆𝑆𝑘 . Vậy tổng các chênh lệch
bình phương trong nội bộ các nhóm được tính như sau:
𝑆 𝑆 𝑊 = 𝑆𝑆1 + 𝑆𝑆2 + ⋯ + 𝑆𝑆𝑘
4
- Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng
các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung
bình chung của k nhóm (các chênh lệch này đều được nhân thêm với số quan sát tương
ứng của từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng
của yếu tố nguyên nhân đang nghiên cứu.
𝑆 𝑆 𝐺 = ∑𝑘𝑖=1 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2
-Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các
chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu
(𝑥𝑖𝑗 ) với trung bình toàn bộ (x). SST phản ánh biến thiên của yếu tố kết quả do ảnh
hưởng của tất cả các nguyên nhân.
𝑛
𝑖
2
𝑆 𝑆 𝑇 = ∑𝑘𝑖=1 ∑𝑗=1
(𝑥
̅̅̅̅
𝑖𝑗 − 𝑥̅ )
- Tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các chênh lệch bình
phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm.
𝑆𝑆𝑇 =𝑆𝑆𝑊 +𝑆𝑆𝐺
-Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã
được phân tích thành hai thành phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra
(SSG) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra
(SSW). Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so
với phần biến thiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở đề
bác bỏ 𝐻0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến
yếu tố kết quả
Bước 3: Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các
nhóm)
Ta ký hiệu: k là số nhóm (mẫu);
n là tổng số quan sát của các nhóm
Khi đó, các phương sai được tính theo công thức sau
MSW =
𝑺𝑺𝑾
MSB =
𝒏−𝒌
Trong đó:
MSW: Là phương sai nội bộ nhóm
SSB: Là phương sai giữa các nhóm
5
𝑺𝑺𝑩
𝒌−𝟏
Bước 4: Kiểm định giả thuyết:

Tính tiêu chuẩn kiểm định F (F thực nghiệm)
F=

𝑀𝑆𝐵
𝑀𝑆𝑊
F >F((k-1;n-k);𝛼)
Ta bác bỏ giả thuyết 𝐻0 cho rằng giá trị trung bình của k tổng thể bằng nhau

Tìm F lý thuyết (F tiêu chuẩn = F(k-1;n-k;𝛼)):
F lý thuyết là giá tị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai
ở tử số và n-k bậc tự do của phương sai ở mẫu số với mức ý nghĩa 𝛼.
F lý thuyết có thể tra qua hàm FINV (𝛼; k-1;n-1) trong EXCEL.

Nếu F thực nghiệm > F lý thuyết, bác bỏ 𝐻0 , nghĩa là các số trung bình của k
tổng thể không bằng nhau.

Bảng phân tích phương sai 1 yếu tố khi sử dụng máy tính (phần mềm EXCEL
hoặc SPSS) tóm tắt như sau: (ANOVA)
Nguồn biến động
Tổng độ lệch
bình phương
(SS)
Bậc tự do
Phương sai
(MS)
Giữa các mẫu
SSB
k-1
MSB
Trong nội bộ các
mẫu
SSW
n-k
MSW
Tổng số
SST
n-1
F – Tỷ số
F=
𝑀𝑆𝐵
𝑀𝑆𝑊
2. Hồi quy tuyến tính bội
2.1. Cơ sở lý thuyết mô hình hồi quy tuyến tính bội
Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn. Nó được
sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai
hoặc nhiều biến giải thích khác. Biến c thuộc (biến được giải thích) Y tốt và đầy đủ hơn
so với m húng ta muốn dự đoán được gọi là biến phản hồi( hoặc đôi khi là biến phụ
thuộc). Các biến mà chúng ta sử dụng để dự đoán giá trị của biến phản hồi được gọi là
6
các biến giải thích ( hoặc đôi khi là biến dự đoán, biến phụ thuộc). Trong thực tế, mô
hình hồi quy tuyến tính bội được sử dụng khá rộng rãi vì đối với nhiều trường hợp nó
giúp giải thích về hành vi của biến phụ ô hình hồi quy tuyến tính đơn.
2.2 Phương trình hồi quy tuyến tính bội
Mô hình hồi quy trong đó: biến phụ thuộc Y có liên hệ với k biến độc lập x1, x2,...,
xk có dạng như sau:
Hàm hồi quy tổng thể (PRF): E(Y| x1, x2, …, xk) = β0 + β1x1+ β2x2 + ⋯ + βkxk
Mô hình hồi quy tổng thể (PRM): Y = β0 + β1x1 + β2x2 + ⋯ + βkxk + ε
Ta biết rằng dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác
động đến biến phụ thuộc mà không được đưa vào mô hình vì nhiều lí do (không có số
liệu hoặc không muốn đưa vào). Do đó mô hình vẫn tồn tại sai số ngẫu nhiên ε đại diện
cho các yếu tố khác ngoài các biến xj (j=1,2,… k) có tác động đến Y nhưng không là
biến số.
Xét một mẫu ngẫu nhiên với n quan sát cụ thể, ta có hồi quy mẫu như sau:
Yi = β0 + β1x1 + β2x2 + ⋯ + βkxk + εi
Với εi là phần dư tại quan sát i , được tính bởi công thức sau: εi = Yi – Y
2.3 Ý nghĩa các hệ số hồi quy
Xuất phát từ hàm hồi quy tổng thể: E(Y|x1, x2, …, x𝑘 ) = β0 + β1x1 + β2x2 + ⋯ +
βkxk
Tham số β0 được gọi là hệ số chặn (intercept) của mặt phẳng, nghĩa là β0 là giá trị
của Y khi x1 = x2 = … = xk = 0
Các tham số βj ( j = 1, 2, …, k ) được gọi là hệ số hồi quy riêng, thể hiện sự thay
đổi của Y theo mỗi đơn vị của xj khi các biến còn lại giữ nguyên. Cụ thể, khi xj tăng hay
giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay
đổi βj đơn vị.
Có 3 khả năng có thể xảy ra với hệ số βj:
 βj > 0: khi đó mối quan hệ giữa Y và xj là thuận chiều, nghĩa là khi xj tăng (hay
giảm) trong điều kiện các biến độc lập khác không thay đổi thì Y cũng tăng (hoặc
giảm).
7
 βj < 0: khi đó mối quan hệ giữa Y và xj là nghịch chiều, nghĩa là khi xj tăng (hay
giảm) trong điều kiện các biến độc lập khác không thay đổi thì Y sẽ giảm (hoặc tăng).
 βj = 0: có thể cho rằng giữa Y và xj không có tương quan với nhau, cụ thể là Y không
phụ thuộc vào xj , hay nói cách khác xj không ảnh hưởng đến Y.
ε là phần sai lệch giữa giá trị của 𝑌 trong phương trình và giá trị thực tế của 𝑌 . Thực
chất, mô hình này thường chỉ dự đoán tốt kỳ vọng của 𝑌 chứ không phải giá trị của 𝑌
trong thực tế, hay nói cách khác E(Y|xi theo các i) = β0 + β1x1 + β2x2 + ⋯ + βkxk ,
còn ε là một biến ngẫu nhiên có kỳ vọng là 0 và phương sai 𝜎 2 .
Mô hình hồi quy tuyến tính bội cũng thường được dùng để xấp xỉ giá trị của hàm
số. Nghĩa là, mối quan hệ chính xác giữa biến Y và x1, x2, x3, …. là chưa biết, nhưng
trên những khoảng xác định của các biến độc lập (biến hồi quy), giá trị của mô hình hồi
quy tuyến tính là phù hợp.
2.4 Xác định giá trị các tham số trong mô hình hồi quy tuyến tính bội
Có nhiều cách để xác định giá trị của các tham số, tuy nhiên, trong số đó, phương
pháp bình phương cực tiểu (phương pháp OLS) là phương pháp thường được sử dụng
nhất.
𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 +𝑢̂𝑖
Trong đó 𝛽̂1 , 𝛽̂2 là các ước lượng không chênh lệch của các hệ số hồi quy 𝛽1 , 𝛽2 và
𝑢̂𝑖 là ước lượng không chênh lệch của sai số 𝑢𝑖 . Theo đó giá trị ước lượng không chênh
lệch của E(𝑌𝑖 |𝑋𝑖 ) kí hiệu là 𝑌̂𝑖 sẽ bằng 𝛽̂1 + 𝛽̂2 𝑋𝑖 và từ đó sẽ suy ra:
𝑌𝑖 = 𝑌̂𝑖 + 𝑢̂𝑖  𝑢̂𝑖 = 𝑌𝑖 − 𝑌̂𝑖
Phương trình này cho biết phần dư 𝑢̂𝑖 là hiệu số của giá trị hiện thực Y thực tế và
giá trị Y ước lượng không chênh lệnh vào thời điểm i.
Ta xét tổng bình phương của các phần dư ( được gọi là RSS) sao cho chúng là nhỏ
nhất.
Điều này được diễn tả như sau :
∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1( 𝑌𝑖 − 𝑌̂𝑖 )2 = ∑𝑛𝑖=1( 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 min
Theo kiến thức đã học, đây là một phương trình bậc hai nên muốn tìm điểm cực
trị ta phải xét đạo hàm 𝛽̂1 , 𝛽̂2 và cho chúng bằng không:
𝜕𝑅𝑆𝑆
= −2 ∑(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0
̂
𝜕𝛽2
8
𝜕𝑅𝑆𝑆
= −2 ∑(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0
𝜕𝛽̂1
Hai phương trình trên tạo ra một hệ phương trình hai ẩn và có thể giải ra để tìm được
hai nghiệm như sau:
𝛽̂2 =
𝑛 ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖
𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2
𝛽̂1 = 𝑌̅-𝛽̂2 𝑋̅
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh
giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa
các hệ số hồi quy.
2.5 Kiểm định giả thuyết thống kê trong mô hình hồi quy tuyến tính bội.
Bài kiểm định cho ý nghĩa của mô hình hồi quy là một bài kiểm định nhằm xác định
xem có hay không một mối quan hệ tuyến tính tồn tại giữa biến 𝑌 và một nhóm biến
hồi quy 𝑥 1, 𝑥 2, 𝑥 3, …. Khi đó giả thiết thống kê hợp lí là:
𝐻0:𝛽0=𝛽1=𝛽2=⋯=𝛽𝑘 =0
𝐻 1 : 𝛽 𝑗 ≠ 0 với ít nhất một 𝑗
Bác bỏ 𝐻 0 đồng nghĩa với việc ta chấp nhận có ít nhất một trong các biến hồi quy
𝑥 1, 𝑥 2, 𝑥 3, … có ảnh hưởng đáng kể đến mô hình.
Có thể đánh giá điều đó qua hệ số xác định bội. Ký hiệu R2 được sử dụng cho hệ số
xác định của hàm hồi quy bội (hệ số xác định bội) như là một ký hiệu chung cho các
hàm hồi quy với số biến bất kỳ. Ta có:
Tính tổng bình phương sai số (SSE) của mô hình hồi quy tuyến tính bằng cách tính
tổng bình phương của sai số (chênh lệch giữa giá trị dự đoán và giá trị thực tế) cho tất
cả các điểm dữ liệu trong tập huấn luyện:
SSE = Σ(y - ŷ)²
Trong đó:

y là giá trị thực tế của biến phụ thuộc.

ŷ là giá trị dự đoán của biến phụ thuộc dựa trên các giá trị độc lập được sử dụng
trong mô hình.
9
Tính tổng bình phương sai số của trung bình (SST) bằng cách tính tổng bình phương
chênh lệch giữa giá trị thực tế và giá trị trung bình của biến phụ thuộc cho tất cả các
điểm dữ liệu trong tập huấn luyện:
SST = Σ(y - ȳ)²
Trong đó: ȳ là giá trị trung bình của biến phụ thuộc.
Khi đó hệ số xác định (R²) bằng cách tính tỷ lệ phần trăm giải thích được của biến phụ
thuộc bởi các biến độc lập trong mô hình:
R² = 1 - (SSE / SST)
Giá trị R² sẽ nằm trong khoảng từ 0 đến 1. Giá trị càng gần 1 thì mô hình càng tốt vì
phần lớn sự biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô
hình. Giá trị càng gần 0 thì mô hình càng kém vì các biến độc lập không giải thích được
phần lớn sự biến thiên của biến phụ thuộc.
Ngoài ra, việc đưa thêm một biến số mới vào mô hình cũng tạo ra những tác động không
tốt đến chất lượng của các ước lượng. Để tổng hòa giữa tác động tích cực của việc đưa
thêm biến, thể hiện bằng sự gia tăng trong 𝑅 2 và tác động tiêu cực này, người ta đưa ra
khái niệm 𝑅 2 hiệu chỉnh, ký hiệu là 𝑅̅2 và được định nghĩa như sau:
𝑅̅2 = 1 − (1 − 𝑅 2 )
( 𝑛 − 1)
(𝑛 − 𝑘 − 1)
Giá trị 𝑅̅2 thường được sử dụng thay 𝑅2 khi 2 mô hình có cùng biến phụ thuộc nhưng
số biến độc lập khác nhau.
III. TIỀN XỬ LÝ SỐ LIỆU
1. Đọc dữ liệu:
Dùng lệnh read.csv để đọc dữ liệu từ tệp Air_Traffic_Passenger_Statistics.csv vào R.
2. Bớt biến:
Sử dụng toán tử %in% để kiểm tra tên của các biến trong data. Các biến có tên tương
ứng với "Activity.Period", "Adjusted.Activity.Type.Code",
10
"Published.Airline.IATA.Code", "Adjusted.Passenger.Count" và "Published.Airline" sẽ
được loại bỏ khỏi data.
Kết quả sẽ là một bản sao của data chỉ chứa các biến cần thiết.
3.Xử lý dữ liệu khuyết:
Dùng hàm apply() được sử dụng để lặp qua các hàng của đối tượng dữ liệu và tìm các
vị trí của các giá trị thiếu trong mỗi hàng sử dụng hàm which(is.na(x)).
Kết quả của đoạn mã này là một đối tượng missing_rows là một danh sách (list), trong
đó mỗi phần tử tương ứng với một hàng trong dữ liệu, và chứa các vị trí của các giá trị
thiếu trong hàng đó.
Không có dữ liệu khuyết nên kết quả trả về sẽ là một danh sách rỗng (empty list).
IV. THỐNG KÊ TẢ
Thống kê mô tả là quá trình sắp xếp, tóm tắt và diễn giải dữ liệu để hiểu và mô tả các
đặc điểm quan trọng của dữ liệu. Thông qua thống kê mô tả, chúng ta có thể trình bày
các thông tin quan trọng như trung bình, phương sai, phân phối, tương quan và sự biến
động trong dữ liệu.
11
1.Thống kê số lượng hành khách trong từng năm:
Tính toán thống kê mô tả cho biến "Passenger Count"(số lượng hành khách) trong dữ
liệu bằng hàm Summary. Nhóm dữ liệu theo năm (theo cột "Year") .
Bảng kết quả của hàm Summary.
Trong đó:

"Min." là giá trị nhỏ nhất trong tập dữ liệu, thường là giá trị ở đầu dưới cùng của
biểu đồ boxplot.

"Q1" (First Quartile) là giá trị mà 25% các giá trị trong tập dữ liệu nhỏ hơn nó và
75% các giá trị lớn hơn nó. Nó là giá trị ở đầu dưới của hộp trong biểu đồ boxplot.

"Median" là giá trị trung vị của tập dữ liệu, chia tập dữ liệu thành hai phần bằng
nhau. Nó là giá trị ở giữa của hộp trong biểu đồ boxplot.

"Mean" là giá trị trung bình của tập dữ liệu, được tính bằng tổng của tất cả các
giá trị trong tập dữ liệu chia cho số lượng giá trị.

"Q3" (Third Quartile) là giá trị mà 75% các giá trị trong tập dữ liệu nhỏ hơn nó
và 25% các giá trị lớn hơn nó. Nó là giá trị ở đầu trên của hộp trong biểu đồ
boxplot.
12

"Max." là giá trị lớn nhất trong tập dữ liệu, thường là giá trị ở đầu trên cùng của
biểu đồ boxplot.
Dùng hàm ggplot để vẽ biểu đồ thể hiện thống kê hành khách theo năm.
Biểu đồ cho ra:
Nhận xét:
 Trong mọi hoạt động trong năm 2005:
-
Số lượng hành khách cao nhất là 443656.
-
Số lượng hành khách thấp nhất là 10.
-
Số lượng hành khách trung bình là 24780
-
25% hoạt động có ít hơn 4545 hành khách.
13
-
50% hoạt động có ít hơn 8271 hành khách.
-
75% hoạt động có ít hơn 206634 hành khách.
 Trong năm 2006:
-
- Số lượng hành khách cao nhất là 433650.
-
Số lượng hành khách thấp nhất là 1.
-
Số lượng hành khách trung bình là 24348.
-
25% hoạt động có ít hơn 4532 hành khách.
-
50% hoạt động có ít hơn 8361 hành khách.
-
75% hoạt động có ít hơn 20076 hành khách.
 Trong năm 2007:
-
- Số lượng hành khách cao nhất là 419569.
-
Số lượng hành khách thấp nhất là 2.
-
Số lượng hành khách trung bình là 25234.
-
25% hoạt động có ít hơn 4989 hành khách.
-
50% hoạt động có ít hơn 8563 hành khách.
-
75% hoạt động có ít hơn 20518 hành khách.
 Trong năm 2008:
-
- Số lượng hành khách cao nhất là 396295.
-
Số lượng hành khách thấp nhất là 1.
-
Số lượng hành khách trung bình là 24348.
-
25% hoạt động có ít hơn 4991 hành khách.
-
50% hoạt động có ít hơn 8555 hành khách.
-
75% hoạt động có ít hơn 20851 hành khách.
 Trong năm 2009:
-
- Số lượng hành khách cao nhất là 423758.
-
Số lượng hành khách thấp nhất là 2.
-
Số lượng hành khách trung bình là 26805.
-
25% hoạt động có ít hơn 4599hành khách.
-
50% hoạt động có ít hơn 8814 hành khách.
-
75% hoạt động có ít hơn 19200 hành khách.
 Trong năm 2010:
-
- Số lượng hành khách cao nhất là 428141.
14
-
Số lượng hành khách thấp nhất là 5.
-
Số lượng hành khách trung bình là 28383.
-
25% hoạt động có ít hơn 5484 hành khách.
-
50% hoạt động có ít hơn 9371 hành khách.
-
75% hoạt động có ít hơn 28383 hành khách.
2. Thống kê số lượng hành khách theo hãng hàng không:
Tính toán thống kê mô tả cho biến "Passenger Count"(số lượng hành khách) trong dữ
liệu bằng hàm Summary. Nhóm dữ liệu theo hãng hàng không (theo cột
"Published.Airline").
Bảng kết quả:
Dùng hàm ggplot để vẽ biểu đồ thể hiện thống kê hành khách theo từng hãng.
15
Biểu đồ:
3.Thống kê số lượng khách hàng theo vùng
Dùng hàm Summary tính thống kê khách hàng theo vùng .
16
Bảng cho ra:
Dùng gói thư viện ggplot để vẽ đồ thị stripplot hiển thị số lượng hành khách theo vùng
địa lý.
Biểu đồ:
17
Nhận xét:
-
US có lượng hành khách cao nhất, hơn hẳn tất cả các khu vực khác.
-
Các khu vực còn lại ố lượng hành khách phân bố ít hơn, chệch lệch tương
đối.
4. Thống kê số lượng hành khách theo tháng
Dùng hàm Summarize tính thống kê khách hàng theo tháng.
Dùng ggplot vẽ biểu đồ cột thể hiện số lượng khách hàng qua từng tháng.
Biểu đồ:
18
Nhận xét:
-
Số lượng hành khách phân bố tương đối đều.
Cao nhất trong tháng 8 và thấp nhất trong tháng 2.
Thống kê tổng quan địa lý (GEO Summary):
a) Thống kê theo số lượng của biến
Dùng table đếm số lượng giá trị.
Bảng:
Dùng ggplot vẽ biểu đồ cột so sánh số lượng hoạt động trong cột GEO Summary.
19
Biểu đồ:
Nhận xét:
-
Số hoạt động các chuyến bay quốc tế (International) nhiều hơn nội địa
(Domestic)
b) Thống kê theo khách hàng( Passenger Cout)
Dùng summarize kết hợp hàm sum để tính tổng số lượng khác hàng.
Dùng hàm Plotly vẽ biểu đồ tròn thể hiện tương quan số lượng khách hàng của 2 khu
vực quốc tế và nội địa của biến GEO_Summary.
20
Nhận xét:
-
Dù số hoạt động ít hơn nhưng số lượng hành khách của các chuyến bay nội
địa (Domestic) nhiều gấp hơn 3 lần các chuyến bay quốc tế (International) .
Thống kê theo các loại giá của giá vé (Price Category Code)
a) Thống kê theo số lượng biến
Dùng summarize kết hợp hàm sum để tính tổng số lượng hoạt động của các loại giá vé.
21
Dùng hàm ggplot vẽ biểu cột thể hiện số loại hoạt động của từng loại giá vé.
Biểu đồ:
Nhận xét:
-
Vé giá rẻ chiếm 12.8%.
b) Thống kê theo khách hàng( Passenger Cout)
Dùng summarize kết hợp hàm sum để tính tổng số lượng khác hàng sử dụng các loại
giá vé.
22
Dùng hàm Plotly vẽ biểu đồ tròn thể hiện tương quan số lượng khách hàng sử dụng
các loại giá vé
Biểu đồ:
Nhận xét:
-
Số khách hàng dùng vé giá rẻ chiếm hơn 17%.
23
V. THỐNG KÊ SUY DIỄN
1. Các giả định cần kiểm tra trong Anova một nhân tố:
- Giả định phân phối chuẩn:Số lượng hành khách ở các chuyến bay tuân theo phân phối
chuẩn.
- Tính đồng nhất của các phương sai: Phương sai số lượng hành khách ở các hãng bay
bằng nhau.
Biến phụ thuộc: Passenger . Count
Các nhân tố( hay biến độc lập): Operating . Airline
Kiểm tra giả định phân phối chuẩn:
Nhận xét:
24
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không
ATA Airlines không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa 𝛼 =
0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến dep_delay ở hãng
hang không ATA-Airlines không tuân theo phân phối chuẩn.
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng
kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không Alaska
Airlines không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05,
nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không Alaska Airlines không tuân theo phân phối chuẩn.
25
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không
US Airways không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa
α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger .
Count ở hãng hàng không US Airways không tuân theo phân phối chuẩn.
26
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không
AirTran Airways không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa
α=0,05, nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger .
Count ở hãng hàng không AirTran Airways không tuân theo phân phối chuẩn.
27
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng
kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không British
Airways không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05,
nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng
hàng không British Airways không tuân theo phân phối chuẩn.
28
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng
kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không Air
NewZealand tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test lớn hơn rất nhiều so với mức ý nghĩa α=0,05,
nên ta chấp nhận giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở
hãng hàng không Air NewZealand tuân theo phân phối chuẩn.
29
Nhận xét:
Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng
kì vọng của phân phối chuẩn, do đó biến Passenger . Count ở hãng hàng không
Philippine Airlines không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0,05,
nên ta bác bỏ giả thuyết Ho, nên cũng đưa ra kết luận là biến Passenger . Count ở hãng
hàng không Philippine Airlines không tuân theo phân phối chuẩn.
Kiểm định giả định về tính đồng nhất của các phương sai:
Giả thuyết Ho: Phương sai số lượng hành khách của các hãng hàng không bằng
nhau.
Đối thuyết H1: Có ít nhất 2 hãng hàng không có phương sai số lượng hành khách
khác nhau.
30
Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa
𝛼 = 0,05, nên ta bác bỏ giả thuyết Ho, vậy ta có thể đưa ra kết luận là có ít nhất 2 hãng
hàng không có phương sai số lượng hành khách khác nhau.
Thực hiện ANOVA 1 nhân tố:
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+SSB= 1.113e+13, bậc tự do k-1 = 76(k=77)
+SSW=3,990e+13, bậc tự do N-k = 15007-77=14930(N là tổng số phần tử khảo
sát ở tất cả các nhóm)
+MSB=SSB/(k-1)= (1.113e+13)/76=1,465e+11
+MSW=SSW/(N-k)=(3,990e+13)/14930=2,673e+09
+Gía trị thống kê kiểm định: f=MSB/MSW=(1,465e+11)/( 2,673e+09)=54,82
31
+Mức ý nghĩa quan sát: p-value <(2e-16)
Dựa vào p-value <2e-16 rất bé so với mức ý nghĩa 𝛼 = 0,05 nên ta bác bỏ được giả
thuyết Ho.
2. Phân tích hồi quy:
Phân tích các yếu tố ảnh hưởng đến số lượng khách hàng, ta xem biến Passenger.cout
là biến phụ thuộc, và các biến độc lập là Operating.Airline, Boarding.Area,
GEO.Region, Activity.Type.Code, Price.Category.Code. Đây là các yếu tô dự báo có
thể giải thích về sự biến đổi số lượng khách hàng.
Mô hình được biểu diễn như sau:
Passenger.cout = 𝛽 0 + 𝛽 1. Operating.AirlineAeromexico + 𝛽 2. Operating.AirlineAir
Berlin + 𝛽 3. Operating.AirlineAir Canada+ 𝛽 4. Operating.AirlineAir Canada Jazz +
𝛽 5. Operating.AirlineAir China+ 𝛽 6. Operating.AirlineAir France+ … + 𝜀
32
Nhận xét:
Đồ thị Residuals vs Fitted vẽ các giá trị sai số hồi quy. Giúp kiểm tra các giả định:
Mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc, các sai số có kỳ vọng
bằng 0, phương sai của các sai số là hằng số.
- Đường màu đỏ chưa phải là đường thẳng nên tính tuyến tính chưa thỏa mãn
giả định mối quan hệ tuyến tính giữa X và Y.
- Đường màu đỏ không nằm sát với đường thẳng bằng 0, nên giả định các sai số
có kỳ vọng bằng 0 không thỏa mãn.
- Các điểm sai số hồi quy không phân tán ngẫu nhiên trải dọc theo đường màu
đỏ mà phân tán theo cụm, nên chưa thỏa mãn giả định phương sai của các sai số
là hằng số.
33
Đồ thị Normal Q-Q vẽ các sai số đã được chuẩn hóa dùng để kiểm tra giả định phân
phối chuẩn của các sai số. Ở hai đầu các giá trị sai số đã được chuẩn hóa lệch ra khỏi
đường kỳ vọng của phân phối chuẩn (đường thẳng nét đứt). Như vậy giả định về phân
phối chuẩn của các sai số không thỏa mãn.
Đồ thị Scale-Location vẽ căn bậc 2 của các giá trị sai số đã được chuẩn hóa dùng để
kiểm tra giả định phương sai của các sai số là hằng số. Các giá trị sai số trong đồ thị cơ
bản phân tán ngẫu nhiên và đường màu đỏ không tuyến tinh nên giả định
về phương sai của các sai số là hằng số không thỏa mãn.
34
Đồ thị Residuals vs Leverage vẽ những điểm ảnh hưởng cao trong bộ dữ liệu. Trong
đồ thị không thấy các điểm outliers nằm ngoài đường Cook’s distance
(đường nét đứt màu đỏ). Ta thấy có các quan trắc thứ 417, 11381 và 11382 có thể là
các điểm có ảnh hưởng cao trong bộ dữ liệu và các điểm này chưa vượt qua đường
thẳng khoảng cách Cook, vì vậy các điểm này chưa thực sự là các điểm có ảnh hưởng
cao trong bộ dữ liệu nên ta không cần phải loại bỏ chúng khi phân tích.
35
TÀI LIỆU THAM KHẢO
1. Nguyễn Đình Huy, Đậu Thế Cấp và Lưu Xuân Đại (2019), Giáo trình Xác suất Thống
kê, Nxb. ĐHQG Tp Hồ Chí Minh, Tp Hồ Chí Minh.
2. Nguyễn Văn Tuấn, Phân tích số liệu và biểu đồ bằng R, https://cran.rproject.org/doc/contrib/Intro_to_R_Vietnamese.pdf.
3. https://www.kaggle.com/code/kyingh/airline-passenger-trends _ YING HAO KOO
36
Download