Nguyễn Như Phong
THỐNG KÊ TRONG CÔNG NGHIỆP
2020
NỘI DUNG
Mục lục
Lời nói đầu
Chương 1: Thống kê trong công nghiệp
Chương 2: Thống kê mô tả
Chương 3: Lấy mẫu
Chương 4: Ước lượng
Chương 5 Kiểm định
Chương 6: Phân tích phương sai
Chương 7: Hồi quy
Phụ lục A: Lý thuyết xác suất
Phụ lục B: Biến ngẫu nhiên
Tài liệu tham khảo
MỤC LỤC
NỘI DUNG
LỜI NÓI ĐẦU
Chương 1: Thống kê trong công nghiệp
1.1 Thống kê
1.2 Thống kê mô tả
1.3 Thống kê suy diễn
1.4 Dữ liệu thống kê
1.5 Thống kê trong công nghiệp
Chương 2: Thống kê mô tả
2.1 Phân bố thực nghiệm
2.2 Phân bố tần suất
2.3 Đo lường xu hướng trung tâm
2.4 Đo lường biến thiên
2.5 Đo lường dạng phân bố
2.6 Biễu đồ thống kê
Chương 3: Lấy mẫu
3.1 Lấy mẫu
3.2 Hàm thống kê
3.3 Phân bố mẫu
3.4 Đánh giá mẫu
Chương 4: Ước lượng
4.1 Ước lượng
4.2 Ước lượng kỳ vọng
4.3 Ước lượng độ lệch kỳ vọng
4.4 Ước lượng phương sai
4.5 Ước lượng tỷ lệ phương sai
4.6 Ước lượng tỷ lệ
4.7 Ước lượng độ lệch tỷ lệ
4.8 Cở mẫu
Chương 5: Kiểm định
5.1 Kiểm định giả thuyết
5.2 Phương pháp kiểm định
5.3 Đặc tính vận hành
5.4 Kiểm định kỳ vọng
5.5 Kiểm định độ lệch kỳ vọng
5.6 Kiểm định độ lệch kỳ vọng theo cặp
5.7 Kiểm định phương sai
5.8 Kiểm định tỷ lệ phương sai
5.9 Kiểm định tỷ lệ
5.10 Kiểm định độ lệch tỷ lệ
5.11 Kiểm định phân bố
Chương 6: Phân tích phương sai
6.1 Phân tích phương sai
6.2 Phân tích biến thiên
6.3 Kiểm định giả thuyết
6.4 Ước lượng tham số
6.5 Kiểm tra mô hình
6.6 Xác định cỡ mẫu
6.7 So sánh kỳ vọng
Chương 7: Hồi quy
7.1 Hồi quy
7.2 Hồi quy đơn
7.3 Hồi quy bội
7.4 Hồi quy phi tuyến
PHỤ LỤC
A. Lý thuyết xác suất
B. Biến ngẫu nhiên
TÀI LIỆU THAM KHẢO
LỜI NÓI ĐẦU
Hầu hết các quyết định của nhà quản lý đều dựa trên thông tin rút ra từ dữ liệu
thu thập. Thống kê là một lĩnh vực toán học liên quan đến việc thu thập, mô tả,
phân tích dữ liệu, từ đó rút ra kết luận từ các dữ liệu thu thập được.
Thống kê được chia thành 2 loại, bao gồm Thống kê mô tả và Thống kê suy
diễn. Thống kê mô tả thu thập dữ liệu từ các phần tử của một tập hợp, từ đó xử
lý dữ liệu và mô tả hay rút ra kết luận về tập hợp quan tâm qua các thuộc tính
xác định. Khi với số phần tử của tập hợp rất lớn, tập hợp được gọi là đám đông,
một mẫu với số phần tử thích hợp được rút ra từ đám đông. Thống kê suy diễn
thu thập dữ kiện từ mẫu này, từ đó suy diễn rút ra các kết luận cho đám đông từ
dữ kiện của mẫu.
Với kỹ sư của mọi chuyên ngành, Thống kê là một một kỹ thuật quan trọng.
THỐNG KÊ TRONG CÔNG NGHIỆP được biên soạn cho các đối tượng từ sinh
viên, đến người nghiên cứu ở mọi chuyên ngành với nội dung bao gồm các
chương sau:
Chương 1 - Thống kê trong công nghiệp, giới thiệu Thống kê với Thống kê mô
tả, Thống kê suy diễn, và Dữ liệu thống kê. Chương 2 - Thống kê mô tả trình
bày Phân bố thực nghiệm, Phân bố tần suất, Đo lường xu hướng trung tâm, Đo
lường biến thiên, Đo lường dạng phân bố, và Biễu đồ thống kê.
Chương 3 - Lấy mẫu trình bày các Hàm thống kê, Phân bố mẫu, và Đánh giá
mẫu. Chương 4 - Ước lượng trình bày Ước lượng kỳ vọng, độ lệch kỳ vọng,
phương sai, tỷ lệ phương sai, tỷ lệ, độ lệch tỷ lệ, và Cở mẫu.
Chương 5 - Kiểm định trình bày Kiểm định giả thuyết, Phương pháp kiểm định,
Đặc tính vận hành, Kiểm định kỳ vọng, độ lệch kỳ vọng, phương sai, tỷ lệ
phương sai, tỷ lệ, độ lệch tỷ lệ, và 1 Kiểm định phân bố.
Chương 6 - Phân tích phương sai với nôi dung bao gồm Phân tích biến thiên,
Kiểm định giả thuyết, Ước lượng tham số, Kiểm tra mô hình, Xác định cỡ mẫu,
So sánh kỳ vọng. Chương 7 - Hồi quy trình bày Hồi quy đơn, Hồi quy bội, Hồi
quy phi tuyến.
Ngoài ra, phần phụ lục bao gồm 2 phần. Phụ lục A, ôn lại các kiến thức nền tảng
của các kỹ thuật thống kê, Lý thuyết xác suất. Phụ lục B, Biến ngẫu nhiên.
Dù đã bỏ ra nhiều thời gian, nhưng chắc chắn không tránh khỏi nhiều sai sót, tác
giả rất mong nhận được nhiều ý kiến đóng góp của các đồng nghiệp và quý độc
giả để sách được ngày một hoàn thiện hơn. Mọi ý kiến đóng góp xin gởi về:
Nguyễn Như Phong.
Trường Đại Học Bách Khoa – Đại Học Quốc Gia TPHCM.
Tel: 0918334207.
Email: nnphong@hcmut.edu.vn, nguyenphong.bku@gmail.com
Ehome: www.hcmut.edu.vn/~nnphong.
Web: www.isem.edu.vn
Xin thành thật biết ơn.
Chương 1
THỐNG KÊ
Thống kê
Thống kê mô tả
Thống kê suy diễn
Dữ liệu thống kê
1.1 Thống kê
Hầu hết các quyết định của nhà quản lý đều dựa trên thông tin rút ra từ dữ liệu
thu thập. Thống kê là một lĩnh vực toán học liên quan đến việc thu thập, mô tả,
phân tích dữ liệu, từ đó rút ra kết luận từ các dữ liệu thu thập được. Thống kê
được chia thành 2 loại:
Thống kê mô tả
Thống kê suy diễn
Thống kê mô tả thu thập dữ liệu từ các phần tử của một tập hợp, từ đó xử lý dữ
liệu và mô tả hay rút ra kết luận về tập hợp quan tâm qua các thuộc tính xác
định.
Khi với số phần tử của tập hợp rất lớn, tập hợp được gọi là đám đông, một mẫu
với số phần tử thích hợp được rút ra từ đám đông. Thống kê suy diễn thu thập dữ
kiện từ mẫu này, từ đó suy diễn rút ra các kết luận cho đám đông từ dữ kiện của
mẫu.
1.2 Thống kê mô tả
Thống kê mô tả xử lý dữ liệu thu thập được và trình bày ở dạng thông tin có ý
nghĩa, từ đó giúp rút ra các kết luận một cách hiệu quả. Từ một tập số liệu thu
thập được, thông tin thường được trình bày ở các dạng:
Các đại lượng mô tả
Các biễu đồ.
Các đại lượng mô tả thường dùng bao gồm:
Đại lượng mô tả xu hướng trung tâm
Đại lượng mô tả biến thiên
Đại lượng mô tả tỷ lệ
Các đại lượng mô tả xu hướng trung tâm bao gồm yếu vị, trung vị, trung bình.
Các đại lượng mô tả biến thiên bao gồm khoảng, tổng bình phương, trung bình
bình phương, phương sai, độ lệch chuẩn. Đại lượng mô tả tỷ lệ như khi xác định
tỷ lệ lỗi, tỷ lệ hư hỏng trogn 1 quá trình sản xuất. Các biễu đồ thường dùng trong
thống kê bao gồm: biểu đồ điểm, biểu đồ thân lá, biểu đồ hộp, tần đồ, phân bố
thực nghiệm... Các đại lượng và đồ thị nêu trên sẽ tuần tự trình bày ở phần thống
kê mô tả sau.
1.3 Thống kê suy diễn
1.3.1 Đám đông và mẫu
Đám đông được định nghĩa là tập tất cả các phần tử quan tâm. Khi số phần tử
của đám đông rất lớn, việc thu thập dữ liệu từ tất cả các phần tử của đám đông là
khó khăn. Lấy mẫu là việc rút ra mẫu, là một số phần tử từ một đám đông với
mục đích tìm hiểu và rút ra kết luận về đám đông từ mẫu thu thập được. Số phần
tử n của mẫu, hay còn gọi là cỡ mẫu, thường rất nhỏ hơn số phần tử N của đám
đông thường rất lớn, có thể là vô hạn.
Để có thể suy diễn về đám đông từ mẫu, việc lấy mẫu cần được thực hiện ngẫu
nhiên với giả định các giá trị thu thập từ cùng một phân bố, được gọi là phân bố
tiềm ẩn của đám đông hay mẫu là các biến ngẫu nhiên độc lập, đồng dạng phân
bố.
1.3.2 Tham số và hàm thống kê
a. Tham số
Tham số là số đo của đám đông. Các tham số của đám đông thường gặp như:
Kỳ vọng ,
Phương sai ² hay độ lệch chuẩn ,
Tỷ lệ p.
b. Hàm thống kê
Hàm thống kê là số đo từ mẫu hay hàm của các biến ngẫu nhiên trên mẫu, không
bao gồm các tham số phân bố. Hàm thống kê thường dùng như trung bình mẫu,
phương sai mẫu, độ lệch chuẩ mẫu, tỷ lệ mẫu... Tùy thuộc vào tham số quan tâm,
ta có hàm thống kê tương ứng. Các tham số của đám đông thường được suy diễn
từ các hàm thống kê phù hợp của mẫu.
1.3.3 Thống kê suy diễn
a. Suy diễn thống kê
Suy diễn thống kê bao gồm:
Suy diễn tham số
Suy diễn phi tham số
Suy diễn tham số thực hiện khi biết phân bố tiềm ẩn F và suy diễn về các tham
số phân bố hay các thuộc tính biến ngẫu nhiên như kỳ vọng, phương sai, ... Suy
diễn tham số dựa vào các hàm thống kê. Khi không biết phân bố tiềm ẩn, cần đặt
các giả sử về phân bố tiềm ẩn và dữ kiện mẫu được sử dụng để xác định hay suy
diễn phân bố tiềm ẩn với các công cụ thường gặp như chuẩn đồ, phân bố thực
nghiệm, tần đồ, các phương pháp kiểm định phân bố…
Suy diễn phi tham số là suy diễn khi hòan toàn không biết phân bố tiềm ẩn,
không đặt bất kỳ giả sử nào về phần bố tiềm ẩn. Vì không biết phân bố nên
không có suy diễn về tham số phân bố, suy diễn được gọi là suy diễn phi tham
số.
b. Bài toán suy diễn
Các bài toán cơ bản của thống kê suy diễn bao gồm:
Ước lượng.
Kiểm định.
Hồi quy
Bài toán ước lượng được dùng để ước lượng các tham số phân bố của biến ngẫu
nhiên như kỳ vọng , phương sai ² hay độ lệch chuẩn . Các phương pháp
ước lượng bao gồm ước lượng điểm và ước lượng khoảng. Ước lượng điểm ước
lượng giá trị của tham số phân bố. Ước lượng khoảng ước lượng khoảng giá trị
của tham số phân bố với 1 độ tin cậy xác định.
Bài toán kiểm định kiểm định các giả thuyết thống kê, bao gồm kiểm định phân
bố và kiểm định tham số. Kiểm định phân bố được dùng để kiểm định các giả
thuyết thống kê về phân bố của biến ngẫu nhiên. Kiểm định tham số được dùng
để kiểm định các giả thuyết thống kê về tham số phân bố của biến ngẫu nhiên.
Bài tóan hồi quy giúp suy diễn một biến ra phụ thuộc từ các biến vào độc lập,
bao gồm hồi quy đơn và hồi quy bội. Hồi quy đơn là hồi quy với 1 biến độc lập
ở đầu vào. Hồi quy bội là hồi quy với nhiều biến độc lập ở đầu vào.
1.4 Dữ liệu thống kê
1.4.1 Phân lọai dữ liệu thống kê
Dữ liệu thống kê được chia thành 2 lọai cơ bản:
Dữ liệu định tính
Dữ liệu định lượng
a. Dữ liệu định tính
Dữ liệu định tính là dữ liệu phi số học bao gồm 2 lọai:
Dữ liệu định danh
Dữ liệu thứ tự
Dữ liệu định danh là dữ liệu được sử dụng để định danh nhằm phân lọai các
phần tử của tập hợp quan tâm. Chẳng hạn như trong 1 lớp học có 2 lọai sinh viên
là nam và nữ. Dữ liệu thứ tự là dữ liệu được sử dụng để xếp thứ tự hay xếp hạng
các phần tử của tập hợp. Chẳng hạn như công nhân trong một nhà máy đựơc xếp
thành 5 hạng theo năng suất.
b. Dữ liệu định lượng
Dữ liệu định lượng là dữ liệu số học bao gồm 2 lọai:
Dữ liệu dạng khoảng
Dữ liệu dạng tỷ lệ
Dữ liệu dạng khoảng là dữ lịêu số học với thang đo bao gồm các Khoảng bằng
nhau, chẳng hạn như nhiệt độ. Dữ liệu dạng khoảng có thể dùng để xếp hạng
phần tử như dữ liệu thứ tự, chẳng hạn như phần tử có nhiệt độ 20 C thì có nhiệt
độ thấp hơn nhiệt độ phần tử có nhiệt độ 21 C. Tuy nhiên, với dữ liệu thứ tự
khoảng cách giữa các mức kế tiếp là không có ý nghĩa, với dữ liệu dạng khoảng,
khoảng cách giữa các mức kế tiếp là có ý nghĩa.
Dữ liệu dạng tỷ lệ là dữ liệu có dạng và đặc tính như dữ liệu dạng khoảng, nghĩa
là dữ lịêu số học với thang đo bao gồm các khoảng bằng nhau và có thể dùng để
xếp hạng phần tử. Sự khác nhau là ở chỗ, dữ liệu dạng khoảng không có điểm 0
cố định, mà điểm 0 chỉ là quy ước. Còn dữ liệu dạng tỷ lệ là dữ liệu có điểm 0 cố
định. Với số đo bằng 0, phần tử xem như không có, chẳng hạn như dữ liệu trọng
lượng, thể tích... Với điểm 0 không cố định, tỷ lệ giữa các dữ liệu dạng Khoảng
là không có ý nghĩa. Với điểm 0 cố định, tỷ lệ giữa các dữ liệu dạng tỷ lệ là có ý
nghĩa. Chẳgn hạn như người 100kg là nặng gấp 2 người 50 kg.
1.4.2 Sử dụng kỹ thuật thống kê
Các kỹ thuật thống kê sử dụng để phân tích dữ liệu phụ thuộc vào lọai dữ liệu.
Xếp hạng dữ liệu từ mức thấp đến cao theo kỹ thuật thống kê sử dụng là như
sau:
1. Dữ liệu định danh
2. Dữ liệu thứ tự
3. Dữ liệu dạng khoảng
4. Dữ liệu dạng tỷ lệ
Các kỹ thuật thống kê sử dụng cho dữ liệu mức cao thì có thể sử dụng cho dữ
liệu mức thấp hơn. Ngược lại, các kỹ thuật thống kê sử dụng cho dữ liệu mức
thấp thì không thể sử dụng cho dữ liệu mức cao hơn. Kỹ thuật thống kê suy diễn
có thể phân thành 2 lọai:
Kỹ thuật tham số
Kỹ thuật phi tham số
Kỹ thuật tham số bao gồm các kỹ thuật thống kê có chứa giả sử về phân bố của
đám đông và chỉ sử dụng cho các dữ liệu định lượng. Kỹ thuật phi tham số bao
gồm các kỹ thuật thống kê không có giả sử về phân bố đám đông, sử dụng
chuyên cho các dữ liệu định tính. Kỹ thuật phi tham số cũng có thể sử dụng để
phân tích dữ liệu định lượng.
Chương 2
THỐNG KÊ MÔ TẢ
Phân bố thực nghiệm
Phân bố tần suất
Đo lường xu hướng trung tâm
Đo lường biến thiên
Đo lường dạng phân bố
Biễu đồ thống kê
2.1 Phân bố thực nghiệm
2.1.1 Dữ liệu thực nghiệm
Dữ liệu thực nghiệm là số liệu thống kê thô chưa qua xử lý, thu thập được từ đại
lượng quan tâm. Gọi X là đại lượng quan tâm, N là số dữ liệu thu thập được. Dữ
liệu thực nghiệm được trình bày bởi tập hợp sau:
X = {X1, X2, ..., XN} = { Xi, i = 1N}
Các thuộc tính cơ bản của dữ lịêu bao gồm:
Số số liệu: N
Giá trị cực tiểu: Xmin = Min (X1, X2, ..., XN)
Giá trị cực đại: Xmax = Max (X1, X2, ..., XN)
Khoảng dữ liệu: R = Xmax - Xmin
Ví dụ: Kỳ thi vào lớp 6 trường Trần Đại Nghĩa, niên khóa 2013-2014, có số
lượng thí sinh là N = 3531. Kết quả điểm 3 môn Tiếng Việt, Tiếng Anh, Tóan và
tổng điểm như ở bảng sau.
Tập số liệu tổng điểm thi X bao gồm 3531 số liệu với 1 phần số liệu như ở bảng
sau.
Từ toàn bộ tập số liệu, ta xác định được các thuộc tính cơ bản:
Số số liệu: N = 3531
Giá trị cực tiểu: Xmin = 0
Giá trị cực đại: Xmax = 28,5
Khoảng dữ liệu: R = Xmax – Xmin = 28,5
2.1.2 Phân bố thực nghiệm
Phân bố thực nghiệm là phân bố suy từ tập số liệu thực nghiệm bao gồm:
Phân bố trọng lượng p.
Phân bố tích lũy F.
a. Phân bố trọng lượng
Phân bố trọng lượng p của tập số liệu thực nghiệm { Xi, i = 1N}được xác định
như sau:
p(x) = (Số số liệu Xi: Xi = x) / N
b. Phân bố tích lũy
Phân bố tích lũy F của một tập số liệu thực nghiệm {Xi, i = 1N}được xác định
như sau:
F(x) = (Số số liệu Xi: Xi x ) / N, x R
Thấy rằng:
F (-) = 0
F () = 1.
Từ tập số liệu thực nghiệm {X1, …, XN}, để xác định phân bố thực nghiệm F ta
sắp xếp lại để có tập số liệu theo thứ tự:
X(1) … X(N)
Phân bố thực nghiệm Fn được xác định như sau:
F(X(i)) = i/N, i=1N
Để thuận tiện trong thực tế, ta thường điều chỉnh phân bố thực nghiệm Fn như
sau:
Fn(X(i)) = (i-0,5)/N, i=1N
Ví dụ: Điểm S của môn học Lean Six Sigma của 1 lớp có 79 sinh viên như
bảng sau:
Từ đó phân bố trọng lượng và và phân bố tích lũy của bảng điểm môn học tính
được như bảng sau:
2.2 Phân bố tần suất
2.2.1 Phân nhóm dữ liệu
Khi số số liệu thực nghiệm rất lớn, dữ liệu thống kê thường được phân nhóm
thành nhiều nhóm. Tương ứng, khoảng dữ liệu được phân thành nhiều khoảng
con, số Khoảng thường được chọn từ 5 đến 15 nhóm. Bề rộng các khoảng định
bởi:
W=R/C
Với W là bề rộng Khoảng, C là số khoảng. Để thuận tiện trong tính tóan, bề rộng
các khoảng bằng nhau, với các giá trị giới hạn được làm tròn. Sau khi xác định
các khoảng, mỗi khoảng có giới hạn dưới, giới hạn trên và tâm khoảng hay điểm
giữa của khoảng là giá trị trung bình của các giới hạn của khoảng. Tâm khoảng
được xem là giá trị đại diện của khoảng.
2.2.2 Phân bố tần suất
Sau khi phân nhóm, chia khoảng dữ liệu thành các khoảng con, số dữ liệu trong
một khoảng con được xác định, gọi là tần suất xuất hiện dữ liệu trong khoảng.
Phân bố tần suất là bảng dữ liệu biễu thị các khoảng cùng với tần suất tương
ứng.
Tập dữ liệu thô với N dữ liệu {Xi, i = 1N}là tập dữ liệu chưa phân nhóm, có
thể biễu diễn bởi tập dữ liệu phân nhóm với tần suất ở từng nhóm như sau:
{(Cj, Nj ), j = 1C}
Cj là tâm khoảng j
Nj là tần suất ở khoảng j.
Ví dụ: Xem tập dữ liệu tổng điểm thi ở ví dụ trên. Khoảng của tổng điểm 3
môn từ 0 đến 30 được chia thành 15 khoảng R với độ rộng mỗi khoảng bằng
nhau W=2. Từ tập dữ liệu thô thu được ở trên, phân bố tần suất tổng điểm thi
như ở bảng sau:
a. Tần suất tương đối
Với 1 phân bố tần suất của 1 tập dữ liệu, tần xuất tương đối ở 1 khoảng là tỷ lệ
giữa tần suất của khoảng và tổgn số dữ liệu thu thập được:
fj = Nj / N, j = 1C
fj là tần suất tương đối ở khoảng j.
Ví dụ: Từ phân bố tần suất tổng điểm thi, ta xác định tần suất tương đối f của
các khoảng điểm thi như ở bảng sau.
b. Tần suất tích lũy
Với 1 phân bố tần suất của 1 tập dữ liệu, tần xuất tích lũy ở 1 khoảng là tổng tích
lũy tần suất các khoảng từ khoảng thấp nhất đến khoảng quan tâm:
Fj = [Nk, k=1 j], j = 1C
Fj là Tần suất tích lũy ở khoảng j.
Ví dụ: Từ phân bố tần suất tổng điểm thi ở ví dụ trên, ta xác định tần suất tích
lũy F của các khoảng điểm thi như ở bảng sau.
2.3 Đo lường xu hướng trung tâm
Xu hướng trung tâm của 1 tập dữ liệu thường được đo bởi:
Yếu vị
Trung vị
Trung bình
2.3.1 Yếu vị
Yếu vị của 1 tập số liệu là giá trị có tần suất xuất hiện nhiều nhất trong tập số
liệu.
a. Số liệu không phân nhóm
Với tập số liệu không phân nhóm {X1, …, XN}, yếu vị Mo là giá trị có tần suất
xuất hiện nhiều nhất trong tập số liệu.
Ví dụ: Với tập số liệu {15, 17, 21, 16, 15, 14, 13} thì Mo = 15
b. Số liệu phân nhóm
Với số liệu phân nhóm {(Cj, Nj), j = 1C}, yếu vị là tâm của khoảng yếu vị.
Với khoảng yếu vị là khoảng có tần suất lớn nhất trong các khoảng.
Ví dụ: Xem phân bố tần suất tổng điểm thi như ở bảng sau:
Khoảng yếu vị là khoảng số 9 có tần suất cao nhất là 605. Tổng điểm của các thí
sinh tập trung nhiều nhất ở khoảng điểm từ 16 đến 18 điểm. Yếu vị được ước
lượng là tâm của khoảng yếu vị:
Mo = 17 (điểm)
2.3.2 Trung vị
Trung vị Md của một tập số liệu là điểm chia tập số liệu thành 2 phần với số
phần tử ở mỗi phần bằng nhau.
a. Số liệu không phân nhóm
Để xác định trung vị của tập số liệu không phân nhóm, ta theo các bước sau. Sắp
xếp tập số liệu ban đầu thành tập số liệu thứ tự, có giá trị tăng dần.
{Xi, i = 1N} { X(k), (k) = 1N X(k) X(k+1) }
Trung vị được xác định từ tập số liệu theo thứ tự như sau:
N = 2k-1 Md = X(k)
N = 2k Md = (X(k) +X(k+1))/2
Ví dụ: Với tập số liệu {15, 17, 21, 16, 15, 14, 13} thì tập số liệu theo thứ tự gia
tăng là:
{13, 14, 15, 15, 16,17, 21}
Md = 15
Với tập số liệu {15, 17, 21, 16, 15, 14, 13, 19} thì tập số liệu theo thứ tự gia tăng
là:
{13, 14, 15, 15, 16,17, 19, 21}
Md = (15+16) / 2 = 15,5
b. Số liệu phân nhóm
Với tập số liệu phân nhóm { (Cj, Nj ), j = 1C}, trung vị được xác định theo
khoảng trung vị. Với khoảng trung vị là khoảng có chứa điểm trung vị.
Trong đó:
Lm: Cận dưới khoảng trung vị
Fm-1: Tần suất tích lũy đến Khoảng dưới Khoảng trung vị.
Nm: Tần suất Khoảng trung vị
Ví dụ: Xem phân bố tần suất tổng điểm thi như ở bảng sau:
Ta thấy:
W=2
N = 3531
Điểm trung vị nằm ở vị trí:
N/2 = 3531/2 = 1765,5
Từ tần suất tích lũy, ta thấy khoảng trung vị là khoảng 9, từ đó:
Lm = 16
Fm-1 = 1571
Nm = 605
Trung vị của phân bố tổng điểm thi:
2.3.3 Trung bình
a. Số liệu không phân nhóm
Với tập số liệu {X1, …, XN}, trung bình M được định nghĩa:
M = (X1+…+XN)/N
Ví dụ: Với tập số liệu {15, 17, 21, 16, 15, 14, 13} thì trung bình là:
M = (15 + 17 + 21 + 16 + 15+ 14 + 13) / 7
Ví dụ: Với tập số liệu điểm thi không phân nhóm ban đầu, ta xác định đựơc
trung bình tổng điểm thi như sau:
M = (X1+…+X3531)/3531 = 16,19456245
b. Số liệu phân nhóm
Với tập số liệu phân nhóm {(Cj, Nj ), j = 1C}, trị trung bình được xác định
theo giá trị tâm khoảng và tần suất hay tần suất tương đối của các khoảng như
sau:
Ví dụ: Với phân bố tần suất tổng điểm thi, ta xác định tần suất tương đối f của
các khoảng điểm thi, từ đó xác định đựơc trung bình tổng điểm thi như ở
bảng sau
Vậy trung bình tổng điểm của các thí sinh là:
M = 16,33559898
Thấy rằng trung bình tổng điểm thi theo số liệu phân nhóm hơi khác hơn với
trung bình tổng điểm thi theo số liệu không phân nhóm ở ví dụ trên.
2.4 Đo lường biến thiên
Biến thiên của 1 tập dữ liệu thường được đo bởi:
Khoảng dữ liệu R
Khoảng tứ phân vị IQR
Trung bình độ lệch tuyệt đối MAD
Tổng bình phương SS
Trung bình bình phương MS
Phương sai S²
Độ lệch chuẩn S
Hệ số biến thiên CV
2.4.1 Khoảng dữ liệu
Khoảng dữ liệu R của một tập số liệu được xác định như sau:
R = Xmax – Xmin
Ví dụ: Với tập số liệu tổng điểm thi:
Xmax = 28,5; Xmin = 0
R = Xmax – Xmin = 28,5
Thường tập số lịêu thô ban đầu được sắp xếp thành tập số liệu theo thứ tự gia
tăng, từ đó Khoảng dữ liệu đựơc xác định như sau:
R = X(N) – X(1)
Ví dụ: Với tập số liệu {15, 17, 21, 16, 15, 14, 13} thì tập số liệu theo thứ tự gia
tăng là:
{13, 14, 15, 15, 16,17, 21} R = 21 – 13 = 8
2.4.2 Khoảng tứ phân vị
a. Bách phân vị P
Các điểm bách phân vị P của một tập số liệu, chia tập số liệu thành 100 phần. Có
99 điểm bách phân vị. Điểm bách phân vị thứ n, Pn là một số liệu có giá trị sao
cho ít nhất n% số số liệu nhỏ hơn giá trị này và nhiều nhất (1-n) % số số liệu lớn
hơn giá trị này.
Với tập số liệu {X1, …, XN}, để các định điểm bách phân vị, ta sắp xếp lại để
có tập số liệu theo thứ tự:
X(1) … X(N)
Điểm bách phân vị thứ i được xác định như sau:
Pi = X(j), j = i n/100
b. Tứ phân vị Q
Các điểm tứ phân vị Q của một tập số liệu, chia tập số liệu thành 4 phần. Có 3
điểm tứ phân vị Q1, Q2, Q3 được xác định là các điểm bách phân vị:
Q1 = P25
Q2 = P50
Q3 = P75
Trung vị Med là điểm tứ phân vị thứ 2 hay điểm bách phân vị thứ 50:
Med = Q2 = P50
c. Khoảng tứ phân vị IQR
Khoảng tứ phân vị IQR của một tập số liệu là khoảng cách giữa 2 điểm tứ phân
vị Q1 và Q3:
IQR = Q3 – Q1 = P75 – P25
Ví dụ: Xem tập dữ liệu {28, 13, 20, 34, 27, 30, 18, 16, 29, 17, 11, 32, 25, 19,
33}. Tập dữ liệu này có số số liệu N=15, tập dữ liệu thứ tự tăng dần:
{11, 13, 16, 17, 18, 19, 20, 25, 27, 28, 29, 30, 32, 33, 34}
Một số điểm bách phân vị được tính như sau:
P35 = 18,6
P55 = 26,6
Các điểm tứ phân vị được tính như sau:
Q1 = P25 = 17
Q2 = P50 = 25
Q3 = P75 = 30
Khoảng tứ phân vị:
IQR = 30 – 25 = 5
2.4.3 Trung bình độ lệch tuyệt đối MAD
Trung bình độ lệch tuyệt đối của một tập số liệu { Xi, i = 1N} được xác định
như sau:
Ví dụ: Với tập số liệu tổng điểm thi ta xác định được N = 3531; M =
16,19456245. Trung bình độ lệch tuyệt đối của tập số liệu tính đựơc:
MAD = 3,935334134
Vậy điểm trung bình là khoảng 16 điểm, điểm các thí sinh lệch so với điểm trung
bình khoảng 4 điểm.
2.4.4 Tổng bình phương SS
a. Số liệu không phân nhóm
Tổng bình phương SS của một tập số liệu không phân nhóm {Xi, i = 1N} được
xác định là tổng bình phương các độ lệch so với giá trị trung bình:
b. Số liệu phân nhóm
Với tập số liệu phân nhóm {(Cj, Nj), j = 1C}, tổng bình phương được xác định
theo tâm và tần suất các Khoảng như sau.
Ví dụ: Với phân bố tổng điểm thi ở ví dụ trên, cùng trung bình điểm thi tính
đựơc là M = 16.33559898. Với Sj= Nj(Cj-M)², bảng tính tổng bình phương tập
số liệu tổng điểm thi như sau.
Vậy biến thiên tổng điểm thi biễu thị bởi tổng bình phương tính được ở bảng
trên như sau:
SS = 89941.31521
2.4.5 Trung bình bình phương MS
a. Số liệu không phân nhóm
Trung bình bình phương MS của một tập số liệu không phân nhóm {Xi, i =
1N} được xác định như sau:
Thấy rằng:
MS = SS / N
b. Số liệu phân nhóm
Với tập số liệu phân nhóm {(Cj, Nj), j = 1C}, trung bình bình phương được
xác định theo tâm và tần suất các khoảng như sau.
2.4.6 Phương sai S²
a. Số liệu không phân nhóm
Với tập số liệu mẫu {Xi, i = 1N}, phương sai của tập số liệu được xác định
như sau:
Thấy rằng:
S² = SS / N = MS
b. Số liệu phân nhóm
Với tập số liệu phân nhóm { (Cj, Nj ), j = 1C}, phương sai được xác định theo
tâm và tần suất các khoảng như sau.
Ví dụ: Với phân bố tổng điểm thi ở ví dụ trên, cùng trung bình điểm thi tính
đựơc là M = 16.33559898. Bảng tính phương sai tổng điểm thi như sau.
Vậy biến thiên tổng điểm thi biễu thị bởi phương sai tổng điểm thi tính được ở
bảng trên như sau:
S² = 89941.31521/3531 = 25.47191028
2.4.7 Độ lệch chuẩn
Từ phương sai của tập số liệu, độ lệch chuẩn của tập số liệu đựơc xác định như
sau:
S = S²
Thấy rằng:
Ví dụ: Độ lệch chuẩn tổng điểm thi ở ví dụ trên tính đựơc từ phương sai tổng
điểm thi như sau:
Trong 1 tập số liệu, trị chuẩn Z của 1 giá trị biến X được xác định theo trị trung
bình M và độ lệch chuẩn S của tập số liệu như sau.
Z = (X-M) / S
Ví dụ: Với tập số liệu phân nhóm tổng điểm thi ở ví dụ trên, trị trung bình và
độ lệch chuẩn tính đựơc:
M = 16,34
S = 5,05
Xem thí sinh có số báo danh 0169, Nguyễn Như Tú Anh có tổng số điểm
X=23,5. Trị chuẩn ứng với tổng điểm này là:
Z = (23,5-16,34) / 5,05 = 1,42.
Trị chuẩn đo khoảng cách tương đối giữa giá trị biến tương ứng và trị trung bình,
tính tương đối theo độ lệch chuẩn, với các tính chất:
Z > 0: X > M
Z = 0: X = M
Z < 0: X < M
2.4.8 Hệ số biến thiên CV
Hệ số biến thiên của của tập số liệu đựơc xác định là tỷ lệ phần trăm của độ lệch
chuẩn và trị trung bình:
CV = 100×S/M
Ví dụ: Hệ số biến thiên tổng điểm thi ở ví dụ trên tính đựơc từ độ lệch chuẩn
và trung bình tổng điểm thi như sau
CV = 100×5,05/16,34 = 30,89 (%)
2.5 Đo lường dạng phân bố
Dạng phân bố của 1 tập dữ liệu được đo bởi các đại lựơng sau:
Độ lệch phân bố
Độ nhọn phân bố
2.5.1 Độ lệch phân bố
Phân bố tập dữ liệu tùy thuộc vào tính đối xứng, có 2 dạng:
Phân bố đối xứng
Phân bố không đối xứng
Phân bố đối xứng là phân bố có dạng hình chuông đối. Phân bố không đối xứng
là phân bố có dạng bị lệch, bao gồm:
Phân bố lệch dương
Phân bố lệch âm
Phân bố lệch dương, còn gọi phân bố lệch phải, là phân bố có dạng lệch sang
phải, với dữ liệu phân tán ở phía phải và tập trung ở phía ngược lại như. Ngược
lại, phân bố lệch âm, còn gọi phân bố lệch trái, là phân bố có dạng lệch sang trái,
với dữ liệu phân tán ở phía trái và tập trung ở phía ngược lại.
Quan hệ giữa các số đo xu hướng trung tâm của các phân bố theo dạng phân bố
như sau:
Phân bố đối xứng: Md = M = Mo
Phân bố lệch dương: Md > M > Mo
Phân bố lệch âm: Md < M < Mo
Karl Pearson dựa vào các số đo xu hướng trung tâm xây dựng chỉ số độ lệch
phân bố của 1 tập dữ liệu được định nghĩa như sau:
Sk = 3(M-Md) / S
Trong đó, Sk là chỉ số độ lệch phân bố của tập dữ liệu, M là trung bình tập dữ
liệu, Md là trung vị tập dữ liệu, S là độ lệch chuẩn tập dữ liệu. Chỉ số độ lệch
phân bố của tập dữ liệu có các tính chất sau:
Phân bố đối xứng: Sk = 0.
Phân bố lệch: Sk 0.
Phân bố lệch dương: Sk > 0
Phân bố lệch âm: Sk < 0
Phân bố càng lệch độ lớn Sk càng tăng.
Ví dụ: Phân bố tổng điểm thi có các đại lượng ước lượng được như sau: Mo =
17; Md = 16,64; M = 16,34. Chỉ số độ lệch phân bố tính được như sau:
Sk = 3(M-Md) / S = 3(16,34-16,64)/5,05 = - 0,1782
Thấy rằng phân bố tổng điểm thi hơi bất đối xứng, có phần lệch âm. Tổng điểm
thi hơi phân tán nhiều ở vùng có điểm thấp hơn 17 điểm.
2.5.2 Độ nhọn phân bố
Theo độ nhọn, dạng phân bố được chia làm 3 loại:
Phân bố có độ nhọn cao
Phân bố có độ nhọn trung bình
Phân bố có độ nhọn thấp
Phân bố có độ nhọn cao khi dữ liệu tập trung. Phân bố có độ nhọn trung bình khi
dữ liệu phân bổ tương đối. Phân bố có độ nhọn thấp khi dữ liệu phân tán.
2.6 Biễu đồ thống kê
Biểu diễn thống kê là những công cụ trực quan nhằm biểu diễn dữ liệu thu được
từ kết quả thực nghiệm, từ đó có thể rút ra các kết luận hiệu quả. Các biễu đồ
thường dùng trong thống kê bao gồm:
Biễu đồ dạng tròn
Biễu đồ Pareto
Biểu đồ thân lá
Biểu đồ hộp
Biễu đồ phân bố thực nghiệm
Biễu đồ phân bố tần suất
Biễu đồ phân tán
2.6.1 Biễu đồ hình tròn
Biễu đồ hình tròn là biễu đồ biễu thị dữ kiện dạng hình tròn, trong đó toàn bộ dữ
kiện chiếm cả hình tròn, mỗi phần dữ kiện là một phần hình tròn với diện tích
tương ứng. Biễu đồ hình tròn thường dùng để trình bày những dữ kiện như thị
phần, phân bổ ngân sách, thời gian, nguồn lực sản xuất...
Ví dụ: Phần trăm trình độ sinh viên trong 1 lớp học như ở bảng sau:
Số liệu tỷ lệ trình độ sinh viên của lớp có thể được trình bày ở biễu đồ hình tròn
với các sector có diện tích tỷ lệ với % của từng trình độ.
2.6.2 Biễu đồ Pareto
Thực tế cần giải quyết nhiều vấn đề, mỗi vấn đề do nhiều nguyên nhân. Với
nguồn lực giới hạn, vấn đề quan trọng, nguyên nhân chủ yếu cần được xác định
để có thể tập trung nguồn lực để giải quyết theo thứ tự ưu tiên.
Vilfredo Pareto, nhà xã hội học người Anh nhận thấy, 20% người dân tập trung
80% tài sản từ đó tìm ra định luật 20-80. Trong quản lý chất lượng, định luật 2080 có thể hiểu là 20% nguyên nhân gây ra 80% thiệt hại hay 20% nguyên nhân
tạo ra 80% tình trạng không chất lượng. Sự chính xác của định luật 20-80 chỉ là
tương đối, tuy nhiên cần biết một số ít nguyên nhân gây phần lớn vấn đề về chất
lượng.
Nhiều vấn đề với mức độ quan trọng hay ảnh hưởng khác nhau cần được giải
quyết đồng thời thì vấn đề nào giải quyết trước, vấn đề nào giải quyết sau. Biểu
đồ Pareto là công cụ xếp loại vấn đề theo thứ tự quan trọng, từ đó giải quyết vấn
đề theo thứ tự ưu tiên.
Biểu đồ Pareto là phân bố tần suất với thuộc tính dữ kiện xếp theo loại, biểu đồ
Pareto sắp xếp theo thứ tự tần suất giảm dần từ trái sang phải, giúp phát hiện
những lỗi thường xảy ra nhất. Một ví dụ như ở hình sau:
Tuy nhiên để ý rằng, lỗi thường xảy ra chưa hẳn là lỗi quan trọng nhất theo
nghĩa gây hậu quả nghiêm trọng, do đó biểu đồ Pareto có thể là tần đồ trọng
lượng hay tần đồ chi phí.
Biểu đồ Pareto áp dụng rộng rãi trong nhiều lĩnh vực như đo lường mức độ than
phiền của khách hàng, định ra các khuyết tật chất lượng, hỏng hóc và nguyên
nhân. Phân tích Pareto rất quan trọng trong quá trình cải tiến, được sử dụng với
nhiều công cụ thống kê, đầu tiên dữ liệu được thu thập qua bảng kê, kế đến, biểu
đồ Pareto xác định một vài vấn đề quan trọng, tiếp theo, biểu đồ nhân quả được
sử dụng để phân tích vấn đề. Cuối cùng, kiểm đồ biểu diễn sự ổn định của quá
trình. Các công cụ biểu đồ nhân quả và kiểm đồ sẽ được giới thiệu sau.
Thủ tục vẽ biểu đồ Pareto & phân tích ABC gồm các bước sau:
Liệt kê tất cả nguyên nhân tiềm năng các lỗi chất lượng
Chuẩn bị một bảng kê thu thập dữ liệu các nguyên nhân
Xác định khoảng thời gian quan sát
Tính thiệt hại / đếm số lỗi do mỗi nguyên nhân
Xếp hạng nguyên nhân theo thứ tự nhiều xếp trước và ít xếp sau
Vẽ đồ thị Pareto: Thiệt hại / số lỗi - nguyên nhân
Xếp loại A các nguyên nhân gây 80% thiệt hại/số lỗi
Chia đều những nguyên nhân còn lại theo 2 loại B & C
Ưu tiên giải quyết những vấn đề loại A, tiếp theo là loại B, cuối cùng là loại C.
2.6.3 Biểu đồ thân lá
Biểu đồ thân lá tổ chức tập số liệu thành các nhóm bởi thân và lá, trong đó thân
là các số ở cực trái của số liệu có giá trị lớn và lá là các số ở cực phải số liệu có
giá trị thấp. Biểu đồ thân lá là công cụ đơn giản giúp thấy phân bố của tập số liệu
với xu hướng trung tâm và mức độ phân tán.
Ví dụ: Giá trị 1 đặc tính chất lượng X của 1 sản phẩm thu thập được như dãy
số sau:
18,02; 20,25; 24,33; 23,39; …; 21,35; 19,09; 17,45; 22,13; …
Tập số liệu trên có thể trình bày lại theo biễu đồ thân lá như ở hình sau, với thân
là phần nguyên, lá là phần thập phân.
2.6.4 Biểu đồ hộp
Biểu đồ hộp của 1 tập số liệu chỉ báo các điểm quan trọng của tập dữ liệu, bao
gồm:
Điểm cực tiểu X
Điểm cực đại,
Khoảng tứ phân vị IQR và điểm trung vị Q2
Biểu đồ hộp là công cụ biểu diễn hiệu quả, giúp thấy được xu hướng và mức độ
phân tán của tập số liệu.
2.6.5 Biễu đồ phân bố thực nghiệm
Biễu đồ phân bố thực nghiệm là biễu đồ của các phân bố thực nghiệm của 1 tập
số liệu thực nghiệm bao gồm:
Biễu đồ phân bố trọng lượng p.
Biễu đồ phân bố tích lũy F.
Ví dụ: Điểm S, với số sinh viên N, phân bố trọng lượng p và và phân bố tích
lũy F của bảng điểm môn học ở ví dụ trên như bảng sau:
Từ các phân bố ta vẽ được các biễu đồ phân bố trọng lượng p sau.
Biễu đồ phân bố tích lũy F như hình sau.
2.6.6 Biễu đồ phân bố tần suất
Biễu đồ phân bố tần suất là biễu đồ của các phân bố tần suất của 1 tập số liệu
phân nhóm bao gồm:
Biễu đồ tần suất N
Biễu đồ tần suất tích lũy F
Ví dụ: Phân bố tần suất N và phân bố tần suất tích lũy của tập dữ liệu phân
nhóm tổng điểm thi ở ví dụ trên như ở bảng sau.
Từ các phân bố tần suất trên, ta vẽ được biễu đồ tần suất như hình sau
Nhìn vào biễu đồ tần suất ta thấy được phân bố tổng điểm thi với dạng phân bố,
xu hướng và mức độ phân tán. Thấy rằng điểm tập trung cao nhất ở Khoảng số
9, từ 16 đến 18 điểm. Biễu đồ tần suất tích lũy như ở hình sau.
2.6.7 Biểu đồ phân tán
Biểu đồ phân tán, còn gọi là tán đồ, giúp quan sát tương quan 2 biến số một cách
trực quan và định tính. Biểu đồ phân tán thường dùng trước biểu đồ Pareto và
sau biểu đồ nhân quả. Tán đồ quan sát tương quan đặc tính là có hay không, nếu
có là thuận hay nghịch, mạnh hay yếu, tuyến tính hay phi tuyến. Một tán đồ như
hình sau cho thấy 2 biến X và Y có tương quan thuận, tuyến tính.
Chương 3
LẤY MẪU
Lấy mẫu
Hàm thống kê
Phân bố mẫu
Đánh giá mẫu
3.1 Lấy mẫu
Lấy mẫu là việc rút ra một số phần tử từ một đám đông với mục đích tìm hiểu và
rút ra kết luận về đám đông. Số phần tử n của mẫu, hay còn gọi là cỡ mẫu,
thường rất nhỏ hơn số phần tử N của đám đông thường rất lớn, có thể là vô hạn.
3.1.1 Lấy mẫu ngẫu nhiên
Để có thể suy diễn về đám đông từ mẫu, việc lấy mẫu cần được thực hiện ngẫu
nhiên. Lấy mẫu ngẫu nhiên là lấy mẫu mà mọi phần tử của đám đông đều có
cùng xác suất đựơc chọn lựa.
Sai số lấy mẫu xuất hiện khi mẫu không đại diện cho đám đông dẫn đến việc suy
diễn cho đám đông từ mẫu là không chính xác. Các hàm thống kê tính tóan từ
mẫu không ước lượng chính xác các tham số của đám đông. Khi sử dụng các kỹ
thuật lấy mẫu ngẫu nhiên, sai số lấy mẫu có thể được tính tóan, xác định và phân
tích. Các kỹ thuật lấy mẫu ngẫu nhiên bao gồm
Lấy mẫu đơn
Lấy mẫu hệ thống
Lấy mẫu phân tầng
Lấy mẫu phân vùng
a. Lấy mẫu đơn
Lấy mẫu đơn là kỹ thuật lấy mẫu ngẫu nhiên cơ bản nhất. Phương pháp đánh số
cho mỗi phần tử của đám đông. Mẫu được chọn lựa theo 1 bảng số ngẫu nhiên
và số gán cho các phần tử của đám đông.
b. Lấy mẫu hệ thống
Lấy mẫu hệ thống là kỹ thuật lấy mẫu ngẫu nhiên đơn giản, dễ sử dụng nhất.
Phương pháp lấy mẫu là mọi phần tử thứ k của đám đông, với tham số k định
bởi cở mẫu n và số phần tử đám đông N như sau:
k=N/n
Phương pháp bao gồm các bước:
1- Đánh số các phần tử của đám đông từ 1 đến N.
2- Xác định k
3- Chọn ngẫu nhiên phần tử đầu tiên của mẫu trong k phần tử đầu tiên của đám
đông.
4- Xác định các phần tử tiếp theo với Khoảng cách tới phần tử đầu tiên là bội số
của k.
c. Lấy mẫu phân tầng
Lấy mẫu phân tầng là 1 kỹ thuật lấy mẫu ngẫu nhiên chia đám đông thành các
phân tầng, sau đó mẫu đựơc chọn lựa ngẫu nhiên từ mỗi phân tầng. Phân tầng là
tập hợp các phần tử có cùng yếu tố phân tầng. Chẳng hạn như với đám đông con
người, yếu tố phân tầng có thể là giới tính, tuổi tác, tôn giáo, quê quán, ... Các
phần tử trong mỗi phân tầng là đồng nhất nhau theo yếu tố phân tầng. Các phân
tầng là không xen phủ nhau.
d. Lấy mẫu phân vùng
Lấy mẫu phân vùng là 1 kỹ thuật lấy mẫu ngẫu nhiên chia đám đông thành các
phân vùng không xen phủ nhau, sau đó mẫu đựơc chọn lựa ngẫu nhiên từ mỗi
phân vùng. Khác với phân tầng, các phân vùng là không đồng nhất nhau. Chẳng
hạng như phân vùng là các thành phố, các công ty, các trường...
3.1.2 Lấy mẫu phân khối
Lấy mẫu ngẫu nhiên nhằm giảm thiểu ảnh hưởng của các yếu tố gây rối không
biết đựợc và không thể kiểm sóat đựơc khi thực nghiệm. Với yếu tố gây rối biết
đựợc và có thể kiểm sóat ta thường dùng kỹ thuật lấy mẫu phân khối để lọai bỏ
ảnh hưởng của các yếu tố này.
Khối là 1 tập hợp các điều kiện thực nghiệm đồng nhất, chẳng hạn như 1 lọat vật
tư từ 1 nhà cung cấp, 1 công nhân, 1 máy... Tính đồng nhất thay đổi từ khối này
đến khối khác. Phân khối phân chia dữ liệu thu thập thành từng nhóm tương ứng
với các khối.
Một trường hợp của lấy mẫu phân khối là lấy mẫu theo cặp, khi số liệu được lấy
theo cặp trên mỗi khối. Lấy mẫu theo cặp thường dùng khi suy diễn trên 2 đám
đông, được gọi là 2 đám đông phụ thuộc. Các mẫu theo cặp lấy từ 2 đám đông
phụ thuộc đựơc xem là các mẫu phụ thuộc.
3.2 Hàm thống kê
3.2.1 Hàm thống kê
Để suy diễn các tham số của đám đông cần lấy mẫu ngẫu nhiên với giả định các
giá trị thu thập từ cùng một phân bố F của biến ngẫu nhiên X, được gọi là phân
bố tiềm ẩn của đám đông hay mẫu là các biến ngẫu nhiên độc lập, đồng dạng
phân bố.
Mẫu thu thập thu thập từ đám đông là tập hợp của n biến ngẫu nhiên độc lập,
đồng dạng cùng phân bố F:
{X1, X2, ..., Xn}
Xi ~ F, i = 1n
Thực tế, phân bố F hầu như không xác định, cần phải sử dụng số liệu thu thập từ
mẫu để suy diễn phân bố. Một số trường hợp, cần giả sử dạng phân bố với 1 số
tham số phân bố chưa biết, cần suy diễn, đây là bài tóan suy diễn tham số. Một
số trường hợp khác, hầu như không biết gì về phân bố, không có giả sử gì về
dạng phân bố, đây là bài tóan suy diễn phi tham số.
Các tham số đám đông thường đựơc suy diễn qua các hàm thống kê. Hàm thống
kê là các đại lượng đựơc xác định từ mẫu, chỉ phụ thuộc vào mẫu, không phụ
thuộc vào tham số của đám đông. Các hàm thống kê thường gặp bao gồm:
Hàm thống kê suy diễn xu hướng trung tâm
Hàm thống kê suy diễn biến thiên
Hàm thống kê suy diễn tỷ lệ
3.2.2 Hàm thống kê suy diễn xu hướng trung tâm
Các hàm thống kê suy diễn xu hướng trung tâm bao gồm:
Yếu vị mẫu
Trung vị mẫu
Trung bình mẫu
Độ lệch trung bình mẫu
a. Yếu vị mẫu
Xem biến ngẫu nhiên X có phân bố F, yếu vị mo của phân bố đựơc xác định như
sau:
P{mo} = MaxxP(x)
Trong đó P là hàm trọng lượng p với phân bố rời rạc, và là hàm mật độ f với
phân bố liên tục.
Yếu vị mẫu SMo là hàm thống kê để suy diễn yếu vị phân bố. Với mẫu {X1, X2,
..., Xn} yếu vị mẫu SMo là giá trị có tần suất xuất hiện nhiều nhất.
b. Trung vị mẫu
Xem biến ngẫu nhiên X có phân bố F, trung vị m của phân bố đựơc xác định như
sau:
P{Xm} ½ và P{Xm} ½
Trung vị mẫu SMd là hàm thống kê để suy diễn trung vị phân bố. Với mẫu {X1,
X2, ..., Xn}, để xác định trung vị mẫu, ta xác định mẫu theo thứ tự:
X(1) … X(n)
Trung vị mẫu được xác định từ mẫu theo thứ tự như sau:
n=2k-1 SMd = X(k)
n=2k SMd = (X(k) +X(k+1))/2
c. Trung bình mẫu
Với mẫu {X1, X2, ..., Xn}, trung bình mẫu được định nghĩa:
Trung bình mẫu là hàm thống kê để suy diễn kỳ vọng của biến ngẫu nhiên.
d. Độ lệch trung bình mẫu
Độ lệch trung bình mẫu thường được xác định để suy diễn độ lệch kỳ vọng khi
lấy mẫu từ 2 đám đông.
i. Độ lệch trung bình mẫu
Xem 2 đám đông 1 và 2, mẫu 1 được lấy từ đám đông thứ 1 với cở mẫu n1, ta
xác định được trung bình mẫuX1. Mẫu 2 được lấy từ đám đông thứ 2 với cở
mẫu n2, ta xác định được trung bình mẫuX2. Độ lệch trung bình mẫu đựơc xác
định là X1 - X2.
ii. Độ lệch trung bình mẫu theo cặp
Khi lấy mẫu từ 2 đám đông theo cặp với số cặp hay cở mẫu n. Độ lệch mẫu được
xác định theo cặp. Độ lệch mẫu ở cặp thứ i:
Di, i=1n
Độ lệch trung bình mẫu theo cặp đựơc xác định:
D = (D1+…+Dn)/n
3.2.3 Hàm thống kê suy diễn biến thiên
Các hàm thống kê suy diễn biến thiên bao gồm:
Khoảng trong mẫu R
Tổng bình phương mẫu SS
Trung bình bình phương mẫu MS
Phương sai mẫu S²
Độ lệch chuẩn mẫu S
Tỷ lệ phương sai mẫu P
a. Khoảng trong mẫu R
Với mẫu {X1, X2, ..., Xn}, để xác định khoảng trong mẫu, ta xác định mẫu theo
thứ tự:
X(1) … X(n)
Khoảng trong mẫu R:
R = X(n) – X(1)
b. Tổng bình phương mẫu SS
Tổng bình phương của mẫu {X1, X2, ..., Xn} được xác định là tổng bình phương
độ lệch giữa mẫu và trung bình mẫu:
Tổng bình phương mẫu thừơng đựơc tính tóan theo dữ liệu thu thập bởi biễu
thức đơn giản sau:
c. Trung bình bình phương mẫu MS
Trung bình bình phương của mẫu {X1, X2, ..., Xn} được xác định từ tổng bình
phương mẫu như sau:
d. Phương sai mẫu S²
Với tập số liệu mẫu {X1, X2, ..., Xn}, phương sai mẫu được xác định như sau:
Thấy rằng:
S² = SS/(n-1)
S² = MS
Phương sai mẫu thường dùng để suy diễn phương sai đám đông. Phương sai mẫu
thừơng đựơc tính tóan theo dữ liệu thu thập bởi biễu thức đơn giản sau:
e. Độ lệch chuẩn mẫu S
Với mẫu {X1, X2, ..., Xn}, độ lệch chuẩn mẫu được xác định từ phương sai mẫu
như sau:
Khi lấy mẫu từ 2 đám đông theo cặp với số cặp n. Độ lệch chuẩn mẫu theo cặp
được xác định như sau:
f. Tỷ lệ phương sai mẫu
Khi lấy mẫu từ 2 đám đông 1 và 2. Xem mẫu 1 được lấy từ đám đông thứ 1 với
cở mẫu n1, ta xác định được phương sai mẫu S1². Xem mẫu 2 được lấy từ đám
đông thứ 2 với cở mẫu n2, ta xác định được phương sai mẫu S2². Tỷ lệ phương
sai mẫu đựơc xác định là S1²/ S2². Tỷ lệ phương sai mẫu là hàm thống kê thường
dùng để suy diễn khi so sánh phương sai của 2 đám đông.
3.2.4 Hàm thống kê suy diễn tỷ lệ
Với đám đông có thuộc tính phần tử dạng có hay không một đặc tính quan tâm,
tham số đám đông quan tâm là tỷ lệ số phần tử có đặc tính quan tâm. Chẳng hạn
như các sản phẩm của 1 quá trình sản xuất có 2 trạng thái hư hỏng (0) hay không
hư hỏng (1). Tham số quan tâm là tỷ lệ hư hỏng của quá trình, thường được suy
diễn bởi tỷ lệ mẫu. Với mẫu {X1, …, Xn}, tỷ lệ mẫu được xác định như sau:
P = K/n
Trong đó K là số phần tử có đặc tính quan tâm, và n là cở mẫu:
3.3 Phân bố mẫu
Phân bố mẫu là phân bố của các hàm thống kê, các phân bố này đóng vai trò
quan trọng trong suy diễn thống kê. Các phân bố mẫu thường dùng trong công
nghiệp bao gồm:
Phân bố trung bình mẫu
Phân bố độ lệch trung bình mẫu
Phân bố tổng bình phương mẫu
Phân bố trung bình bình phương mẫu
Phân bố phương sai mẫu
Phân bố tỷ lệ phương sai mẫu
Phân bố tỷ lệ mẫu
Phân bố độ lệch tỷ lệ mẫu
3.3.1 Phân bố trung bình mẫu
Nếu các biến ngẫu nhiên X1, X2, ..., Xn độc lập, đồng dạng phân bố chuẩn:
Xi ~ N(, ²), i=1n
Thì trung bình mẫu cũng có dạng phân bố chuẩn, với kỳ vọng và phương sai
được xác định như sau:
a. Định lý giới hạn trung tâm
Khi phân bố tiềm ẩn của đám đông không phải phân bố chuẩn, phân bố trung
bình mẫu cũng sẽ không phải phân bố chuẩn. Tuy nhiên, theo định lý giới hạn
trung tâm, với cở mẫu n đủ lớn, trung bình mẫu sẽ có phân bố xấp xỉ phân bố
chuẩn, bất chấp phân bố tiềm ẩn của đám đông. Thực tế thường xem “cở mẫu n
đủ lớn” là n30.
b. Chuẩn hóa trung bình mẫu
Trung bình mẫu được chuẩn hóa như sau:
Hay:
Khi trung bình mẫu có phân bố chuẩn, trung bình mẫu chuẩn hóa có phân bố
chuẩn đơn vị:
Với đám đông có số phần tử N hữu hạn, trung bình mẫu chuẩn hóa đựơc hiệu
chỉnh như sau:
c. Trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu
Khi không biết độ lệch chuẩn của phân bố tiềm ẩn, trung bình mẫu thường
được chuẩn hóa theo độ lệch chuẩn mẫu, hàm thống kê trung bình mẫu chuẩn
hóa theo độ lệch chuẩn mẫu:
Nếu các biến ngẫu nhiên X1, …, Xn độc lập, đồng dạng phân bố chuẩn, thì trung
bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có dạng phân bố Student với n-1
bậc tự do:
3.3.2. Phân bố độ lệch trung bình mẫu
Giả sử các biến ngẫu nhiên có phân bố chuẩn:
X1~ N(1, 1²)
X2~ N(2, 2²)
Ta xét 2 trường hợp khi biết và không biết phương sai.
a. Khi biết phương sai
Khi biết phương sai, độ lệch trung bình mẫu sẽ có phân bố chuẩn với kỳ vọng và
phương sai như sau:
X1 -X2 ~ N(1 – 2, (1²/n1 + 2²/n2))
Độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Khi phương sai bằng nhau:
1² = 2² ²
Độ lệch trung bình mẫu sẽ có phân bố chuẩn với kỳ vọng và phương sai như sau:
X1 -X2 ~ N(1 – 2, ²(1/n1 + 1/n2))
Độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
b. Không biết phương sai
Trường hợp không biết phương sai, hàm thống kê suy diễn thường dùng là độ
lệch trung bình mẫu chuẩn hóa. Ta xét 2 trường hợp:
Phương sai khác nhau.
Phương sai bằng nhau.
i. Phương sai khác nhau
Khi phương sai khác nhau, độ lệch trung bình mẫu chuẩn hóa theo các độ lệch
chuẩn mẫu như sau:
Với cở mẫu lớn, độ lệch trung bình mẫu chuẩn hóa theo các độ lệch chuẩn mẫu
có phân bố chuẩn đơn vị:
Với cở mẫu nhỏ, độ lệch trung bình mẫu chuẩn hóa theo các độ lệch chuẩn mẫu
có phân bố Student:
Số bậc tự do v được xác định như sau:
ii. Phương sai bằng nhau
Khi phương sai bằng nhau, độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn
mẫu chung S đựơc xác định như sau:
Trong đó độ lệch chuẩn mẫu chung S được xác định từ các độ lệch chuẩn S1 và
S2 của các mẫu như sau:
Độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu chung có phân bố
Student với số bậc tự do n1 + n2 – 2:
3.3.3 Phân bố độ lệch trung bình mẫu theo cặp
Xem 2 đám đông phụ thuộc được lấy mẫu theo cặp. Hàm thống kê được xây
dựng là độ lệch trung bình mẫu theo cặp chuẩn hóa như sau:
Với n là số cặp, D là trung bình độ lệch mẫu theo cặp, 1 là kỳ vọng đám
đông 1, 2 là kỳ vọng đám đông 2, SD là độ lệch chuẩn mẫu theo cặp.
Với giả sử phân bố tiềm ẩn của đám đông là phân bố chuẩn hay khi lấy mẫu với
số cặp đủ lớn, hàm thống kê T có phân bố là phân bố Student với n-1 bậc tự do:
3.3.4 Phân bố tổng bình phương mẫu
Nếu các biến ngẫu nhiên X1, …, Xn độc lập, đồng dạng phân bố chuẩn, với
phương sai ², thì hàm thống kê suy từ tổng bình phương mẫu:
SS/ ²
có dạng phân bố ² với n-1 bậc tự do
3.3.5 Phân bố trung bình bình phương mẫu
a. Phân bố trung bình bình phương mẫu
Nếu các biến ngẫu nhiên X1, …, Xn độc lập, đồng dạng phân bố chuẩn, với
phương sai ², thì hàm thống kê:
(n-1)MS / ²
có dạng phân bố ² với n-1 bậc tự do.
b. Phân bố tỷ lệ trung bình bình phương mẫu
Giả sử mẫu được lấy từ các biến ngẫu nhiên có phân bố chuẩn:
X1~ N(1,1²)
X2~ N(2,2²)
Nếu phương sai bằng nhau, thì tỷ lệ trung bình bình phương mẫu có phân bố là
phân bố Fisher với số bậc tự do của tử số và mẫu số lần luợt là n1-1 và n2-1:
Trong đó n1 và n2 lần lượt là cở mẫu của mẫu 1 và mẫu 2.
3.3.6 Phân bố phương sai mẫu
a. Phân bố phương sai mẫu
Nếu các biến ngẫu nhiên X1, …, Xn độc lập, đồng dạng phân bố chuẩn, với
phương sai ², thì hàm thống kê
(n-1)S²/²
có dạng phân bố ² với n-1 bậc tự do
b. Phân bố tỷ lệ phương sai mẫu
Giả sử mẫu được lấy từ các biến ngẫu nhiên có phân bố chuẩn:
X1~ N(1,1²)
X2~ N(2,2²)
Phân bố các phương sai mẫu:
Suy ra tỷ lệ phương sai mẫu có phân bố là phân bố Fisher:
3.3.7 Phân bố tỷ lệ mẫu
a. Phân bố tỷ lệ mẫu
Xem đám đông có tỷ lệ các phần tử có đặc tính quan tâm là p, với mẫu có tỷ lệ
mẫu P. Tỷ lệ mẫu có kỳ vọng và độ lệch chuẩn như sau:
Theo định lý giới hạn trung tâm, với cở mẫu đủ lớn, thường chọn:
np > 5 và nq>5
Thì tỷ lệ mẫu chuẩn hóa có phân bố chuẩn đơn vị:
b. Phân bố độ lệch tỷ lệ mẫu
Xem 2 đám đông có tỷ lệ các phần tử có đặc tính quan tâm lần lượt p1 và p2.
Các tỷ lệ mẫu P1 và P2 được xác định từ 2 mẫu lấy từ 2 đám đông tương ứng.
Độ lệch tỷ lệ đám đông, p1 - p2 thường đựợc suy diễn tiễn từ độ lệch tỷ lệ mẫu
P1 - P2. Độ lệch tỷ lệ mẫu được chuẩn hóa như sau:
Theo định lý giới hạn trung tâm, với cở mẫu đủ lớn, độ lệch tỷ lệ mẫu chuẩn hóa
có phân bố chuẩn đơn vị:
3.4 Đánh giá mẫu
Để có thể suy diễn về đám đông từ mẫu, việc lấy mẫu cần được thực hiện ngẫu
nhiên với giả định các giá trị thu thập từ mẫu {X1, …, Xn} được rút ra từ cùng
một phân bố, được gọi là phân bố tiềm ẩn của đám đông hay của một biến ngẫu
nhiên X là các biến ngẫu nhiên độc lập, đồng dạng phân bố F:
X1, …, Xn ~ IIF
Tuy một số công cụ như tần đồ vẫn có thể sử dụng với dữ kiện phụ thuộc, phần
lớn các suy diễn thống kê có thể không có giá trị, nếu giả định độc lập, đồng
dạng không thỏa.
Các số liệu thu thập theo thời gian có thể là phụ thuộc. Các kỹ thuật đánh giá
tính độc lập của tập số liệu thường dùng bao gồm:
Biểu đồ tương quan
Biểu đồ phân tán
a. Biểu đồ tương quan
Biểu đồ tương quan là đồ thị của chỉ số tương quan giữa các biến:
j = Cor (Xi,Xi+j), j = 1n-1
Các chỉ số tương quan được ước lượng như sau:
Nếu các biến này là độc lập, các chỉ số tương quan sẽ bằng không. Nếu các chỉ
số này khác không, là bằng chứng cho thấy các biến là không độc lập.
b. Biểu đồ phân tán
Biểu đồ phân tán là đồ thị của các cặp (Xi, Xi+1), i=1n-1, trên mặt phẳng (Xi,
Xi+1). Nếu các biến là độc lập, biểu đồ phân tán là các điểm phân tán ngẫu
nhiên, với mẫu hình phụ thuộc phân bố tiềm ẩn. Nếu các biến là tương quan
thuận, các điểm có xu hướng nằm trên đường có độ dốc dương. Nếu các biến là
tương quan nghịch, các điểm có xu hướng nằm trên đường có độ dốc âm.
Chương 4
ƯỚC LƯỢNG
Ước lượng
Ước lượng kỳ vọng
Ước lượng độ lệch kỳ vọng
Ước lượng phương sai
Ước lượng tỷ lệ phương sai
Ước lượng tỷ lệ
Ước lượng độ lệch tỷ lệ
Cở mẫu
4.1 Ước lượng
Bài tóan ước lượng là 1 bài tóan quan trọng trong thống kê suy diễn, trong đó
tham số đám đông được ước lượng qua hàm thống kê tương ứng từ mẫu. Các
tham số đám đông thường được ước lượng bao gồm:
Kỳ vọng
Độ lệch kỳ vọng từ 2 đám đông 1-2
Phương sai ²
Tỷ lệ phương sai từ 2 đám đông 1²/ 2²
Tỷ lệ p
Độ lệch tỷ lệ từ 2 đám đông, p1-p2
Các phương pháp ước lượng bao gồm:
Ước lượng điểm
Ước lượng khoảng
a. Ước lượng điểm
Ước lượng điểm là ước lượng giá trị tham số bởi trị thống kê xác định từ 1 hàm
thống kê phù hợp. Một hàm thống kê, là một biến ngẫu nhiên, được xem là phù
hợp khi:
Có kỳ vọng bằng tham số ước lượng
Có biến thiên nhỏ hơn các hàm thống kê ước lượng khác
b. Ước lượng khoảng
Ước lượng điểm chỉ cho giá trị đơn của tham số, ước lượng khoảng cho khoảng
ước lựơng I của tham số:
p I = [L, U]
p: tham số cần ước lượng
I: Khoảng ước lượng của tham số p
L: cận dưới Khoảng ước lượng
U: cận trên Khoảng ước lượng
Bề rộng khoảng ước lượng W được định nghĩa là khoảng cách giữa các cận của
khoảng ước lượng:
W=U-L
Khoảng ước lượng thường được gọi là khoảng tin cậy, là khoảng giá trị của tham
số với 1 mức độ tin cậy xác định. Nhằm đánh giá mức độ tin cậy của khoảng ước
lượng tham số, ta dùng mức ý nghĩa, thường ký hiệu là , [0,1], được xác
định là xác suất để tham số không rơi vào khoảng ước lượng
= P(pI)
Suy ra:
P(pI) = 1-
Giá trị 1- được gọi là mức tin cậy, với mức tin cậy càng lớn, xác suất tham số
rơi vào khoảng ước lượng càng tăng, khoảng ước lượng càng tin cậy. Ngược lại,
mức tin cậy càng nhỏ, xác suất tham số rơi vào khoảng ước lượng càng giảm,
khoảng ước lượng càng kém tin cậy.
Khoảng tin cậy được xác định bởi phân bố hàm thống kê và mức ý nghĩa chọn
lựa. Chọn mức ý nghĩa càng nhỏ, khoảng tin cậy càng rộng ra. Ngược lại, chọn
mức ý nghĩa càng lớn, khoảng tin cậy càng hẹp lại.
4.2 Ước lượng kỳ vọng
4.2.1 Ước lượng kỳ vọng
Xem đám đông có đặc tính quan tâm X, là biến ngẫu nhiên có kỳ vọng ,
phương sai ². Để ước lượng kỳ vọng, hàm thống kê phù hợp là trung bình mẫu
X. Giá trị kỳ vọng đựơc ước lượng bởi trị thống kê X xác định từ mẫu của
trung bình mẫu.
E[X] =
X
4.2.2 Khoảng tin cậy kỳ vọng
Để ước lượng khoảng tin cậy kỳ vọng, ta xét 2 trường hợp khi biết và khi không
biết phương sai
a. Khi biết phương sai
Khi biết phương sai, Khoảng tin cậy kỳ vọng đựơc xác định trong các trường
hợp đám đông vô hạn và hữu hạn.
i. Đám đông vô hạn
Với đám đông vô hạn, khi biến X có phân bố chuẩn hay khi biến X có phân bố
bất kỳ và cở mẫu lớn, n30. Phân bố trung bình mẫu chuẩn hóa là phân bố
chuẩn đơn vị:
Với mức ý nghĩa
P{-Z/2 < (X - ) / (/n) < Z/2 } = 1 -
P{X - Z/2*/n < < X + Z/2 */n } = 1 -
Vậy khoảng tin cậy 100(1 - ) % của kỳ vọng:
I = [X - Z/2/n, X + Z/2/n]
Trị phân vị thường dùng để ước lượng ứng với mức ý nghĩa và mức tin cậy
CL = 100(1 - ) % như sau:
Ví dụ: Để ước lượng kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm, 50 sản
phẩm đựơc thu thập, giá trị trung bình mẫu của tính đựơc là 20,63. Giả sử độ
lệch chuẩn của đặc tính là 1,2. Khoảng tin cậy 90% của đặc tính là:
I = [20,63 – 1,6451,2/50; 20,63 +1,6451,2/50]
I = [20,35; 20,91]
Khoảng tin cậy 95% của đặc tính là:
I = [20,63 – 1,961,2/50, 20,63 +1,961,2/50]
I = [20,29; 20,96]
Khoảng tin cậy 99% của đặc tính là:
I = [20,63 – 2,5751,2/50, 20,63 +2,5751,2/50]
I = [20,19; 21,07]
ii. Đám đông hữu hạn
Với đám đông hữu hạn, với cở đám đông N. Khoảng tin cậy 100(1 - ) % của
kỳ vọng thường được hiệu chỉnh như sau:
Ví dụ: Để ước lượng kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm, trong lô
hàng có 500 sản phẩm, một mẫu với 50 sản phẩm đựơc thu thập, giá trị trung
bình mẫu của tính đựơc là 20,63. Giả sử độ lệch chuẩn của đặc tính là 1,2.
Khoảng tin cậy 95% của đặc tính là:
I = [20,31; 20,95]
b. Không biết phương sai
Khi không biết phương sai, khoảng tin cậy kỳ vọng đựơc xác định trong các
trường hợp cở mẫu lớn và cở mẫu nhỏ.
i. Khi cở mẫu lớn
Khi không biết phương sai, với cở mẫu lớn, phân bố chuẩn đơn vị vẫn được sử
dụng, độ lệch chuẩn mẫu S được sử dụng để ước lượng độ lệch chủân .
Khoảng tin cậy 100(1 - ) % của kỳ vọng:
Ví dụ: Để ước lượng giá trị của đặc tính chất lượng X cúa 1 sản phẩm, 50 sản
phẩm đựơc thu thập, giá trị trung bình mẫu của tính đựơc là 20,63, độ lệch
chuẩn mẫu tính được là 1,17. Khoảng tin cậy 95% của đặc tính là:
I = [20,31; 20,95]
ii. Khi cở mẫu nhỏ
Với cở mẫu n nhỏ, phân bố trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu
có phân bố Student với n-1 bậc tự do:
Với 0<<1/2:
Vậy khoảng tin cậy 100(1- ) % của kỳ vọng:
Ví dụ: Để ước lượng kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm, 20 sản
phẩm đựơc thu thập, các giá trị thu thập như sau
Trung bình mẫu và độ lệch chuẩn mẫu tính đựơc:
X = 19,73; S = 2,14
Với = 0,05 và n=20, điểm phân vị tra bảng được:
t/2, n-1 = 2,093
Khoảng tin cậy 95% của đặc tính là:
I = [19,09; 20,36]
4.3 Ước lượng độ lệch kỳ vọng
4.3.1 Ước lượng độ lệch kỳ vọng
Xem 2 đám đông có đặc tính quan tâm lần lượt X1 và X2, là biến ngẫu nhiên có
kỳ vọng lần lượt là 1và 2, phương sai lần lựợt là 1² và 2². Để ước lượng
kỳ vọng, hàm thống kê phù hợp là độ lệch rung bình mẫu X1 - X2. Giá trị độ
lệch kỳ vọng đựơc ước lượng bởi trị thống kê xác định từ mẫu của độ lệch trung
bình mẫu.
E[X1 -X2] = 1- 2
1- 2 X1 - X2
4.3.2 Khoảng tin cậy độ lệch kỳ vọng
Khoảng tin cậy độ lệch kỳ vọng xét với 2 trường hợp khi biết và không biết
phương sai.
a. Khi biết phương sai.
Khi biết phương sai, độ lệch trung bình mẫu có phân bố chuẩn:
X1 -X2 ~ N( 1- 2, (1² /n1 + 1² /n2))
Độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng:
Khi phương sai bằng nhau, khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng:
b. Không biết phương sai.
Khi không biết phương sai, ta xét 2 trường hợp cở mẫu nhỏ và cở mẫu lớn.
i. Cở mẫu lớn
Với cở mẫu lớn, hàm thống kê suy diễn thường dùng là độ lệch trung bình mẫu
chuẩn hóa theo các độ lệch chuẩn mẫu. Hàm thống kê này có phân bố chuẩn đơn
vị:
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng:
Ví dụ: Để so sánh độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy, M1 và M2
với cở mẫu n. Từ các mẫu thu thập, ta xác định trung bình mẫu SM và
phương sai mẫu SV như ở bảng sau.
Độ lệch trung bình mẫu:
`X1 - `X2 = 26,38 - 25,42 = 0,96
Khoảng tin cậy 95% của độ lệch kỳ vọng được xác định như sau:
I = [0,2829; 1,6370]
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, ta xét 2 trường hợp phương sai khác nhau và bằng nhau. Khi
phương sai khác nhau, độ lệch trung bình mẫu chuẩn hóa theo các độ lệch chuẩn
mẫu có phân bố Student như sau:
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng:
Khi phương sai bằng nhau, độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn
mẫu chung có phân bố Student như sau:
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng:
Ví dụ: Để so sánh độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy, với cở mẫu
n. Từ các mẫu thu thập, ta xác định trung bình mẫu SM và phương sai mẫu
SV như ở bảng sau.
Giả sử phương sai 2 máy như nhau, ước lượng bởi phương sai mẫu chung:
S =1,7987
Với =0,05, v = 10+12-2 = 20, tra bảng đựơc giá trị điểm phân vị:
t/2,v = 2,086
Khoảng tin cậy 95% của độ lệch kỳ vọng được xác định như sau:
I = [-0,6465; 2,5665]
4.3.3 Khoảng tin cậy độ lệch kỳ vọng theo cặp
Xem 2 đám đông phụ thuộc được lấy mẫu theo cặp, có kỳ vọng lần lượt là 1và
2. Độ lệch trung bình mẫu theo cặp chuẩn hóa có phân bố là phân bố Student
với n-1 bậc tự do:
Với mức ý nghĩa , v=n-1:
Vậy khoảng tin cậy 100(1 - ) % của độ lệch kỳ vọng theo cặp:
4.4 Ước lượng phương sai
4.4.1 Ước lượng phương sai
Xem đám đông có đặc tính quan tâm X, là biến ngẫu nhiên có phương sai ². Để
ước lượng phương sai, hàm thống kê phù hợp là phương sai mẫu S². Giá trị
phương sai đựơc ước lượng bởi trị thống kê phương sai mẫu.
E[S²] = ²
² S²
4.4.2 Khoảng tin cậy của phương sai
Nhắc lại hàm thống kê suy diễn phương sai có phân bố ² với n-1 bậc tự do:
(n-1)S² / ² ~ ²v
v=n-1
Với mức ý nghĩa :
P{²1-/2, v < (n-1)S² / ² < ²/2, v } = 1 -
P{(n-1)S²/²/2, v < ² < (n-1)S2/²1-/2, v} = 1 -
Vậy khoảng tin cậy 100(1- ) % của phương sai:
I = [(n-1)S²/²/2, v < ² < (n-1)S2/²1-/2, v]
Ví dụ: Để ước lượng phương sai của đặc tính chất lượng X cúa 1 sản phẩm,
30 sản phẩm đựơc thu thập, giá trị phương sai mẫu của tính đựơc là 1,44. Với
= 0,05, và n=30, ta tra bảng được các điểm phân vị:
²/2, v = 45,7222
²1-/2, v= 16,0471
Khoảng tin cậy 95% của đặc tính là:
I = [(30-1)*1,44/45,7222; (30-1)*1,44/16,0471]
I = [0,91; 2]
4.5 Ước lượng tỷ lệ phương sai
Xem 2 đám đông có đặc tính quan tâm lần lượt X1 và X2, là biến ngẫu nhiên có
phương sai lần lựợt là 1² và 2². Để xác định Khoảng tin cậy tỷ lệ phương sai,
ta dùng tỷ lệ phương sai mẫu. Tỷ lệ phương sai mẫu có phân bố là phân bố
Fisher:
Với mức ý nghĩa
Vậy khoảng tin cậy 100(1- ) % của tỷ lệ phương sai 1² / 2²:
Ví dụ: Để so sánh phương sai của đặc tính chất lượng của 1 sản phẩm được
sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các mẫu thu
thập, ta xác định phương sai mẫu SV như ở bảng sau.
Tỷ lệ phương sai mẫu:
S1² / S2² = 3,06/3,45 = 0,8869
Với = 0,05, và các bậc tự do v1 = 10-1=9, v2 = 21-1 = 20, ta tra được các
điểm phân vị:
F0,025, 9, 20 = 2,84
F0,975, 9, 20 = 1/F0,025, 20, 9 = 1/3,67 = 0,2725
Khoảng tin cậy 95% của tỷ lệ phương sai được xác định như sau:
I = [0,5370; 5,5976]
4.6 Ước lượng tỷ lệ
4.6.1 Ước lượng tỷ lệ
Xem đám đông có có tỷ lệ các phần tử có đặc tính quan tâm là p. Để ước lượng
tỷ lệ đám đông p, hàm thống kê phù hợp là tỷ lệ mẫu P. Giá trị tỷ lệ p đựơc ước
lượng bởi trị thống kê của tỷ lệ mẫu.
E[P] = p
p P
4.6.2 Khoảng tin cậy tỷ lệ
Nhắc lại, với cở mẫu đủ lớn, tỷ lệ mẫu chuẩn hóa có phân bố chuẩn đơn vị:
q=1-p
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của tỷ lệ:
Ví dụ: Để ước lượng tỷ lệ lỗi của 1 quá trình sản xuất, 200 sản phẩm được lấy
mẫu. Số sản phẩm bị lỗi của mẫu là 45. Tỷ lệ lỗi của quá trình được ước
lượng bởi tỷ lệ lỗi mẫu:
p = P = 45/200 = 0,225.
Q = 1-0,2 = 0,775
Với = 0,05, tra bảng được Z/2 = 1,96. Khoảng tin cậy 95% của tỷ lệ lỗi quá
trình:
I = [0,041; 0,409]
4.7 Ước lượng độ lệch tỷ lệ
4.7.1 Ước lượng độ lệch tỷ lệ
Xem 2 đám đông có tỷ lệ các phần tử có đặc tính quan tâm lần lượt p1 và p2. Để
ước lượng độ lệch tỷ lệ đám đông, p1 - p2, hàm thống kê phù hợp là độ lệch tỷ lệ
mẫu P1 - P2. Giá trị độ lệch tỷ lệ đựơc ước lượng bởi trị thống kê của độ lệch tỷ
lệ mẫu.
E[P1 - P2] = E[P1] E[P2] = p1 - p2
p1 - p2 P1 - P2
4.7.2 Khoảng tin cậy độ lệch tỷ lệ
Độ lệch tỷ lệ mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Với mức ý nghĩa :
Vậy khoảng tin cậy 100(1 - ) % của tỷ lệ:
Ví dụ: Để so sánh độ lệch tỷ lệ lỗi của 2 máy, mẫu được thu thập từ 2 máy. Từ
các mẫu thu thập, ta xác định số lỗi N ở mỗi máy và tỷ lệ lỗi P, tỷ lệ không lỗi
Q =1-P như ở bảng sau.
Độ lệch tỷ lệ lỗi trên mẫu:
P1 - P2= 0,2142 – 0,1850 = 0,0293
Khoảng tin cậy 95% của độ lệch kỳ vọng được xác định như sau:
I = [-0,0480; 0,1065]
4.8 Cở mẫu
Xác định cở mẫu là rất quan trọng trong bài tóan ước lượng. Cở mẫu được xác
định theo sai số ước lượng E với 1 độ tin cậy xác định. Trong đó sai số ước
lượng được định nghĩa là sai lệch giữa hàm thống kê ước lượng tham số và giá
trị của tham số. Sau đây ta xác định cở mẫu trong các bài tóan ước lượng kỳ
vọng và ước lượng tỷ lệ.
4.8.1 Cở mẫu ước lượng kỳ vọng
Cở mẫu ước lượng kỳ vọng thường được xác định theo các mô hình sử dụng sai
số ước lượng và sử dụng khoảng tin cậy.
a. Cở mẫu theo sai số ước lượng
Kỳ vọng được ước lượng bởi trung bình mẫuX, sai số ước lượng đựơc xác
định là sai lệch giữa trung bình mẫuX và giá trị kỳ vọng:
E=X-
Khi phân bố trung bình mẫu chuẩn hóa là phân bố chuẩn đơn vị:
Theo sai số ước lượng:
Với mức ý nghĩa , cở mẫu được xác định theo sai số ước lượng như sau:
Ví dụ: Để ước lượng giá trị kỳ vọng của đặc tính chất lượng X cúa 1 sản phẩm,
có độ lệch chuẩn 1,2, với khoảng tin cậy 95%, và sai số trong khoảng giá trị là
0,8. Cở mẫu được xác định là:
n = 1,962 * 1,22 / 0,82 = 8,64, chọn n = 9.
Nếu muốn giảm sai số trong khoảng giá trị xuống còn 0,4, thì cở mẫu cần có sẽ
tăng lên:
n = 1,962 * 1,22 / 0,42 = 34,57, chọn n = 35.
Khi không biết , ta thường ước lượng theo khoảng R. Biết rằng 95% giá trị
của biến chuẩn nằm trong khoảng +/- 2 kể từ giá trị kỳ vọng, ứng với khoảng
là 4.
R=4
Nên có thể đựơc ước lượng theo Khoảng R như sau:
= R/4
Vậy khi không biết , cở mẫu được xác định như sau:
Ví dụ: Để ước lượng kỳ vọng của đặc tính chất lượng X cúa 1 sản phẩm, có
Khoảng biến thiên là 2,63, với Khoảng tin cậy 95%, và sai số trong Khoảng
giá trị là 0,8. Cở mẫu được xác định là:
n = 1,962 2,632 / (40,82) = 10,38, chọn n = 11.
Nếu muốn giảm sai số trong khoảng giá trị xuống còn 0,4, thì cở mẫu cần có sẽ
tăng lên:
n = 1,962 2,632 / (40,42) = 41,52, chọn n = 42.
b. Cở mẫu theo khoảng tin cậy
Bề rộng khoảng tin cậy W của kỳ vọng đựơc xác định là khoảng +/- E kể từ giá
trị ước lượng kỳ vọng, ứng với bề rộng 2E.
W = 2E
Sai số ước lượng tính theo khoảng tin cậy:
E = W/2
Vậy với mức ý nghĩa , cở mẫu được xác định theo bề rộng khoảng tin cậy như
sau:
Và khi không biết :
4.8.2 Cở mẫu ước lượng tỷ lệ
Tỷ lệ p được ước lượng bởi tỷ lệ mẫu P, sai số ước lượng đựơc xác định là sai
lệch giữa tỷ lệ mẫu P và giá trị tỷ lệ:
E = P-p
Khi phân bố tỷ lệ mẫu chuẩn hóa là phân bố chuẩn đơn vị:
Theo sai số ước lượng:
Với mức ý nghĩa , cở mẫu được xác định theo sai số ước lượng:
Sai số ước lượng tính theo bề rộng W của khoảng tin cậy:
E = W/2
Với mức ý nghĩa , cở mẫu được xác định theo bề rộng Khoảng tin cậy:
Ví dụ: Xem bài tóan ước lượng tỷ lệ lỗi của 1 quá trình sản xuất ở ví dụ trên,
tỷ lệ lỗi Khoảng 0,225, với Khoảng tin cậy 95%, và sai số mong muốn trong
Khoảng giá trị là 0,2. Cở mẫu được xác định là:
n = 1,962 * 0,225 * 0,775 / 0,82 = 16,7, chọn n = 17.
Nếu muốn giảm sai số trong Khoảng giá trị xuống còn 0,1, thì cở mẫu cần có sẽ
tăng lên:
n = 1,962 * 0,225 * 0,775 / 0,82 = 66.9, chọn n = 69.
Chương 5
KIỂM ĐỊNH
Kiểm định giả thuyết
Phương pháp kiểm định
Đặc tính vận hành
Kiểm định kỳ vọng
Kiểm định độ lệch kỳ vọng
Kiểm định độ lệch kỳ vọng theo cặp
Kiểm định phương sai
Kiểm định tỷ lệ phương sai
Kiểm định tỷ lệ
Kiểm định độ lệch tỷ lệ
Kiểm định phân bố
5.1 Kiểm định giả thuyết
Kiểm định, một bài tóan quan trọng trong thống kê suy diễn, là quá trình kiểm
tra giả thuyết về tham số của đám đông từ các hàm thống kê phù hợp.
5.1.1 Giả thuyết thống kê
Giả thuyết thống kê là một phát biểu về tập các tham số của một phân bố, mà ta
không biết là đúng hay sai. Giả thuyết thống kê thường được thiết lập thành cặp,
bao gồm giả thuyết cơ bản H0 và đối thuyết H1.
Giả thuyết cơ bản, H0 còn gọi là giả thuyết ban đầu, thường là giả thuyết với giả
sử một lý thuyết, 1 phương pháp hay 1 tiêu chuẩn hiện tại vẫn còn nghiệm đúng
hay vẫn còn giá trị. Đối thuyết H1 là giả thuyết đối lập với giả thuyết ban đầu,
thường được thiết lập nhằm chứng minh cho hướng nghiên cứu là thay đổi hiện
trạng hay cải tiến. Chẳng hạn như khi nghiên cứu cải tiến chất lượng sản phẩm,
các giả thuyết là:
H0: Sản phẩm có chất lượng không đổi
H1: Sản phẩm có chất lượng cải tiến
Trong 2 giả thuyết chỉ có 1 giả thuyết nghiệm đúng, nếu chấp nhận giả thuyết H0
thì giả thuyết H1 là sai. Ngược lại, nếu bác bỏ giả thuyết H0 thì giả thuyết H1 là
đúng.
Kiểm định giả thuyết là đánh giá giả thuyết cơ bản là đúng hay sai, để chấp nhận
hay bác bỏ giả thuyết cơ bản, từ đó đánh giá đối thuyết là đúng hay sai nhằm rút
ra kết luận nghiên cứu.
5.1.2 Sai lầm kiểm định
Chất lượng kiểm định được đánh giá qua sai lầm kiểm định. Hai sai lầm khi
kiểm định:
Sai lầm loại 1, E1
Sai lầm loại 2, E2
Sai lầm loại 1, E1 là sai lầm khi bác bỏ giả thuyết đúng. Sai lầm loại 2, E2 là sai
lầm khi chấp nhận giả thuyết sai. Các xác suất sai lầm tương ứng bao gồm:
Xác suất sai lầm loại 1
Xác suất sai lầm loại 2
Xác suất sai lầm loại 1 thường được ký hiệu là . Xác suất sai lầm loại 2 thường
được ký hiệu là .
= P(E1)
= P(E2)
Một đại lượng khác đánh giá chất lượng kiểm định là năng lực kiểm định. Năng
lực kiểm định được định nghĩa là xác suất bác bỏ giả thuyết sai:
P = 1-P(E2) = 1-
5.2 Phương pháp kiểm định
Có 2 phương pháp kiểm định:
Kiểm định theo giá trị tới hạn
Kiểm định theo xác suất tới hạn
Phương pháp kiểm định theo giá trị tới hạn xác định giá trị tới hạn từ phân bố
hàm thống kê và xác suất sai lầm kiểm định, sau đó đánh giá giả thuyết dựa vào
so sánh giữa trị thống kê thu thập và giá trị tới hạn.
Ngược lại, phương pháp kiểm định theo xác suất tới hạn xác định xác suất tới
hạn từ phân bố hàm thống kê và trị thống kê thu thập, sau đó đánh giá giả thuyết
dựa vào so sánh giữa xác suất tới hạn và xác suất sai lầm kiểm định.
5.2.1 Kiểm định theo giá trị tới hạn
Quy trình kiểm định giả thuyết theo giá trị tới hạn bao gồm các bước sau:
Thiết lập giả thuyết.
Chọn hàm thống kê kiểm định.
Xác định phân bố mẫu.
Chọn xác suất sai lầm .
Xác định giá trị tới hạn.
Xác định vùng bác bỏ giả thuyết R.
Lấy mẫu.
Tính trị thống kê S.
Ra quyết định:
S R Bác bỏ H0
S R Chấp nhận H0.
Giá trị tới hạn phân chia phân bố hàm thống kê thành 2 vùng:
Vùng bác bỏ giả thuyết.
Vùng chấp nhận giả thuyết.
Giá trị tới hạn phụ thuộc vào:
Phân bố hàm thống kê.
Hướng kiểm định.
Xác suất sai lầm .
Hướng kiểm định bao gồm:
Kiểm định 2 phía
Kiểm định 1 phía
Kiểm định 2 phía dùng khi quan tâm đến cả 2 hướng tăng và giảm của đặc tính
quan tâm. Chẳng hạn như phương pháp cải tiến có làm thay đổi, cả tăng và giảm,
đặc tính quan tâm hay không. Kiểm định 2 phía còn gọi là kiểm định 2 đuôi vì
vùng bác bỏ nằm cả 2 bên của phân bố hàm thống kê.
Kiểm định 1 phía dùng khi chỉ quan tâm đến cả 1 hướng tăng hay giảm của đặc
tính quan tâm. Chẳng hạn như phương pháp cải tiến có làm tăng hay giảm, đặc
tính quan tâm hay không. Kiểm định 1 phía còn gọi là kiểm định 1 đuôi vì vùng
bác bỏ nằm chỉ 1 bên của phân bố hàm thống kê.
Quyết định kiểm định 1 phía hay 2 phía thể hiện ở các thức thiết lập đối thuyết.
Đối thuyết kiểm định 2 phía thường là biễu thức có dạng “”. Đối thuyết kiểm
định 1 phía thường là biễu thức có dạng “>” hay “<”.
5.2.2 Kiểm định theo xác suất tới hạn
Quy trình kiểm định giả thuyết theo giá trị tới hạn bao gồm các bước sau:
1- Thiết lập giả thuyết.
2- Chọn hàm thống kê kiểm định.
3- Xác định phân bố mẫu.
4- Lấy mẫu.
5- Tính trị thống kê S.
6- Xác định xác suất tới hạn p.
7- Chọn xác suất sai lầm .
8- Ra quyết định
p Bác bỏ H0
< p Chấp nhận H0.
Xác suất tới hạn p được xác định từ phân bố hàm thống kê và trị thống kê thu
thập được. Giả thuyết H0 sẽ bị bác bỏ khi chọn xác suất sai lầm vượt quá giá
trị p. Giá trị p có thể xem là giá trị cực tiểu để bác bỏ H0.
5.3 Đặc tính vận hành
5.3.1 Đặc tính vận hành
Chất lượng kiểm định không chỉ ở xác suất sai lầm lọai 1, , mà còn ở xác suất
sai lầm lọai 2, là xác suất chấp nhận 1 giả thuyết sai. Khi H0 đúng, phân bố
hàm thống kê ở 1 vị trí ban đầu, ứng với giá trị ban đầu của :
0 = 1-
Khi H0 sai, phân bố hàm thống kê dịch chuyển khỏi vị trí ban đầu. Mức độ dịch
chuyển phân bố hàm thống kê phụ thuộc mức độ sai lầm của giả thuyết. H0 càng
sai, phân bố mẫu càng dịch chuyển xa khỏi vị trí ban đầu, giá trị càng giảm.
Đặc tuyến vận hành là 1 họ các đường cong quan hệ giữa xác suất sai lầm loại 2,
theo mức độ sai lầm loại 2 và cở mẫu:
= (n, )
n: Cỡ mẫu
: Mức độ sai lầm loại 2.
5.3.2 Xác định cỡ mẫu
Cở mẫu là tham số quan trọng của kế họach kiểm định. Có nhiều phương pháp
xác định cỡ mẫu kiểm định. Một phương pháp thường dùng là dựa vào đặc tuyến
vận hành của phép kiểm định.
Khi kiểm định, ta thường chọn một xác suất sai lầm loại 1, . Khi đã chọn ,
dựa vào phân bố hàm thống kê, ta xác định được đặc tính vận hành. Dựa vào đặc
tính vận hành này ta có thể chọn được cỡ mẫu n để có được một độ nhạy kiểm
định cần thiết, nghĩa là 1 năng lực kiểm định hay 1 xác suất sai lầm mong
muốn ở một mức độ sai lầm xác định.
5.4 Kiểm định kỳ vọng
Xem Xi, i=1n là mẫu lấy từ một biến ngẫu nhiên X có kỳ vọng , phương sai
². Hàm thống kê kiểm định kỳ vọng là trung bình mẫuX. Kiểm định kỳ vọng
có giả thuyết ban đầu:
H0: =0
Tùy vào nghiên cứu, các đối thuyết có thể là:
H1: 0
H1: > 0
H1: < 0
5.4.1 H1: 0
Ta xác định vùng bác bỏ giả thuyết với 2 trường hợp biết và không biết phương
sai.
a. Khi biết phương sai
Nếu X có phân bố chuẩn họăc có phân bố bất kỳ với cở mẫu lớn, trung bình mẫu
có phân bố chuẩn:
X ~ N(, ²)
Trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm có độ lệch
chuẩn là 1,2, mẫu với 50 sản phẩm đựơc thu thập, giá trị trung bình mẫu của
tính đựơc là 20,63. Với các giả thuyết:
H0: = 20
H1: 20
Với =0,05, trị phân vị Z/2 = Z0,025 = 1,96. Vùng bác bỏ H0:
R = [X < 3,3688, X > 36,6312]
Thấy rằng trung bình mẫu không rơi vào vùng bác bỏ R nên H0 được chấp nhận.
Kỳ vọng đặc tính bằng 20.
b. Không biết phương sai
Khi không biết phương sai, ta xét 2 trường hợp với cở mẫu lớn và cở mẫu nhỏ.
i. Cở mẫu lớn
Với cở mẫu lớn, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm, mẫu với
50 sản phẩm đựơc thu thập, giá trị trung bình mẫu và độ lệch chuẩn mẫu tính
đựơc lần lượt là 20,63 và 1,44. Với các giả thuyết:
H0: = 20
H1: 20
Với =0,05, trị phân vị Z/2 = Z0,025 = 1,96. Vùng bác bỏ H0:
R = [X < 0,0426, X > 39,9574]
Thấy rằng trung bình mẫu không rơi vào vùng bác bỏ R nên H0 được chấp nhận.
i. Cở mẫu nhỏ
Với cở mẫu nhỏ, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
Student, với số bậc tự do v=n-1:
v=n-1
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm, mẫu với
10 sản phẩm đựơc thu thập, giá trị trung bình mẫu và độ lệch chuẩn mẫu tính
đựơc lần lượt là 30,63 và 0,95. Với các giả thuyết:
H0: = 20
H1: 20
Với =0,05, và v = 9, trị phân vị t/2, v = t0,025, 9 = 2,262. Vùng bác bỏ H0:
R = [X < 9,6996, X > 30,3004]
Thấy rằng trung bình mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Kỳ vọng đặc
tính khác 20.
5.4.2 H1: < 0
Ta xác định vùng bác bỏ giả thuyết với 2 trường hợp biết và không biết phương
sai.
a. Khi biết phương sai
Nếu X có phân bố chuẩn họăc có phân bố bất kỳ với cở mẫu lớn, trung bình mẫu
chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm có độ lệch
chuẩn là 1,2, mẫu với 50 sản phẩm đựơc thu thập, giá trị trung bình mẫu của
tính đựơc là 20,63. Với các giả thuyết:
H0: = 20
H1: < 20
Với =0,05, trị phân vị Z = Z0,05 = 1,645. Vùng bác bỏ H0:
R = [X < 6,0417]
Thấy rằng trung bình mẫu không rơi vào vùng bác bỏ R nên H0 được chấp nhận.
Kỳ vọng đặc tính chất lượng không nhỏ hơn 20.
b. Không biết phương sai
Khi không biết phương sai, ta xét 2 trường hợp với cở mẫu lớn và cở mẫu nhỏ.
i. Cở mẫu lớn
Với cở mẫu lớn, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
Student:
v=n–1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
5.4.3 H1: > 0
Ta xác định vùng bác bỏ giả thuyết với 2 trường hợp biết và không biết phương
sai.
a. Khi biết phương sai
Nếu X có phân bố chuẩn họăc có phân bố bất kỳ với cở mẫu lớn, trung bình mẫu
chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định kỳ vọng đặc tính chất lượng X cúa 1 sản phẩm có độ lệch
chuẩn là 1,2, mẫu với 50 sản phẩm đựơc thu thập, giá trị trung bình mẫu của tính
đựơc là 34,45. Với các giả thuyết:
H0: = 20
H1: > 20
Với =0,05, trị phân vị Z = 1,645. Vùng bác bỏ H0:
R = [X > 33,9682]
Thấy rằng trung bình mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Kỳ vọng đặc
tính chất lượng lớn hơn 20.
b. Không biết phương sai
Khi không biết phương sai, ta xét 2 trường hợp với cở mẫu lớn và cở mẫu nhỏ.
i. Cở mẫu lớn
Với cở mẫu lớn, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, trung bình mẫu chuẩn hóa theo độ lệch chuẩn mẫu có phân bố
Student:
v=n-1
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
5.5 Kiểm định độ lệch kỳ vọng
Xem 2 đám đông có đặc tính quan tâm lần lượt X1 và X2, là biến ngẫu nhiên có
kỳ vọng lần lượt là 1và 2, phương sai lần lựợt là 1² và 2². Để kiểm định
kỳ vọng, hàm thống kê sử dụng là độ lệch trung bình mẫu X1 - X2. Kiểm
định độ lệch kỳ vọng có giả thuyết ban đầu:
H0: 1 = 2
Tùy vào nghiên cứu, các đối thuyết có thể là:
H1: 12
H1: 1 > 2
H1: 1 < 2
5.5.1 H1: 1 2
a. Khi biết phương sai.
Khi biết phương sai, độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, 1² = 2² =²:
b. Không biết phương sai.
Khi không biết phương sai, ta xét 2 trường hợp cở mẫu nhỏ và cở mẫu lớn
i. Cở mẫu lớn
Với cở mẫu lớn, hàm thống kê độ lệch trung bình mẫu chuẩn hóa theo các độ
lệch chuẩn mẫu. có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các
mẫu thu thập, ta xác định trung bình mẫu SM và phương sai mẫu SV như ở
bảng sau.
Độ lệch trung bình mẫu:
D =`X1 - `X2 = 26,38 - 25,42 = 0,96
Với các giả thuyết:
H0: 1 = 2
H1: 12
Với =0,05, trị phân vị Z/2 = 1,96. Vùng bác bỏ H0:
R = [D < - 0,67896, D > 0,67896]
Thấy rằng độ lệch trung bình mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Kỳ
vọng đặc tính chất lượng sản phẩm ở 2 máy là khác nhau.
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, khi phương sai khác nhau, độ lệch trung bình mẫu chuẩn hóa
theo các độ lệch chuẩn mẫu có phân bố Student như sau:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn
mẫu chung có phân bố Student như sau:
v = n1 + n2 – 2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các
mẫu thu thập, ta xác định trung bình mẫu và phương sai mẫu như ở bảng
sau.
Độ lệch trung bình mẫu:
D =`X1 - `X2 = 26,38 - 25,42 = 0,96
Giả sử phương sai 2 máy như nhau, ước lượng bởi phương sai mẫu chung:
Với các giả thuyết:
H0: 1 = 2
H1: 12
Với =0,05, v = 10+12 – 2 = 20, tra bảng đựơc giá trị điểm phân vị:
t/2,v = 2,086
Vùng bác bỏ giả thuyết H0:
R = [D<-1,6065; D>1,6065]
Thấy rằng độ lệch trung bình mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Kỳ vọng đặc tính chất lượng sản phẩm ở 2 máy là bằng nhau.
5.5.2 H1: 1 < 2
a. Khi biết phương sai.
Khi biết phương sai, độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, 1² = 2² =²:
b. Không biết phương sai.
Khi không biết phương sai, ta xét 2 trường hợp cở mẫu nhỏ và cở mẫu lớn
i. Cở mẫu lớn
Với cở mẫu lớn, hàm thống kê độ lệch trung bình mẫu chuẩn hóa theo các độ
lệch chuẩn mẫu. có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các
mẫu thu thập, ta xác định trung bình mẫu và phương sai mẫu như ở bảng
sau.
Độ lệch trung bình mẫu:
D =`X1 - `X2 = 26,38 - 25,42 = 0,96
Với các giả thuyết:
H0: 1 = 2
H1: 1 < 2
Với =0,05, trị phân vị Z = 1,645. Vùng bác bỏ H0:
R = [D < -0,5698]
Thấy rằng độ lệch trung bình mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Kỳ vọng đặc tính chất lượng sản phẩm ở máy 1 không nhỏ hơn kỳ vọng
đặc tính chất lượng sản phẩm ở máy 2.
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, khi phương sai khác nhau, độ lệch trung bình mẫu chuẩn hóa
theo các độ lệch chuẩn mẫu có phân bố Student như sau:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn
mẫu chung có phân bố Student như sau:
v = n1 + n2 – 2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
5.5.3 H1: 1 > 2
a. Khi biết phương sai.
Khi biết phương sai, độ lệch trung bình mẫu chuẩn hóa có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, 1² = 2² =²:
b. Không biết phương sai.
Khi không biết phương sai, ta xét 2 trường hợp cở mẫu nhỏ và cở mẫu lớn
i. Cở mẫu lớn
Với cở mẫu lớn, hàm thống kê độ lệch trung bình mẫu chuẩn hóa theo các độ
lệch chuẩn mẫu. có phân bố chuẩn đơn vị:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định độ lệch kỳ vọng của đặc tính chất lượng của 1 sản phẩm
được sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các
mẫu thu thập, ta xác định trung bình mẫu và phương sai mẫu như ở bảng
sau.
Độ lệch trung bình mẫu:
D =`X1 - `X2 = 26,38 - 25,42 = 0,96
Với các giả thuyết:
H0: 1 = 2
H1: 1 > 2
Với =0,05, trị phân vị Z = 1,645. Vùng bác bỏ H0:
R = [D > 0,5698]
Thấy rằng độ lệch trung bình mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Kỳ
vọng đặc tính chất lượng sản phẩm ở máy 1 lớn hơn kỳ vọng đặc tính chất lượng
sản phẩm ở máy 2.
ii. Cở mẫu nhỏ
Với cở mẫu nhỏ, khi phương sai khác nhau, độ lệch trung bình mẫu chuẩn hóa
theo các độ lệch chuẩn mẫu có phân bố Student như sau:
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Khi phương sai bằng nhau, độ lệch trung bình mẫu chuẩn hóa theo độ lệch chuẩn
mẫu chung có phân bố Student như sau:
v = n1 – n2 – 2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
5.6 Kiểm định độ lệch kỳ vọng theo cặp
Xem 2 đám đông phụ thuộc được lấy mẫu theo cặp, có kỳ vọng lần lượt là 1và
2. Độ lệch trung bình mẫu theo cặp chuẩn hóa có phân bố là phân bố Student
với n-1 bậc tự do:
v=n–1
Kiểm định độ lệch kỳ vọng theo cặp có giả thuyết ban đầu:
H0: 1 = 2
Tùy vào nghiên cứu, các đối thuyết có thể là:
H1: 12
H1: 1 > 2
H1: 1 < 2
a. H1: 1 2
Nếu H0 đúng:
v=n–1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
b. H1: 1 < 2
Nếu H0 đúng:
v=n–1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
c. H1: 1 > 2
Nếu H0 đúng:
v=n–1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
5.7 KIỂM ĐỊNH PHƯƠNG SAI
Xem Xi, i=1n là mẫu lấy từ một biến ngẫu nhiên X có phương sai ². Hàm
thống kê kiểm định phương sai được xác định từ phương sai mẫu S² như sau:
(n-1)S² / ²
Giả sử biến X có phân bố chuẩn, hàm thống kê có phân bố phân bố ²:
(n-1)S² / ² ~ ²n-1
Kiểm định phương sai có giả thuyết ban đầu:
H0: ² = ²0
Tùy vào hướng nghiên cứu, các đối thuyết có thể là:
H1: ²²0
H1: ² > ²0
H1: ² < ²0
Ta tuần tự đánh giá giả thuyết ứng với các đối thuyết khác nhau.
a. H1: ² ²0
Nếu H0 đúng:
(n-1)S² / 0² ~ ²v, v = n – 1
Với [0,1]:
P{vS²/0² < ²1-/2,v, vS²/ 0² > ²/2, v} =
P{ S²<²1-/2, v 0²/v, S² > ²/2, v 0²/v} =
Vùng bác bỏ giả thuyết H0:
R = [S²<²1-/2, v 0²/v, S² > ²/2, v 0²/v]
Ví dụ: Để kiểm định phương sai của đặc tính chất lượng X cúa 1 sản phẩm,
30 sản phẩm đựơc thu thập, giá trị phương sai mẫu của tính đựơc là 1,44. Với
các giả thuyết:
H0: ² = 1,5
H1: ² 1,5
Với = 0,05, và n=30, v = n – 1 = 29, tra bảng được các điểm phân vị:
²/2, v = 45,7222
²1-/2, v = 16,0471
Vùng bác bỏ giả thuyết H0:
R = [S²<16,0471*1,5/29, S² > 45,7222*1,5/29]
R = [S²<0,83, S² >2,36]
Thấy rằng phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị bác
bỏ. Phương sai đặc tính chất lượng sản phẩm bằng 1,5.
b. H1: ² < ²0
Nếu H0 đúng:
(n-1)S² / 0² ~ ²v , v = n – 1
Với [0,1]:
P{ vS² / 0² < ²1-, v } =
P{ S²<²1-,v 0²/v} =
Vùng bác bỏ giả thuyết H0:
R = [S²<²1-,v 0²/v]
Ví dụ: Để kiểm định phương sai của đặc tính chất lượng X cúa 1 sản phẩm,
30 sản phẩm đựơc thu thập, giá trị phương sai mẫu của tính đựơc là 1,44. Với
các giả thuyết:
H0: ² = 1,5
H1: ² < 1,5
Với = 0,05, và n=30, ta tra bảng được các điểm phân vị:
²1-, v = ²0,95, 29 = 17,7083
Vùng bác bỏ giả thuyết H0:
R = [S²<17,7083*1,5/29]
R = [S²< 0,915947]
Thấy rằng phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị bác
bỏ. Phương sai đặc tính chất lượng sản phẩm không nhỏ hơn 1,5.
c. H1: ² > ²0
Nếu H0 đúng:
(n-1)S² / 0² ~ ²v , v = n – 1
Với [0,1]:
P{vS² / 0² >², v} =
P{ S²>²,n-10²/v} =
Vùng bác bỏ giả thuyết H0:
R = [S²>², v 0²/v]
Ví dụ: Để kiểm định phương sai của đặc tính chất lượng X cúa 1 sản phẩm,
30 sản phẩm đựơc thu thập, giá trị phương sai mẫu của tính đựơc là 1,44. Với
các giả thuyết:
H0: ² = 1,5
H1: ² > 1,5
Với = 0,05, và n=30, v = n – 1, tra bảng được các điểm phân vị:
², v = 42,5569
Vùng bác bỏ giả thuyết H0:
R = [S²>42,5569*1,5/29]
R = [S²> 2,201219]
Thấy rằng phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị bác
bỏ. Phương sai đặc tính chất lượng sản phẩm không lớn hơn 1,5.
5.8 Kiểm định tỷ lệ phương sai
Xem 2 đám đông có đặc tính quan tâm lần lượt X1 và X2, là biến ngẫu nhiên có
phương sai lần lựợt là 1² và 2². Để kiểm định tỷ lệ phương sai, ta dùng hàm
thống kê xác định từ tỷ lệ phương sai mẫu:
Giả sử X1 và X2 có phân bố chuẩn, hàm thống kê có phân bố là phân bố Fisher,
với các số bậc tự do như sau
v = n1 – 1, w = n2 – 1
Kiểm định phương sai có giả thuyết ban đầu:
H0: 1² = 2²
Tùy vào hướng nghiên cứu, các đối thuyết có thể là:
H1: 1²2²
H1: 1² < 2²
H1: 1² > 2²
Ta tuần tự đánh giá giả thuyết ứng với các đối thuyết khác nhau.
a. H1: 1² 2²
Nếu H0 đúng:
v = n1 – 1, w = n2 – 1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
b. H1: 1² < 2²
Nếu H0 đúng:
v = n1 – 1, w = n2 – 1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
c. H1: 1² > 2²
Nếu H0 đúng:
v = n1 – 1, w = n2 – 1
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để so sánh phương sai của đặc tính chất lượng của 1 sản phẩm được
sản xuất trên 2 máy khác nhau, mẫu được thu thập từ 2 máy. Từ các mẫu thu
thập, ta xác định phương sai mẫu như ở bảng sau.
Tỷ lệ phương sai mẫu:
S1²/S2² = 3,45/3,06= 1,1274
Với các giả thuyết kiểm định:
H0: 1² = 2²
H1: 1²2²
Với = 0,05, và các bậc tự do v = 9, w = 20, ta tra được các điểm phân vị:
F0,025, 9, 20 = 2,84
F0,975, 9, 20 = 1/F0,025, 20, 9 = 1 / 3,67 = 0,2725
Vùng bác bỏ giả thuyết H0:
Thấy rằng tỷ lệ phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Phương sai đặc tính chất lượng sản phẩm ở 2 máy là bằng nhau.
Với các giả thuyết kiểm định:
H0: 1² = 2²
H1: 1² < 2²
Với = 0,05, và các bậc tự do v = 9, w = 20, ta tra được điểm phân vị:
F0,95, 9, 20 = 1/F0,05, 20, 9 = 1 / 2,94 = 0,3401
Vùng bác bỏ giả thuyết H0:
Thấy rằng tỷ lệ phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Phương sai đặc tính chất lượng sản phẩm trên máy 1 không nhỏ hơn
phương sai đặc tính chất lượng sản phẩm trên máy 2.
Với các giả thuyết kiểm định:
H0: 1² = 2²
H1: 1² > 2²
Với = 0,05, và các bậc tự do v = 9, w = 20, ta tra được điểm phân vị:
F0,05, 9, 20 = 2,39
Vùng bác bỏ giả thuyết H0:
Thấy rằng tỷ lệ phương sai mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Phương sai đặc tính chất lượng sản phẩm trên máy 1 không lớn hơn
phương sai đặc tính chất lượng sản phẩm trên máy 2.
5.9 Kiểm định tỷ lệ
Xem đám đông có có tỷ lệ các phần tử có đặc tính quan tâm là p. Để kiểm định
tỷ lệ đám đông p, ta sử dụng hàm thống kê là tỷ lệ mẫu P. Với cở mẫu đủ lớn, tỷ
lệ mẫu chuẩn hóa có phân bố chuẩn đơn vị:
q=1–p
Kiểm định tỷ lệ có giả thuyết ban đầu:
H0: p = p0
Tùy vào nghiên cứu, các đối thuyết có thể là:
H1: p p0
H1: p < p0
H1: p > p0
a. H1: p p0
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
b. H1: p < p0
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
c. H1: p > p0
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để kiểm định tỷ lệ lỗi của 1 quá trình sản xuất, 200 sản phẩm được lấy
mẫu. Số sản phẩm bị lỗi của mẫu là 45. Tỷ lệ lỗi mẫu:
P = 23/200 = 0,115.
Với các giả thuyết kiểm định:
H0: p = 0,2
H1: p 0,2
Với = 0,05, tra bảng được Z/2 = 1,96. Vùng bác bỏ H0:
R = [P < 0,1446; P > 0,2554]
Thấy rằng tỷ lệ lỗi mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Tỷ lệ lỗi của
quá trình sản xuất khác 0,2. Với các giả thuyết kiểm định:
H0: p = 0,2
H1: p < 0,2
Với = 0,05, tra bảng được Z = 1,645. Vùng bác bỏ H0:
R = [P<0,1535]
Thấy rằng tỷ lệ lỗi mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Tỷ lệ lỗi của
quá trình sản xuất nhỏ hơn 0,2. Với các giả thuyết kiểm định:
H0: p = 0,2
H1: p > 0,2
Với = 0,05, tra bảng được Z = 1,645. Vùng bác bỏ H0:
R = [ P>0,2465]
Thấy rằng tỷ lệ lỗi mẫu không rơi vào vùng bác bỏ R nên H0 không bị bác bỏ.
Tỷ lệ lỗi của quá trình sản xuất không lớn hơn 0,2.
5.10 Kiểm định độ lệch tỷ lệ
Xem 2 đám đông có tỷ lệ các phần tử có đặc tính quan tâm lần lượt p1 và p2. Để
kiểm định độ lệch tỷ lệ đám đông, p1 - p2, hàm thống kê sử dụng là độ lệch tỷ lệ
mẫu P1 - P2. Với cở mẫu đủ lớn, độ lệch tỷ lệ mẫu chuẩn hóa có phân bố chuẩn
đơn vị:
Kiểm định tỷ lệ có giả thuyết ban đầu:
H0: p1 = p2
Tùy vào nghiên cứu, các đối thuyết có thể là:
H1: p1 p2
H1: p1 < p2
H1: p1 > p2
a. H1: p1 p2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
b. H1: p1 < p2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
c. H1: p1 > p2
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Để so sánh tỷ lệ lỗi của 2 máy, mẫu được thu thập từ 2 máy. Từ các
mẫu thu thập, ta xác định số lỗi ở mỗi máy và tỷ lệ lỗi như ở bảng sau.
Độ lệch tỷ lệ lỗi trên mẫu:
D = P1 - P2 = 0,2142 – 0,1850 = 0,0293
Với các giả thuyết kiểm định:
H0: p1 = p2
H1: p1 p2
Với = 0,05, Z/2 = 1,96. Vùng bác bỏ H0:
R = [D<RL, D>RU]
Tính được:
R = [D< -0,0031, D>0,0031]
Thấy rằng độ lệch tỷ lệ lỗi mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Tỷ lệ
lỗi của 2 quá trình sản xuất khác nhau.
Với các giả thuyết kiểm định:
H0: p1 = p2
H1: p1 < p2
Với = 0,05, Z = 1,645. Vùng bác bỏ H0:
R = [D<-0,0026]
Thấy rằng độ lệch tỷ lệ lỗi mẫu không rơi vào vùng bác bỏ R nên H0 không bị
bác bỏ. Tỷ lệ lỗi của quá trình sản xuất 1 không nhỏ hơn tỷ lệ lỗi của quá trình
sản xuất 2.
Với các giả thuyết kiểm định:
H0: p1 = p2
H1: p1 > p2
Với = 0,05, Z = 1,645. Vùng bác bỏ H0:
R = [D>0,0026]
Thấy rằng độ lệch tỷ lệ lỗi mẫu rơi vào vùng bác bỏ R nên H0 bị bác bỏ. Tỷ lệ
lỗi của quá trình sản xuất 1 lớn hơn tỷ lệ lỗi của quá trình sản xuất 2.
5.11 Kiểm định phân bố
5.11.1 Kiểm định phân bố
Các bước nhằm xác định phân bố lý thuyết của một tập số liệu mẫu:
Giả thuyết phân bố phù hợp.
Ước lượng tham số phân bố.
Kiểm định phân bố.
Giả thuyết phân bố phù hợp là bước trực quan dựa vào các trị thống kê của tập
số liệu như trung bình mẫu, trung vị mẫu, yếu vị mẫu, phương sai mẫu, các điểm
tứ phân vị, điểm cực… hay dựa vào dạng biểu đồ hộp, tần đồ… chọn phân bố lý
thuyết phù hợp cho tập số liệu mà chưa để ý đến tham số phân bố. Có thể có
nhiều phân bố phù hợp với một tập số liệu.
Sau khi đã chọn được phân bố phù hợp, bước ước lượng tham số phân bố sẽ ước
lượng tham số phân bố đã chọn. Có nhiều kỹ thuật ước lượng như phương pháp
cực tiểu tổng bình phương LSE, phương pháp ước lượng không lệch, phương
pháp ước lượng MLE… Trong đó phương pháp ước lượng MLE là thường dùng
vì có nhiều ưu điểm.
Sau khi đã chọn được phân bố lý thuyết phù hợp, ước lượng được tham số phân
bố, Kiểm định phân bố kiểm định mức độ phù hợp của phân bố lý thuyết đã
chọn với các tham số đã ước lượng với phân bố tiềm ẩn của tập số liệu mẫu.
Phương pháp kiểm định phân bố kinh điển thường dùng là phân chia tập dữ liệu
mẫu thành một số hữu hạn các vùng số liệu, sau đó đếm số số liệu mẫu trong
mỗi vùng và so sánh với giá trị tương ứng của một phân bố lý thuyết đã chọn
nhằm đánh giá phân bố đã chọn có phù hợp hay không. Các phương pháp kiểm
định phân bố bao gồm:
Phương pháp trực quan
Phương pháp kiểm tra mức phù hợp GOF
a. Phương pháp trực quan
Phương pháp trực quan so sánh phân bố dựa vào trực quan và kinh nghiệm, bao
gồm hai phương pháp:
Phương pháp so sánh hình dạng phân bố
Phương pháp đồ thị xác suất
Phương pháp so sánh hình dạng phân bố so sánh trực quan giữa phân bố trọng
lượng thực nghiệm pn của tập dữ liệu với hàm mật độ f hay hàm trọng lượng p
của phân bố lý thuyết hay giữa phân bố tích lũy thực nghiệm Fn của tập số liệu
với hàm tích lũy F của phân bố lý thuyết. Phương pháp đồ thị xác suất là phương
pháp trực quan so sánh phân bố dựa vào đồ thị xác suất. Đồ thị xác suất là đồ thị
của chênh lệch giữa phân bố tích lũy lý thuyết F và phân bố tích lũy thực nghiệm
Fn.
D(x) = F(x) – Fn(x)
b. Phương pháp kiểm tra mức phù hợp GOF
Phương pháp kiểm tra mức phù hợp GOF là phương pháp kiểm định giả thuyết
thống kê H0:
Xi: i=1n là các biến ngẫu nhiên độc lập, đồng dạng phân bố F.
Các phương pháp kiểm tra mức phù hợp GOF bao gồm:
Kiểm định Chi-Square
Kiểm định Kolmogorov-Smirnov
Kiểm định Anderson-Darling
Kiểm định Chi-Square dựa vào phân bố Chi-Square so sánh phân bố trọng lượng
thực nghiệm của tập dữ liệu với hàm mật độ f hay hàm trọng lượng p của phân
bố lý thuyết. Kiểm định Kolmogorov-Smirnov so sánh phân bố tích lũy thực
nghiệm của tập dữ liệu với hàm tích lũy F của phân bố lý thuyết. Kiểm định
Anderson-Darling là một phương pháp cải tiến của Kiểm định KolmogorovSmirnov.
5.11.2 Kiểm định phân bố chuẩn
Một phân bố thường được chọn trong kỹ thuật công nghiệp là phân bố chuẩn.
Một giả định thường gặp trong kỹ thuật công nghiệp là giả sử một tập số liệu
mẫu rút từ một phân bố chuẩn. Một công cụ kiểm tra giả định này là chuẩn đồ, là
một công cụ theo phương pháp trực quan là phương pháp đồ thị xác suất nêu
trên.
Chuẩn đồ là công cụ kiểm tra giả định một tập số liệu mẫu rút ra từ một phân bố
chuẩn. Xem tập số liệu:
X1, …, Xn
Nhằm xây dựng chuẩn đồ, ta sắp xếp tập số liệu này theo thứ tự từ nhỏ đến lớn:
X(1), …, X(n)
Phân bố tích lũy thực nghiệm:
Fn(X(i)) = (i-0,5)/n, i=1n
Chuẩn đồ là biểu đồ với các điểm có tọa độ:
[X(j), Fn(X(i))]
Nếu tập số liệu có phân bố chuẩn thì các điểm trên chuẩn đồ như nằm trên một
đường thẳng. Việc vẽ đường thẳng là chủ quan, nên chú ý đến các điểm giữa hơn
là các điểm biên, đặc biệt là các điểm giữa các điểm bách phân vị P25 và P75.
Ví dụ: Dữ liệu sai số của 1 thực nghiệm thu thập được như ở bảng sau.
Từ số liệu của sai số thực nghiệm ở bảng trên, chuẩn đồ sai số vẽ được như ở
hình sau. Ta thấy giả định sai số thực nghiệm có phân bố chuẩn là phù hợp.
Chương 6
PHÂN TÍCH PHƯƠNG SAI
Phân tích phương sai
Phân tích biến thiên
Kiểm định giả thuyết
Ước lượng tham số
Kiểm tra mô hình
Xác định cỡ mẫu
So sánh kỳ vọng
6.1 Phân tích phương sai
Các chương trước trình bày bài tóan suy diễn 1 hay 2 đám đông, thực tế thường
gặp bài tóan suy diễn nhiều đám đông, sau đây ta khảo sát bài toán tổng quát
này.
6.1.1 Bài toán suy diễn nhiều đám đông
Xem m đám đông có đặc tính quan tâm là biến ngẫu nhiên với giả sử có phân bố
chuẩn với cùng phương sai:
Xi ~ N(i, ²), i=1m
Để suy diễn, các đám đông này được lấy mẫu ngẫu nhiên với cở mẫu là n. Mẫu
thứ j của đám đông thứ i là:
Xij, i=1m, j=1n.
Bài toán suy diễn nhiều đám đông thường gặp là bài tóan so sánh các kỳ vọng i
của các đám đông. Các giả thuyết được thiết lập như sau:
H0: 1 = 2 = … = m
H1: (i,j = 1m), i j: ij
6.1.2 Phân tích phương sai
Bài toán so sánh kỳ vọng nhiều đám đông nêu trên có thể giải quyết theo các
phương pháp.
Phương pháp đồ thị
Phương pháp so sánh
Phân tích phương sai.
Phương pháp đồ thị sử dụng các công cụ như biểu đồ hộp, biểu đồ tần suất của
các biến Xi để so sánh, phương pháp có ưu điểm là đơn giản, trực quan nhưng có
nhược điểm là không khách quan.
Phương pháp so sánh sử dụng các kỹ thuật suy diễn 2 đám đông ở chương trước
để so sánh từng cặp đám đông, tuy nhiên đó không phải là phương pháp phù hợp
vì phải dùng nhiều lần so sánh. Với m đám đông, ta có m tập số liệu tương ứng,
số lần so sánh:
k = C(m,2) = m! / [2! (m-2)!]
Mặt khác xác suất sai lầm cũng sẽ gia tăng. Với xác suất sai lầm đã chọn cho
mỗi kiểm định, nếu các kiểm định là độc lập thì xác suất sai lầm cho cả k lần
kiểm định thường rất lớn hơn .
k = 1 – (1 – )k
Với << 1:
k = 1 – (1 – )k 1 – (1 – k) = k >>
Chẳng hạn như với 5 đám đông, số lần so sánh là k = 10, với = 0,05:
k = 1 – (1 – 0,05)¹
= 0,6.
Phương pháp thích hợp để so sánh nhiều đám đông như ở trường hợp này là
phân tích phương sai ANOVA. Phân tích phương sai ANOVA là một phương
pháp suy diễn thống kê, sử dụng hàm thống kê có phân bố Fisher để suy diễn có
hay không sự khác biệt giữa nhiều đám đông dựa vào mẫu được lấy ngẫu nhiên
trên các đám đông. Phân tích phương sai ANOVA không chỉ hữu dụng cho bài
tóan suy diễn nêu trên mà còn có thể ứng dụng cho nhiều bài tóan thiết kế thực
nghiệm khác, sẽ được trình bày ở phần sau.
6.2 Phân tích biến thiên
6.2.1 Mô hình sai số
Biến ngẫu nhiên của đám đông có thể biểu diễn theo sai số:
Xi = i + Ei, i=1m
Trong đó Ei là sai số của đám đông thứ i, biểu thị biến thiên trong đám đông.
Với giả sử Xi có phân bố chuẩn với phương sai ², sai số có phân bố chuẩn với
kỳ vọng bằng 0, phương sai ².
Ei ~ N(0, ²)
Kỳ vọng i có thể biểu thị bởi:
i= +i
- kỳ vọng chung cho mọi đám đông.
i - độ lệch kỳ vọng ứng với đám đông i.
Kỳ vọng không đổi theo các đám đông, i biểu thị độ lệch của kỳ vọng i
với kỳ vọng chung .
6.2.2 Phân tích biến thiên
a. Tổng mẫu, trung bình mẫu
Với tập dữ liệu Xij, ta xác định các hàm thống kê tổng mẫu và trung bình mẫu.
Tổng mẫu của đám đông i:
Trung bình mẫu ở đám đông i:
Tổng mẫu chung của các đám đông:
Với tổng số lần lấy mẫu là N=nm, trung bình mẫu chung:
b. Tổng bình phương
Phân tích phương sai phân tích biến thiên dữ liệu thành nhiều thành phần. Biến
thiên dữ liệu được biễu diễn bởi tổng bình phương:
Sau khi khai triển tổng bình phương, ta có được biểu thức sau:
Gọi:
Thì có:
SS = SSB + SSE
Vậy tổng bình phương SS có thể phân tích thành hai tổng bình phương thành
phần bao gồm tổng bình phương SSB và tổng bình phương SSE. Tổng bình
phương SSB biểu thị biến thiên giữa các các đám đông. Tổng bình phương SSE
biểu thị biến thiên trong các đám đông, do sai số gây ra.
Các tổng bình phương có thể được xác định như sau:
Số bậc tự do của các tổng bình phương:
Với tổng cộng N mẫu, số bậc tự do của SS là N–1.
Với m tập mẫu, số bậc tự do của SSB là m–1.
Với m tập mẫu có cở mẫu n, số bậc tự do của SSE là m(n–1) = N–m.
c.Trung bình bình phương
Từ các tổng bình phương, với các bậc tự do tương ứng, ta tính được các trung
bình bình phương. Trung bình bình phương do biến thiên giữa các đám đông:
MSB = SSB / (m–1).
Trung bình bình phương do sai số:
MSE = SSE / (N–m)
Kỳ vọng của các trung bình bình phương tính được như sau:
E(MSE) = ²
Từ các kết quả về kỳ vọng trung bình bình phương ở trên ta thấy MSE có thể
được sử dụng để ước lượng ². Mặt khác, MSB có kỳ vọng bằng ² khi không
có độ lệch kỳ vọng giữa các đám đông, và lớn hơn ² khi có độ lệch kỳ vọng.
Khi các kỳ vọng của các đám đông là như nhau thì MST có xu hướng bằng với
MSE. Còn khi các kỳ vọng của các đám đông khác nhau thì MST có xu hướng
lớn hơn MSE. Đây là cơ sở cho kiểm định xét ở phần sau.
6.3 Kiểm định giả thuyết
Nhắc lại các giả thuyết bài toán so sánh các kỳ vọng i của các đám đông:
H0: 1 = 2 = … = m
H1: (i,j = 1m), i j: ij
Hay theo các độ lệch kỳ vọng:
H0: 1 = 2 = … = m = 0
H1: i=1m: i 0.
Với giả định các đám đông có phân bố độc lập, đồng dạng chuẩn với phương sai
bằng nhau:
Xi ~ N( + i, ²), i=1m
Các hàm thống kê tổng bình phương có phân bố ² với các bậc tự do như sau:
SS / ² ~ ² N-1.
SSE/² ~ ² N-m (*)
Nếu H0 đúng:
SSB/² ~ ²m-1 (**)
Nhằm kiểm định giả thuyết, ta xây dựng hàm thống kê F0 là tỷ số giữa các trung
bình bình phương:
Nếu H0 đúng, từ (*) và (**) ta thấy hàm thống kê F0 có phân bố Fisher với các
bậc tự do (m–1) và (N–m):
F0 ~ Fv,w,
v=m-1, w=N-m
Khi H0 đúng, MSB có xu hướng bằng MSE. Khi H0 sai, MSB có xu hướng lớn
hơn MSE, F0 có xu hướng lớn hơn 1. H0 sẽ bị bác bỏ khi F0 tăng đủ lớn. Với
xác định, vùng bác bỏ của H0 phụ thuộc phân bố hàm thống kê:
F0 > F,v, w.
Quy trình kiểm định theo phương pháp giá trị tới hạn như sau:
1- Xác định các tổng bình phương.
2- Xác định các trung bình bình phương.
3- Xác định trị thống kê F0.
4- Chọn , xác định trị phân vị F, v, w.
5- Ra quyết định:
F0 > F,v,w bác bỏ H0
F0 < F,v,w chấp nhận H0
Quy trình kiểm định theo phương pháp xác suất tới hạn như sau:
1- Xác định các tổng bình phương.
2- Xác định các trung bình bình phương.
3- Xác định trị thống kê F0.
4- Xác định giá trị P.
5- Chọn xác suất sai lầm , ra quyết định:
> P bác bỏ H0.
< P chấp nhận H0.
Phân tích phương sai ANOVA có hỗ trợ bởi các phần mềm chuyên dụng, với
phương tiện là bảng phân tích phương sai ANOVA sau:
Với các ký hiệu:
SOV: Nguồn biến thiên
SS: Tổng bình phương
DOF: Bậc tự do
MS: Trung bình bình phương
F0: Trị thống kê
P: Xác suất tới hạn P.
Ví dụ: Xem 5 đám đông được lấy mẫu với cở mẫu là 5. Số liệu thu thập được
như ở bảng sau:
Tổng mẫu và trung bình mẫu:
Kết quả tính toán ở bảng phân tích phương sai ANOVA sau:
Với = 0,05, tra bảng được F0,05,4,20 = 2,87. Thấy rằng:
F0 = 14,76 > F0,05,4,20 Bác bỏ H0
Nhìn vào bảng ANOVA ta thấy, P < 0,01. Giả thuyết H0 bị bác bỏ với mọi >
0,01. Hoặc là, với F0 = 14,76 ta thấy giá trị P tương ứng:
P = 9,11 10-6
Với = 0,05:
> P Bác bỏ H0
Vậy với = 0,05, ta kết luận có sự khác biệt giữa kỳ vọng của các đám đông.
Với cở mẫu khác nhau, phân tích ANOVA vẫn được sử dụng với thay đổi về
cách tính các tổng bình phương. Gọi ni là cỡ mẫu cho đám đông i, các tổng bình
phương được tính như sau:
Tuy nhiên, lấy mẫu với cỡ mẫu bằng nhau có ưu điểm hơn vì hàm thống kê ít bị
ảnh hưởng bởi giả định biến thiên như nhau ở các đám đông, và giảm thiểu xác
suất sai lầm loại 2.
6.4 Ước lượng tham số
Sau khi lấy mẫu ta thường sử dụng số liệu để ước lượng tham số đám đông và
sai số. Các tham số đám đông bao gồm kỳ vọng chung , kỳ vọng đám đông i,
và độ lệch kỳ vọng i. Các tham số này được ước lượng dựa vào số liệu thu thập
qua các trung bình mẫu sau:
X..
i Xi., i = 1m
i = i - Xi. –X.., i = 1m
Giá trị của sai số ở mẫu j của đám đông i được ước lượng từ số liệu thu thập như
sau:
eij = Xij – Xi.
Ví dụ: Xem lại thực nghiệm ở ví dụ trên, dữ liệu thực nghiệm và các trung
bình mẫu tính được ở bảng sau.
Các tham số đám đông được ước lượng dựa vào các trung bình mẫu:
= y.. = 15,04
1 = 9,80; 1 = 9,80 – 15,04 = –5,24
2 = 15,40; 2 = 15,40 – 15,04 = +0,36
3 = 17,60; 3 = 17,60 – 15,04 = –2,56
4 = 21,60; 4 = 21,60 – 15,04 = +6,56
5 = 10,80; 5 = 10,80 – 15,04 = –4,24
Và sai số ước lượng như ở bảng sau.
6.5 Kiểm tra mô hình
Sử dụng phân tích phương sai ANOVA trong kiểm định giả thuyết về kỳ vọng
đám đông dựa trên các giả định:
Các mẫu lấy ngẫu nhiên từ đám đông.
Phân bố tiềm ẩn của các đám đông là phân bố chuẩn.
Phương sai các đám đông bằng nhau.
Việc kiểm tra các giả định thường được thực hiện bằng cách khảo sát sai số eij
đã ước lượng được từ số liệu thu thập. Việc ước lượng sai số là một phần của
phân tích phương sai ANOVA.
a. Kiểm tra giả định mẫu ngẫu nhiêu
Giả định mẫu được lấy ngẫu nhiên từ đám đông được kiểm tra qua mẫu hình của
sai số. Giả định là phù hợp khi sai số có mẫu hình phi cấu trúc hay có mẫu hình
ngẫu nhiên, không có mẫu hình hệ thống. Các công cụ phân tích bằng đồ thị như
biểu đồ sai số theo thời gian có thể sử dụng để phân tích mẫu hình của sai số.
Thời đồ sai số ở ví dụ trên như ở hình sau.
b. Kiểm tra giả định phân bố chuẩn
Kiểm tra giả định phân bố đám đông là phân bố chuẩn được kiểm tra qua phân
bố của sai số. Kiểm tra phân bố của sai số thườgn thực hiện bằng các công cụ
trực quan như tần đồ, chuẩn đồ. Khi sử dụng tần đồ sai số để kiểm tra giả định
sai số có phân bố chuẩn, nếu giả định là đúng, tần đồ sai số có dạng phân bố
chuẩn với tâm ở giá trị 0. Khi tần đồ bị lệch dạng phân bố chuẩn hay tâm bị dịch
chuyển thì phải nghiên cứu thêm để xem lại tính phù hợp của phương pháp. Tuy
nhiên, với cỡ mẫu nhỏ, khó mà sử dụng phương pháp này vì tần đồ sẽ bị lệch
dạng nhiều so với phân bố chuẩn.
Chuẩn đồ sai số cũng là công cụ hữu dụng để kiểm tra giả định sai số có phân bố
chuẩn hay không. Nếu giả định phù hợp, biểu đồ này có dạng đường thẳng. Khi
đánh giá dạng biểu đồ cần để ý nhiều hơn đến các điểm ở tâm biểu đồ hơn là các
điểm bên ngoài. Chuẩn đồ của sai số thực nghiệm ở ví dụ trên vẽ được như ở
hình sau. Ta thấy giả định phân bố chuẩn là phù hợp.
c. Kiểm tra giả định biến thiên không đổi
Các phương pháp kiểm tra giả định biến thiên không đổi:
Phương pháp đồ thị
Phương pháp thống kê.
Một phương pháp thống kê kiểm định giả thuyết biến thiên không đổi thường
dùng là phép kiểm định Bartlett. Phương pháp đồ thị sử dụng biểu đồ sai số theo
các đám đông. Biểu đồ sai số theo các đám đông ở ví dụ trên như ở hình sau.
Trực quan cho thấy giả định biến thiên không đổi là phù hợp.
6.6 Xác định cở mẫu
6.6.1 Đặc tính vận hành
Một quyết định quan trọng khi phân tích phương sai là chọn cỡ mẫu Phương
pháp xác định cỡ mẫu thường dùng là sử dụng Đặc tuyến vận hành của kế họach
kiểm định.
Đặc tuyến vận hành của kế họach kiểm định là quan hệ giữa xác suất sai lầm loại
2, , là xác suất chấp nhận một giả thuyết sai của một kế hoạch kiểm định với
tham số biểu thị mức độ sai lầm của giả thuyết kiểm định.
= P{Chấp nhận H0 H0 sai}
Một kế hoạch kiểm định là một kế hoạch được xác định bởi một xác suất sai lầm
loại 1, , xác định cùng với một cỡ mẫu n xác định. Tham số biểu thị mức độ sai
lầm là tổng bình phương độ lệch kỳ vọng:
Tổng quát đặc tuyến vận hành là quan hệ:
= (,,n)
Trong thực tế, ta thường xây dựng đặc tuyến theo tham số 2 tích hợp giữa mức
độ sai lầm và cỡ mẫu n:
Ta có thể viết lại:
= P{F0 < F, v, w ² }
v=a-1, w=N-a
Với hàm thống kê:
F0 = MSB / MSE
Vậy xác suất sai lầm phụ thuộc vào phân bố của hàm thống kê F0 ứng với các
giá trị khác nhau của tham số ². Đặc tuyến vận hành có dạng như ở hình sau
với sự phụ thuộc vào:
Tham số ².
Xác suất .
Các bậc tự do của phân bố F: v = a – 1, w = a(n – 1).
= (, , v, w).
6.6.2 Xác định cỡ mẫu
Năng lực kiểm định P là xác suất bác bỏ một giả thuyết sai:
P=1–
Việc chọn cỡ mẫu n là một quá trình thử sai và lặp để có được năng lực kiểm
định mong muốn, hai phương pháp thường dùng là:
Năng lực kiểm định ở một tập các kỳ vọng xác định.
Năng lực kiểm định ở một độ lệch kỳ vọng cực đại.
a. Năng lực kiểm định ở một tập các kỳ vọng xác định
Xác định cỡ mẫu n để có được năng lực kiểm định mong muốn ở một tập các kỳ
vọng xác định như ở ví dụ sau.
Ví dụ: Xem một kiểm định trên 5 đám đông. Với = 0,01, ta xây dựng kế hoạch
kiểm định và muốn bác bỏ H0 với xác suất tối thiểu là 0,90 với các kỳ vọng sau:
1 = 11, 2 = 12, 3 = 15, 4 = 18, 5 = 19
Kỳ vọng chung:
= 15
Độ lệch kỳ vọng:
1 = –4, 2 = –3, 3 = 0, 4 = 3, 5 = 4
Tổng bình phương các độ lệch kỳ vọng:
= (–4)² + (–3) ² + 0² + 3² + 4² = 50
Giả sử độ lệch chuẩn = 3, tham số ² tính được theo cỡ mẫu n:
² = n*50 / (5*3²) = 1,11n
Bậc tự do của phân bố:
v = a – 1 = 4, w = a(n – 1) = 5(n-1)
Với = 0,01, tuần tự xác định năng lực kiểm định P = 1 – với các giá trị khác
nhau của n, thấy rằng để có năng lực kiểm định theo yêu cầu ta cần cỡ mẫu ít
nhất là n = 6.
b. Năng lực kiểm định ở một độ lệch kỳ vọng cực đại
Một cách thể hiện năng lực kiểm định khác là xác suất bác bỏ H0 khi mà sai biệt
kỳ vọng giữa hai đám đông là một giá trị lớn nhất D xác định. Giá trị cực tiểu
của ² có thể được xác định như sau.
² = nD² / 2m²
Xác định cỡ mẫu n để có được năng lực kiểm định mong muốn ở một độ lệch kỳ
vọng cực đại như ở ví dụ sau.
Ví dụ: Xem một kiểm định trên 5 đám đông. Với = 0,01, ta xây dựng kế
hoạch kiểm định và muốn bác bỏ H0 với xác suất tối thiểu là 0,90 nếu có độ
lệch kỳ vọng giữa hai đám đông bất kỳ lên đến giá trị D = 10. Giả sử = 3,
giá trị cực tiểu của tham số ²:
² = 1,11n
Bậc tự do của phân bố:
v = a – 1 = 4, w = a(n – 1) = 5(n-1)
Với = 0,01, tuần tự xác định năng lực kiểm định P = 1 – với các giá trị khác
nhau của n, thấy rằng để có năng lực kiểm định theo yêu cầu ta cần cỡ mẫu ít
nhất là n = 6.
6.7 So sánh kỳ vọng
Sau khi sử dụng ANOVA để kiểm định giả thuyết và có kết quả bác bỏ giả thuyết
H0, có sự khác biệt giữa kỳ vọng các đám đông. Một câu hỏi đặt ra là kỳ vọng
nào khác với kỳ vọng nào? Một phân tích hữu ích tiếp theo là So sánh các nhóm
kỳ vọng.
Giá trị kỳ vọng i được ước lượng bởi trung bình mẫuXi. và có quan hệ với
tổng trong mẫu Xi.. So sánh giữa các kỳ vọng có thể thực hiện theo trung bình
mẫu hay tổng mẫu. So sánh nhóm các kỳ vọng thường được thực hiện bởi:
Phương pháp đồ thị.
Phương pháp thống kê.
Phương pháp đồ thị vẽ các phân bố các đám đông, trục hoành của đồ thị thể hiện
các giá trị của trung bình mẫu ứng với các đám đông, từ đó có nhận xét trực
quan về các kỳ vọng. Phương pháp thống kê giúp so sánh nhóm kỳ vọng, sử
dụng khái niệm tương phản.
6.7.1 Tương phản
Xem một kiểm định trên m đám đông. Giả sử H0 đã bị bác bỏ, có một số kỳ
vọng khác biệt nhưng là kỳ vọng đám đông nào? Những kỳ vọng nào không
khác biệt?
Xem lại kiểm định 5 đám đông trên, nếu ngờ rằng có sự khác biệt giữa các kỳ
vọng ở các đám đông 4 và 5 ta kiểm định giả thuyết:
H0: 4 = 5
H1: 45
Hay là:
H0: 4 – 5 = 0
H1: 4 – 5 0
Nếu ngờ rằng có sự khác biệt giữa trung bình các kỳ vọng ở các đám đông 1 và 2
và trung bình các kỳ vọng ở các đám đông 4 và 5 ta kiểm định giả thuyết:
H0: 1 + 2 = 4 + 5
H1: 1 + 24 + 5
Hay là:
H0: 1 + 2 - 4 - 5 =0
H1: 1 + 2 - 4 - 5 0
Tổng quát hóa, ta định nghĩa tương phản là một tổ hợp tuyến tính các kỳ vọng:
Với ci là các hệ số tương phản thỏa điều kiện:
Thấy rằng tương phản đo lường khác biệt giữa hai nhóm kỳ vọng. Các giả thuyết
kiểm định trên có thể biểu diễn ở dạng tương phản như sau:
Tương phản có thể ước lượng bởi tương phản mẫu C. Tương phản mẫu C có
hai dạng. Tương phản tổng mẫu:
Và tương phản trung bình mẫu:
Tương phản mẫu dạng tổng thường dùng trong kiểm định giả thuyết tương phản,
còn tương phản mẫu dạng trung bình thường dùng trong xác định khoảng tin cậy
của độ tương phản.
6.7.2 Kiểm định giả thuyết dạng tương phản
Kiểm định giả thuyết dạng tương phản có thể thực hiện theo hai phương pháp:
Phương pháp kiểm định theo phân bố Student
Phương pháp kiểm định theo phân bố Fisher
a. Kiểm định tương phản theo phân bố Student
Kiểm định tương phản theo phân bố Student sử dụng tương phản mẫu dạng tổng:
Với cỡ mẫu n không đổi, phương sai của tương phản mẫu:
Nếu biết , hàm thống kê kiểm định:
Nếu H0 đúng thì Z0 có phân bố chuẩn đơn vị.
Z0 ~ Z
Với xác suất sai lầm , H0 bị bác bỏ khi trị thống kê thỏa điều kiện:
Z0 = Z
Nếu không biết ², ước lượng ² bởi MSE, hàm thống kê kiểm định:
(*)
Nếu H0 đúng thì T0 có phân bố Student với bậc tự do v=N – m:
T0 ~ tv
Với xác suất sai lầm , H0 bị bác bỏ khi trị thống kê thỏa điều kiện:
t0 = t/2,v
b. Kiểm định tương phản theo phân bố Fisher
Nhắc lại rằng bình phương của biến ngẫu nhiên Student với v bậc tự do là biến
ngẫu nhiên Fisher với bậc tự do tử số là 1 và bậc tự do mẫu số là v. Từ (*), ta xác
định hàm thống kê sau:
Nếu H0 đúng thì T0 có phân bố Tv, F0 có phân bố F1, v:
F0 ~ F1, v
Với xác suất sai lầm , H0 bị bác bỏ khi trị thống kê thỏa điều kiện:
F0 > F,1,v
Để ý rằng, ta có thể viết lại hàm thống kê F0 theo dạng tỷ số các trung bình bình
phương sau:
F0 = MSC / MSE
Trong đó MSC là trung bình bình phương tương phản định bởi tổng bình phương
tương phản SSC với 1 bậc tự do:
MSC = SSC / 1
Tổng bình phương tương phản SSC được xác định như sau:
6.7.3. Khoảng tin cậy của độ tương phản
Ước lượng khoảng tin cậy của độ tương phản cho nhiều thông tin hơn nên
thường là hữu ích hơn kiểm định giả thuyết về độ tương phản. Xem một độ
tương phản:
Khi ước lượng khoảng tin cậy của độ tương phản ta dùng tương phản mẫu dạng
trung bình:
Phương sai của tương phản mẫu dạng trung bình:
Nếu biết :
Với mức ý nghĩa , khoảng tin cậy của trị thống kê z0:
Và khoảng tin cậy của của độ tương phản :
Nếu không biết biết , ước lượng ² bởi MSE:
Với mức ý nghĩa , khoảng tin cậy của trị thống kê t0:
Khoảng tin cậy của của độ tương phản :
Chương 7
HỒI QUY
Hồi quy
Hồi quy đơn
Hồi quy bội
Hồi quy phi tuyến
7.1 Hồi quy
Trong công nghiệp có nhiều bài tóan liên quan đến việc xác định quan hệ giữa
các biến trong hệ thống với các mục đích:
Xác định mức độ quan hệ giữa các biến.
Xây dựng mô hình nhằm tiên đóan 1 biến từ các biến khác.
Các kỹ thuật thường dùng bao gồm kỹ thuật tương quan và kỹ thuật hồi quy. Kỹ
thuật tương quan nhằm xác định mức độ quan hệ giữa các biến trong hệ thống.
Kỹ thuật hồi quy xây dựng mô hình nhằm tiên đóan 1 biến từ các biến khác
trong hệ thống.
Mô hình hồi quy là một mô hình toán học xác định quan hệ giữa các biến, bao
gồm biến vào và biến ra Y:
Y = f(X).
Biến vào là biến độc lập, biến ra là biến phụ thuộc. Theo số biến vào, ta chia mô
hình hồi quy thành 2 lọai:
Hồi quy đơn
Hồi quy bội
Mô hình hồi quy đơn hay hồi quy đơn biến, chỉ có 1 biến vào. Mô hình hồi quy
bội hay hồi quy đa biến có nhiều biến vào.
X = (X1, ..., Xm)
Mặt khác, theo quan hệ giữa các biến và biến ra, các mô hình hồi quy bao gồm:
Hồi quy tuyến tính
Hồi quy phi tuyến
Hồi quy tuyến tính có quan hệ vào ra là quan hệ tuyến tính, Hồi quy phi tuyến có
quan hệ vào ra là quan hệ phi tính. Việc chọn mô hình hồi quy có thể dựa vào
phương pháp trực quan là biểu đồ phân tán.
Bài tóan Hồi quy phi tuyến là phức tạp hơn bài tóan Hồi quy tuyến tính. Tuy
nhiên mô hình Hồi quy phi tuyến có thể chuyển thành mô hình Hồi quy tuyến
tính bằng phương pháp tuyến tính hóa như sẽ phân tích ở phần sau.
7.2 Hồi quy đơn
Mô hình hồi quy đơn còn gọi là hồi quy đơn biến, chỉ có 1 biến vào, biến ra Y là
hàm của biến vào X:
Y = f(X)
Giả sử quan hệ giữa biến ra và các biến vào là tuyến tính, biến ra được biễu diễn
theo biến vào như sau:
Y= +X
là hệ số cắt biễu thị điểm cắt trục Y của đường hồi quy.
là hệ số dốc biễu thị độ dốc đường hồi quy.
Các hệ số hồi quy được ước lượng từ tập số liệu.
(Xi, Yi), i=1, ..., n.
7.2.1 Ước lượng biến ra
Biến ra được ước lượng theo biến vào như sau:
Y’ = A + BX
Y’ là biến ra ước lượng
A là hàm ước lượng hệ số cắt từ mẫu.
B là hàm ước lượng hệ số dốc từ mẫu.
a. Sai số
Thực tế có sai số giữa biến ra thực tế và biến ra ước lượng, biến ra thực tế:
Y = Y’ + E
Trong đó Y là biến ra thực tế và E là sai số. Ngược lại, sai số được xác định là độ
lệch giữa biến ra thực tế và biến ra ước lượng:
E = Y – Y’
Mô hình hồi quy thường có giả sử sai số E có phân bố chuẩn với phương sai
không đổi, ²:
E ~ N(0, ²)
Biến thiên sai số của mô hình hồi quy thường được đánh giá bởi tổng bình
phương sai số. Với tập số liệu sẵn có:
(Xi, Yi), i=1n
Tổng bình phương sai số được xác định như sau:
Tổng bình phương sai số thường được tính tóan bởi mô hình sau:
Tổng bình phương sai số có số bậc tự do là n-2, trung bình bình phương sai số
đựơc xác định như sau:
MSE = SSE / (n-2)
Phương sai sai số đựơc ước lượng bởi trung bình bình phương sai số. Độ lệch
chuẩn của sai số E được ước lượng bởi sai số chuẩn SE:
b. Cực tiểu tổng bình phương sai số
Phương pháp cực tiểu tổng bình phương sai số nhằm ước lượng các hệ số hồi
quy từ một tập số liệu sẵn có. Tổng bình phương sai số:
Các hệ số hồi quy nhằm cực tiểu tổng bình phương sai số được xác định từ hệ 2
phương trình sau:
Từ 2 phương trình trên, ta xác định được A và B.
B = SSXY / SSX
Trong đó SSXY là tổng bình phương sai lệch biễu thị biến thiên các biến vào và
ra, được xác định như sau:
Và SSX là tổng bình phương sai lệch biễu thị biến thiên của biến vào, được xác
định như sau:
Và:
c. Khoảng tin cậy biến ra
Giá trị biến ra được ước lượng bởi biến vào theo phương trình hồi quy như trên.
Với các tập số liệu thu thập khác nhau, phương trình hồi quy sẽ thay đổi khác
nhau, giá trị biến ra sẽ khác nhau. Để ước lượng Khoảng tin cậy của biến ra ta
thừơng sử dụng phân bố Student với khoảng tin cậy như sau, với v=n-2:
Trong đó Y’ là giá trị ước lượng của biến ra theo giá trị biến vào X theo phương
trình hồi quy đã xác định.
Ví dụ: Xem 1 sản phẩm có đặc tính Y được xem là phụ thuộc vào 1 biến quá
trình X, tập số liệu thu thập các biến như ở bảng sau
Các hệ số hồi quy được ước lượng như sau.
Tính được:
SSXY= 8997- 692*186/15 = 416,2
Tính được:
SSX = 33212-6922/15 = 1287,7
B = SSXY / SSX = 416,2/1287,7 = 0,3232
Phương trình hồi quy:
Y’ = -2,5104 + 0,3232 X
Với gía trị X = 50, giá trị biến ra ước lượng đựơc là:
Y’ = -2,5104 + 0,3232 * 50 = 13,65
Mặt khác, tổng bình phương sai số tính được:
Trung bình bình phương sai số:
MSE = SSE / (n-2) = 13,08268 / (15-2) = 1,00636
Sai số chuẩn:
SE = MSE = 1,00636 = 1,00318
Với =0,05, trị phân vị t/2, n-1 = 2,16. Khoảng tin cậy 95% của biến ra tính
được:
I = [13,0438, 14,2562]
7.2.2 Phân tích sai số
Mô hình hồi quy tuyến tính dựa trên các giả sử:
Quan hệ vào ra tuyến tính.
Biến thiên sai số không đổi.
Sai số đôc lập, đồng dạng phân bố chuẩn.
Phân tích sai số nhằm đánh giá các giả sử của mô hình hồi quy dựa vào sai số.
E = Y – Y’= Y – (A + BX)
Các công cụ phân tích sai số bao gồm:
Biễu đồ sai số.
Tần đồ sai số
Chuẩn đồ sai số
Kiểm đồ sai số.
Biễu đồ sai số bao gồm:
Biễu đồ sai số theo biến vào: đồ thị quan hệ giữa sai số và biến vào của mô hình.
Biễu đồ sai số theo biến ra: đồ thị quan hệ giữa sai số và biến ra của mô hình.
Với quan hệ vào ra tuyến tính, sai số thường phân bổ đều quanh giá trị 0. Giả sử
biến thiên không đổi, có thể được kiểm tra trực quan từ các Khoảng biến thiên
của sai số theo miền giá trị của biến vào. Giả sử phân bố chuẩn thường được
kiểm tra trực quan bởi tần đồ sai số hay chuẩn đồ sai số.
Kiểm đồ sai số biễu diễn sai số theo chỉ số mẫu thu thập theo thời gian. Trên
kiểm đồ có đường tâm và các giới hạn kiểm sóat. Đường tâm CL là kỳ vọng của
sai số, có trị bằng 0. Các giới hạn kiểm sóat bao gồm:
Giới hạn trên UCL.
Giới hạn dưới LCL.
Giới hạn trên, UCL, thường chọn là đường cách đường tâm 3, về phía trên.
Giới hạn dưới, LCL, thường chọn là đường cách đường tâm 3, về phía dưới.
Kiểm đồ sai số cho thấy mẫu hình biến thiên của sai số, các điểm phải là ngẫu
nhiên. Mặt khác, kiểm đồ sai số còn giúp kiểm sóat sai số, các sai số phải nằm
trogn giới hạn, sai số nằm ngòai giới hạn là biễu hiện hệ thốgn ngòai kiểm sóat.
Kiểm đồ sẽ đựơc trình bày ở phần sau.
Ví dụ: Xem tập số liệu thu thập ở ví dụ trên, phương trình hồi quy:
Y’ = -2,5104 + 0,3232 X
Biến ra Y’ và sai số E ước lượng đựợc theo biến vào ở bảng sau:
Từ bảng trên có thể tính được tổng bình phương sai số:
SSE = 13,08268
Mặt khác từ các giá trị sai số có thể vẽ các biễu đồ phân tích sai số để kiểm tra
các giả sử của mô hình như đã phân tích trên.
7.2.3 Chỉ số phù hợp
a. Chỉ số phù hợp
Biến thiên biến ra được biễu diễn bởi tổng bình phương sai lệch biến ra SSY:
Biến thiên biến ra bao gồm biến thiên do biến thiên do sai số SSE và biến thiên
do biến vào, thường được gọi là biến thiên hồi quy, SSR
SSY = SSE + SSR
Nhằm đánh giá sự phù hợp của mô hình hồi quy với một tập số liệu, ta có thể
dùng chỉ số phù hợp R² định bởi:
Hay là:
Chỉ số phù hợp R² biến thiên từ 0 đến 1:
SSR = 0, R² =0: Mức độ phù hợp thấp nhất, mô hình hồi quy không phù hợp.
SSE = 0, R² =1: Mức độ phù hợp cao nhất, mô hình hồi quy hòan toàn phù hợp.
b. Chỉ số tương quan
Chỉ số tương quan đánh giá quan hệ giữa các biến. Quan hệ giữa các biến vào X
và biến ra Y được đánh giá qua chỉ số tương quan sau:
Trong đó các tổng bình phương sai lệch được xác định như sau:
Chỉ số tương quan có giá trị r biến thiên từ -1 đến +1:
-1 r +1
Độ lớn chỉ số tương quan biễu thị mức độ tương quan giữa các biến.
r= 1: Tương quan mạnh
r=0: Không tương quan
Dấu của chỉ số tương quan biễu thị chiều tương quan giữa các biến:
r<0: Tương quan âm
r>0: Tươg quan dương
Biễu đồ phân tán có thể giúp đánh giá có hay không tương quan, tương quan âm
hay dương, mạnh hay yếu. Chỉ số phù hợp có thể xác định từ chỉ số tương quan
như sau:
R² = (R)²
Ví dụ: Xem tập số liệu thu thập ở ví dụ trên, để tính chỉ số phù hợp và chỉ số
tương quan, ta có bảng tính sau.
Các tổng bình phương tính được ở các ví dụ trên:
Tính đươc:
SSXY = 8997- 692*186/15 = 416,2
Tính đươc:
SSX = 33212-6922/15 = 1287,7
Tính đươc:
SSE = 13,0827
Tổng bình phương sai lệch biến ra SSY:
Tính được:
SSY = 2454-1862/15 = 147,6
Tổng bình phương hồi quy:
SSR = SSY - SSE = 147,6 – 13,0827 = 134,5173
Chỉ số phù hợp R²:
R² = 134,5173/147,6 = 0,911364
Thấy rằng chỉ số phù hợp rất cao, mô hình là hòan toàn phù hợp để ước lượng
biến ra từ biến vào. Chỉ số tương quan tính từ các tổng bình phương:
Tính đươc:
R = 0,954654
Thấy rằng chỉ số tương quan là dương và rất cao, các biến là tương quan dương
và mạnh. Mặt khác với các giá trị thu thập có thể kiểm chứng quan hệ giữa chỉ
số phù hợp và chỉ số tương quan:
(R) ² = 0,954654² = 0,911364 = R²
7.2.4 Kiểm định mô hình
Kiểm định mô hình hồi quy đơn biến là kiểm định độ dốc mô hình với các giả
thuyết kiểm định như sau:
H0: =0
H1: 0
Kiểm định độ dốc mô hình cũng là 1 cách để kiểm định sự phù hợp của mô hình.
Khi bác bỏ H0, độ dốc mô hình khác 0, mô hình là phù hợp. Ngược lại, khi chấp
nhận H0, độ dốc mô hình bằng 0, mô hình không phù hợp.
Các phương pháp kiểm định bao gồm:
Kiểm định theo phân bố Student.
Kiểm định theo phân bố Fisher.
a. Kiểm định theo phân bố Student
Hàm thống kê kiểm định:
Hàm thống kê T0 có phân bố Student với n-2 bậc tự do.
Nếu H0 đúng:
Với [0,1], v=n-2:
Vùng bác bỏ giả thuyết H0:
Ví dụ: Xem tập số liệu thu thập ở ví dụ trên, ở các ví dụ trên, ta đã tính đựơc:
B = 0,3232
SE = 1,0032
SSX = 1287,7
Trị thống kê tính được như sau:
T0= 11,56145
Với = 0,05, n=15, trị phân vị t/2,n-2 = 2,16. Vùng bác bỏ giả thuyết H0:
R = [T0 < -2,16; T0 > 2,16]
Thấy rằng trị thống kê nằm trong vùng bác bỏ giả thuyết, H0 bị bác bỏ, độ dốc
mô hình khác 0, mô hình là phù hợp.
b. Kiểm định theo phân bố Fisher
Kiểm định theo phân bố Fisher là phương pháp kiểm định phân tích phương sai
ANOVA dựa vào các tổng bình phương sau:
Tổng bình phương biễu thị biến thiên do hồi quy SSR với số bậc tự do:
dofR = 1
Tổng bình phương biễu thị biến thiên do sai số SSE với số bậc tự do:
dofE = n-2
Các trung bình bình phương:
MSR = SSR/ dofR = SSR
MSE = SSE/ dofE = SSE / (n-2)
Hàm thống kê kiểm định:
F0 = MSR / MSE
Hàm thống kê có phân bố Fisher với các số bậc tự do như sau:
F0 ~ F1, w
w=n-2
Với [0,1], vùng bác bỏ giả thuyết:
R = [F0 < F1-/2, 1, w; F0 > F/2, 1, w]
R = [F0 < 1/F/2, 1, w; F0 > F/2, 1, w]
Bảng ANOVA kiểm định có dạng như sau, với nguồn biến thiên SOV do hồi quy
R, do sai số E, và do tổng T:
Với số liệu thu thập ta tính được trị thống kê của các tổng bình phương, trung
bình bình phương từ đó tính đựơc F0, tra ra giá trị p, từ một giá trị đã chọn, ta
ra quyết định chấp nhận hay bác bỏ H0.
Ví dụ: Xem tập số liệu thu thập ở ví dụ trên, ở các ví dụ trên, ta đã tính đựơc
các tổng bình phương:
SSR = 134.5173
SSE = 13.08268
Các trung bình bình phương:
MSR = SSR/ 1 = 134.5173
MSE = SSE / (n-2) = 13.08268 / 13 = 1,00636
Trị thống kê kiểm định:
F0 = MSR / MSE = 134.5173 / 1,00636 = 133.6672
Bảng ANOVA như sau:
Với = 0,05, n=15, w=n-2 = 13các điểm phân vị tra được:
F/2, 1, w = 6,41; F1-/2, 1, w = 0,001
Vùng bác bỏ giả thuyết:
R = [F0 < 0,001; F0 > 6,41]
Thấy rằng trị thống kê nằm trong vùng bác bỏ giả thuyết, H0 bị bác bỏ, độ dốc
mô hình khác 0, mô hình là phù hợp.
7.3 Hồi quy bội
Hồi quy bội là hồi quy đa biến, biến ra phụ thuộc vào nhiều biến vào:
Y = f(X), X = (X1, … Xm)
Trong đó m là số biến vào độc lập. Giả sử quan hệ giữa biến ra và các biến vào
là tuyến tính, biến ra biễu diễn theo biến vào như sau:
Y = 0 + 1X1 + … + mXm
0 là hệ số hồi quy hằng.
i là các hệ số hồi quy ứng với biến vào Xi, i = 1m.
Các hệ số hồi quy được ước lượng từ tập số liệu thu thập:
(Xj, Yj), j = 1n
Xj = (X1j, ..., Xmj), j = 1n
7.3.1 Ước lượng biến ra
Biến ra được ước lượng theo biến vào như sau:
Y’ = B0 + B1X1 + … + BmXm
Y’ là biến ra ước lượng
Bi là hàm ước lượng i, i = 0, 1, …, m.
Các hệ số hồi quy được ước lượng từ tập số liệu thu thập:
(Xj, Yj), j = 1n
Xj = (X1j, ..., Xmj), j = 1n
a. Sai số
Thực tế có sai số giữa biến ra thực tế và biến ra ước lượng, biến ra thực tế:
Y = Y’ + E
trong đó Y là biến ra thực tế và E là sai số. Sai số được xác định là độ lệch giữa
biến ra thực tế và biến ra ước lượng:
E = Y – Y’
Mô hình hồi quy có giả sử sai số E có phân bố chuẩn với phương sai không đổi,
²:
E ~ N(0, ²)
Biến thiên sai số của mô hình hồi quy thường được đánh giá bởi tổng bình
phương sai số. Với tập số liệu sẵn có:
(Xj, Yj), j = 1n
Tổng bình phương sai số được xác định như sau:
Tổng bình phương sai số có số bậc tự do là n-m-1, trung bình bình phương sai số
đựơc xác định như sau:
MSE = SSE / (n-m-1)
Phương sai sai số được ước lượng bởi trung bình bình phương sai số. Độ lệch
chuẩn của sai số được ước lượng bởi sai số chuẩn SE:
b. Cực tiểu tổng bình phương sai số
Phương pháp cực tiểu tổng bình phương sai số nhằm ước lượng các hệ số hồi
quy từ một tập số liệu sẵn có. Tổng bình phương sai số:
Các hệ số hồi quy nhằm cực tiểu tổng bình phương sai số được xác định từ hệ
(m+1) phương trình sau:
Từ hệ phương trình trên, ta xác định được hàm ước lượng Bi, i=0m.
Ví dụ: Xem 1 sản phẩm có đặc tính Y được xem là phụ thuộc vào các biến quá
trình X1 và X2, tập số liệu thu thập các biến như ở bảng sau.
Từ số liệu trên, bằng phương pháp cực tiểu tổng bình phương sai số ta xác định
được phương trình hồi quy:
Y’ = B0 + B1X1 + B2X2
Trong đó:
B0 = 160,292
B1 = 16,65271
B2 = -80,8071
Biến ra Y’ và sai số E ước lượng đựợc theo các biến vào ở bảng sau:
Từ bảng trên có thể tính được tổng bình phương sai số:
Tính được:
SSE = 66,6593
Trung bình bình phương sai số đựơc xác định như sau:
MSE = SSE / (n-m-1) = 66,6593 /(10-2-1) = 9,5228
Độ lệch chuẩn của sai số được ước lượng bởi sai số chuẩn:
Tính được:
SE = 3,0859
7.3.2 Phân tích sai số
Mô hình hồi quy bội tuyến tính nêu trên dựa trên các giả sử:
Quan hệ vào ra tuyến tính.
Biến thiên sai số không đổi.
Sai số đôc lập, đồng dạng phân bố chuẩn.
Phân tích sai số nhằm đánh giá các giả sử của mô hình hồi quy dựa vào sai số.
Các công cụ phân tích sai số bao gồm:
Biễu đồ sai số.
Chuẩn đồ sai số
Tần đồ sai số
Kiểm đồ sai số.
Biễu đồ sai số hồi quy bội biễu diễn quan hệ giữa sai số và biến ra của mô hình.
Với quan hệ vào ra tuyến tính, sai số thường phân bổ đều quanh giá trị 0. Mặt
khác, giả sử biến thiên không đổi, có thể trực quan kiểm tra từ các Khoảng biến
thiên của sai số trên miền giá trị của biến ra.
Giả sử phân bố chuẩn thường được kiểm tra trực quan bởi tần đồ sai số hay
chuẩn đồ sai số. Kiểm đồ sai số biễu diễn sai số theo chỉ số mẫu thu thập theo
thời gian. Trên kiểm đồ có đường tâm và các giới hạn kiểm sóat. Kiểm đồ sai số
cho thấy mẫu hình biến thiên của sai số, các điểm phải là ngẫu nhiên. Mặt khác,
kiểm đồ sai số còn giúp kiểm sóat sai số, các sai số phải nằm trogn giới hạn, sai
số nằm ngòai giới hạn là biễu hiện hệ thốgn ngòai kiểm sóat. Kiểm đồ sẽ đựơc
trình bày ở phần sau.
7.3.3 Chỉ số phù hợp
a. Chỉ số phù hợp
Tương tự hồi quy đơn, nhằm đánh giá sự phù hợp của mô hình hồi quy bội với
một tập số liệu, ta có thể dùng chỉ số phù hợp R² định bởi:
Trong đó, SSY là tổng bình phương sai lệch biễu diễn biến thiên biến ra:
Và SSR được gọi là tổng bình phương sai lệch hồi quy, biễu diễn biến thiên biến
theo biến thiên biến vào, được xác định như sau:
SSR = SSY - SSE
Suy ra:
R² = 1 – SSE / SSY
Chỉ số phù hợp R² biến thiên từ 0 đến 1:
SSR = 0, R²=0: Mức độ phù hợp thấp nhất, mô hình hồi quy không phù hợp.
SSE = 0, R²=1: Mức độ phù hợp cao nhất, mô hình hồi quy hòan toàn phù hợp.
b. Chỉ số phù hợp điều chỉnh
Khi có thêm biến vào mô hình hồi quy bội, nếu biến vào không có ảnh hưởng,
tổng bình phương biến ra SSY không đổi trong khi đó tổng bình phương hồi quy
SSR gia tăng, dẫn đến chỉ số phù hợp R² gia tăng. Để tránh sự bất hợp lý này, chỉ
số phù hợp đựơc điều chỉnh lại thành:
Chỉ số phù hợp điều chỉnh Ra2 luôn nhỏ hơn chỉ số phù hợp R2. Sai lệch giữa
các chỉ số phù hợp gia tăng khi có thêm biến vào không có ảnh hưởng. Mặt
khác, khi cở mẫu tăng, sai lệch giữa các chỉ số phù hợp sẽ giảm.
Ví dụ: Xem mô hình hồi quy đặc tính sản phẩm Y theo các biến quá trình X1
và X2 ở ví dụ trên. Tổng bình phương độ lệch biến ra tính được theo bảng
sau.
Tổng bình phương độ lệch biến ra:
Tính được:
SSY = 41006,85 – 630,92/10 = 1203,369
Tổng bình phương sai lệch hồi quy:
SSR = SSY - SSE = 1203,69 – 66,6593 = 1136,71
Chỉ số phù hợp:
R² = SSR / SSY = 1136,71 / 1203,369 = 0,9446
Chỉ số phù hợp điều chỉnh:
Tính được:
Ra²= 0,9288
Thấy rằng chỉ số phù hợp khá cao, mô hình hồi quy hòan toàn phù hợp.
7.3.4 Kiểm định mô hình
Kiểm định mô hình hồi quy bội là kiểm định độ dốc ứng với các biến vào nhằm
kiểm định sự phù hợp của mô hình. Kiểm định mô hình hồi quy bội bao gồm:
Kiểm định toàn bộ các độ dốc.
Kiểm định theo từng độ dốc.
a. Kiểm định toàn bộ các độ dốc
Các giả thuyết kiểm định toàn bộ các độ dốc:
H0: i=0, i=1n
H1: i=1n: i0
Kiểm định theo phân bố Fisher là phương pháp kiểm định phân tích phương sai
ANOVA dựa vào các tổng bình phương sau:
Tổng bình phương biễu thị biến thiên do hồi quy SSR với số bậc tự do:
dofR = m
Tổng bình phương biễu thị biến thiên do sai số SSE với số bậc tự do:
dofE = n-m-1
Các trung bình bình phương:
MSR = SSR/ dofR = SSR/m
MSE = SSE/ dofE = SSE / (n-m-1)
Hàm thống kê kiểm định:
F0 = MSR / MSE
Hàm thống kê có phân bố Fisher với các số bậc tự do như sau:
F0 ~ Fv,w
v=m, w=n-m-1
Với [0,1], vùng bác bỏ giả thuyết:
R = [F0 < F1-/2, v,w; F0 > F/2, v,w]
R = [F0 < 1/F/2, v,w; F0 > F/2, v,w]
Bảng ANOVA như sau:
Với số liệu thu thập ta tính được trị thống kê của các tổng bình phương, trung
bình bình phương từ đó tính đựơc F0, tra ra giá trị p, từ một giá trị đã chọn, ta
ra quyết định chấp nhận hay bác bỏ H0.
Ví dụ: Xem mô hình hồi quy đặc tính sản phẩm Y theo các biến quá trình X1
và X2 ở ví dụ trên. Các tổng bình phương độ lệch tính được ở các ví dụ trên.
SSR = 1136,71
SSE = 66,6593
SSY = 1203,69
Các trung bình bình phương:
MSE = SSE / 7 = 66,6593 /7 = 9,5228
MSR = SSR / 2 = 1136,71/2 = 568,3549
Trị thống kê kiểm định:
F0 = MSR / MSE = 568,3549/9,5228 = 59,6839
Bảng ANOVA như sau:
Với =0,05, m=2, n=10, các điểm phân vị:
F/2, v,w= F0,025, 2, 7 = 6,54
F1-/2, v,w= 1/F/2, v,w= 1/F0,025, 7, 2 = 1/39,36 = 0,0252
Vùng bác bỏ giả thuyết:
R = [F0 < 0,0252; F0 > 6,54]
Thấy rằng trị thống kê nằm trong vùng bác bỏ giả thuyết, H0 bị bác bỏ, có ít nhất
1 độ dốc khác 0.
b. Kiểm định theo từng độ dốc
Các giả thuyết kiểm định theo từng độ dốc bao gồm n cặp giả thuyết. Với
i=1n:
H0: i=0
H1: i0
Các hàm thống kê kiểm định tương ứng:
Trong đó:
Hàm thống kê T0 có phân bố Student với n-m-1 bậc tự do.
Nếu H0 đúng:
Với [0,1]:
Vùng bác bỏ giả thuyết H0:
7.4 Hồi quy phi tuyến
Hồi quy phi tuyến có quan hệ phi tuyến giữa biến ra và các biến vào. Một số
dạng phi tuyến thường gặp như sau:
Dạng đa thức bậc cao:
Y = 0 + 1X¹ + … + mXm
Dạng tương tác giữa các biến vào:
Y = 0 + 1X1+ 2X2+ 3X1X2
Dạng hàm ngược:
Y = 1/(0 + 1X1+ 2X2)
Dạng hàm mũ:
Y = 01X
Hồi quy phi tuyến có thể đưa về hồi quy tuyến tính qua phép đổi biến. Như với
dạng đa thức bậc cao:
Y = 0 + 1X¹ + … + mXm
Đặt biến:
X1 = X¹, …, Xm = Xm
Thì có:
Y = 0 + 1X1 + … + mXm
Với dạng tương tác giữa các biến vào:
Y = 0 + 1X1+ 2X2+ 3X1X2
Đặt biến:
X3 = X1X2
Thì có:
Y = 0 + 1X1+ 2X2+ 3X3
Một số dạng phi tuyến có thể đưa về hồi quy tuyến tính bằng cách biến đổi hàm
trước khi đổi biến. Như với dạng hàm ngược:
Y = 1/(0 + 1X1+ 2X2)
Đổi hàm ra Z=1/Y, thì có:
Z = 0 + 1X1+ 2X2
Với dạng hàm mũ:
Y = 01X
Đầu tiên lấy log 2 vế:
log Y = log (01X)
log Y = log0 + Xlog1
Đặt biến ra Z = log Y và các hệ số:
0 = log0
1 = log1
Thì có mô hình hồi quy tuyến tính:
Z = 0 + 1X
Phụ lục A
LÝ THUYẾT XÁC SUẤT
Thực nghiệm và sự kiện
Xác suất
Tính tóan xác súât
Xác suất có điều kiện
Định lý Bayes
Sự kiện độc lập
A.1 Thực nghiệm và sự kiện
a. Thực nghiệm
Thực nghiệm là một hoạt động với kết quả quan sát được. Thực nghiệm thường
bao gồm một chuỗi các thử nghiệm. Thử nghiệm là một lần lặp thực nghiệm. Kết
quả thực nghiệm ở mỗi lần thử nghiệm thường không tiên đoán trước được.
Không gian mẫu hay tập tổng S của một thực nghiệm là tập toàn bộ các kết quả
có thể có của thực nghiệm.
Ví dụ: Khi tung 1 hột xúc sắc, kết quả số nút xuất hiện có tập tổng như sau
S = {1, 2, 3, 4, 5, 6}.
b. Sự kiện
Một sự kiện E liên quan đến một thực nghiệm được mô tả theo các phần tử thuộc
tập tổng S của thực nghiệm. Theo ngôn ngữ tập hợp, một sự kiện E là một tập
con E của tập tổng S của thực nghiệm. Ta nói sự kiện E xảy ra khi kết quả thực
nghiệm là một phần tử của tập E. Vậy khi nói sự kiện E xảy ra, điều này, theo
ngôn ngữ tập hợp, tương đương với một phần tử mà ta quan tâm thuộc về tập E.
Ví dụ: Khi tung 1 hột xúc sắc, gọi E là sự kiện xuất hiện số điểm chẳn thì có:
E = {2, 4, 6}
Khi tung được số nút là 2, ta nói sự kiện E đã xảy ra.
Hai sự kiện đặc biệt là sự kiện không thể và sự kiện chắc chắn. Sự kiện không
thể là sự kiện không thể xảy ra, sự kiện này tương ứng với tập rỗng . Sự kiện
chắc chắn là sự kiện chắc chắn xảy ra, sự kiện này tương ứng với tập tổng S. Ưu
điểm của việc xác định sự kiện theo ngôn ngữ tập hợp giúp ta xác định các sự
kiện mới dựa trên các sự kiện hiện có và các toán tử tập hợp. Từ các sự kiện E và
F, ta có thể tạo các sự kiện cơ bản mới bao gồm:
Sự kiện giao
Sự kiện hợp
Sự kiện đảo
Sự kiện giao của 2 sự kiện E và F , ký hiệu EF, là sự kiện được xem là xảy ra
khi cả E và F đều xảy ra. Sự kiện hợp của 2 sự kiện E và F , ký hiệu EF, là sự
kiện được xem là xảy ra khi họăc E, họăc F họăc cả E và F đều xảy ra. Sự kiện
đảo của E, ký hiệu E, là sự kiện chỉ xảy ra khi và chỉ khi sự kiện E không xảy
ra.
Ví dụ: Khi tung 1 hột xúc sắc, ta có S = {1, 2, 3, 4, 5, 6}. Gọi E và F là các sự
kiện sau:
E = {2, 4, 6}, F = {1, 4, 6}
Thì có:
EF = { 4, 6}; EF = {1, 2, 4, 6}; E = {1, 3, 5}
A.2 Xác suất
Với cùng điều kiện thực nghiệm, khi tăng số lần thử nghiệm, tỷ lệ số lần xuất
hiện một sự kiện E có xu hướng là một hằng số. Xác suất là một lĩnh vực toán
học nghiên cứu và đánh giá sự xuất hiện của sự kiện trong các thực nghiệm ngẫu
nhiên. Xác suất xuất hiện của sự kiện E được ký hiệu P(E) có quy ước:
P(E) càng lớn, sự kiện càng có thể xảy ra
P(E) = 0: tương ứng sự kiện không thể xảy ra
P(E) = 1: tương ứng sự kiện chắc chắn xảy ra
Lý thuyết xác suất được xây dựng trên 3 tiền đề:
0 P(E) 1
P(S) = 1
EF = P(EF) = P(E) + P(F)
Từ các tiền đề trên, ta có thể chứng minh các định lý thường dùng thường dùng
trong lý thuyết xác suất:
P(E ) = 1 – P(E)
P(EF) = P(E) + P(F) – P(EF)
A.3 Tính tóan xác suất
a. Xác suất xuất hiện phần tử trong không gian mẫu như nhau
Xem một thực nghiệm có không gian mẫu bao gồm N phần tử:
S = {1, 2, ..., N}
Nếu xác suất xuất hiện các phần tử là như nhau:
P({1}) = P({2}) = ... = P({N}) = p
Theo tiền đề 2 và 3:
1 = P(S) = P({1}) + P({2}) + ... + P({N}) = Np
Xác suất xúât hiện 1 phần tử:
P({i}) = p = 1/N, i=1, ..., N
Xác suất của sự kiện xuất hiện n phần tử:
P(E) = n/N.
Ví dụ:
Khi tung 1 hột xúc sắc, kết quả số nút xuất hiện có tập tổng như sau
S = {1, 2, 3, 4, 5, 6}.
Vì xác suất xuất hiện các mặt như nhau nên:
P({1}) = P({2}) = ... = P({6}) = 1/6
Xác suất xuất hiện số điểm chẳn như nhau nên:
P({2, 4, 6}) = 3/6
b. Kỹ thuật đếm
Khi không gian mẫu của một thực nghiệm bao gồm các phần tử có xác suất xuất
hiện như nhau, nhằm tính xác suất của sự kiện, ta thường dùng kỹ thuật đếm.
Các kỹ thuật đếm số phần tử của 1 tập hợp bao gồm:
Nguyên lý cộng
Nguyên lý nhân
Tổ hợp
Chỉnh hợp
i. Nguyên lý cộng
Gọi n(A) là số phần tử của tập A, n(B) là số phần tử của tập B. Nguyên lý cộng:
n(AB) = n(A) + n(B) – n(AB)
Ví dụ: Một nghiên cứu trên 500 người, trong số người này có 310 người tốt
nghiệp ngành KTHTCN, 238 người có bằng kỹ sư KTHTCN, 184 người có bằng
thạc sĩ KTHTCN. Hỏi có bao người có cả bằng kỹ sư và thạc sĩ ngành
KTHTCN.
Gọi A là tập các người có bằng kỹ sư KTHTCN, B là tập các người có bằng thạc
sĩ KTHTCN thì có AB là tập các người tốt nghiệp ngành KTHTCN và AB là
tập các người có cả 2 bằng. Số người có cả 2 bằng:
n(AB) = n(A) + n(B) – n(AB) = 238 + 184 – 310 = 112
ii. Nguyên lý nhân
Xem r hoạt động tuần tự, hoạt động thứ i có ni kết quả. Tổng số kết quả của r
hoạt động là:
N = n1n2... nr
Ví dụ: Xem 1 thực nghiệm với k yếu tố, yếu tố i có ni mức, tổng số xử lý thực
nghiệm là:
N = n1n2... nr
iii. Chỉnh hợp
Xem một tập hợp có n phần tử, một chỉnh hợp r phần tử trong n phần tử là một
sắp xếp có thứ tự của r phần tử. Số chỉnh hợp r phần tử trong n phần tử được tính
như sau:
P(n,r) = n! / (n-r)!
Ví dụ: Một vòng đua ngựa với 8 con và 3 giải nhất, nhì, ba. Số kết quả có thể là:
P(8,3) = 8! / (8-3) ! = 8 7 6 = 336
iv. Tổ hợp
Xem một tập hợp có n phần tử, một tổ hợp r phần tử trong n phần tử là một sắp
xếp không thứ tự của r phần tử. Số tổ hợp r phần tử trong n phần tử được tính
như sau:
C(n,r) = P(n,r) / r! = n! / [r! (n-r) !]
Ví dụ: Số nhóm 3 ngựa được chọn từ 8 con là:
C(8,3) = 8!/(3!5!) = (876) / (321) = 56
Ví dụ: Xem 1 thực nghiệm lấy ngẫu nhiên 3 viên bi từ 1 cái hộp có 8 viên bi
đỏ và 2 viên bi xanh. Hãy tính xác suất để 3 viên bi lấy được đều là bi đỏ.
Thực nghiệm rút ngẫu nhiên 3 viên bi từ 10 viên bi, không quan tâm đến sắp xếp
của 3 viên bi rút đựơc. Tổng số mẫu rút được là:
N = C(10,3) = 10!/(3!7!) = 10*9*8/2*3 = 120
Với 8 bi đỏ, số mẫu 3 viên rút được toàn bi đỏ là:
n = C(8,3) = 8!/(3!5!) = 56
Vậy xác suất để 3 viên bi lấy được đều là bi đỏ:
P = n/N = 56/120 = 7/15 = 0,4667
Ví dụ: Một lô 10 sản phẩm được lấy mẫu ngẫu nhiên để kiểm định với cở mẫu
là 3 sản phẩm. Lô hàng sẽ bị lọai nếu có ít nhất 1 sản phẩm bị hư hỏng. Hãy
tính xác suất lọai lô hàng có 2 sản phẩm bị hư hỏng.
Thực nghiệm lấy mẫu ngẫu nhiên 3 sản phẩm từ 10 sản phẩm, không quan tâm
đến sắp xếp của 3 sản phẩm được lấy mẫu. Tổng số mẫu lấy được là:
N = C(10,3) = 10!/(3!7!) = 10*9*8/2*3 = 120
Lô hàng sẽ bị lọai nếu có ít nhất 1 sản phẩm trong mẫu bị hư hỏng, nghĩa là có 1
hoặc 2 sản phẩm hư hỏng.
Trường hợp mẫu có 1 sản phẩm hư hỏng, tức là có 2 sản phẩm tốt. Sẽ có C(2, 1)
khả năng rút 1 sản phẩm hư hỏng từ 2 sản phẩm hư hỏng. Trong mỗi khả năng
này, sẽ có C(8, 2) khả năng rút được 2 sản phẩm tốt từ 8 sản phẩm tốt. Áp dụng
nguyên lý nhân, số khả năng xảy ra trong trường hợp này là:
n1 = C(2, 1) * C(8, 2) = 2!/(1!1!) *8!/(2!6!) = 2* 8*7/2 = 56
Trường hợp mẫu có 2 sản phẩm hư hỏng, tức là có 1 sản phẩm tốt. Sẽ có C(2, 2)
khả năng rút 2 sản phẩm hư hỏng từ 2 sản phẩm hư hỏng. Trong mỗi khả năng
này, sẽ có C(8, 1) khả năng rút được 1 sản phẩm tốt từ 8 sản phẩm tốt. Áp dụng
nguyên lý nhân, số khả năng xảy ra trong trường hợp này là:
n2 = C(2, 2) * C(8, 1) = 2!/(2!0!) *8!/(1!7!) = 1* 8/1 = 8
Tổng hợp 2 trường hợp, số mẫu để lô hàng bị lọai là:
n = n1 + n2 = 56+8 = 64
Xác suất lô hàng bị lọai:
P = n/N = 64/120 = 8/15 = 0,5333
A.4 Xác suất có điều kiện
Xác suất xuất hiện sự kiện E khi sự kiện F đã xảy ra được xác định như sau:
P(EF) = P(EF)/P(F)
Ví dụ: Một hộp linh kiện gồm 5 transistor hư hỏng, 10 transistor bị lỗi, sẽ hư
hỏng sau 1 thời gian lắp ráp và sử dụng, và 25 transistor tốt. Một transistor
được lấy ngẫu nhiên từ hộp linh kiện để lắp vào mạch. Nếu nó không bị hư
hỏng sau khi lắp ráp, hãy tính xác suất để transistor này họat động tốt.
Gọi E là sự kiện transistor họat động tốt sau khi lắp ráp, và F là sự kiện transistor
không hư hỏng, thì có:
P(E) = 25/ (5++10+25) = 25/40
P(F) = (5+25)/ 40 = 30/40
Transistor họat động tốt sau khi lắp ráp là transistor không hư hỏng:
P(EF) = P(E) = 25/40
Vì transistor không hư hỏng ngay khi lắp ráp nên xác suất để transistor họat
động tốt sau khi lắp ráp là:
P(EF) = P(EF)/P(F) = (25/40)/(30/40)
P(EF) = 25/35 = 5/7 = 0,7143
A.5 Định lý Bayes
Xem 2 sự kiện E và F. Sự kiện E có thể biễu diễn như sau:
E = (EF) (E F )
Mặt khác:
(EF) (E F) =
Suy ra:
P(E) = P(EF) + P(E F)
P(E) = P(EF) P(F) + P(EF) P(F)
P(E) = P(EF) P(F) + P(EF) (1-P(F) )
Biễu thức trên là định lý Bayes, phát biễu rằng, xác suất của sự kiện E là tổng có
trọng số của xác suất có điều kiện của sự kiện E khi sự kiện F xảy ra và xác suất
có điều kiện của sự kiện E khi sự kiện F không xảy ra. Trọng số của các xác suất
có điều kiện chính là xác suất xảy ra của sự kiện điều kiện tương ứng.
Ví dụ: Một phân xưởng sản xuất 2 sản phẩm A và B, với tỷ lệ sản xuất sản
phẩm A và B lần lượt là 60% và 40%. Tỷ lệ hư hỏng của A và B lần lựợt là
0,1%, và 0,2%. Một sản phẩm được lấy ngẫu nhiên từ phân xưởng, tính xác
suất để sản phẩm này hư hỏng.
Gọi E là sự kiện sản phẩm lấy từ phân xưởng bị hư hỏng, A là sự kiện sản phẩm
lấy từ phân xưởng là sản phẩm A, B là sự kiện sản phẩm lấy từ phân xưởng là
sản phẩm B. Xác suất để sản phẩm này hư hỏng là:
P(E) = P(EA) P(A) + P(EB) P(B)
P(E) = 0,001*0,6 + 0,002*0,4 = 0,00014
A.6 Sự kiện độc lập
Sự kiện E được xem là độc lập với sự kiện F khi sự xuất hiện E không bị ảnh
hưởng bởi sự xuất hiện của F:
P(EF) = P(E)
Khi sự kiện E độc lập với sự kiện F:
P(EF) = P(EF) / P(F) = P(E)
Suy ra:
P(EF) = P(E) P(F)
Và:
P(FE) = P(FE) / P(E) = P(EF) / P(E)
Suy ra:
P(FE) = P(E) P(F) / P(E) = P(F)
Hay sự kiện F độc lập với sự kiện E. Vậy khi sự kiện E độc lập với sự kiện F thì
sự kiện F cũng độc lập với sự kiện E và 2 sự kiện đựơc xem là độc lập nhau. Hai
sự kiện đựơc xem là độc lập nhau khi thỏa điều kiện:
P(EF) = P(E) P(F)
Và 2 sự kiện không độc lập nhau được xem là 2 sự kiện phụ thuộc.
Ví dụ: Xem thực nghiệm rút ngẫu nhiên 1 lá bài từ 52 lá bài của 1 bộ bài.
Xem A là sự kiện rút đựơc lá ách, và C là sự kiện rút đựơc lá bào cơ. Ta có:
P(A) = 4/52
P(C) = 13/52
P(AC) = 1/52
Thấy rằng:
P(AC) = P(A) P(C) = (4/52)(13/52) = 1/52 = P(AC)
Vậy 2 sự kiện này là độc lập nhau.
Với 3 sự kiện E, F, G. Ba sự kiện này đựơc xem là độc lập nhau khi thỏa các
điều kiện:
P(EFG) = P(E) P(F) P(G)
P(EF) = P(E) P(F)
P(FG) = P(F) P(G)
P(EG) = P(E) P(G)
Phụ lục B
BIẾN NGẪU NHIÊN
Biến ngẫu nhiên
Hàm phân bố biến ngẫu nhiên
Phân bố liên kết
Phân bố có điều kiện
Thuộc tính biến ngẫu nhiên
Bất đẳng thức
Biến ngẫu nhiên lý thuyết
Quan hệ biến ngẫu nhiên
Điểm phân vị
B.1 Biến ngẫu nhiên
Biến ngẫu nhiên mô tả kết quả bằng số của một thực nghiệm ngẫu nhiên cùng
với phân bố xác suất của các kết quả. Tùy thuộc vào không gian mẫu của thực
nghiệm, ta chia biến ngẫu nhiên thành hai loại:
Biến rời rạc
Biến liên tục
Biến rời rạc mô tả thực nghiệm với không gian mẫu rời rạc, biến nhận trị rời rạc.
Biến liên tục mô tả thực nghiệm với không gian mẫu liên tục, biến nhận trị liên
tục.
B.2 Hàm phân bố
Hàm phân bố của biến ngẫu nhiên bao gồm:
Hàm tích lũy
Hàm trọng lượng
Hàm mật độ
a. Hàm tích lũy cdf
Hàm tích lũy F của một biến ngẫu nhiên X được ký hiệu và định nghĩa như sau:
F(x) = P{Xx}
Hàm tích lũy được sử dụng để tính xác suất để biến ngẫu nhiên X nằm trong một
khoảng như sau:
P{a<Xb} = F(b) – F(a)
b. Hàm trọng lượng pmf
Hàm trọng lượng là hàm phân bố của biến rời rạc có ký hiệu và định nghĩa như
sau:
p(a) = P{X=a}
Quan hệ giữa hàm trọng lượng và hàm tích lũy F của một biến ngẫu nhiên rời
rạc:
F(a) = [p(x), xa]
c. Hàm mật độ pdf
Hàm mật độ là hàm phân bố của biến liên tục. Hàm mật độ của biến X có ký
hiệu f(x). Hàm tích lũy F của một biến ngẫu nhiên được xác định từ hàm mật độ
f:
F(a) = [f(x), xa]
Ngoài ra, có thể xác định hàm mật độ f từ hàm tích lũy F của một biến ngẫu
nhiên liên tục:
f(x) = dF(x)/dx
B.3 Phân bố liên kết
Xem hai biến ngẫu nhiên X và Y, phân bố tích lũy liên kết của hai biến X và Y
được xác định như sau:
F(x,y) = P{Xx, Yy}
Từ phân bố tích lũy liên kết, có thể xác định phân bố tích lũy thành phần:
FX(x) = F(x,)
FY(y) = F(,y)
Nếu các biến X và Y độc lập nhau, phân bố tích lũy liên kết được xác định từ các
phân bố tích lũy thành phần như sau:
F(x,y) = FX(x) FY(y)
a. Phân bố liên kết biến rời rạc
Nếu X và Y là các biến rời rạc, phân bố trọng lượng liên kết của hai biến X và Y
được xác định như sau:
p(x,y) = P{X=x, Y=y}
Từ phân bố trọng lượng liên kết, có thể xác định phân bố trọng lượng thành
phần:
pX(x) = P{X=x} = yp(x,y)
pY(x) = P{X=x} = xp(x,y)
Nếu các biến X và Y độc lập nhau, phân bố trọng lượng liên kết được xác định
từ các phân bố trọng lượgn thành phần như sau:
p(x,y) = pX(x) pY(y)
b. Phân bố liên kết biến liên tục
Nếu X và Y là các biến liên tục, phân bố mật độ liên kết của hai biến X và Y
được xác định theo phân bố tích lũy liên kết như sau:
f(x,y) = F(x,y) / x y
Từ phân bố mật độ liên kết, có thể xác định phân bố mật độ thành phần:
fX(x) = f(x,y)dy
fY(x) = f(x,y)dx
Nếu các biến X và Y độc lập nhau, phân bố mật độ liên kết được xác định từ các
phân bố mật độ thành phần như sau:
f(x,y) = fX(x) fY(y)
B.4 Phân bố có điều kiện
a. Phân bố có điều kiện biến rời rạc
Với các biến rời rạc X và Y, phân bố trọng lượng có điều kiện được ký hiệu và
định nghĩa như sau:
Phân bố trọng lượng có điều kiện được xác định theo phân bố liên kết và phân
bố thành phần như sau:
Xác suất có điều kiện được xác định theo phân bố có điều kiện:
b. Phân bố có điều kiện biến liên tục
Với các biến liên tục X và Y, phân bố mật độ có điều kiện được ký hiệu và xác
định như sau:
Xác suất có điều kiện được xác định theo phân bố có điều kiện:
B.5 Các tính chất của biến ngẫu nhiên
Các đại lượng biểu thị các thuộc tính quan trọng của biến ngẫu nhiên, bao gồm:
Kỳ vọng
Phương sai
Đồng phương sai
Tương quan
Hàm MGF
a. Kỳ vọng
Kỳ vọng của một biến ngẫu nhiên, đo lường xu hướng trung tâm của biến ngẫu
nhiên, có ký hiệu:
= E[X]
Với biến rời rạc:
= E[X] = xp(x)
Với biến liên tục:
= E[X] = xf(x)dx
Tính chất kỳ vọng
Với hằng số a, b và các biến ngẫu nhiên X, Y:
E(a) = a
E[aX+bY] = a E[X] + bE[Y]
Với X là biến liên tục với hàm mật độ f:
E[g(X)] = g(x)f(x)dx.
Với X là biến rời rạc với hàm trọng lượng p:
E[g(X)] = g(x).p(x)
Với các biến ngẫu nhiên X và Y độc lập:
E(XY) = E(X) E(Y)
b. Phương sai
Phương sai của một biến ngẫu nhiên đo lường mức độ biến thiên hay mức độ
phân tán của biến ngẫu nhiên. Phương sai của một biến ngẫu nhiên có ký hiệu ²
và được xác định là kỳ vọng bình phương độ lệch giữa biến và kỳ vọng:
² = V[X] = E[(X-)²]
Với biến rời rạc:
²= V[X] = (x-)²p(x)
Với biến liên tục:
² = V[X] = (x-)²f(x)dx
Tính chất phương sai.
Phương sai của biến X:
V[X] = E[X²] – (E[X]) ²
Với hằng số a và biến ngẫu nhiên X:
V(a) = 0
V[X+a] = V[X]
V[aX] = a²V[X]
Với các biến ngẫu nhiên X và Y độc lập:
V(X+Y) = V(X) + V(Y)
V(X-Y) = V(X) + V(Y)
c. Độ lệch chuẩn
Một đại lượng khác đo biến thiên của biến ngẫu nhiên là độ lệch chuẩn có ký
hiệu và định nghĩa như sau:
=² = V[X]
d. Đồng phương sai
Đồng phương sai biểu thị mức độ phụ thuộc giữa hai biến ngẫu nhiên. Đồng
phương sai của hai biến ngẫu nhiên X và Y có ký hiệu và định nghĩa như sau:
Cov[X,Y] = E[(X-X) (Y-Y)]
Với hằng số a và các biến ngẫu nhiên X, Y, Z, đồng phương sai có các tính chất
sau:
Cov[X,Y] = E[XY] – E[X] E[Y]
Cov[X,Y] = Cov[Y,X]
Cov[X,X] = V[X]
Cov[aX,Y] = aCov[X,Y]
Cov[X+Z,Y] = Cov[X,Y] + Cov[Z,Y]
V(X + Y) = V(X) + V(Y) + 2 Cov(X, Y)
V(X - Y) = V(X) + V(Y) - 2 Cov(X, Y)
Cov[X,Y] biểu thị mức độ tương quan giữa X và Y. Nếu Cov[X,Y] = 0, các biến
X và Y là không tương quan. Nếu Cov[X,Y] > 0, các biến X và Y có tương quan
thuận, nếu một biến lớn, biến còn lại cũng có xu hướng lớn theo, và ngược lại.
X>X và Y>Y có xu hướng cùng xảy ra
X<X và Y<Y có xu hướng cùng xảy ra
Ngược lại, nếu Cov[X,Y] < 0, các biến X và Y có tương quan nghịch, nếu một
biến lớn, biến còn lại cũng có xu hướng nhỏ, và ngược lại:
X>X và Y<Y có xu hướng cùng xảy ra
X<X và Y>Y có xu hướng cùng xảy ra
Để ý rằng, nếu các biến ngẫu nhiên X, Y là độc lập thì Cov[X,Y] = 0, hay X và
Y là không tương quan. Tuy nhiên, hai biến không tương quan thì vẫn chưa chắc
là độc lập.
e. Chỉ số tương quan
Chỉ số tương quan giữa hai biến ngẫu nhiên X, Y là chỉ số quan hệ giữa các biến,
có ký hiệu và được xác định theo đồng phương sai và phương sai của các biến
như sau:
Cor[X,Y] = Cov[X,Y] / (V[X]V[Y])
Chỉ số tương quan là chỉ số chuẩn hóa, không thứ nguyên với tính chất:
-1 Cor[X,Y] +1
Nếu Cor[X,Y] = 0, các biến X và Y là không tương quan. Nếu Cor [X,Y] > 0,
các biến X và Y có tương quan thuận. Nếu Cov[X,Y] < 0, các biến X và Y có
tương quan nghịch. Cor [X,Y] càng lớn, mức độ tương quan giữa các biến
càng lớn. Mặt khác, nếu các biến ngẫu nhiên X, Y là độc lập thì:
Cor[X,Y] = 0
f. Hàm MGF
Hàm MGF của biến ngẫu nhiên X có ký hiệu và được xác định như sau:
(t) = E[etX]
Với các biến ngẫu nhiên X và Y, hàm MGF có các tính chất:
(n)(0) = E[Xn]
X+Y(t) = X(t) Y(t)
Hàm MGF của biến xác định phân bố của biến, hàm thường được dùng để xác
định kỳ vọng và phương sai của biến:
E[X] = (1)(0)
V[X] = E[X²] – (E[X]) ² = (2)(0) – [(1)(0)]²
B.6 Các bất đẳng thức đặc biệt
Các bất đẳng thức đặc biệt về quan hệ giữa xác suất và kỳ vọng, phương sai của
một biến ngẫu nhiên bao gồm:
Bất đẳng thức Markov
Bất đẳng thức Chebysev
Định lý yếu theo số lớn.
a. Bất đẳng thức Markov
Với biến ngẫu nhiên không âm X và hằng số a>0:
PXa E[X]/a
b. Bất đẳng thức Chebysev
Với biến ngẫu nhiên X có kỳ vọng , phương sai ² và hằng số k>0:
PX- k ²/ k²
c. Định lý yếu theo số lớn
Với n biến ngẫu nhiên X1, …, Xn độc lập, đồng dạng phân bố với cùng kỳ vọng
, và hằng số >0:
B.7 Các biến ngẫu nhiên đặc biệt
Các biến ngẫu nhiên đặc biệt thường gặp trong thống kê công nghiệp, bao gồm:
biến Bernoulli, biến nhị thức, biến siêu hình, biến Poisson, biến Uniform, biến
mũ, biến Gamma, biến chuẩn, biến Chi-Square, biến Student, biến Fisher.
Tham số, ký hiệu và miền giá trị của các biến ngẫu nhiên như ở bảng sau. Hàm
phân bố và thuộc tính các biến ngẫu nhiên như sau:
1- Biến Bernoulli
X ~ Ber(p) {0,1}, p[0,1]
pX(1)=p; pX(0)=1-p=q
E[X] = p, V[X] = pq
2- Biến nhị thức
X~Bin(n,p)In, nI+,p[0,1]
pX(i) = C(n,i) piqn-i
E[X] =np , V[X] = npq
3- Biến Poisson
X=P()I, >0
p(i) = e- i / i!
E[X] = V[X] =
4- Biến siêu hình
X~H(N,M,n)Ik, (N,M,n), k = min(N,n)
p(i) = C(N,i) C(M,(n-i))/C((N+M),n)
E[X] = np, p=N/(N+M),
V[X] = npq[1-(n-1)/(N+M-1)]
5- Biến Uniform
X~ U(a,b)
f(x) = 1/(b-a), X[a,b]
f(x) = 0, X[a,b]
E[X] = (a+b)/2
V[X] = (b-a)²/12
6- Biến mũ
X~E()R, >0
f(x) = e-x, x0,
f(x) = 0, x<0
F(x) = 1- e-x, x0
E[X] = 1/, V[X] = 1/²
7- Biến Gamma
X~G(n, , )R, >0, >0
(n) = (n-1)!
E[X] = /, V[X] = /²
8- Biến chuẩn
X~N( , ² )R.
E[X] = , V[X] = ²
9- Biến Chi -Square
X~²n R, n I+
E[X] = n, V[X] = 2n
10- Biến Student
X~ tn R, n I+
E[X] = 0, n>1, V[X] = n/(n-2), n>2
11- Biến Fisher
X~ Fn,mR, n, m I+
E[X] = m/(m-2), m>2,
V[X] = m²(2m+2n-4)/[n(m-2)²(m-4)],m>4
B.8 Quan hệ biến ngẫu nhiên
Biến Bernoulli mô tả thực nghiệm với kết quả chỉ có hai trạng thái. Biến nhị
thức mô tả thực nghiệm gồm n lần lặp với mỗi lần lặp là một thực nghiệm mô tả
bởi biến Bernoulli. Biến Poisson có tính tái tạo, tổng các biến Poisson độc lập
cũng là biến Poisson. Biến Gamma cũng có tính tái tạo, tổng các biến Gamma
độc lập cũng là biến Gamma.
Xi ~ E(), i=1n Y = [Xi, i=1n] ~ G(n, )
Tổng của n biến mũ độc lập đồng dạng là biến Gamma:
Xi ~ G(i, n), i=1n Y = [Xi, i=1n] ~ G(, n), = [i, i=1n]
Trung bình của n biến ngẫu nhiên độc lập, đồng dạng phân bố, khi n đủ lớn có
phân bố chuẩn:
X1, …, Xn ~ IID (, ²)
= (X1 + …+ Xn) / n ~ N(, ²/n)
Từ biến chuẩn X ~ N(, ²), ta có thể biến đổi thành biến chuẩn đơn vị Z qua
phép biến đổi sau:
Z = (X- )/
Biến chuẩn đơn vị là biến có phân bố chuẩn với kỳ vọng bằng không, phương sai
bằng 1:
Z ~ N(0, 1)
Tổng bình phương của n biến chuẩn đơn vị là biến Chi-Square với n bậc tự do:
Z1, …, Zn ~ N(0,1) X = Z1²+…+ Zn² ~ ²n
Từ biến chuẩn đơn vị Z và biến Chi-Square với n bậc tự do, ta có thể tạo biến
Student với n bậc tự do tn:
Z ~ N(0,1), X = ~ ²n
Biến Fisher có thể được tạo từ tỷ số của hai biến Chi-Square:
X ~ ²n , Y ~ ²m W = X/Y ~ Fn,m
B.9 Điểm phân vị
Xem biến ngẫu nhiên X với phân bố tích lũy F, điểm phân vị X của biến X hay
của phân bố F là điểm xác định bởi:
P{X>X} = 1 – F(X) = , 01
Với biến chuẩn đơn vị Z, hàm tích lũy thường được ký hiệu là :
(x) = FZ(x) = P(Z<x)
Hàm tích lũy có tính chất:
(-x) = 1 – (x)
Điểm phân vị của biến chuẩn đơn vị Z định bởi:
P{Z> Z}=1 – (Z) = .
Điểm phân vị của biến Chi-square ký hiệu là ²,n, định bởi:
P{²n >²,n } =
Điểm phân vị của biến Student ký hiệu là t,n, định bởi:
P{tn>t,n } =
Tính chất điểm phân vị của biến Student:
t1-,n= - t,n
Điểm phân vị của biến Fisher ký hiệu là F,n,m, định bởi:
P{Fn,m>F,n,m } =
Tính chất điểm phân vị của biến Fisher:
F1-,n,m= 1/F,m,n
TÀI LIỆU THAM KHẢO
1. Nguyễn Như Phong. Thống kê trong Công nghiệp. NXBĐHQG. 2013. ISBN:
978-604-73-1998-5.
2. Sheldon M. Ross. Introduction to probability models. Academic Press Inc.
1993
3. Sheldon M. Ross. Introduction to probability & Statistics. John Wiley & Sons
Inc.
4. Ken Black. Business Statistics. South Western College Publishing. 3rd edition.
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )