Uploaded by Ngọc Đặng Phương

Chương 2 - Mẫu ngẫu nhiên

advertisement
CHƯƠNG 2
MẪU NGẪU NHIÊN
Khoa Toán Tin
Trường Đại học Sư phạm Hà Nội
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
1 / 59
Nội dung của chương
1
Giới thiệu về thống kê.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
2 / 59
Nội dung của chương
1
Giới thiệu về thống kê.
2
Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
2 / 59
Nội dung của chương
1
Giới thiệu về thống kê.
2
Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên.
Trình bày và mô tả dữ liệu.
3
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
2 / 59
Nội dung của chương
1
Giới thiệu về thống kê.
2
Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên.
Trình bày và mô tả dữ liệu.
3
4
Phân tích dữ liệu và tính các số đặc trưng.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
2 / 59
Mục tiêu của chương
1
Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng,
nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời
sống.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
3 / 59
Mục tiêu của chương
1
Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng,
nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời
sống.
2
Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp.
Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong
thực tế.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
3 / 59
Mục tiêu của chương
1
Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng,
nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời
sống.
2
Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp.
Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong
thực tế.
3
Nhận dạng được một số loại bảng và biểu đồ dùng để trình bày dữ liệu. Nắm
được cách vẽ và xây dựng các loại bảng và biểu đồ đó.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
3 / 59
Mục tiêu của chương
1
Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng,
nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời
sống.
2
Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp.
Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong
thực tế.
3
Nhận dạng được một số loại bảng và biểu đồ dùng để trình bày dữ liệu. Nắm
được cách vẽ và xây dựng các loại bảng và biểu đồ đó.
4
Nắm được cách xử lý dữ liệu đã thu thập được. Từ đó tính được các số đặc
trưng của mẫu dữ liệu như: trung bình mẫu, phương sai mẫu, mode,
median,... cho:
dữ liệu rời rạc được biểu diễn trong một bảng tần số
dữ liệu rời rạc được biểu diễn theo một danh sách liệt kê
dữ liệu liên tục được biểu diễn trong một bảng tần số theo nhóm
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
3 / 59
2.1. Giới thiệu về Thống kê
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
4 / 59
Một số vấn đề thực tế
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
5 / 59
Một số vấn đề thực tế
Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
5 / 59
Một số vấn đề thực tế
Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương?
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở địa
phương này thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ
sinh toàn địa phương đó?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
5 / 59
Một số vấn đề thực tế
Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương?
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở địa
phương này thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ
sinh toàn địa phương đó?
Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở
địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
5 / 59
Một số vấn đề thực tế
Làm thế nào để so sánh hiệu quả của hai phác đồ điều trị cho một bệnh nào
đó?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
6 / 59
Một số vấn đề thực tế
Làm thế nào để so sánh hiệu quả của hai phác đồ điều trị cho một bệnh nào
đó?
Có hai phác đồ điều trị cho cùng một bệnh. Trong 200 bệnh nhân điều trị
theo phác đồ 1 có 150 khỏi bệnh. Trong 50 người điều trị theo phác đồ 2 thì
có 40 người khỏi bệnh. Hỏi phác đồ 2 có thực sự tốt hơn phác đồ 1 hay
không?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
6 / 59
Một số vấn đề thực tế
Con của bạn sẽ cao bao nhiêu cm?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
7 / 59
Một số vấn đề thực tế
Con của bạn sẽ cao bao nhiêu cm?
Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
7 / 59
Một số vấn đề thực tế
Con của bạn sẽ cao bao nhiêu cm?
Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ?
Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
7 / 59
Một số vấn đề thực tế
Con của bạn sẽ cao bao nhiêu cm?
Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ?
Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau?
Biết chiều cao của bố/mẹ thì có thể dự đoán được chiều cao của con không?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
7 / 59
Thống kê là gì?
Quần thể (population) là tập hợp tất cả các đối tượng mà ta cần nghiên cứu.
Mẫu (sample) là tập hợp một số phần tử đại diện lấy từ quần thể mà ta chọn
để tiến hành nghiên cứu.
Số phần tử của một mẫu được gọi là cỡ mẫu, kí hiệu là n.
Để nghiên cứu các tính chất của một quần thể ta có thể:
khảo sát toàn bộ các phần tử của quần thể, hoặc
khảo sát một bộ phận của quần thể đó,
sau đó tìm cách rút ra kết luận dựa trên dữ liệu quan sát được.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
8 / 59
Thống kê là gì?
Thống kê là khoa học về việc thu thập, xử lý, biểu diễn, phân tích mẫu số liệu thu
thập được từ một quần thể để rút ra được các kết luận có độ tin cậy cho toàn bộ
quần thể đó.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
9 / 59
Quy trình nghiên cứu thống kê
1
Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
10 / 59
Quy trình nghiên cứu thống kê
1
Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu.
2
Giai đoạn 2: Tổng hợp và trình bày kết quả điều tra thu thập được.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
10 / 59
Quy trình nghiên cứu thống kê
1
Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu.
2
Giai đoạn 2: Tổng hợp và trình bày kết quả điều tra thu thập được.
3
Giai đoạn 3: Phân tích đưa ra kết luận và dự báo.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
10 / 59
Các bài toán thống kê sẽ học:
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
11 / 59
Các bài toán thống kê sẽ học:
1
Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng.
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa
phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh
toàn địa phương đó?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
11 / 59
Các bài toán thống kê sẽ học:
1
Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng.
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa
phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh
toàn địa phương đó?
2
Bài toán kiểm định giả thuyết.
Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở
địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
11 / 59
Các bài toán thống kê sẽ học:
1
Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng.
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa
phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh
toàn địa phương đó?
2
Bài toán kiểm định giả thuyết.
Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở
địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không?
3
Bài toán tương quan và hồi quy
Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau?
Biết chiều cao của bố/mẹ thì có thể dự đoán được chiều cao của con không?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
11 / 59
2.2. Các phương pháp thu thập dữ liệu
Một số phương pháp lấy mẫu ngẫu nhiên
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
12 / 59
Xác định dữ liệu cần thu thập
Xác định rõ dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Nếu
không sẽ mất rất nhiều thời gian và chi phí cho những dữ liệu ít quan trọng
hay không liên quan đến vấn đề cần nghiên cứu.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
13 / 59
Xác định dữ liệu cần thu thập
Xác định rõ dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Nếu
không sẽ mất rất nhiều thời gian và chi phí cho những dữ liệu ít quan trọng
hay không liên quan đến vấn đề cần nghiên cứu.
Xác định số các đơn vị điều tra (cỡ mẫu).
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
13 / 59
Dữ liệu sơ cấp và thứ cấp
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
14 / 59
Dữ liệu sơ cấp và thứ cấp
Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban đầu từ đối tượng nghiên cứu.
Ưu điểm: đáp ứng tốt nhu cầu nghiên cứu.
Nhược điểm: tốn kém nhiều về thời gian và chi phí.
Phương pháp thu thập: thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan
sát trực tiếp và phỏng vấn cá nhân.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
14 / 59
Dữ liệu sơ cấp và thứ cấp
Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban đầu từ đối tượng nghiên cứu.
Ưu điểm: đáp ứng tốt nhu cầu nghiên cứu.
Nhược điểm: tốn kém nhiều về thời gian và chi phí.
Phương pháp thu thập: thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan
sát trực tiếp và phỏng vấn cá nhân.
Dữ liệu thứ cấp là dữ liệu đã qua tổng hợp, xử lý.
Ưu điểm: thu thập nhanh, ít tốn kém chi phí.
Nhược điểm: đôi khi ít chi tiết và không đáp ứng đúng nhu cầu nghiên cứu.
Nguồn cung cấp: số liệu nội bộ, số liệu từ cơ quan thống kê nhà nước, cơ
quan chính phủ, báo, tạp chí, các tổ chức, hiệp hội, viện nghiên cứu,...
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
14 / 59
Một số phương pháp thu thập thông tin trong xã hội
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
15 / 59
Lấy mẫu hoàn lại và không hoàn lại
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
16 / 59
Lấy mẫu hoàn lại và không hoàn lại
Lấy mẫu ngẫu nhiên có hoàn lại: lần lượt lấy ngẫu nhiên từ quần thể ra một
phần tử, thu thập các thông tin cần thiết từ phần tử đó rồi trả nó trở lại
quần thể trước khi lấy tiếp lần sau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
16 / 59
Lấy mẫu hoàn lại và không hoàn lại
Lấy mẫu ngẫu nhiên có hoàn lại: lần lượt lấy ngẫu nhiên từ quần thể ra một
phần tử, thu thập các thông tin cần thiết từ phần tử đó rồi trả nó trở lại
quần thể trước khi lấy tiếp lần sau.
Lấy mẫu ngẫu nhiên không hoàn lại: tương tự như trên nhưng khác ở chỗ các
phần tử đã lấy ra sẽ không được chọn lại ở lần sau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
16 / 59
Quy tắc lấy mẫu
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
17 / 59
Quy tắc lấy mẫu
Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết
luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được
chọn phải mang tính đại diện cho quần thể.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
17 / 59
Quy tắc lấy mẫu
Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết
luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được
chọn phải mang tính đại diện cho quần thể.
Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi
phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
17 / 59
Quy tắc lấy mẫu
Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết
luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được
chọn phải mang tính đại diện cho quần thể.
Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi
phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau.
Các phần tử của mẫu được chọn lần lượt, độc lập với nhau và có hoàn lại từ
quần thể.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
17 / 59
Quy tắc lấy mẫu
Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết
luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được
chọn phải mang tính đại diện cho quần thể.
Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi
phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau.
Các phần tử của mẫu được chọn lần lượt, độc lập với nhau và có hoàn lại từ
quần thể.
Chú ý: Khi kích thước của tổng thể khá lớn còn kích thước của mẫu lại nhỏ thì
phương thức lấy mẫu hoàn lại và lấy mẫu không hoàn lại cho ta kết quả sai lệch
không đáng kể.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
17 / 59
Phương pháp lấy mẫu giản đơn
Mẫu giản đơn là mẫu được chọn trực tiếp từ danh sách đã được đánh số của tổng
thể. Từ quần thể kích thước m người ta rút ra mẫu n phần tử bằng cách bốc
thăm, chọn số ngẫu nhiên từ bảng hoặc sinh số ngẫu nhiên từ máy tính.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
18 / 59
Phương pháp lấy mẫu giản đơn
Mẫu giản đơn là mẫu được chọn trực tiếp từ danh sách đã được đánh số của tổng
thể. Từ quần thể kích thước m người ta rút ra mẫu n phần tử bằng cách bốc
thăm, chọn số ngẫu nhiên từ bảng hoặc sinh số ngẫu nhiên từ máy tính. Phương
pháp này có ưu điểm là cho phép thu được một mẫu có tính đại diện cao, song để
vận dụng phải có được toàn bộ danh sách của tổng thể nghiên cứu, và chi phí
chọn mẫu sẽ khá lớn.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
18 / 59
Các phương pháp lấy mẫu khác
Mẫu phân tầng (Stratified sampling): quần thể được chia thành nhóm và mỗi
nhóm được lấy mẫu giản đơn.
Lấy mẫu cụm (Cluster sampling): quần thể được chia thành nhiều cụm. Đầu
tiên chọn ngẫu nhiên một số cụm, sau đó lại chọn ngẫu nhiên các phần tử từ
các cụm được chọn bằng phương pháp lấy mẫu giản đơn.
Mẫu hệ thống (Systematic random sampling): Đánh số các phần tử của quần
thể từ 1 đến N. Chọn ngẫu nhiên ra 1 phần tử trong k phần tử đầu tiên
(k < N), từ phần tử được chọn cứ cách k phần tử của quần thể lại lấy ra
một phần tử cho vào mẫu.
Lấy mẫu nhiều tầng (Multistage sampling): kết hợp nhiều phương pháp.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
19 / 59
2.3. Trình bày dữ liệu bằng bảng và biểu đồ
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
20 / 59
Các phương pháp trình bày dữ liệu
1
Đối với dữ liệu định tính
Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
Biểu đồ hình cột, hình tròn.
2
Đối với dữ liệu định lượng
Biểu đồ thân-lá.
Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
Biểu đồ hình cột, hình tròn.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
21 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
1
Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều
chữ số đầu và lá, bao gồm các chữ số còn lại.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
1
Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều
chữ số đầu và lá, bao gồm các chữ số còn lại.
2
Bước 2: liệt kê các giá trị thân thành một cột.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
1
Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều
chữ số đầu và lá, bao gồm các chữ số còn lại.
2
Bước 2: liệt kê các giá trị thân thành một cột.
3
Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
1
Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều
chữ số đầu và lá, bao gồm các chữ số còn lại.
2
Bước 2: liệt kê các giá trị thân thành một cột.
3
Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây.
4
Bước 4: đếm số lượng thân và lá.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Biểu đồ thân-lá (stem-and-leaf diagram)
Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu
x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một
biểu đồ thân-lá, ta thực hiện các bước như sau.
1
Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều
chữ số đầu và lá, bao gồm các chữ số còn lại.
2
Bước 2: liệt kê các giá trị thân thành một cột.
3
Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây.
4
Bước 4: đếm số lượng thân và lá.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
22 / 59
Ví dụ
Điều tra cân nặng của 20 sinh viên tại một trường ĐH, ta thu được bảng dữ liệu
sau:
59.0 59.5 52.7 47.9 55.7 48.3 52.1 53.1 55.2 45.3
46.5 54.8 48.4 53.1 56.9 47.4 50.2 52.1 49.6 46.4
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
23 / 59
Ví dụ
Điều tra cân nặng của 20 sinh viên tại một trường ĐH, ta thu được bảng dữ liệu
sau:
59.0 59.5 52.7 47.9 55.7 48.3 52.1 53.1 55.2 45.3
46.5 54.8 48.4 53.1 56.9 47.4 50.2 52.1 49.6 46.4
Xây dựng biểu đồ thân-lá cho cân nặng của 20 sinh viên như sau:
Thân
45
46
47
48
49
50
52
53
54
55
56
59
Khoa Toán Tin
Lá
3
4 5
4 9
3 4
6
2
1 1 7
1 1
8
2 7
9
0 5
Tần số
1
2
2
2
1
1
3
2
1
2
1
2
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
23 / 59
Bảng tần số
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Bảng tần số
Tần số (frequence) là số lần biến số nhận một giá trị nào đó.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Bảng tần số
Tần số (frequence) là số lần biến số nhận một giá trị nào đó.
Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng
cách lấy tần số chia cho tổng số quan sát.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Bảng tần số
Tần số (frequence) là số lần biến số nhận một giá trị nào đó.
Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng
cách lấy tần số chia cho tổng số quan sát.
Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Bảng tần số
Tần số (frequence) là số lần biến số nhận một giá trị nào đó.
Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng
cách lấy tần số chia cho tổng số quan sát.
Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100.
Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies)
hay tần suất.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Bảng tần số
Tần số (frequence) là số lần biến số nhận một giá trị nào đó.
Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng
cách lấy tần số chia cho tổng số quan sát.
Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100.
Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies)
hay tần suất.
Bảng tần số/tần suất (frequency table) là bảng liệt kê các giá trị (hoặc
khoảng giá trị) của một biến và tần số/tần suất của chúng.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
24 / 59
Ví dụ
Năm 2016, báo Tuổi trẻ Online có làm cuộc khảo sát về bình chọn Quốc hoa Việt
Nam, kết quả thu được như sau:
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
25 / 59
Ví dụ
Dữ liệu về ngành học của sinh viên một trường đại học như sau:
Ngành học
Quản trị kinh doanh
Điện tử viễn thông
Công nghệ thông tin
Tổng
Tần số (số sinh viên)
450
Tần suất (%)
20%
1000
? Hãy điền giá trị vào các ô trống trong bảng.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
26 / 59
Ví dụ
Dữ liệu về ngành học của sinh viên một trường đại học như sau:
Ngành học
Quản trị kinh doanh
Điện tử viễn thông
Công nghệ thông tin
Tổng
Tần số (số sinh viên)
450
Tần suất (%)
20%
1000
? Hãy điền giá trị vào các ô trống trong bảng.
Ngành học
Quản trị kinh doanh
Điện tử viễn thông
Công nghệ thông tin
Tổng
Khoa Toán Tin
Tần số (số sinh viên)
450
350 (3)
200 (2)
1000
CHƯƠNG 2 MẪU NGẪU NHIÊN
Tần suất (%)
45% (1)
35% (4)
20%
100%
Năm học: 2022-2023
26 / 59
Bảng tần số
a) Trường hợp dữ liệu có ít giá trị:
Ví dụ: khảo sát điểm thi môn Toán của học sinh khối 12 một trường THPT như
sau:
Điểm thi
3
4
5
6
7
8
9
10
Tổng
Khoa Toán Tin
Tần số (số học sinh)
3
12
15
20
16
8
4
2
80
CHƯƠNG 2 MẪU NGẪU NHIÊN
Tần suất (%)
3,75
15
18,75
25
20
10
5
2,5
100
Năm học: 2022-2023
27 / 59
Bảng tần số
b) Trường hợp dữ liệu có nhiều giá trị:
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
28 / 59
Bảng tần số
b) Trường hợp dữ liệu có nhiều giá trị:
Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không
đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới
dạng khoảng.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
28 / 59
Bảng tần số
b) Trường hợp dữ liệu có nhiều giá trị:
Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không
đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới
dạng khoảng.
Ví dụ: khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu
lập bảng như ở ví dụ trên thì sẽ rất dài, làm mất đi tác dụng tóm lược thông
tin. Do đó, ta thường phân thành các nhóm, chẳng hạn: từ 18 đến 21 tuổi,
từ 21 đến 30 tuổi, từ 31 đến 40 tuổi, từ 41 đến 50 tuổi, từ 51 đến 60 tuổi.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
28 / 59
Bảng tần số
b) Trường hợp dữ liệu có nhiều giá trị:
Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không
đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới
dạng khoảng.
Ví dụ: khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu
lập bảng như ở ví dụ trên thì sẽ rất dài, làm mất đi tác dụng tóm lược thông
tin. Do đó, ta thường phân thành các nhóm, chẳng hạn: từ 18 đến 21 tuổi,
từ 21 đến 30 tuổi, từ 31 đến 40 tuổi, từ 41 đến 50 tuổi, từ 51 đến 60 tuổi.
Chú ý:
√
- Số khoảng tối ưu là n.
- Độ dài mỗi khoảng xấp xỉ h =
Khoa Toán Tin
xmax − xmin
√
.
n
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
28 / 59
Ví dụ
Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 khu vực canh tác như
sau:
153
161
164
170
154
161
164
171
156
161
165
172
157
162
165
173
158
162
166
174
159
162
166
175
159
163
167
176
160
163
167
177
160
163
168
178
160
164
168
179
? Hãy lập bảng tần số cho mẫu số liệu trên theo mẫu.
Khoa Toán Tin
Năng suất
Tần số
Tần suất (%)
Tổng
40
100
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
29 / 59
Ví dụ
- Số khoảng tối ưu là
√
40 ≈ 6.
xmax − xmin
179 − 153
√
√
=
≈ 4.
n
40
- Độ dài mỗi khoảng xấp xỉ h =
Khi đó, ta có bảng tần số:
Năng suất
152-157
157-161
161-165
165-169
169-173
173-180
Tổng
Khoa Toán Tin
Tần số
4
9
11
6
4
6
40
Tần suất (%)
10
22,5
27,5
15
10
15
100
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
30 / 59
Biểu đồ tần số
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
31 / 59
Biểu đồ tần số
Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu.
Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
31 / 59
Biểu đồ tần số
Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu.
Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau.
1
Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
31 / 59
Biểu đồ tần số
Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu.
Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau.
1
Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang.
2
Bước 2: đánh dấu và dán nhãn thang thẳng đứng theo tần số.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
31 / 59
Biểu đồ tần số
Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu.
Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau.
1
Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang.
2
Bước 2: đánh dấu và dán nhãn thang thẳng đứng theo tần số.
3
Bước 3: trên mỗi khoảng, vẽ một hình chữ nhật có chiều cao bằng với tần số
tương ứng với khoảng đó.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
31 / 59
Ví dụ
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
32 / 59
Biểu đồ tần suất
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
33 / 59
Biểu đồ tần suất
Biểu đồ tần suất là cách biểu diễn trực quan bảng tần suất của số liệu.
Biểu đồ tần suất thường có hình tròn, mỗi hình quạt tương ứng với một biến số
hay khoảng biến số.
Chú ý: Độ lớn góc ở tâm của hình quạt = tỉ lệ ×360◦ .
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
33 / 59
Ví dụ
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
34 / 59
2.4. Số liệu và các số đặc trưng
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
35 / 59
Biến số
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
36 / 59
Biến số
Biến số (variable) là khái niệm dùng để chỉ bất kỳ đặc tính nào của quần thể
mà ta nghiên cứu.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
36 / 59
Biến số
Biến số (variable) là khái niệm dùng để chỉ bất kỳ đặc tính nào của quần thể
mà ta nghiên cứu.
Ví dụ: Để nghiên cứu sinh viên của một trường Đại học, ta có thể nghiên cứu
các biến như:
Giới tính
Tuổi
Chiều cao, cân nặng
Ngành học
Số tiền chi tiêu trong một tháng
Số giờ đi làm thêm trong một tuần,...
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
36 / 59
Phân loại biến số
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
37 / 59
Phân loại biến số
Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không
thể hiện trực tiếp bằng các con số.
Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài
lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ).
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
37 / 59
Phân loại biến số
Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không
thể hiện trực tiếp bằng các con số.
Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài
lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ).
Biến định lượng (quantitative) là biến dùng để diễn tả các mức độ cao, thấp của
dữ liệu, thể hiện trực tiếp bằng các con số.
Giá trị của biến định lượng có thể là đại lượng liên tục (chiều cao, cân nặng) hoặc
đại lượng rời rạc (điểm số, số ca khỏi bệnh trong một tháng).
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
37 / 59
Phân loại biến số
Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không
thể hiện trực tiếp bằng các con số.
Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài
lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ).
Biến định lượng (quantitative) là biến dùng để diễn tả các mức độ cao, thấp của
dữ liệu, thể hiện trực tiếp bằng các con số.
Giá trị của biến định lượng có thể là đại lượng liên tục (chiều cao, cân nặng) hoặc
đại lượng rời rạc (điểm số, số ca khỏi bệnh trong một tháng).
? Hãy xác định các loại biến trong ví dụ về thống kê sinh viên.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
37 / 59
Các số đặc trưng mẫu
Xem điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau:
10 9 5 6 1 5 7 9 5 6
?
Có thể rút ra các thông tin gì từ mẫu số liệu trên?
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
38 / 59
Các số đặc trưng mẫu
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
1. Các số đo giá trị trung tâm:
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
1. Các số đo giá trị trung tâm:
a) Trung bình mẫu (Sample mean)
Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó:
x1 + . . . + xn
x=
.
n
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
1. Các số đo giá trị trung tâm:
a) Trung bình mẫu (Sample mean)
Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó:
x1 + . . . + xn
x=
.
n
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số:
Giá trị x1 x2 . . .
xk
Tần số n1 n2 . . .
nk
k
n1 x1 + n2 x2 + . . . + nk xk
1X
Khi đó,
x=
=
ni xi .
n
n i=1
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
1. Các số đo giá trị trung tâm:
a) Trung bình mẫu (Sample mean)
Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó:
x1 + . . . + xn
x=
.
n
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số:
Giá trị x1 x2 . . .
xk
Tần số n1 n2 . . .
nk
k
n1 x1 + n2 x2 + . . . + nk xk
1X
Khi đó,
x=
=
ni xi .
n
n i=1
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số theo nhóm:
(ak ; ak+1 )
Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . .
Tần số
n1
n2
...
nk
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
1. Các số đo giá trị trung tâm:
a) Trung bình mẫu (Sample mean)
Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó:
x1 + . . . + xn
x=
.
n
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số:
Giá trị x1 x2 . . .
xk
Tần số n1 n2 . . .
nk
k
n1 x1 + n2 x2 + . . . + nk xk
1X
Khi đó,
x=
=
ni xi .
n
n i=1
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số theo nhóm:
(ak ; ak+1 )
Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . .
Tần số
n1
n2
...
nk
ai + ai+1
Gọi xi =
là giá trị đại diện cho khoảng (ai ; ai+1 ).
2
k
n1 x1 + n2 x2 + . . . + nk xk
1X
Khi đó,
x≈
=
ni xi .
n
n i=1
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
39 / 59
Các số đặc trưng mẫu
Ý nghĩa của trung bình mẫu:
Số trung bình mẫu được dùng làm đại diện cho các số liệu của mẫu. Nó là
một số đặc trưng quan trọng của mẫu số liệu.
Ví dụ: nếu biết điểm trung bình môn Toán của lớp A là 6,5, của lớp C là 7,5
thì ta có thể cho rằng sinh viên lớp C đạt điểm cao hơn sinh viên lớp A.
Tuy nhiên, khi các số liệu trong mẫu có sự chênh lệch rất lớn đối với nhau thì
số trung bình mẫu chưa đại diện tốt cho các số liệu trong mẫu. Khi đó, ta
dùng một số đặc trưng khác thích hợp hơn là trung vị.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
40 / 59
Các số đặc trưng mẫu
b) Trung vị mẫu (Median): là giá trị nằm ở chính giữa của mẫu số liệu đã được
sắp xếp. Kí hiệu là: Me .
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
41 / 59
Các số đặc trưng mẫu
Giả sử mẫu dữ liệu {x1 , . . . , xn } là một mẫu dữ liệu ta thu thập được.
i) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số
Giá trị
Tần số
x1
n1
x2
n2
...
...
xk
nk
Ta sắp xếp mẫu dữ liệu theo thứ tự không giảm:
x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ .
1 ∗
∗
(xk + xk+1
).
2
∗
Nếu n = 2k + 1 thì Me = xk+1 .
Nếu n = 2k thì Me =
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
42 / 59
Các số đặc trưng mẫu
ii) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm
Khoảng giá trị
Tần số
(a1 ; a2 )
n1
(a2 ; a3 )
n2
...
...
(ak ; ak+1 )
nk
Trung vị có thể được ước lượng theo các bước sau:
Bước 1: Xác định nhóm (aj ; aj+1 ) chứa trung vị.
Bước 2: Gọi C = n1 + n2 + . . . + nj−1 là số các giá trị của mẫu nhỏ hơn aj .
Bước 3: Tính trung vị
Me ≈ aj +
Khoa Toán Tin
n
2
−C
(aj+1 − aj ).
nj
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
43 / 59
Các số đặc trưng mẫu
Chú ý
Khi các số liệu trong mẫu không có sự chênh lệch quá lớn thì trung bình mẫu và
trung vị xấp xỉ nhau.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
44 / 59
Các số đặc trưng mẫu
c) Mốt (Mode): là giá trị của mẫu dữ liệu có tần số xuất hiện lớn nhất. Kí hiệu
là: Mo .
Nhóm mốt của mẫu số liệu là nhóm có tần số lớn nhất. Nói chung không thể
xác định được chính xác mốt của mẫu số liệu đã được ghép nhóm. Tuy
nhiên, ta có thể ước lượng mốt như sau:
Mo ≈ lm +
nm − nm−1
· wm
(nm − nm−1 ) + (nm − nm+1 )
trong đó:
lm là đầu mút bên trái của khoảng giá trị của nhóm mốt.
nm là tần số của nhóm mốt; nm−1 và nm+1 là tần số của nhóm kề trước và kề
sau nhóm mốt.
wm là độ dài của khoảng giá trị của nhóm mốt.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
45 / 59
Các số đặc trưng mẫu
Chú ý
Nếu không có nhóm kề trước của nhóm mốt thì nm−1 = 0. Ngược lại, nếu
không có nhóm kề sau của nhóm mốt thì nm+1 = 0.
Mốt của mẫu dữ liệu ghép nhóm có thể không thuộc vào nhóm mốt.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
46 / 59
Các số đặc trưng mẫu
d) Tứ phân vị (quartile): là các giá trị chia mẫu số liệu đã sắp xếp theo thứ tự
từ nhỏ đến lớn thành bốn phần, mỗi phần đều chứa 25% giá trị. Kí hiệu là:
Q1 , Q2 , Q3 .
Q1 được gọi là tứ phân vị thứ nhất hay tứ phân vị dưới.
Q2 chính là trung vị.
Q3 được gọi là tứ phân vị thứ ba hay tứ phân vị trên.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
47 / 59
Các số đặc trưng mẫu
Giả sử mẫu dữ liệu {x1 , . . . , xn } là một mẫu dữ liệu ta thu thập được.
i) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số
Giá trị
Tần số
x1
n1
x2
n2
...
...
xk
nk
Ta sắp xếp mẫu dữ liệu theo thứ tự không giảm:
x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ .
Bước 1: Tìm trung vị của mẫu dữ liệu, giá trị này là Q2 .
Bước 2: Tìm trung vị của nửa số liệu bên trái Q2 (không bao gồm Q2 nếu n
lẻ). Giá trị này là Q1 .
Bước 3: Tìm trung vị của nửa số liệu bên phải Q2 (không bao gồm Q2 nếu n
lẻ). Giá trị này là Q3 .
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
48 / 59
Các số đặc trưng mẫu
ii) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm
Khoảng giá trị
Tần số
(a1 ; a2 )
n1
(a2 ; a3 )
n2
...
...
(ak ; ak+1 )
nk
Các tứ phân vị có thể được ước lượng theo các bước sau:
Q
Bước 1: Xác định nhóm akQ ; ak+1
chứa tứ phân vị thứ k (k = 1, 2, 3).
Bước 2: Gọi C là số các quan sát nhỏ hơn akQ .
kn
−C Q
Bước 3: Tính các tứ phân vị Qk ≈ akQ + 4
ak+1 − akQ .
nk
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
49 / 59
Các số đặc trưng mẫu
2. Các số đo độ phân tán:
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
50 / 59
Các số đặc trưng mẫu
2. Các số đo độ phân tán:
a) Phương sai mẫu (Sample variance)
Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó:
n
n
n
X
i=1
i=1
i=1
1 X
1 X 2
1
s =
(xi − x)2 =
xi −
n−1
n−1
n(n − 1)
2
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
!2
xi
.
Năm học: 2022-2023
50 / 59
Các số đặc trưng mẫu
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số:
Giá trị x1 x2 . . . xk
Tần số n1 n2 . . . nk
Khi đó,
k
k
X
i=1
i=1
1 X
1
s =
ni xi2 −
n−1
n(n − 1)
2
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
!2
ni xi
.
Năm học: 2022-2023
51 / 59
Các số đặc trưng mẫu
Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm:
Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . . (ak ; ak+1 )
Tần số
n1
n2
...
nk
ai + ai+1
Gọi xi =
là giá trị đại diện cho khoảng (ai ; ai+1 ). Khi đó,
2
!2
k
k
X
1 X
1
2
2
ni xi .
s ≈
ni xi −
n−1
n(n − 1)
i=1
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
i=1
Năm học: 2022-2023
52 / 59
Các số đặc trưng mẫu
2. Các số đo độ phân tán:
b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
53 / 59
Các số đặc trưng mẫu
2. Các số đo độ phân tán:
b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s.
Ý nghĩa của phương sai và độ lệch mẫu:
Phương sai là trung bình cộng của bình phương khoảng cách từ mỗi số liệu
tới số trung bình mẫu.
Như vậy, phương sai và độ lệch mẫu đo mức độ phân tán của các số liệu
trong mẫu quanh số trung bình mẫu.
Phương sai và độ lệch mẫu càng lớn thì độ phân tán càng lớn.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
53 / 59
Các số đặc trưng mẫu
2. Các số đo độ phân tán:
b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s.
Ý nghĩa của phương sai và độ lệch mẫu:
Phương sai là trung bình cộng của bình phương khoảng cách từ mỗi số liệu
tới số trung bình mẫu.
Như vậy, phương sai và độ lệch mẫu đo mức độ phân tán của các số liệu
trong mẫu quanh số trung bình mẫu.
Phương sai và độ lệch mẫu càng lớn thì độ phân tán càng lớn.
c) Phạm vi mẫu (Range) là xn∗ − x1∗ .
d) Khoảng tứ phân vị (Interquartile range) là Q3 − Q1 .
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
53 / 59
Các số đặc trưng mẫu
Ví dụ 1
Theo dõi điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau:
10 9 5 6 1 5 7 9 5 6
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
54 / 59
Các số đặc trưng mẫu
Lời giải
Các số đặc trưng của mẫu dữ liệu mà ta thu được là:
Cỡ mẫu: n = 10
Trung bình mẫu: x = 6, 3
Mốt: Mo = 5
Trung vị mẫu: Me = 6
Tứ phân vị: Q1 = 5; Q2 = 6; Q3 = 9
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
55 / 59
Các số đặc trưng mẫu
Lời giải
Phương sai mẫu: s 2 = 6, 9
Độ lệch mẫu: s = 2, 6268
Giá trị nhỏ nhất là 1; giá trị lớn nhất là 10; khoảng biến thiên R = 9
Khoảng tứ phân vị: ∆Q = 4
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
56 / 59
Các số đặc trưng mẫu
Ví dụ 2
Trong một bài kiểm tra môn TKXHH, các bạn sinh viên phải trả lời 40 câu hỏi
trắc nghiệm. Kết quả được thống kê ở bảng sau:
Số câu đúng
Số sinh viên
26 − 30
12
31 − 35
24
36 − 40
4
Hãy tìm các số đặc trưng của mẫu số liệu trên.
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
57 / 59
Các số đặc trưng mẫu
Lời giải
Các số đặc trưng của mẫu dữ liệu mà ta thu được là:
Cỡ mẫu: n = 40
Trung bình mẫu: x = 32
Mốt: Mo = 32, 5
Trung vị mẫu: Me = 32, 33
Tứ phân vị: Q1 = 29, 33; Q2 = 32, 33; Q3 = 34
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
58 / 59
Các số đặc trưng mẫu
Lời giải
Phương sai mẫu: s 2 = 9, 23
Độ lệch mẫu: s = 3, 04
Giá trị nhỏ nhất là 40; giá trị lớn nhất là 26; khoảng biến thiên R = 14
Khoảng tứ phân vị: ∆Q = 4, 67
Khoa Toán Tin
CHƯƠNG 2 MẪU NGẪU NHIÊN
Năm học: 2022-2023
59 / 59
Download