CHƯƠNG 2 MẪU NGẪU NHIÊN Khoa Toán Tin Trường Đại học Sư phạm Hà Nội Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 1 / 59 Nội dung của chương 1 Giới thiệu về thống kê. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 2 / 59 Nội dung của chương 1 Giới thiệu về thống kê. 2 Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 2 / 59 Nội dung của chương 1 Giới thiệu về thống kê. 2 Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên. Trình bày và mô tả dữ liệu. 3 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 2 / 59 Nội dung của chương 1 Giới thiệu về thống kê. 2 Các phương pháp thu thập dữ liệu và lấy mẫu ngẫu nhiên. Trình bày và mô tả dữ liệu. 3 4 Phân tích dữ liệu và tính các số đặc trưng. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 2 / 59 Mục tiêu của chương 1 Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng, nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời sống. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 3 / 59 Mục tiêu của chương 1 Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng, nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời sống. 2 Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp. Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong thực tế. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 3 / 59 Mục tiêu của chương 1 Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng, nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời sống. 2 Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp. Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong thực tế. 3 Nhận dạng được một số loại bảng và biểu đồ dùng để trình bày dữ liệu. Nắm được cách vẽ và xây dựng các loại bảng và biểu đồ đó. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 3 / 59 Mục tiêu của chương 1 Hiểu được các khái niệm cơ bản, quy trình nghiên cứu, mục tiêu, chức năng, nhiệm vụ của môn Thống kê trong việc giải quyết các vấn đề thực tế của đời sống. 2 Nhận dạng được các loại dữ liệu khác nhau: dữ liệu sơ cấp, dữ liệu thứ cấp. Nắm được các quy tắc và một số phương pháp để thu thập dữ liệu trong thực tế. 3 Nhận dạng được một số loại bảng và biểu đồ dùng để trình bày dữ liệu. Nắm được cách vẽ và xây dựng các loại bảng và biểu đồ đó. 4 Nắm được cách xử lý dữ liệu đã thu thập được. Từ đó tính được các số đặc trưng của mẫu dữ liệu như: trung bình mẫu, phương sai mẫu, mode, median,... cho: dữ liệu rời rạc được biểu diễn trong một bảng tần số dữ liệu rời rạc được biểu diễn theo một danh sách liệt kê dữ liệu liên tục được biểu diễn trong một bảng tần số theo nhóm Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 3 / 59 2.1. Giới thiệu về Thống kê Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 4 / 59 Một số vấn đề thực tế Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 5 / 59 Một số vấn đề thực tế Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 5 / 59 Một số vấn đề thực tế Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương? Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở địa phương này thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 5 / 59 Một số vấn đề thực tế Làm thế nào để biết cân nặng trung bình của trẻ sơ sinh ở một địa phương? Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở địa phương này thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó? Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 5 / 59 Một số vấn đề thực tế Làm thế nào để so sánh hiệu quả của hai phác đồ điều trị cho một bệnh nào đó? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 6 / 59 Một số vấn đề thực tế Làm thế nào để so sánh hiệu quả của hai phác đồ điều trị cho một bệnh nào đó? Có hai phác đồ điều trị cho cùng một bệnh. Trong 200 bệnh nhân điều trị theo phác đồ 1 có 150 khỏi bệnh. Trong 50 người điều trị theo phác đồ 2 thì có 40 người khỏi bệnh. Hỏi phác đồ 2 có thực sự tốt hơn phác đồ 1 hay không? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 6 / 59 Một số vấn đề thực tế Con của bạn sẽ cao bao nhiêu cm? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 7 / 59 Một số vấn đề thực tế Con của bạn sẽ cao bao nhiêu cm? Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 7 / 59 Một số vấn đề thực tế Con của bạn sẽ cao bao nhiêu cm? Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ? Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 7 / 59 Một số vấn đề thực tế Con của bạn sẽ cao bao nhiêu cm? Chiều cao của con bị ảnh hưởng bởi chiều cao của bố hay chiều cao của mẹ? Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau? Biết chiều cao của bố/mẹ thì có thể dự đoán được chiều cao của con không? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 7 / 59 Thống kê là gì? Quần thể (population) là tập hợp tất cả các đối tượng mà ta cần nghiên cứu. Mẫu (sample) là tập hợp một số phần tử đại diện lấy từ quần thể mà ta chọn để tiến hành nghiên cứu. Số phần tử của một mẫu được gọi là cỡ mẫu, kí hiệu là n. Để nghiên cứu các tính chất của một quần thể ta có thể: khảo sát toàn bộ các phần tử của quần thể, hoặc khảo sát một bộ phận của quần thể đó, sau đó tìm cách rút ra kết luận dựa trên dữ liệu quan sát được. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 8 / 59 Thống kê là gì? Thống kê là khoa học về việc thu thập, xử lý, biểu diễn, phân tích mẫu số liệu thu thập được từ một quần thể để rút ra được các kết luận có độ tin cậy cho toàn bộ quần thể đó. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 9 / 59 Quy trình nghiên cứu thống kê 1 Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 10 / 59 Quy trình nghiên cứu thống kê 1 Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu. 2 Giai đoạn 2: Tổng hợp và trình bày kết quả điều tra thu thập được. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 10 / 59 Quy trình nghiên cứu thống kê 1 Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu. 2 Giai đoạn 2: Tổng hợp và trình bày kết quả điều tra thu thập được. 3 Giai đoạn 3: Phân tích đưa ra kết luận và dự báo. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 10 / 59 Các bài toán thống kê sẽ học: Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 11 / 59 Các bài toán thống kê sẽ học: 1 Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng. Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 11 / 59 Các bài toán thống kê sẽ học: 1 Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng. Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó? 2 Bài toán kiểm định giả thuyết. Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 11 / 59 Các bài toán thống kê sẽ học: 1 Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng. Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó? 2 Bài toán kiểm định giả thuyết. Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không? 3 Bài toán tương quan và hồi quy Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau? Biết chiều cao của bố/mẹ thì có thể dự đoán được chiều cao của con không? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 11 / 59 2.2. Các phương pháp thu thập dữ liệu Một số phương pháp lấy mẫu ngẫu nhiên Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 12 / 59 Xác định dữ liệu cần thu thập Xác định rõ dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Nếu không sẽ mất rất nhiều thời gian và chi phí cho những dữ liệu ít quan trọng hay không liên quan đến vấn đề cần nghiên cứu. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 13 / 59 Xác định dữ liệu cần thu thập Xác định rõ dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Nếu không sẽ mất rất nhiều thời gian và chi phí cho những dữ liệu ít quan trọng hay không liên quan đến vấn đề cần nghiên cứu. Xác định số các đơn vị điều tra (cỡ mẫu). Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 13 / 59 Dữ liệu sơ cấp và thứ cấp Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 14 / 59 Dữ liệu sơ cấp và thứ cấp Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban đầu từ đối tượng nghiên cứu. Ưu điểm: đáp ứng tốt nhu cầu nghiên cứu. Nhược điểm: tốn kém nhiều về thời gian và chi phí. Phương pháp thu thập: thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan sát trực tiếp và phỏng vấn cá nhân. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 14 / 59 Dữ liệu sơ cấp và thứ cấp Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban đầu từ đối tượng nghiên cứu. Ưu điểm: đáp ứng tốt nhu cầu nghiên cứu. Nhược điểm: tốn kém nhiều về thời gian và chi phí. Phương pháp thu thập: thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan sát trực tiếp và phỏng vấn cá nhân. Dữ liệu thứ cấp là dữ liệu đã qua tổng hợp, xử lý. Ưu điểm: thu thập nhanh, ít tốn kém chi phí. Nhược điểm: đôi khi ít chi tiết và không đáp ứng đúng nhu cầu nghiên cứu. Nguồn cung cấp: số liệu nội bộ, số liệu từ cơ quan thống kê nhà nước, cơ quan chính phủ, báo, tạp chí, các tổ chức, hiệp hội, viện nghiên cứu,... Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 14 / 59 Một số phương pháp thu thập thông tin trong xã hội Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 15 / 59 Lấy mẫu hoàn lại và không hoàn lại Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 16 / 59 Lấy mẫu hoàn lại và không hoàn lại Lấy mẫu ngẫu nhiên có hoàn lại: lần lượt lấy ngẫu nhiên từ quần thể ra một phần tử, thu thập các thông tin cần thiết từ phần tử đó rồi trả nó trở lại quần thể trước khi lấy tiếp lần sau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 16 / 59 Lấy mẫu hoàn lại và không hoàn lại Lấy mẫu ngẫu nhiên có hoàn lại: lần lượt lấy ngẫu nhiên từ quần thể ra một phần tử, thu thập các thông tin cần thiết từ phần tử đó rồi trả nó trở lại quần thể trước khi lấy tiếp lần sau. Lấy mẫu ngẫu nhiên không hoàn lại: tương tự như trên nhưng khác ở chỗ các phần tử đã lấy ra sẽ không được chọn lại ở lần sau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 16 / 59 Quy tắc lấy mẫu Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 17 / 59 Quy tắc lấy mẫu Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được chọn phải mang tính đại diện cho quần thể. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 17 / 59 Quy tắc lấy mẫu Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được chọn phải mang tính đại diện cho quần thể. Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 17 / 59 Quy tắc lấy mẫu Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được chọn phải mang tính đại diện cho quần thể. Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau. Các phần tử của mẫu được chọn lần lượt, độc lập với nhau và có hoàn lại từ quần thể. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 17 / 59 Quy tắc lấy mẫu Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được chọn phải mang tính đại diện cho quần thể. Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau. Các phần tử của mẫu được chọn lần lượt, độc lập với nhau và có hoàn lại từ quần thể. Chú ý: Khi kích thước của tổng thể khá lớn còn kích thước của mẫu lại nhỏ thì phương thức lấy mẫu hoàn lại và lấy mẫu không hoàn lại cho ta kết quả sai lệch không đáng kể. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 17 / 59 Phương pháp lấy mẫu giản đơn Mẫu giản đơn là mẫu được chọn trực tiếp từ danh sách đã được đánh số của tổng thể. Từ quần thể kích thước m người ta rút ra mẫu n phần tử bằng cách bốc thăm, chọn số ngẫu nhiên từ bảng hoặc sinh số ngẫu nhiên từ máy tính. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 18 / 59 Phương pháp lấy mẫu giản đơn Mẫu giản đơn là mẫu được chọn trực tiếp từ danh sách đã được đánh số của tổng thể. Từ quần thể kích thước m người ta rút ra mẫu n phần tử bằng cách bốc thăm, chọn số ngẫu nhiên từ bảng hoặc sinh số ngẫu nhiên từ máy tính. Phương pháp này có ưu điểm là cho phép thu được một mẫu có tính đại diện cao, song để vận dụng phải có được toàn bộ danh sách của tổng thể nghiên cứu, và chi phí chọn mẫu sẽ khá lớn. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 18 / 59 Các phương pháp lấy mẫu khác Mẫu phân tầng (Stratified sampling): quần thể được chia thành nhóm và mỗi nhóm được lấy mẫu giản đơn. Lấy mẫu cụm (Cluster sampling): quần thể được chia thành nhiều cụm. Đầu tiên chọn ngẫu nhiên một số cụm, sau đó lại chọn ngẫu nhiên các phần tử từ các cụm được chọn bằng phương pháp lấy mẫu giản đơn. Mẫu hệ thống (Systematic random sampling): Đánh số các phần tử của quần thể từ 1 đến N. Chọn ngẫu nhiên ra 1 phần tử trong k phần tử đầu tiên (k < N), từ phần tử được chọn cứ cách k phần tử của quần thể lại lấy ra một phần tử cho vào mẫu. Lấy mẫu nhiều tầng (Multistage sampling): kết hợp nhiều phương pháp. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 19 / 59 2.3. Trình bày dữ liệu bằng bảng và biểu đồ Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 20 / 59 Các phương pháp trình bày dữ liệu 1 Đối với dữ liệu định tính Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy. Biểu đồ hình cột, hình tròn. 2 Đối với dữ liệu định lượng Biểu đồ thân-lá. Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy. Biểu đồ hình cột, hình tròn. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 21 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. 1 Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. 1 Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại. 2 Bước 2: liệt kê các giá trị thân thành một cột. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. 1 Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại. 2 Bước 2: liệt kê các giá trị thân thành một cột. 3 Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. 1 Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại. 2 Bước 2: liệt kê các giá trị thân thành một cột. 3 Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây. 4 Bước 4: đếm số lượng thân và lá. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Biểu đồ thân-lá (stem-and-leaf diagram) Biểu đồ thân-lá là một phương pháp mô tả thông tin trực quan về mẫu x1 , x2 , . . . , xn , trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân-lá, ta thực hiện các bước như sau. 1 Bước 1: chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại. 2 Bước 2: liệt kê các giá trị thân thành một cột. 3 Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây. 4 Bước 4: đếm số lượng thân và lá. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 22 / 59 Ví dụ Điều tra cân nặng của 20 sinh viên tại một trường ĐH, ta thu được bảng dữ liệu sau: 59.0 59.5 52.7 47.9 55.7 48.3 52.1 53.1 55.2 45.3 46.5 54.8 48.4 53.1 56.9 47.4 50.2 52.1 49.6 46.4 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 23 / 59 Ví dụ Điều tra cân nặng của 20 sinh viên tại một trường ĐH, ta thu được bảng dữ liệu sau: 59.0 59.5 52.7 47.9 55.7 48.3 52.1 53.1 55.2 45.3 46.5 54.8 48.4 53.1 56.9 47.4 50.2 52.1 49.6 46.4 Xây dựng biểu đồ thân-lá cho cân nặng của 20 sinh viên như sau: Thân 45 46 47 48 49 50 52 53 54 55 56 59 Khoa Toán Tin Lá 3 4 5 4 9 3 4 6 2 1 1 7 1 1 8 2 7 9 0 5 Tần số 1 2 2 2 1 1 3 2 1 2 1 2 CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 23 / 59 Bảng tần số Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Bảng tần số Tần số (frequence) là số lần biến số nhận một giá trị nào đó. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Bảng tần số Tần số (frequence) là số lần biến số nhận một giá trị nào đó. Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Bảng tần số Tần số (frequence) là số lần biến số nhận một giá trị nào đó. Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát. Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Bảng tần số Tần số (frequence) là số lần biến số nhận một giá trị nào đó. Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát. Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100. Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies) hay tần suất. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Bảng tần số Tần số (frequence) là số lần biến số nhận một giá trị nào đó. Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát. Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100. Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies) hay tần suất. Bảng tần số/tần suất (frequency table) là bảng liệt kê các giá trị (hoặc khoảng giá trị) của một biến và tần số/tần suất của chúng. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 24 / 59 Ví dụ Năm 2016, báo Tuổi trẻ Online có làm cuộc khảo sát về bình chọn Quốc hoa Việt Nam, kết quả thu được như sau: Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 25 / 59 Ví dụ Dữ liệu về ngành học của sinh viên một trường đại học như sau: Ngành học Quản trị kinh doanh Điện tử viễn thông Công nghệ thông tin Tổng Tần số (số sinh viên) 450 Tần suất (%) 20% 1000 ? Hãy điền giá trị vào các ô trống trong bảng. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 26 / 59 Ví dụ Dữ liệu về ngành học của sinh viên một trường đại học như sau: Ngành học Quản trị kinh doanh Điện tử viễn thông Công nghệ thông tin Tổng Tần số (số sinh viên) 450 Tần suất (%) 20% 1000 ? Hãy điền giá trị vào các ô trống trong bảng. Ngành học Quản trị kinh doanh Điện tử viễn thông Công nghệ thông tin Tổng Khoa Toán Tin Tần số (số sinh viên) 450 350 (3) 200 (2) 1000 CHƯƠNG 2 MẪU NGẪU NHIÊN Tần suất (%) 45% (1) 35% (4) 20% 100% Năm học: 2022-2023 26 / 59 Bảng tần số a) Trường hợp dữ liệu có ít giá trị: Ví dụ: khảo sát điểm thi môn Toán của học sinh khối 12 một trường THPT như sau: Điểm thi 3 4 5 6 7 8 9 10 Tổng Khoa Toán Tin Tần số (số học sinh) 3 12 15 20 16 8 4 2 80 CHƯƠNG 2 MẪU NGẪU NHIÊN Tần suất (%) 3,75 15 18,75 25 20 10 5 2,5 100 Năm học: 2022-2023 27 / 59 Bảng tần số b) Trường hợp dữ liệu có nhiều giá trị: Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 28 / 59 Bảng tần số b) Trường hợp dữ liệu có nhiều giá trị: Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới dạng khoảng. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 28 / 59 Bảng tần số b) Trường hợp dữ liệu có nhiều giá trị: Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới dạng khoảng. Ví dụ: khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ trên thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó, ta thường phân thành các nhóm, chẳng hạn: từ 18 đến 21 tuổi, từ 21 đến 30 tuổi, từ 31 đến 40 tuổi, từ 41 đến 50 tuổi, từ 51 đến 60 tuổi. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 28 / 59 Bảng tần số b) Trường hợp dữ liệu có nhiều giá trị: Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới dạng khoảng. Ví dụ: khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ trên thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó, ta thường phân thành các nhóm, chẳng hạn: từ 18 đến 21 tuổi, từ 21 đến 30 tuổi, từ 31 đến 40 tuổi, từ 41 đến 50 tuổi, từ 51 đến 60 tuổi. Chú ý: √ - Số khoảng tối ưu là n. - Độ dài mỗi khoảng xấp xỉ h = Khoa Toán Tin xmax − xmin √ . n CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 28 / 59 Ví dụ Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 khu vực canh tác như sau: 153 161 164 170 154 161 164 171 156 161 165 172 157 162 165 173 158 162 166 174 159 162 166 175 159 163 167 176 160 163 167 177 160 163 168 178 160 164 168 179 ? Hãy lập bảng tần số cho mẫu số liệu trên theo mẫu. Khoa Toán Tin Năng suất Tần số Tần suất (%) Tổng 40 100 CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 29 / 59 Ví dụ - Số khoảng tối ưu là √ 40 ≈ 6. xmax − xmin 179 − 153 √ √ = ≈ 4. n 40 - Độ dài mỗi khoảng xấp xỉ h = Khi đó, ta có bảng tần số: Năng suất 152-157 157-161 161-165 165-169 169-173 173-180 Tổng Khoa Toán Tin Tần số 4 9 11 6 4 6 40 Tần suất (%) 10 22,5 27,5 15 10 15 100 CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 30 / 59 Biểu đồ tần số Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 31 / 59 Biểu đồ tần số Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu. Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 31 / 59 Biểu đồ tần số Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu. Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau. 1 Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 31 / 59 Biểu đồ tần số Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu. Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau. 1 Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang. 2 Bước 2: đánh dấu và dán nhãn thang thẳng đứng theo tần số. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 31 / 59 Biểu đồ tần số Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu. Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau. 1 Bước 1: gắn nhãn các mốc của từng khoảng trên một thang nằm ngang. 2 Bước 2: đánh dấu và dán nhãn thang thẳng đứng theo tần số. 3 Bước 3: trên mỗi khoảng, vẽ một hình chữ nhật có chiều cao bằng với tần số tương ứng với khoảng đó. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 31 / 59 Ví dụ Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 32 / 59 Biểu đồ tần suất Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 33 / 59 Biểu đồ tần suất Biểu đồ tần suất là cách biểu diễn trực quan bảng tần suất của số liệu. Biểu đồ tần suất thường có hình tròn, mỗi hình quạt tương ứng với một biến số hay khoảng biến số. Chú ý: Độ lớn góc ở tâm của hình quạt = tỉ lệ ×360◦ . Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 33 / 59 Ví dụ Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 34 / 59 2.4. Số liệu và các số đặc trưng Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 35 / 59 Biến số Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 36 / 59 Biến số Biến số (variable) là khái niệm dùng để chỉ bất kỳ đặc tính nào của quần thể mà ta nghiên cứu. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 36 / 59 Biến số Biến số (variable) là khái niệm dùng để chỉ bất kỳ đặc tính nào của quần thể mà ta nghiên cứu. Ví dụ: Để nghiên cứu sinh viên của một trường Đại học, ta có thể nghiên cứu các biến như: Giới tính Tuổi Chiều cao, cân nặng Ngành học Số tiền chi tiêu trong một tháng Số giờ đi làm thêm trong một tuần,... Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 36 / 59 Phân loại biến số Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 37 / 59 Phân loại biến số Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số. Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ). Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 37 / 59 Phân loại biến số Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số. Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ). Biến định lượng (quantitative) là biến dùng để diễn tả các mức độ cao, thấp của dữ liệu, thể hiện trực tiếp bằng các con số. Giá trị của biến định lượng có thể là đại lượng liên tục (chiều cao, cân nặng) hoặc đại lượng rời rạc (điểm số, số ca khỏi bệnh trong một tháng). Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 37 / 59 Phân loại biến số Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số. Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ). Biến định lượng (quantitative) là biến dùng để diễn tả các mức độ cao, thấp của dữ liệu, thể hiện trực tiếp bằng các con số. Giá trị của biến định lượng có thể là đại lượng liên tục (chiều cao, cân nặng) hoặc đại lượng rời rạc (điểm số, số ca khỏi bệnh trong một tháng). ? Hãy xác định các loại biến trong ví dụ về thống kê sinh viên. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 37 / 59 Các số đặc trưng mẫu Xem điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau: 10 9 5 6 1 5 7 9 5 6 ? Có thể rút ra các thông tin gì từ mẫu số liệu trên? Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 38 / 59 Các số đặc trưng mẫu Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu 1. Các số đo giá trị trung tâm: Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu 1. Các số đo giá trị trung tâm: a) Trung bình mẫu (Sample mean) Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó: x1 + . . . + xn x= . n Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu 1. Các số đo giá trị trung tâm: a) Trung bình mẫu (Sample mean) Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó: x1 + . . . + xn x= . n Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số: Giá trị x1 x2 . . . xk Tần số n1 n2 . . . nk k n1 x1 + n2 x2 + . . . + nk xk 1X Khi đó, x= = ni xi . n n i=1 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu 1. Các số đo giá trị trung tâm: a) Trung bình mẫu (Sample mean) Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó: x1 + . . . + xn x= . n Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số: Giá trị x1 x2 . . . xk Tần số n1 n2 . . . nk k n1 x1 + n2 x2 + . . . + nk xk 1X Khi đó, x= = ni xi . n n i=1 Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số theo nhóm: (ak ; ak+1 ) Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . . Tần số n1 n2 ... nk Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu 1. Các số đo giá trị trung tâm: a) Trung bình mẫu (Sample mean) Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó: x1 + . . . + xn x= . n Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số: Giá trị x1 x2 . . . xk Tần số n1 n2 . . . nk k n1 x1 + n2 x2 + . . . + nk xk 1X Khi đó, x= = ni xi . n n i=1 Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số theo nhóm: (ak ; ak+1 ) Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . . Tần số n1 n2 ... nk ai + ai+1 Gọi xi = là giá trị đại diện cho khoảng (ai ; ai+1 ). 2 k n1 x1 + n2 x2 + . . . + nk xk 1X Khi đó, x≈ = ni xi . n n i=1 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 39 / 59 Các số đặc trưng mẫu Ý nghĩa của trung bình mẫu: Số trung bình mẫu được dùng làm đại diện cho các số liệu của mẫu. Nó là một số đặc trưng quan trọng của mẫu số liệu. Ví dụ: nếu biết điểm trung bình môn Toán của lớp A là 6,5, của lớp C là 7,5 thì ta có thể cho rằng sinh viên lớp C đạt điểm cao hơn sinh viên lớp A. Tuy nhiên, khi các số liệu trong mẫu có sự chênh lệch rất lớn đối với nhau thì số trung bình mẫu chưa đại diện tốt cho các số liệu trong mẫu. Khi đó, ta dùng một số đặc trưng khác thích hợp hơn là trung vị. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 40 / 59 Các số đặc trưng mẫu b) Trung vị mẫu (Median): là giá trị nằm ở chính giữa của mẫu số liệu đã được sắp xếp. Kí hiệu là: Me . Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 41 / 59 Các số đặc trưng mẫu Giả sử mẫu dữ liệu {x1 , . . . , xn } là một mẫu dữ liệu ta thu thập được. i) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số Giá trị Tần số x1 n1 x2 n2 ... ... xk nk Ta sắp xếp mẫu dữ liệu theo thứ tự không giảm: x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ . 1 ∗ ∗ (xk + xk+1 ). 2 ∗ Nếu n = 2k + 1 thì Me = xk+1 . Nếu n = 2k thì Me = Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 42 / 59 Các số đặc trưng mẫu ii) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm Khoảng giá trị Tần số (a1 ; a2 ) n1 (a2 ; a3 ) n2 ... ... (ak ; ak+1 ) nk Trung vị có thể được ước lượng theo các bước sau: Bước 1: Xác định nhóm (aj ; aj+1 ) chứa trung vị. Bước 2: Gọi C = n1 + n2 + . . . + nj−1 là số các giá trị của mẫu nhỏ hơn aj . Bước 3: Tính trung vị Me ≈ aj + Khoa Toán Tin n 2 −C (aj+1 − aj ). nj CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 43 / 59 Các số đặc trưng mẫu Chú ý Khi các số liệu trong mẫu không có sự chênh lệch quá lớn thì trung bình mẫu và trung vị xấp xỉ nhau. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 44 / 59 Các số đặc trưng mẫu c) Mốt (Mode): là giá trị của mẫu dữ liệu có tần số xuất hiện lớn nhất. Kí hiệu là: Mo . Nhóm mốt của mẫu số liệu là nhóm có tần số lớn nhất. Nói chung không thể xác định được chính xác mốt của mẫu số liệu đã được ghép nhóm. Tuy nhiên, ta có thể ước lượng mốt như sau: Mo ≈ lm + nm − nm−1 · wm (nm − nm−1 ) + (nm − nm+1 ) trong đó: lm là đầu mút bên trái của khoảng giá trị của nhóm mốt. nm là tần số của nhóm mốt; nm−1 và nm+1 là tần số của nhóm kề trước và kề sau nhóm mốt. wm là độ dài của khoảng giá trị của nhóm mốt. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 45 / 59 Các số đặc trưng mẫu Chú ý Nếu không có nhóm kề trước của nhóm mốt thì nm−1 = 0. Ngược lại, nếu không có nhóm kề sau của nhóm mốt thì nm+1 = 0. Mốt của mẫu dữ liệu ghép nhóm có thể không thuộc vào nhóm mốt. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 46 / 59 Các số đặc trưng mẫu d) Tứ phân vị (quartile): là các giá trị chia mẫu số liệu đã sắp xếp theo thứ tự từ nhỏ đến lớn thành bốn phần, mỗi phần đều chứa 25% giá trị. Kí hiệu là: Q1 , Q2 , Q3 . Q1 được gọi là tứ phân vị thứ nhất hay tứ phân vị dưới. Q2 chính là trung vị. Q3 được gọi là tứ phân vị thứ ba hay tứ phân vị trên. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 47 / 59 Các số đặc trưng mẫu Giả sử mẫu dữ liệu {x1 , . . . , xn } là một mẫu dữ liệu ta thu thập được. i) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số Giá trị Tần số x1 n1 x2 n2 ... ... xk nk Ta sắp xếp mẫu dữ liệu theo thứ tự không giảm: x1∗ ≤ x2∗ ≤ · · · ≤ xn∗ . Bước 1: Tìm trung vị của mẫu dữ liệu, giá trị này là Q2 . Bước 2: Tìm trung vị của nửa số liệu bên trái Q2 (không bao gồm Q2 nếu n lẻ). Giá trị này là Q1 . Bước 3: Tìm trung vị của nửa số liệu bên phải Q2 (không bao gồm Q2 nếu n lẻ). Giá trị này là Q3 . Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 48 / 59 Các số đặc trưng mẫu ii) Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm Khoảng giá trị Tần số (a1 ; a2 ) n1 (a2 ; a3 ) n2 ... ... (ak ; ak+1 ) nk Các tứ phân vị có thể được ước lượng theo các bước sau: Q Bước 1: Xác định nhóm akQ ; ak+1 chứa tứ phân vị thứ k (k = 1, 2, 3). Bước 2: Gọi C là số các quan sát nhỏ hơn akQ . kn −C Q Bước 3: Tính các tứ phân vị Qk ≈ akQ + 4 ak+1 − akQ . nk Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 49 / 59 Các số đặc trưng mẫu 2. Các số đo độ phân tán: Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 50 / 59 Các số đặc trưng mẫu 2. Các số đo độ phân tán: a) Phương sai mẫu (Sample variance) Giả sử {x1 , x2 , . . . , xn } là một mẫu dữ liệu ta thu thập được. Khi đó: n n n X i=1 i=1 i=1 1 X 1 X 2 1 s = (xi − x)2 = xi − n−1 n−1 n(n − 1) 2 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN !2 xi . Năm học: 2022-2023 50 / 59 Các số đặc trưng mẫu Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số: Giá trị x1 x2 . . . xk Tần số n1 n2 . . . nk Khi đó, k k X i=1 i=1 1 X 1 s = ni xi2 − n−1 n(n − 1) 2 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN !2 ni xi . Năm học: 2022-2023 51 / 59 Các số đặc trưng mẫu Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số ghép nhóm: Khoảng giá trị (a1 ; a2 ) (a2 ; a3 ) . . . (ak ; ak+1 ) Tần số n1 n2 ... nk ai + ai+1 Gọi xi = là giá trị đại diện cho khoảng (ai ; ai+1 ). Khi đó, 2 !2 k k X 1 X 1 2 2 ni xi . s ≈ ni xi − n−1 n(n − 1) i=1 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN i=1 Năm học: 2022-2023 52 / 59 Các số đặc trưng mẫu 2. Các số đo độ phân tán: b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 53 / 59 Các số đặc trưng mẫu 2. Các số đo độ phân tán: b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s. Ý nghĩa của phương sai và độ lệch mẫu: Phương sai là trung bình cộng của bình phương khoảng cách từ mỗi số liệu tới số trung bình mẫu. Như vậy, phương sai và độ lệch mẫu đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình mẫu. Phương sai và độ lệch mẫu càng lớn thì độ phân tán càng lớn. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 53 / 59 Các số đặc trưng mẫu 2. Các số đo độ phân tán: b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s. Ý nghĩa của phương sai và độ lệch mẫu: Phương sai là trung bình cộng của bình phương khoảng cách từ mỗi số liệu tới số trung bình mẫu. Như vậy, phương sai và độ lệch mẫu đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình mẫu. Phương sai và độ lệch mẫu càng lớn thì độ phân tán càng lớn. c) Phạm vi mẫu (Range) là xn∗ − x1∗ . d) Khoảng tứ phân vị (Interquartile range) là Q3 − Q1 . Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 53 / 59 Các số đặc trưng mẫu Ví dụ 1 Theo dõi điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau: 10 9 5 6 1 5 7 9 5 6 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 54 / 59 Các số đặc trưng mẫu Lời giải Các số đặc trưng của mẫu dữ liệu mà ta thu được là: Cỡ mẫu: n = 10 Trung bình mẫu: x = 6, 3 Mốt: Mo = 5 Trung vị mẫu: Me = 6 Tứ phân vị: Q1 = 5; Q2 = 6; Q3 = 9 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 55 / 59 Các số đặc trưng mẫu Lời giải Phương sai mẫu: s 2 = 6, 9 Độ lệch mẫu: s = 2, 6268 Giá trị nhỏ nhất là 1; giá trị lớn nhất là 10; khoảng biến thiên R = 9 Khoảng tứ phân vị: ∆Q = 4 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 56 / 59 Các số đặc trưng mẫu Ví dụ 2 Trong một bài kiểm tra môn TKXHH, các bạn sinh viên phải trả lời 40 câu hỏi trắc nghiệm. Kết quả được thống kê ở bảng sau: Số câu đúng Số sinh viên 26 − 30 12 31 − 35 24 36 − 40 4 Hãy tìm các số đặc trưng của mẫu số liệu trên. Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 57 / 59 Các số đặc trưng mẫu Lời giải Các số đặc trưng của mẫu dữ liệu mà ta thu được là: Cỡ mẫu: n = 40 Trung bình mẫu: x = 32 Mốt: Mo = 32, 5 Trung vị mẫu: Me = 32, 33 Tứ phân vị: Q1 = 29, 33; Q2 = 32, 33; Q3 = 34 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 58 / 59 Các số đặc trưng mẫu Lời giải Phương sai mẫu: s 2 = 9, 23 Độ lệch mẫu: s = 3, 04 Giá trị nhỏ nhất là 40; giá trị lớn nhất là 26; khoảng biến thiên R = 14 Khoảng tứ phân vị: ∆Q = 4, 67 Khoa Toán Tin CHƯƠNG 2 MẪU NGẪU NHIÊN Năm học: 2022-2023 59 / 59