Chapter 6. Continuous Probability Distributions Phân phối xác suất liên tục A continuous random variable can assume any value Một biến ngẫu nhiên liên tục có thể nhận bất kỳ in an interval on the real line or in a collection of giá trị nào trong một khoảng trên đường thực intervals. hoặc trong một tập hợp các khoảng. It is not possible to talk about the probability of the random variable assuming a particular value. Không thể nói về xác suất của biến ngẫu nhiên giả định một giá trị cụ thể. Instead, we talk about the probability of the random Thay vào đó, chúng ta nói về xác suất của biến variable assuming a value within a given interval. ngẫu nhiên giả định một giá trị trong một khoảng nhất định. The probability of the random variable assuming a value within some given interval from X1 to X2 is defined to be the area under the graph of the probability density function between X1 and X2. Xác suất của biến ngẫu nhiên giả sử một giá trị trong một khoảng nhất định nào đó từ x1 đến x2 được xác định là diện tích bên dưới đồ thị của hàm mật độ xác suất giữa x1 và x2. I. Uniform Probability Distribution A random variable is uniformly distributed whenever the probability is proportional to the interval’s length. → Một biến ngẫu nhiên được phân bố đều bất cứ khi nào xác suất tỷ lệ thuận với độ dài khoảng. ➢ The uniform probability density function is: f (x) = 1/(b – a) for a < x < b = 0 ➢ where: a = smallest value the variable can assume b = largest value the variable can assume ● Expected Value of x: Muy = E(x) = (a + b)/2 ● Variance of x: Sigma^2 = Var(x) = (b - a)2/12 ● P (X1<X<X2) = (X2-X1) /(b-a) ● P (a <= x <= b) = (b-a) /(b-a)=1 II. Normal Probability Distribution Normal Distribution The entire family of normal probability distributions is defined by its mean m and its standard deviation s . Toàn bộ họ phân bố xác suất chuẩn được xác định bởi giá trị trung bình m và độ lệch chuẩn s của nó. The distribution is symmetric; its skewness measure is zero. Sự phân bố đối xứng; thước đo độ lệch của nó bằng không. The highest point on the normal curve is at the mean, which is also the median and mode. Điểm cao nhất trên đường cong bình thường là điểm trung bình, cũng là điểm trung bình và mode. The mean can be any numerical value: negative, zero, or positive. Giá trị trung bình có thể là bất kỳ giá trị số nào: âm, 0 hoặc dương. The standard deviation determines the width of the curve: larger values result in wider, flatter curves Độ lệch chuẩn xác định độ rộng của đường cong: giá trị lớn hơn dẫn đến đường cong rộng hơn, phẳng hơn Probabilities for the normal random variable are given by areas under the curve. The total area under the curve is 1 (.5 to the left of the mean and .5 to the right). Xác suất của biến ngẫu nhiên thông thường được tính theo diện tích dưới đường cong. Tổng diện tích dưới đường cong là 1 (0,5 ở bên trái giá trị trung bình và 0,5 ở bên phải). Excel has two functions for computing cumulative probabilities and x values for any normal distribution: NORM.DIST is used to compute the cumulative probability: xác suất tích lũy given an x value. NORM.INV is used to compute the x value given a cumulative probability. Standard Normal Distribution A random variable having a normal distribution with a mean of 0 and a standard deviation of 1 is said to have a standard normal probability distribution. Một biến ngẫu nhiên có phân phối chuẩn với giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1 được cho là có phân bố xác suất chuẩn chuẩn. The letter z is used to designate the standard normal random variable Chữ z được dùng để chỉ biến ngẫu nhiên chuẩn hóa chuẩn ● ● ● ● Z= N(0,1) Muy = 0 Sigma = 1 z = (𝑥−𝜇)/𝜎 P(Z<z) + P(Z>z) = 1 P(Z<z) = P = NORM.S.DIST(Z,True) P(Z<z) = P ⇒ z = NORM.S.INV(P) Chapter 7: Sampling and Sampling Distributions I. Sampling from a Finite Population (Lấy mẫu từ một quần thể hữu hạn) Finite populations are often defined by lists such as: ● Organization membership roster ● Credit card account numbers ● Inventory product numbers Quần thể hữu hạn thường được xác định bởi các danh sách như: ● Danh sách thành viên tổ chức ● Số tài khoản thẻ tín dụng ● Số sản phẩm tồn kho A simple random sample of size n from a finite population of size N is a sample selected such that each possible sample of size n has the same probability of being selected. Một mẫu ngẫu nhiên đơn giản có kích thước n từ một quần thể hữu hạn có kích thước N là mẫu được chọn sao cho mỗi mẫu có thể có kích thước n đều có cùng xác suất được chọn. Replacing each sampled element before selecting subsequent elements is called sampling with replacement. Sampling without replacement is the procedure used most often In large sampling projects, computer-generated random numbers are often used to automate the sample selection process. Trong các dự án lấy mẫu lớn, số ngẫu nhiên do máy tính tạo ra thường được sử dụng để tự động hóa quá trình chọn mẫu. St. Andrew’s College received 900 applications for admission in the upcoming year from prospective students. The applicants were numbered, from 1 to 900, as their applications arrived. The Director of Admissions would like to select a simple random sample of 30 applicants. Trường Cao đẳng St. Andrew đã nhận được 900 đơn đăng ký nhập học trong năm tới từ các sinh viên tương lai. Những người nộp đơn được đánh số từ 1 đến 900 khi đơn đăng ký của họ được gửi đến. Giám đốc tuyển sinh muốn chọn một mẫu ngẫu nhiên đơn giản gồm 30 ứng viên. II. Sampling from an Infinite Population (Lấy mẫu từ một quần thể hữu hạn) Populations are often generated by an ongoing process where there is no upper limit on the number of units that can be generated. Some examples of ongoing processes, with infinite populations, are: ● parts being manufactured on a production line ● transactions occurring at a bank ● telephone calls arriving at a technical help desk ● customers entering a store Các quần thể thường được tạo ra bởi một quá trình đang diễn ra trong đó không có giới hạn trên về số lượng đơn vị có thể được tạo ra. Một số ví dụ về các quá trình đang diễn ra với quần thể vô hạn là: ● các bộ phận được sản xuất trên dây chuyền sản xuất ● giao dịch xảy ra tại ngân hàng ● các cuộc gọi điện thoại đến bàn trợ giúp kỹ thuật ● khách hàng bước vào cửa hàng In the case of an infinite population, we must select Trong trường hợp dân số vô hạn, chúng ta phải a random sample in order to make valid statistical chọn một mẫu ngẫu nhiên để đưa ra những suy inferences about the population from which the luận thống kê hợp lệ về dân số mà mẫu được lấy. sample is taken A random sample from an infinite population is a sample selected such that the following conditions are satisfied. ● Each element selected comes from the population of interest. ● Each element is selected independently. Mẫu ngẫu nhiên từ một quần thể vô hạn là mẫu được chọn sao cho thỏa mãn các điều kiện sau. ● Mỗi phần tử được chọn đều xuất phát từ tổng thể quan tâm. ● Mỗi phần tử được chọn độc lập. III. Point Estimation Point estimation is a form of statistical inference. Ước lượng điểm là một dạng suy luận thống kê. In point estimation we use the data from the sample Trong ước tính điểm, chúng tôi sử dụng dữ to compute a value of a sample statistic that serves liệu từ mẫu để tính giá trị của thống kê as an estimate of a population parameter. mẫu đóng vai trò ước tính tham số tổng thể. We refer to 𝑥 ̅ as the point estimator of the population mean . Chúng tôi gọi 𝑥 ̅ là công cụ ước tính điểm của trung bình tổng thể . s is the point estimator of the population standard deviation . s là ước lượng điểm của độ lệch chuẩn của tổng thể. 𝑝 ̅ is the point estimator of the population proportion p. 𝑝 ̅ là ước lượng điểm của tỷ lệ dân số p. IV. Sampling Distribution of 𝑥 ̅ The sampling distribution of 𝑥 ̅ is the probability distribution of all possible values of the sample mean 𝑥 ̅. Phân phối mẫu của 𝑥 ̅ là phân phối xác suất của tất cả các giá trị có thể có của trung bình mẫu 𝑥 ̅. Expected Value of 𝑥 ̅ When the expected value of the point estimator equals the population parameter, we say the point estimator is unbiased. Khi giá trị kỳ vọng của công cụ ước tính điểm bằng tham số tổng thể, chúng ta nói rằng công cụ ước tính điểm là không thiên vị. When the population has a normal distribution, the sampling distribution of 𝑥 ̅ is normally distributed for any sample size. In most applications, the sampling distribution of 𝑥 ̅ can be approximated by a normal distribution whenever the Khi tổng thể có phân phối chuẩn, phân phối mẫu của 𝑥 ̅ thường được phân phối cho mọi cỡ mẫu. Trong hầu hết các ứng dụng, phân phối sample is size 30 or more. mẫu của 𝑥 ̅ có thể gần đúng bằng phân phối chuẩn bất cứ khi nào mẫu có cỡ 30 trở lên. In cases where the population is highly skewed or outliers are present, samples of size 50 may be needed Trong trường hợp tổng thể có độ lệch cao hoặc có các giá trị ngoại lệ, có thể cần các mẫu có kích thước 50 The sampling distribution of 𝑥 ̅ can be used to provide probability information about how close the sample mean 𝑥 ̅ is to the population mean m . Phân phối mẫu của 𝑥 ̅ có thể được sử dụng để cung cấp thông tin xác suất về mức độ gần gũi của trung bình mẫu 𝑥 ̅ với trung bình tổng thể m . V. Sampling Distribution of 𝑝 ̅ The sampling distribution of 𝑝 ̅ is the probability distribution of all possible values of the sample proportion 𝑝 ̅. Phân phối mẫu của 𝑝 ̅ là phân phối xác suất của tất cả các giá trị có thể có của tỷ lệ mẫu 𝑝 ̅. Expected Value of 𝑝 ̅ The sampling distribution of 𝑝 ̅ can be approximated by a normal distribution whenever the sample size is large enough to satisfy the two conditions: np > 5 and n(1 – p) > 5 Phân phối mẫu của 𝑝 ̅ có thể gần đúng bằng phân phối chuẩn bất cứ khi nào cỡ mẫu đủ lớn để thỏa mãn hai điều kiện: np > 5 and n(1 – p) > 5 When these conditions are satisfied, the probability distribution of x in the sample proportion, 𝑝 ̅ = x/n, can be approximated by a normal distribution (and because n is a constant). Khi những điều kiện này được thỏa mãn, phân bố xác suất của x trong tỷ lệ mẫu, 𝑝 ̅ = x/n, có thể xấp xỉ bằng phân bố chuẩn (và vì n là một hằng số). Chapter 8: Interval Estimation I. Margin of Error and the Interval Estimate ● A point estimator cannot be expected to provide the exact value of the population parameter. → Không thể kỳ vọng một công cụ ước tính điểm sẽ cung cấp giá trị chính xác của tham số tổng thể. ● An interval estimate can be computed by adding and subtracting a margin of error to the point estimate. → Ước tính khoảng có thể được tính bằng cách cộng và trừ một mức sai số cho ước tính điểm. Point Estimate +/- Margin of Error 1. Interval Estimate of a Population Mean: sigma Known ● The purpose of an interval estimate is to provide information about how close the point estimate is to the value of the parameter. → Mục đích của ước tính khoảng là cung cấp thông tin về mức độ gần của ước tính điểm với giá trị của tham số. ● The general form of an interval estimate of a population mean is (ước tính khoảng của giá trị trung bình tổng thể là) 𝑥 ̅ + Margin of Error ● In order to develop an interval estimate of a population mean, the margin of error must be computed using either: (Để xây dựng ước tính khoảng của giá trị trung bình tổng thể, biên độ sai số phải được tính bằng cách sử dụng) - the population standard deviation: sigma , or - the sample standard deviation: s ● Sigma is rarely known exactly, but often a good estimate can be obtained based on historical data or other information. → Sigma hiếm khi được biết chính xác, nhưng thường có thể có được ước tính tốt dựa trên dữ liệu lịch sử hoặc thông tin khác. ● We refer to such cases as the sigma known case. → Chúng tôi gọi những trường hợp như vậy là trường hợp đã biết sigma. 2. There is a 1 - probability that the value of a sample mean will provide a margin of error of 𝑧_(𝛼/2) 𝜎_𝑥 ̅ or less. → Có 1 - xác suất rằng giá trị trung bình mẫu sẽ có sai số 𝑧_(𝛼/2) 𝜎_𝑥 ̅ hoặc nhỏ hơn. ● Interval Estimate of m where: ➢ 𝑥 ̅ is the sample mean ➢ 1 - alpha is the confidence coefficient ➢ Z (alpha/2) is the z value providing an area of ➢ alpha/2 in the upper tail of the standard normal probability distribution ➢ sigma is the population standard deviation ➢ n is the sample size ● Meaning of Confidence ● We say that this interval has been established at the 90% confidence level ● The value .90 is referred to as the confidence coefficient. → Chúng ta nói rằng khoảng này đã được thiết lập ở mức độ tin cậy 90% Giá trị 0,90 được gọi là hệ số tin cậy. ● t Distribution The t distribution is a family of similar probability distributions. → Phân phối t là một họ các phân phối xác suất tương tự nhau. A specific t distribution depends on a parameter known as the degrees of freedom. → Một phân bố t cụ thể phụ thuộc vào một tham số được gọi là bậc tự do. Degrees of freedom refer to the number of independent pieces of information that go into the computation of s. → Bậc tự do đề cập đến số lượng thông tin độc lập được đưa vào tính toán s. A t distribution with more degrees of freedom has less dispersion. → Phân phối t có bậc tự do cao hơn sẽ có độ phân tán ít hơn. As the degrees of freedom increases, the difference between the t distribution and the standard normal probability distribution becomes smaller and smaller. → Khi bậc tự do tăng lên, sự khác biệt giữa phân bố t và phân bố xác suất chuẩn chuẩn hóa ngày càng nhỏ hơn. The standard normal z values can be found in the infinite degrees (∞ ) row of the t distribution table. → Các giá trị z chuẩn chuẩn có thể được tìm thấy trong hàng độ vô hạn (∞ ) của bảng phân phối t. 2.Interval Estimate of a Population Mean: s Unknown where: ➢ ➢ ➢ ➢ 𝑥 ̅ = the sample mean 1 - alpha = the confidence coefficient T alpha/2 = the t value providing an area of /2 in the upper tail of a t distribution with n - 1 degrees of freedom s = the sample standard deviation ➢ n = the sample size Sample Size for an Interval Estimate of a Population Mean ● Let E = the desired margin of error. → Đặt E = biên độ sai số mong muốn. ● E is the amount added to and subtracted from the point estimate to obtain an interval estimate. → E là số tiền được thêm vào và trừ đi khỏi ước tính điểm để có được ước tính khoảng. ● If a desired margin of error is selected prior to sampling, the sample size necessary to satisfy the margin of error can be determined. → Nếu chọn mức sai số mong muốn trước khi lấy mẫu thì có thể xác định được cỡ mẫu cần thiết để đáp ứng mức sai số đó. ● The Necessary Sample Size equation requires a value for the population standard deviation s. → Phương trình Cỡ mẫu cần thiết yêu cầu một giá trị cho độ lệch chuẩn tổng thể s . ● If s is unknown, a preliminary or planning value for s can be used in the equation. → Nếu s chưa biết, giá trị sơ bộ hoặc giá trị lập kế hoạch cho s có thể được sử dụng trong phương trình. 1. Use the estimate of the population standard deviation computed in a previous study. → 1. Sử dụng ước tính độ lệch chuẩn tổng thể được tính toán trong nghiên cứu trước đó. 2. Use a pilot study to select a preliminary study and use the sample standard deviation from the study. → 2. Sử dụng nghiên cứu thí điểm để lựa chọn nghiên cứu sơ bộ và sử dụng độ lệch chuẩn mẫu so với nghiên cứu. 3. Use judgment or a “best guess” for the value of s. → 3. Sử dụng phán đoán hoặc “dự đoán tốt nhất” về giá trị của s The general form of an interval estimate of a population proportion is: 𝑝 ̅ + Margin of Error The sampling distribution of 𝑝 ̅ plays a key role in computing the margin of error for this interval estimate. → Phân phối lấy mẫu của 𝑝 ̅ đóng vai trò quan trọng trong việc tính toán sai số cho ước tính khoảng này. 3.Interval Estimate of a Population Proportion where: ➢ 1 - alpha is the confidence coefficient, ➢ z(alpha/2) is the z value providing an area of /2 ➢ in the upper tail of the standard normal ➢ probability distribution, and ➢ 𝑝 ̅ is the sample proportion Chapter 9: Hypothesis Testing I. Null and Alternative Hypotheses Hypothesis testing can be used to determine whether Kiểm tra giả thuyết có thể được sử dụng để xác định a statement about the value of a population parameter should or should not be rejected. xem một tuyên bố về giá trị của một tham số tổng thể có nên bị bác bỏ hay không. The null hypothesis, denoted by H0 , is a tentative assumption about a population parameter. Giả thuyết không, ký hiệu là H0, là một giả định tạm thời về một tham số tổng thể. The alternative hypothesis, denoted by Ha, is the opposite of what is stated in the null hypothesis. Giả thuyết thay thế, ký hiệu là Ha, trái ngược với những gì được nêu trong giả thuyết không. The hypothesis testing procedure uses data from a sample to test the two competing statements indicated by H0 and Ha. Quy trình kiểm tra giả thuyết sử dụng dữ liệu từ một mẫu để kiểm tra hai tuyên bố cạnh tranh được chỉ ra bởi H0 và Ha. Null Hypothesis as an Assumption to be Challenged Null Hypothesis as an Assumption to be Challenged Giả thuyết không như một giả định bị thách thức We might begin with a belief or assumption that a statement about the value of a population parameter is true. Chúng ta có thể bắt đầu bằng niềm tin hoặc giả định rằng phát biểu về giá trị của một tham số tổng thể là đúng We then use a hypothesis test to challenge the assumption and determine if there is statistical evidence to conclude that the assumption is incorrect. Sau đó, chúng tôi sử dụng thử nghiệm giả thuyết để thách thức giả định và xác định xem có bằng chứng thống kê nào để kết luận rằng giả định đó là không chính xác hay không. Type I Error Because hypothesis tests are based on sample data, we must allow for the possibility of errors. Vì việc kiểm tra giả thuyết dựa trên dữ liệu mẫu nên chúng ta phải tính đến khả năng xảy ra sai sót. A Type I error is rejecting H0 when it is true Lỗi Loại I là bác bỏ H0 khi nó đúng The probability of making a Type I error when the null hypothesis is true as an equality is called the level of significance. Xác suất mắc sai lầm Loại I khi giả thuyết không đúng như một đẳng thức được gọi là mức ý nghĩa. Applications of hypothesis testing that only control the Type I error are often called significance tests. Các ứng dụng kiểm tra giả thuyết chỉ kiểm soát lỗi Loại I thường được gọi là kiểm tra ý nghĩa. Type II Error A Type II error is accepting H0 when it is false Lỗi Loại II chấp nhận H0 khi nó sai It is difficult to control for the probability of making a Type II error. It is difficult to control for the probability of making a Type II error. Statisticians avoid the risk of making a Type II error by using “do not reject H0” and not “accept H0”. Statisticians avoid the risk of making a Type II error by using “do not reject H0” and not “accept H0”. II. p-Value Approach to One-Tailed Hypothesis Testing The p-value is the probability, computed using the test statistic, that measures the support (or lack of support) provided by the sample for the null hypothesis. Giá trị p là xác suất, được tính bằng thống kê kiểm tra, đo lường mức hỗ trợ (hoặc thiếu mức hỗ trợ) do mẫu cung cấp cho giả thuyết không. If the p-value is less than or equal to the level of significance , the value of the test statistic is in the rejection region. Nếu giá trị p nhỏ hơn hoặc bằng mức ý nghĩa , thì giá trị của thống kê kiểm tra nằm trong vùng bác bỏ. Reject H0 if the p-value < alpha Bác bỏ H0 nếu giá trị p < alpha