Uploaded by Tú Anh Nguyễn

Statistics

advertisement
Chapter 6. Continuous Probability Distributions
Phân phối xác suất liên tục
A continuous random variable can assume any value Một biến ngẫu nhiên liên tục có thể nhận bất kỳ
in an interval on the real line or in a collection of
giá trị nào trong một khoảng trên đường thực
intervals.
hoặc trong một tập hợp các khoảng.
It is not possible to talk about the probability of the
random variable assuming a particular value.
Không thể nói về xác suất của biến ngẫu nhiên
giả định một giá trị cụ thể.
Instead, we talk about the probability of the random Thay vào đó, chúng ta nói về xác suất của biến
variable assuming a value within a given interval.
ngẫu nhiên giả định một giá trị trong một
khoảng nhất định.
The probability of the random variable assuming a
value within some given interval from X1 to X2 is
defined to be the area under the graph of the
probability density function between X1 and X2.
Xác suất của biến ngẫu nhiên giả sử một giá trị
trong một khoảng nhất định nào đó từ x1 đến x2
được xác định là diện tích bên dưới đồ thị của
hàm mật độ xác suất giữa x1 và x2.
I. Uniform Probability Distribution
A random variable is uniformly distributed whenever the probability is
proportional to the interval’s length. → Một biến ngẫu nhiên được phân bố đều bất
cứ khi nào xác suất tỷ lệ thuận với độ dài khoảng.
➢ The uniform probability density function is: f (x) = 1/(b – a) for a < x < b = 0
➢ where: a = smallest value the variable can assume
b = largest value the variable can assume
● Expected Value of x: Muy = E(x) = (a + b)/2
● Variance of x: Sigma^2 = Var(x) = (b - a)2/12
● P (X1<X<X2) = (X2-X1) /(b-a)
● P (a <= x <= b) = (b-a) /(b-a)=1
II. Normal Probability Distribution
Normal Distribution
The entire family of normal probability
distributions is defined by its mean m and its
standard deviation s .
Toàn bộ họ phân bố xác suất chuẩn được xác định
bởi giá trị trung bình m và độ lệch chuẩn s của nó.
The distribution is symmetric; its skewness
measure is zero.
Sự phân bố đối xứng; thước đo độ lệch của nó bằng
không.
The highest point on the normal curve is at the
mean, which is also the median and mode.
Điểm cao nhất trên đường cong bình thường là
điểm trung bình, cũng là điểm trung bình và mode.
The mean can be any numerical value: negative,
zero, or positive.
Giá trị trung bình có thể là bất kỳ giá trị số nào:
âm, 0 hoặc dương.
The standard deviation determines the width of
the curve: larger values result in wider, flatter
curves
Độ lệch chuẩn xác định độ rộng của đường cong:
giá trị lớn hơn dẫn đến đường cong rộng hơn,
phẳng hơn
Probabilities for the normal random variable are
given by areas under the curve. The total area
under the curve is 1 (.5 to the left of the mean and
.5 to the right).
Xác suất của biến ngẫu nhiên thông thường được
tính theo diện tích dưới đường cong. Tổng diện tích
dưới đường cong là 1 (0,5 ở bên trái giá trị trung
bình và 0,5 ở bên phải).
Excel has two functions for computing cumulative probabilities and x values for
any normal distribution:
NORM.DIST is used to compute the cumulative probability: xác suất tích lũy given
an x value.
NORM.INV is used to compute the x value given a cumulative probability.
Standard Normal Distribution
A random variable having a normal distribution with a
mean of 0 and a standard deviation of 1 is said to have
a standard normal probability distribution.
Một biến ngẫu nhiên có phân phối chuẩn với giá
trị trung bình bằng 0 và độ lệch chuẩn bằng 1
được cho là có phân bố xác suất chuẩn chuẩn.
The letter z is used to designate the standard normal
random variable
Chữ z được dùng để chỉ biến ngẫu nhiên chuẩn
hóa chuẩn
●
●
●
●
Z= N(0,1)
Muy = 0
Sigma = 1
z = (𝑥−𝜇)/𝜎
P(Z<z) + P(Z>z) = 1
P(Z<z) = P = NORM.S.DIST(Z,True)
P(Z<z) = P ⇒ z = NORM.S.INV(P)
Chapter 7: Sampling and Sampling Distributions
I. Sampling from a Finite Population
(Lấy mẫu từ một quần thể hữu hạn)
Finite populations are often defined by lists such as:
● Organization membership roster
● Credit card account numbers
● Inventory product numbers
Quần thể hữu hạn thường được xác định bởi các
danh sách như:
● Danh sách thành viên tổ chức
● Số tài khoản thẻ tín dụng
● Số sản phẩm tồn kho
A simple random sample of size n from a finite
population of size N is a sample selected such that
each possible sample of size n has the same
probability of being selected.
Một mẫu ngẫu nhiên đơn giản có kích thước n từ
một quần thể hữu hạn có kích thước N là mẫu
được chọn sao cho mỗi mẫu có thể có kích thước
n đều có cùng xác suất được chọn.
Replacing each sampled element before selecting
subsequent elements is called sampling with
replacement.
Sampling without replacement is the procedure
used most often
In large sampling projects, computer-generated
random numbers are often used to automate the
sample selection process.
Trong các dự án lấy mẫu lớn, số ngẫu nhiên do
máy tính tạo ra thường được sử dụng để tự động
hóa quá trình chọn mẫu.
St. Andrew’s College received 900 applications for
admission in the upcoming year from prospective
students. The applicants were numbered, from 1 to
900, as their applications arrived. The Director of
Admissions would like to select a simple random
sample of 30 applicants.
Trường Cao đẳng St. Andrew đã nhận được 900
đơn đăng ký nhập học trong năm tới từ các sinh
viên tương lai. Những người nộp đơn được đánh
số từ 1 đến 900 khi đơn đăng ký của họ được gửi
đến. Giám đốc tuyển sinh muốn chọn một mẫu
ngẫu nhiên đơn giản gồm 30 ứng viên.
II. Sampling from an Infinite Population
(Lấy mẫu từ một quần thể hữu hạn)
Populations are often generated by an ongoing
process where there is no upper limit on the
number of units that can be generated.
Some examples of ongoing processes, with infinite
populations, are:
● parts being manufactured on a production
line
● transactions occurring at a bank
● telephone calls arriving at a technical help
desk
● customers entering a store
Các quần thể thường được tạo ra bởi một quá trình
đang diễn ra trong đó không có giới hạn trên về số
lượng đơn vị có thể được tạo ra.
Một số ví dụ về các quá trình đang diễn ra với quần
thể vô hạn là:
● các bộ phận được sản xuất trên dây chuyền
sản xuất
● giao dịch xảy ra tại ngân hàng
● các cuộc gọi điện thoại đến bàn trợ giúp kỹ
thuật
● khách hàng bước vào cửa hàng
In the case of an infinite population, we must select Trong trường hợp dân số vô hạn, chúng ta phải
a random sample in order to make valid statistical
chọn một mẫu ngẫu nhiên để đưa ra những suy
inferences about the population from which the
luận thống kê hợp lệ về dân số mà mẫu được lấy.
sample is taken
A random sample from an infinite population is a
sample selected such that the following conditions
are satisfied.
● Each element selected comes from the
population of interest.
● Each element is selected independently.
Mẫu ngẫu nhiên từ một quần thể vô hạn là mẫu
được chọn sao cho thỏa mãn các điều kiện sau.
● Mỗi phần tử được chọn đều xuất phát từ
tổng thể quan tâm.
● Mỗi phần tử được chọn độc lập.
III. Point Estimation
Point estimation is a form of statistical inference.
Ước lượng điểm là một dạng suy luận
thống kê.
In point estimation we use the data from the sample Trong ước tính điểm, chúng tôi sử dụng dữ
to compute a value of a sample statistic that serves
liệu từ mẫu để tính giá trị của thống kê
as an estimate of a population parameter.
mẫu đóng vai trò ước tính tham số tổng
thể.
We refer to 𝑥 ̅ as the point estimator of the
population mean .
Chúng tôi gọi 𝑥 ̅ là công cụ ước tính điểm
của trung bình tổng thể .
s is the point estimator of the population standard
deviation .
s là ước lượng điểm của độ lệch chuẩn của
tổng thể.
𝑝 ̅ is the point estimator of the population
proportion p.
𝑝 ̅ là ước lượng điểm của tỷ lệ dân số p.
IV. Sampling Distribution of 𝑥 ̅
The sampling distribution of 𝑥 ̅ is the probability
distribution of all possible values of the sample mean 𝑥 ̅.
Phân phối mẫu của 𝑥 ̅ là phân phối xác suất
của tất cả các giá trị có thể có của trung
bình mẫu 𝑥 ̅.
Expected Value of 𝑥 ̅
When the expected value of the point estimator equals
the population parameter, we say the point estimator is
unbiased.
Khi giá trị kỳ vọng của công cụ ước tính
điểm bằng tham số tổng thể, chúng ta nói
rằng công cụ ước tính điểm là không thiên
vị.
When the population has a normal distribution, the
sampling distribution of 𝑥 ̅ is normally distributed for
any sample size.
In most applications, the sampling distribution of 𝑥 ̅ can
be approximated by a normal distribution whenever the
Khi tổng thể có phân phối chuẩn, phân phối
mẫu của 𝑥 ̅ thường được phân phối cho mọi
cỡ mẫu.
Trong hầu hết các ứng dụng, phân phối
sample is size 30 or more.
mẫu của 𝑥 ̅ có thể gần đúng bằng phân phối
chuẩn bất cứ khi nào mẫu có cỡ 30 trở lên.
In cases where the population is highly skewed or
outliers are present, samples of size 50 may be needed
Trong trường hợp tổng thể có độ lệch cao
hoặc có các giá trị ngoại lệ, có thể cần các
mẫu có kích thước 50
The sampling distribution of 𝑥 ̅ can be used to provide
probability information about how close the sample
mean 𝑥 ̅ is to the population mean m .
Phân phối mẫu của 𝑥 ̅ có thể được sử dụng
để cung cấp thông tin xác suất về mức độ
gần gũi của trung bình mẫu 𝑥 ̅ với trung
bình tổng thể m .
V. Sampling Distribution of 𝑝 ̅
The sampling distribution of 𝑝 ̅ is the probability distribution of
all possible values of the sample proportion 𝑝 ̅.
Phân phối mẫu của 𝑝 ̅ là phân phối xác suất của
tất cả các giá trị có thể có của tỷ lệ mẫu 𝑝 ̅.
Expected Value of 𝑝 ̅
The sampling distribution of 𝑝 ̅ can be approximated by a
normal distribution whenever the sample size is large enough
to satisfy the two conditions: np > 5 and n(1 – p) > 5
Phân phối mẫu của 𝑝 ̅ có thể gần đúng bằng phân
phối chuẩn bất cứ khi nào cỡ mẫu đủ lớn để thỏa
mãn hai điều kiện: np > 5 and n(1 – p) > 5
When these conditions are satisfied, the probability
distribution of x in the sample proportion, 𝑝 ̅ = x/n, can be
approximated by a normal distribution (and because n is a
constant).
Khi những điều kiện này được thỏa mãn, phân bố
xác suất của x trong tỷ lệ mẫu, 𝑝 ̅ = x/n, có thể xấp
xỉ bằng phân bố chuẩn (và vì n là một hằng số).
Chapter 8: Interval Estimation
I. Margin of Error and the Interval Estimate
● A point estimator cannot be expected to provide the exact value of the
population parameter.
→ Không thể kỳ vọng một công cụ ước tính điểm sẽ cung cấp giá trị chính xác
của tham số tổng thể.
● An interval estimate can be computed by adding and subtracting a margin
of error to the point estimate.
→ Ước tính khoảng có thể được tính bằng cách cộng và trừ một mức sai số cho
ước tính điểm.
Point Estimate +/- Margin of Error
1. Interval Estimate of a Population Mean: sigma Known
● The purpose of an interval estimate is to provide information about how
close the point estimate is to the value of the parameter.
→ Mục đích của ước tính khoảng là cung cấp thông tin về mức độ gần của ước tính
điểm với giá trị của tham số.
● The general form of an interval estimate of a population mean is (ước tính
khoảng của giá trị trung bình tổng thể là)
𝑥 ̅ + Margin of Error
● In order to develop an interval estimate of a population mean, the margin of
error must be computed using either: (Để xây dựng ước tính khoảng của giá
trị trung bình tổng thể, biên độ sai số phải được tính bằng cách sử dụng)
- the population standard deviation: sigma , or
- the sample standard deviation: s
● Sigma is rarely known exactly, but often a good estimate can be obtained
based on historical data or other information.
→ Sigma hiếm khi được biết chính xác, nhưng thường có thể có được ước tính
tốt dựa trên dữ liệu lịch sử hoặc thông tin khác.
● We refer to such cases as the sigma known case. → Chúng tôi gọi những
trường hợp như vậy là trường hợp đã biết sigma.
2.
There is a 1 - probability that the value of a sample mean will provide a margin of
error of 𝑧_(𝛼/2) 𝜎_𝑥 ̅ or less.
→ Có 1 - xác suất rằng giá trị trung bình mẫu sẽ có sai số 𝑧_(𝛼/2) 𝜎_𝑥 ̅ hoặc nhỏ
hơn.
● Interval Estimate of m
where:
➢ 𝑥 ̅ is the sample mean
➢ 1 - alpha is the confidence coefficient
➢ Z (alpha/2) is the z value providing an area of
➢ alpha/2 in the upper tail of the standard normal probability distribution
➢ sigma is the population standard deviation
➢ n is the sample size
● Meaning of Confidence
● We say that this interval has been established at the 90% confidence level
● The value .90 is referred to as the confidence coefficient.
→ Chúng ta nói rằng khoảng này đã được thiết lập ở mức độ tin cậy 90%
Giá trị 0,90 được gọi là hệ số tin cậy.
● t Distribution
The t distribution is a family of similar probability distributions.
→ Phân phối t là một họ các phân phối xác suất tương tự nhau.
A specific t distribution depends on a parameter known as the degrees of freedom.
→ Một phân bố t cụ thể phụ thuộc vào một tham số được gọi là bậc tự do.
Degrees of freedom refer to the number of independent pieces of information that
go into the computation of s.
→ Bậc tự do đề cập đến số lượng thông tin độc lập được đưa vào tính toán s.
A t distribution with more degrees of freedom has less dispersion.
→ Phân phối t có bậc tự do cao hơn sẽ có độ phân tán ít hơn.
As the degrees of freedom increases, the difference between the t distribution and
the standard normal probability distribution becomes smaller and smaller.
→ Khi bậc tự do tăng lên, sự khác biệt giữa phân bố t và phân bố xác suất chuẩn
chuẩn hóa ngày càng nhỏ hơn.
The standard normal z values can be found in the infinite degrees (∞ ) row of the t
distribution table.
→ Các giá trị z chuẩn chuẩn có thể được tìm thấy trong hàng độ vô hạn (∞ ) của bảng
phân phối t.
2.Interval Estimate of a Population Mean: s Unknown
where:
➢
➢
➢
➢
𝑥 ̅ = the sample mean
1 - alpha = the confidence coefficient
T alpha/2 = the t value providing an area of /2
in the upper tail of a t distribution
with n - 1 degrees of freedom
s = the sample standard deviation
➢
n = the sample size
Sample Size for an Interval Estimate of a Population Mean
● Let E = the desired margin of error. → Đặt E = biên độ sai số mong muốn.
● E is the amount added to and subtracted from the point estimate to obtain
an interval estimate. → E là số tiền được thêm vào và trừ đi khỏi ước tính điểm
để có được ước tính khoảng.
● If a desired margin of error is selected prior to sampling, the sample size
necessary to satisfy the margin of error can be determined. → Nếu chọn mức
sai số mong muốn trước khi lấy mẫu thì có thể xác định được cỡ mẫu cần thiết
để đáp ứng mức sai số đó.
● The Necessary Sample Size equation requires a value for the population
standard deviation s. → Phương trình Cỡ mẫu cần thiết yêu cầu một giá trị
cho độ lệch chuẩn tổng thể s .
● If s is unknown, a preliminary or planning value for s can be used in the
equation. → Nếu s chưa biết, giá trị sơ bộ hoặc giá trị lập kế hoạch cho s có thể
được sử dụng trong phương trình.
1. Use the estimate of the population standard deviation computed in a previous
study. → 1. Sử dụng ước tính độ lệch chuẩn tổng thể được tính toán trong nghiên cứu
trước đó.
2. Use a pilot study to select a preliminary study and use the sample standard
deviation from the study. → 2. Sử dụng nghiên cứu thí điểm để lựa chọn nghiên cứu
sơ bộ và sử dụng độ lệch chuẩn mẫu so với nghiên cứu.
3. Use judgment or a “best guess” for the value of s. → 3. Sử dụng phán đoán hoặc
“dự đoán tốt nhất” về giá trị của s
The general form of an interval estimate of a population proportion is:
𝑝 ̅ + Margin of Error
The sampling distribution of 𝑝 ̅ plays a key role in computing the margin of error
for this interval estimate.
→ Phân phối lấy mẫu của 𝑝 ̅ đóng vai trò quan trọng trong việc tính toán sai số cho
ước tính khoảng này.
3.Interval Estimate of a Population Proportion
where:
➢ 1 - alpha is the confidence coefficient,
➢ z(alpha/2) is the z value providing an area of /2
➢ in the upper tail of the standard normal
➢ probability distribution, and
➢ 𝑝 ̅ is the sample proportion
Chapter 9: Hypothesis Testing
I. Null and Alternative Hypotheses
Hypothesis testing can be used to determine whether Kiểm tra giả thuyết có thể được sử dụng để xác định
a statement about the value of a population
parameter should or should not be rejected.
xem một tuyên bố về giá trị của một tham số tổng thể
có nên bị bác bỏ hay không.
The null hypothesis, denoted by H0 , is a tentative
assumption about a population parameter.
Giả thuyết không, ký hiệu là H0, là một giả định tạm
thời về một tham số tổng thể.
The alternative hypothesis, denoted by Ha, is the
opposite of what is stated in the null hypothesis.
Giả thuyết thay thế, ký hiệu là Ha, trái ngược với
những gì được nêu trong giả thuyết không.
The hypothesis testing procedure uses data from a
sample to test the two competing statements
indicated by H0 and Ha.
Quy trình kiểm tra giả thuyết sử dụng dữ liệu từ một
mẫu để kiểm tra hai tuyên bố cạnh tranh được chỉ ra
bởi H0 và Ha.
Null Hypothesis as an Assumption to be Challenged
Null Hypothesis as an Assumption to be Challenged
Giả thuyết không như một giả định bị thách thức
We might begin with a belief or assumption that a
statement about the value of a population parameter is
true.
Chúng ta có thể bắt đầu bằng niềm tin hoặc giả định
rằng phát biểu về giá trị của một tham số tổng thể là
đúng
We then use a hypothesis test to challenge the
assumption and determine if there is statistical
evidence to conclude that the assumption is incorrect.
Sau đó, chúng tôi sử dụng thử nghiệm giả thuyết để
thách thức giả định và xác định xem có bằng chứng
thống kê nào để kết luận rằng giả định đó là không
chính xác hay không.
Type I Error
Because hypothesis tests are based on sample data,
we must allow for the possibility of errors.
Vì việc kiểm tra giả thuyết dựa trên dữ liệu mẫu nên
chúng ta phải tính đến khả năng xảy ra sai sót.
A Type I error is rejecting H0 when it is true
Lỗi Loại I là bác bỏ H0 khi nó đúng
The probability of making a Type I error when the
null hypothesis is true as an equality is called the
level of significance.
Xác suất mắc sai lầm Loại I khi giả thuyết không đúng
như một đẳng thức được gọi là mức ý nghĩa.
Applications of hypothesis testing that only control
the Type I error are often called significance tests.
Các ứng dụng kiểm tra giả thuyết chỉ kiểm soát lỗi
Loại I thường được gọi là kiểm tra ý nghĩa.
Type II Error
A Type II error is accepting H0 when it is false
Lỗi Loại II chấp nhận H0 khi nó sai
It is difficult to control for the probability of
making a Type II error.
It is difficult to control for the probability of making
a Type II error.
Statisticians avoid the risk of making a Type II
error by using “do not reject H0” and not “accept
H0”.
Statisticians avoid the risk of making a Type II error
by using “do not reject H0” and not “accept H0”.
II. p-Value Approach to One-Tailed Hypothesis Testing
The p-value is the probability, computed
using the test statistic, that measures the
support (or lack of support) provided by
the sample for the null hypothesis.
Giá trị p là xác suất, được tính bằng thống
kê kiểm tra, đo lường mức hỗ trợ (hoặc
thiếu mức hỗ trợ) do mẫu cung cấp cho giả
thuyết không.
If the p-value is less than or equal to the
level of significance , the value of the test
statistic is in the rejection region.
Nếu giá trị p nhỏ hơn hoặc bằng mức ý
nghĩa , thì giá trị của thống kê kiểm tra
nằm trong vùng bác bỏ.
Reject H0 if the p-value < alpha
Bác bỏ H0 nếu giá trị p < alpha
Download