Uploaded by あいう

基礎統計学 まとめ

advertisement
1
新型コロナウイルス拡散による医療崩壊を防ぐための考え方を確率の観点か
ら考察する
正確度は確度とよばれ、測定装置・計器などを用いて計測した値から真の値を差し引いた系統誤差にあたる。また、
精度、感度は、測定装置・計器などを用いて何度か計測した際の偶然誤差に関係した値となる。再現性の指標となり、
標準誤差で表す。標準誤差が小さいということは精度が高いことを意味する。
• 感度
患者に対して検査を実施し、陽性とされる割合。つまり、真陽性率のこと。感度が高いということは、患者を
誤って陰性とする割合が少ない。感度が高い検査法は最初のスクリーニング (疾患の疑いがある人を見つける
こと) に適している。
(感度) =
A
A+C
• 特異度
患者でない人に対して検査を行い、陰性と判定される割合。つまり、真陰性率のこと。特異度が高いというこ
とは、健康な人を誤って陽性とする割合が少ない。特異度が高い検査法は確定検査 (健康な人を見つけて除く
こと) に適している。
(特異度) =
D
B+D
• 正確度
検査で正しい判定が出る割合。つまり、真陽性または真陰性である割合。
(正確度) =
A+D
A+B+C +D
• 精度
陽性と判定された人のうち、患者である割合。陽性判定の信憑性の指標となり、陽性的中率と同義である。ま
た、検査で陰性と判定された人のうち、患者でない割合を陰性的中率という。
(精度) =
A
A+B
患者
患者でない
陽性
A 真陽性
B 偽陽性
陰性
C 偽陽性
D 真陰性
ここで、母集団を x 人、有病率を y%、感度を w%、特異度を z% とするとき A~D の人数と陽性的中率は次のよう
に表せる。
• 真陽性者数
y
w
·
100 100
xyw
=
10000
A=x·
• 偽陽性者数 (第 1 種過誤または α 過誤ともいう)
100 − y 100 − z
·
100
100
x(100 − y)(100 − z)
=
10000
B =x·
1
• 偽陰性者数 (第 2 種過誤または β 過誤ともいう)
y 100 − w
·
100
100
xy(100 − w)
=
10000
C =x·
• 真陰性者数
100 − y z
·
100
100
x(100 − y)z
=
10000
D =x·
• 陽性的中率
(陽性的中率) =
A
A+B
xyw
10000
=
xyw
x(100 − y)(100 − z)
−
10000
10000
yw
=
yw + (100 − y)(100 − z)
医療検査における重要な指標
先に挙げた以外にも、重要な指標として陽性尤度比、陰性尤度比が挙げられる。
• 陽性尤度比
患者が検査で陽性の結果を得ることが、健康な人が陽性の結果を得るより何倍確からしいかを示す指標。
A
(感度)
A
+
C
(陽性尤度比) =
=
=
=
B
(健康な人の陽性率)
(偽陽性率)
1 − (特異度)
B+D
(患者の陽性率)
(感度)
• 陰性尤度比
健康な人が検査で陽性の結果を得ることが、患者が陽性の結果を得るより何倍確からしいかを示す指標
D
(健康な人の陰性率)
(特異度)
(特異度)
B
+D
(陰性尤度比) =
=
=
=
C
(患者の陰性率)
(偽陰性率)
1 − (感度)
A+C
2
2
確率と確率変数/条件付き確率とベイズの定理
2.1 基本的な知識
2.1.1
順列
n 個の異なるものから、任意に r 個とって、1 列に並べることを順列といい、その並べる順列の数は n Pr と表さ
れる。
n Pr = n(n − 1)(n − 2) · · · (n − r + 1) =
n!
(n − r)!
(2.1)
さらに、n 個の異なるものから、繰り返しを許して任意に r 個とって、1 列に並べることを重複順列といい、その並
べる順列の数は nr と表される。また、n 個のものが c 個の組に分けられていて、同じ組のものは区別できないが、異
なる組に属するものは区別できるとき、これら n 個すべてを 1 列に並べる順列の数は、次のように表せる。
n!
n1 !n2 ! · · · nc !
2.1.2
(2.2)
組合せ
n 個の異なるものから、任意に r 個とって、順番を考えず選んだ組のことを組合せといい、その組合せ数は n Cr と
表される。
n Cr =
n Pr
r!
=
n(n − 1)(n − 2) · · · (n − r + 1)
n!
=
r!
r!(n − r)!
(2.3)
さらに、n 個の異なるものから、繰り返しを許して r 個組合せを重複組合せといい、その数は n Hr と表される。
n Hr = n+r−1 Cr =
2.1.3
n(n − 1)(n − 2) · · · (n + r − 1)
r!
(2.4)
二項定理
n が正の整数のとき、(a + b)n の展開式は次のように与えられ、二項定理とよばれる。
(a + b)n =
n
X
n−r r
b
n Cr a
(2.5)
r=o
なお、このときの係数 n Cr は
2.1.4
n
r
!
で表され、二項係数という。
多項定理
n が正の整数のとき、(a1 + a2 + · · · + am )n の展開式は次のように与えられ、多項定理とよばれる。
(a1 + a2 + · · · + am )n =
2.1.5
X
n!
an1 an2 · · · anmm
n1 !n2 ! · · · nm ! 1 2
(2.6)
条件付き確率
2 つの事象 A、B があって、A が起こったという条件の下で B が起こるという事象を B|A で表す。また、その確
率 P (B|A) を条件 A の下での B の条件付き確率といい、次のように定義する。
P (B|A) =
P (A ∩ B)
P (A)
(2.7)
そして、3 つの事象 A、B 、C があって、A も B も起こったという条件の下で C が起こるという事象を C|A ∩ B で
表す。その確率 P (C|A ∩ B) を次のように定義する。
P (C|A ∩ B) =
P (A ∩ B ∩ C)
P (A)P (B|A)
3
(2.8)
2.1.6
ベイズの定理
ある結果 E が n 個の互いに背反で全ての場合を尽くす原因 A1 、A2 、· · · 、An によっているとき、そのうちの 1 つ
Ai によって起こる確率 P (Ai |E) は、次のように表せる。
P (Ai |E) =
P (Ai )P (E|Ai )
P (A1 )P (E|A1 ) + P (A2 )P (E|A2 ) + · · · + P (An )P (E|An )
ベイズの定理の医療検査への応用
(2.9)
全体の中で患者であり、かつ検査で陽性となる確率を P (X ∩ Y ) とするとき、次のように表せる。
P (X ∩ Y ) = P (X)P (Y |X) = P (Y )P (X|Y )
(患者かつ検査で陽性となる確率) = (有病率) × (感度) = (陽性率) × (陽性的中率)
この式を陽性的中率について解くと、第 1 章の陽性的中率の式と同一になることが確かめられる。
2.2 確率変数
変数 X において、X が特定の数値 a をとる確率が b と決まっている。このとき、X を確率変数といい、次のよう
に表せる。
P (X = a) = b
確率変数 X がとびとびの値 x1 , x2 , · · · xn , · · · をとるとき、X を離散変数という。サイコロがその例である。また、
X が連続した値をとるとき、X を連続変数という。電圧測定がその例である。
2.2.1
離散変数
X が xi となる確率は以下のように表せる。
P (X = xi ) = pi
これを関数の形で表すと、以下のようになる。
(
pi
f (x) =
0
(x = xi )
(x 6= xi )
(2.10)
このようにして定めた関数 f (x) を確率密度といい、離散的な場合は確率関数という。また、確率の合計は常に 1 で
あるから、次の式が成立する。
n
X
(2.11)
f (x) = 1
i=1
確率変数 X のとる値が x 以下である確率に対しても、F (x) = P (X ≤ x) という関数を考えることができる。この
ように、確率変数 X のとる値がある数 x 以下である確率を全て表した関数 F (x) を次のように定義し、分布関数と
よぶ。
F (x) =
X
(2.12)
f (xi )
xi ≤x
ここで、各面が出る確率が均等なサイコロをふるとき、以下の関係が成り立つ。
(2.13)
F (∞) = 1, F (0) = 0
F (α < X ≤ β) = F (β) − F (α) =
X
α<xi ≤β
4
f (xi )
(2.14)
2.2.2
連続変数
確率変数 X が連続な値をとり、その値の範囲が a ≤ X ≤ b のとき、X が x と x + ∆x の間にある確率は、次のよ
うに表せる。
Z x+∆x
P (x < X ≤ x + ∆x) =
f (y)dy
(2.15)
x
さらに、∆x が小さいとき、この面積は次のように近似できる。
P (x < X ≤ x + ∆x) ≃ f (x)∆x
(2.16)
確率変数 X のとる値を a ≤ X ≤ b とするとき、すべての確率の和は 1 であるから、確率密度は次のように表せる。
Z b
(2.17)
f (x)dx = 1
a
また、区間 a ≤ X ≤ b の外では f (x) = 0 であるから、
Z ∞
(2.18)
f (x)dx = 1
−∞
である。
ここで、離散的な場合と同様に、確率変数 X のとる値が x 以下である確率に対しても、F (x) で表される分布関数
を考えることができる。
Z x
F (x) =
Z x
f (y)dy =
f (y)dy
(2.19)
Z β
(2.20)
−∞
a
さらに、次の関係も成立する。
F (α < X ≤ β) = F (β) − F (α) =
f (x)dx
α
2.3 期待値と分散
期待値とは、確率変数 X の平均であり、µ で表される。また、分散は、確率変数 X が大体どの程度の範囲内にあ
るのかを示すのに使われる量 σ 2 である。それぞれ次のように定義される。
 n
X


xi f (xi )
(離散的なとき)


i=1
µ= Z
∞




xf (x)dx (連続的なとき)
(2.21)
 n
X

2

(離散的なとき)

 (xi − µ) f (xi )
2
σ = Zi=1
∞




(x − µ)2 f (x)dx (連続的なとき)
(2.22)
−∞
−∞
2.3.1
ガンマ関数
ガンマ関数 Γ(x) は次のように表せる。
Z ∞
Γ(x) =
y x−1 e−y dy
(2.23)
0
さらに、Γ(1) = 1、Γ( 12 ) =
√
π であることと、式 (2.23) を部分積分することによって得られる漸化式 Γ(n+1) = nΓ(n)
を用いると、ガンマ関数の x が整数 n の場合か、半整数 n + 12 の場合、以下の式が成り立つ。
Γ(n + 1) = n!
(2.24)
1
(2n)! √
Γ(n + ) = 2n
π
2
2 n!
(2.25)
5
よって、式 (2.23) において、x = 3 とおくとガンマ関数の平均値は 2 となる。
ここで、ガンマ関数 Γ(x = 3) の分散 σ 2 を考える。式 (2.22) より、
σ2 =
Z ∞
(x − 2)2 xe−x dx
0
Z ∞
=
(x3 − 4x2 + 4x)e−x dx
0
式 (2.24) から、
2
Z ∞
σ =
(x3 − 4x2 + 4x)e−x dx
0
= Γ(4) − 4Γ(3) + 4Γ(2)
= 3! − 4 · 2! + 4 · 1!
=2
2.3.2
ベータ関数
ベータ関数 B(x, y) は次のように表せる。
B(x, y) =
Γ(x)Γ(y)
Γ(x + y)
(2.26)
さらに、式 (2.26) は積分形式で次のように表せる。
Z 1
B(n, m) =
(2.27)
xn−1 (1 − x)m−1 dx
0
また、x, y がともに整数 (それぞれ n, m とする) のとき、次のように表せる。
1
(n + m − 1)!
=
= nn+m−1 Cm−1 = mn+m−1 Cn−1
B(n, m)
(n − 1)!(m − 1)!
(2.28)
つまり、ガンマ関数は階乗を、ベータ関数の逆数は組合せを、変数が整数でないものに拡張したものと考えられる。
2.3.3
チェビシェフの不等式
分散または標準偏差が分布のばらつきの程度を示すという事実を、数学的に述べたものとして、チェビシェフの不
等式がある。
1
≥ P (|X − µ| ≥ aσ)
a2
この不等式は、確率変数が平均値から標準偏差の a 倍以上離れている確率は全体の
6
(2.29)
1
より小さいことを示している。
a2
3
主な分布
3.1 二項分布
ある事象 A の起こる確率 P (A) = p が与えられているとき、n 回独立試行を行って A が x 回起こる確率は、次の
ように表せる。
(3.1)
f (x) = n Cx px (1 − p)n−x
これを二項分布またはベルヌーイ分布といい、Bin(n, p) と表す。また、二項分布の平均と分散は次のように表せる。
µ = np
(3.2)
σ = np(1 − p)
(3.3)
2
証明 式 (3.2) の証明
n
X
n Cx p
x n−x
q
(3.4)
= (p + q)n
x=0
両辺を p で微分して、
n
X
(3.5)
xn Cx px−1 q n−x = n(p + q)n−1
x=o
両辺 p をかけて、p + q = 1 であることを使うと、
n
X
xn Cx px q n−x = np
(3.6)
µ = np
(3.7)
x=o
証明 式 (3.3) の証明
式 (3.5) をさらに p で微分すると、
n
X
x(x − 1)n Cx px−2 q n−x = n(n − 1)(p + q)n−2
(3.8)
x=0
両辺に p2 をかけて、
n
X
(x2 − x)n Cx px q n−x =
x=0
n
X
x2 n Cx px q n−x −
x=0
n
X
x=0
= n(n − 1)p2
よって、式 (3.6) より、
n
X
xn Cx px q n−x
x2 n Cx px q n−x = n(n − 1)p2 + np
(3.9)
(3.10)
x=0
ところが、二項分布の分散は、
σ2 =
=
n
X
x=0
n
X
x=0
n
X
(x − µ)2 f (x)
x2 f (x) − µ2
x2 n Cx px q n−x − µ2
(3.11)
σ 2 = n(n − 1)p2 + np − (np)2
(3.12)
=
x=0
従って、式 (3.2)、式 (3.10) より、
7
二項分布の性質
二項分布は、その名の通り二項定理と密接に関係している。式 (3.1) で q = 1 − p とすると、
f (x) = n Cx px q n−x
(3.13)
となるが、これは (p + q)n の二項展開式の各項に相当する。これを使うと、二項分布の性質を示すことができる。
例えば、p + q = 1 であることと、式 (2.5) から、
n
X
f (x) = 1
(3.14)
x=0
となり、確かに確率密度の性質 (式 (2.11)) を満たしているといえる。
大数の法則
1 回 1 回の試行で、ある事象 A が起こるかどうかは確率的にしかわからないが、試行回数 n を増やせば増やすほ
ど、その事象の起こる割合は一定の値 p に近づくという性質を大数の法則という。
3.2 ポアソン分布
二項分布で µ = np を有限の値に保ちながら n → ∞ の極限をとったものをポアソン分布という。このとき、p → 0
である。
f (x) =
µx −p
e
x!
(3.15)
また、この分布の分散は、二項定理の分散の極限を考えて、
σ 2 = np(1 − p)
µ
=µ 1−
−−−−→ µ
n n→∞
(3.16)
よって、ポアソン分布の分散は平均に等しい。
3.3 多項分布
確率 pi で事象 Ai が起こるような試行を n 回行ったとき、すべての事象が起こった確率 P は次のように与えられ、
多項分布という。
f (x1 , x2 , · · · xm ) =
n!
px1 px2 · · · pxmm
x1 !x2 ! · · · xm ! 1 2
(3.17)
ただし、
x1 + x2 + · · · + xm = n
(3.18)
p1 + p2 + · · · + pm = 1
(3.19)
である。
3.4 超幾何分布
2 種類のものからなる総数 N 個の集団で、種類 A 個のものが M 個含まれていたとする。この集団から無作為に 1
個戻さずにとるという試行を n 回行ったとき、取り出された種類 A のものの個数を確率変数 X とする。n 回の試行
で取り出されるものの組合せの総数は N Cn であり、種類 A のものの M 個のうち x 個をとる場合の数は M Cx 、種類
A でないもの N − M 個のうち n − x 個をとる場合の数は N −M Cn−x だから、X = x である確率は、次のように表
すことができ、超幾何分布という。
f (x) =
M Cx · N −M Cn−x
N Cn
8
(3.20)
3.5 中心極限定理と正規分布
3.5.1
二項分布の極限
p が小さくないとき、n を大きくすれば、X がどのような分布になるかを考える。確率変数 X の代わりに、
X −µ
σ
Z=
とおいたとき、Z は
z2
1
g(z) = √ e− 2
2π
(3.21)
(3.22)
の分布に従う。これが中心極限定理である。二項分布では x は離散変数であったが、z は連続変数と考えている。ま
た、式 (3.22) は平均が 0、分散が 1 の標準正規分布であり、N (0, 1) と表す。
さらに、連続変数 y に対して、
h(y) = √
1
(y − µ)2
exp −
2σ 2
2πσ
(3.23)
の形の分布を平均 µ、分散 σ 2 の正規分布といい、N (µ, σ 2 ) で表す。
平均と分散
平均とは、確率変数 xi のばらつき具合を平らにならすことで得られる値である。
n
µ=
1X
xi
n i=1
(3.24)
分散とは、確率変数 xi が相加平均 x̄ からどれだけばらついているかを示す指標である。
n
σ2 =
1X
(x̄ − xi )2
n i=1
(3.25)
3.5.2
離散から連続へ
二項分布 Bin(n, p) の期待値 µ が np、分散 σ 2 が np(1 − p) と表されることを使って、式 (3.21) に代入すると、
z=p
x − np
np(1 − p)
(3.26)
となる。x は離散的な値をとるが、連続的な値をとる z の関数とするために、∆x = 1 とすると、∆z は次のように表
せる。
(x + ∆x) − µ x − µ
−
σ
σ
∆x
=p
np(1 − p)
1
=p
np(1 − p)
∆z =
(3.27)
ここで、式 (3.26) に式 (3.27) を代入すると、次のように表せる。
z = (x − np)∆z
z
x = np +
∆z
(3.28)
(3.29)
式 (3.29) において、n を大きくしていくと区間幅 ∆z はどんどん小さくなり、n → ∞ の極限では z を連続変数と見
なせる。
一方、二項分布の式
f (x) = n Cx px (1 − p)n−x =
9
n!
px (1 − p)n−x
(x)!(n − x)!
(3.30)
で、x を x + 1 とすると、
f (x + 1) = n Cx+1 px+1 (1 − p)n−x−1 =
となるから、
n!
px+1 (1 − p)n−x−1
(x + 1)!(n − x − 1)!
f (x + 1)
(n − x)p
=
f (x)
(x + 1)(1 − p)
(3.31)
(3.32)
次に、z が従う分布を g(z) とする。x の変化 ∆x = 1 に対する z の変化は ∆z であるから、x から z に変数変換し
ても確率が変わらないという条件は、
g(z) =
∆x
1
f (x) =
f (x)
∆z
∆z
(3.33)
1
f (x + 1)
∆z
(3.34)
である。また、
g(z + ∆z) =
も成り立つ。ここで、x を消去し、計算していくと、
g(z + ∆z) − g(z)
−z − (1 − p)∆z
=
g(z)
∆z
1 + (1 − p){z∆z + (∆z)2 }
(3.35)
が得られる。両辺 ∆z → 0 の極限をとると、
すなわち、
dg(z)
= −zg(z)
dz
(3.36)
d
log g(z) = −z
dz
(3.37)
となる。積分すると、
1
log g(z) = − x2 + C 0
2
z2
g(z) = Ce− 2
(3.38)
と書くことができ、確率密度の積分は 1 になるという性質から、
Z ∞
1=
Z ∞
g(z)dz = C
−∞
√
z2
e− 2 dz = C 2π
(3.39)
−∞
が得られ、二項分布 Bin(n, p) に対して、式 (3.21) で Z を定義したとき、n を大きくしていくと、Z の分布は式
(3.22) の標準正規分布 N (0, 1) に近づくことが示された。
中心極限定理
中心極限定理は二項分布だけではなく一般的な分布に対しても成り立つ。確率変数 X1 , X2 , · · · Xn が互いに独
立で、平均 µ、分散 σ 2 を持つ同一の分布に従っているとする。X1 , X2 , · · · Xn の単純平均、
X̄ =
1
(X1 , X2 , · · · Xn )
n
に対して、
√
Zn =
n
(X̄ − µ)
σ
とすると、n を大きくしたとき、Zn の分布は標準正規分布 N (0, 1) に近づく。
10
3.5.3
標準化変換
正規分布は連続分布であるから、確率変数がある範囲に存在する確率を求めるためには積分計算をしなければなら
ない。ここで、確率変数 Z が z より大きな値をとる確率を φ(z) とすると、次のように表せる。
Z ∞
x2
1
√ e− 2 dx
2π
(3.40)
Y −µ
σ
(3.41)
φ(z) =
z
また、確率変数 Y が正規分布 N (µ, σ 2 ) に従うとき、
Z=
の変換を行えばよい。すると、Z は N (0, 1) に従うことになる。これを標準化変換という。
例えば、確率変数 Y が µ − σ < Y < µ + σ となる確率を求めるためには、式 (3.41) から、−1 < Z < −1 となる
確率を計算すればよい。
Z ∞
Z ∞
g(z)dz −
P =
−1
g(z)dz
1
= φ(−1) − φ(1)
である。
3.6 標本の性質
抽出した標本から母集団の特性を推測するためには、標本を整理する必要がある。まず、ばらばらの標本を数値の
大きさ順に並べる。例えば、ある区間に入る標本の個数を数えるとき、その各区間を階級といい、各区間に入る標本
の個数を度数という。このようにして得られた階級別の度数分布を表した表を度数分布表という。
標本の大きさが n で、標本の 1 つ 1 つの値が x1 , x2 , · · · xn であるとき、
n
x̄ =
1X
(x1 + x2 + · · · + xn )
n i=1
(3.42)
を標本平均という。この値は標本の中心的な値を示す量である。また、
s2 =
1
1
(xi − x̄)2 = {(x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2 }
n
n
(3.43)
を標本分散といい、各標本値と標本平均との差を考え、その 2 乗の算術平均をとったものである。また、標本分散の
平方根 s は標本標準偏差という。s が大きいほど、標本のばらつきは大きくなる。
3.7 統計量の性質
3.7.1
母集団の分布
n 個の個体からなる有限母集団で、n1 , n2 , · · · , nm 個の個体がそれぞれ a1 , a2 , · · · , am の数値をとるとき、
ni
n
(3.44)
(
pi
(x = ai )
0
(x 6= ai )
(3.45)
pi =
で pi を定義し、各々の数値を確率変数と考えれば、X は
f (x) =
の確率分布に従う。この分布を母集団分布という。
母集団の分布の特性値は、標本のものと区別するために、µ を母平均、σ 2 を母分散という。σ は母標準偏差である。
また、母集団の中である性質を持っている個体の割合を母比率という。これらを総称して母数という。
11
3.7.2
標本の分布
母集団から 1 つの標本 x を抽出するのは、母集団分布に従う確率変数 X が x という値をとることに相当する。そ
のため、大きさ n の標本 x1 , x2 , · · · , xn を抽出するのは、同じ母集団分布に従う n 個の確率変数 X1 , X2 , · · · , Xn が、
X1 = x1 , X2 = x2 , · · · , Xn = xn
の値をとったことになる。この X1 , X2 , · · · , Xn を標本確率変数という。
標本抽出を繰り返すと、以下のような統計量が得られる。
1
(X1 + X2 + · · · + Xn )
n
(3.46)
1
{(X1 − X̄)2 + (X2 − X̄)2 + · · · + (Xn − X̄)2 }
n
(3.47)
X̄ =
S2 =
この統計量に従う分布を標本分布といい、それぞれ標本平均、標本分散という。なお、標本平均の分布を知るには、大
きさ n の標本を採って x̄ を計算するという操作をできるだけ多数回行う必要がある。その結果できた X̄ の分布が標
本平均の分布である。
さらに、標本平均の分布から決まる期待値、分散は母平均、母分散と関連付けられる。ここで、期待値を E で表す
とき、
E[X̄] = E
1
(X1 + X2 + · · · + Xn )
n
1
(µ + µ + · · · + µ)
n
=µ
=
"
E[(X̄ − µ)] = E
(3.48)
2 #
1
(X1 + X2 + · · · + Xn − nµ)
n
1
E[X1 − µ]2 + E[X2 − µ]2 + · · · + E[Xn − µ]2
n2
1
= 2 (σ 2 + σ 2 + · · · + σ 2 )
n
σ2
=
n
=
(3.49)
が得られる。
次に、標本分散 S 2 の期待値も母分散で表せることを示す。式 (3.47) より、
1
{(X1 − X̄)2 + (X2 − X̄)2 + · · · + (Xn − X̄)2 }
n
1
= [{(X1 − µ) − (X̄ − µ)}2 + {(X2 − µ) − (X̄ − µ)}2 + · · · + {(Xn − µ) − (X̄ − µ)}2 ]
n
1
1
= {(X1 − µ)2 + (X2 − µ)2 + · · · (Xn − µ)2 } − 2
(X1 + X2 + · · · Xn ) − µ (X̄ − µ) + (X̄ − µ)2
n
n
1
= {(X1 − µ)2 + (X2 − µ)2 + · · · (Xn − µ)2 } − (X̄ − µ)2
(3.50)
n
S2 =
従って、
1
{E[(X1 − µ)2 ] + E[(X2 − µ)2 ] + · · · + E[(Xn − µ)2 ]} − E[(Ē − µ)2 ]
n
1
σ2
= (σ 2 + σ 2 + · · · + σ 2 ) −
n
n
σ2
2
=σ −
n
n−1 2
=
σ
n
E[S 2 ] =
12
(3.51)
正規分布による近似
確率変数 X1 , X2 , · · · , Xn が互いに独立で、平均 µ、分散 σ 2 の同じ分布に従うとき、
1
(X1 + X2 + · · · + Xn )
n
の分布は n が大きければ正規分布 N (µ, σn ) に近似できるという中心極限定理がある。これを標本抽出に適用す
2
ると、次のようにいえる。
母集団分布が何であっても、その母平均 µ、母分散 σ 2 が分かっていれば、標本の大きさが十分大きいとき、
標本平均の分布から決まる期待値 X̄ はほぼ正規分布 N (µ, σn ) に従うと考えてよい。また、式 (3.41)(今の場合、
2
Z = X̄−µ
) を施すと、Z は標準正規分布 N (0, 1) に従うことになる。
σ
√
n
13
4
標本と統計量
4.1 正規分布の 1 次結合
正規分布は重ね合わせができるという性質をもち、確率変数 X1 、 X2 が互いに独立であり、それぞれ正規分布
N (µ1 , σ1 2 )、N (µ2 , σ2 2 ) に従っているとき、確率変数の和 X1 + X2 も正規分布 N (µ1 + µ2 , σ1 2 + σ2 2 ) に従う。
命題 1 母集団が N (µ, σ 2 ) の正規分布に従うことが分かっているとき、大きさ n の標本を無作為抽出して、標本平均
X̄ = n1 (X1 + X2 + · · · + Xn ) を作ると、n が大きくなくても、X̄ は N (µ, σn ) に従う。
2
14
Download