연속확률분포 6 • 연속확률변수 = 어떤 구간(interval) 내의 숫자(실수) 중 하나의 값을 가지는 확률변수 – 예: 보험회사에 걸려오는 전화 ⇒ x = 두 전화 사이의 시간 ⇒ x는 0보다 큰 숫자 중 하나의 값을 가짐(0 ≤ x) – 예: 용량이 12.1 온스인 병에 음료수를 채움 ⇒ x = 음료수의 무게 ⇒ x는 0과 12.1사이의 숫자 중 하나의 값을 가짐(0 ≤ x ≤ 12.1) • 연속확률변수의 확률은 확률밀도함수(probability density function)에 의해 결정 ⇒ 확률함수 (probability function)와 같이 f (x)라는 함수로 표현 – 이산확률변수 ⇒ 확률함수 = 확률 ⇒ f (2)는 x가 2의 값을 가질 확률 – 연속확률변수 ⇒ 확률밀도함수 6= 확률 ⇒ f (2)는 x가 2의 값을 가질 확률이 아님 ∗ x가 1과 5 사이의 값을 가질 확률 = P (1 ≤ x ≤ 5) = 1과 5 사이 f (x) 밑의 면적 확률 = ˆ 5 f (x)dx 1 ∗ x가 2라는 특정한 값을 가질 확률 = P (x = 2) = P (2 ≤ x ≤ 2) = 2와 2 사이 f (x) 밑의 ´2 면적 = 2 f (x)dx = 0 • 확률밀도함수의 2가지 조건 (f (x)가 1보다 클 수 있음) (1) 0 ≤ f (x) ˆ ∞ f (x)dx = 1 (2) (f (x)밑의 면적 = 1) −∞ – 확률함수의 2가지 조건 (1) 0 ≤ f (x) ≤ 1 X (2) f (x) = 1 • 연속확률함수의 평균과 분산 E(x) = µ = V ar(x) = σ 2 = ˆ ∞ xf (x) ˆ−∞ ∞ −∞ (x − µ)2 f (x) – 이산확률변수의 평균과 분산 E(x) = µ = X xf (x) X V ar(x) = σ 2 = (x − µ)2 f (x) 6.1 (연속)균일확률분포 • x = 시카고에서 뉴욕까지의 비행 시간(분) ⇒ x를 120에서 140사이의 어떤 값도 가질 수 있는 연속확률변수로 정의 1 – 만약 어떤 1분 구간의 시간에 비행기가 도착할 확률이 다른 1분 구간의 시간에 도착할 확률과 같다고 가정 ⇒ 예를 들어 P (123 ≤ x ≤ 124) = P (135 ≤ x ≤ 136) ∗ 확률부여 방식중 고전적 방식(equally likely)을 연속확률변수에 적용한 것임 – 확률밀도함수 1 1 = 140 − 120 20 f (x) = 0 120 ≤ x ≤ 140 x < 120 또는 x > 140 ∗ 다음과 같이 좀 더 자세히 쓸 수 있음 0 1 f (x) = 20 0 x ≤ 120 120 ≤ x ≤ 140 x ≥ 140 • a와 b 사이 숫자 중 하나의 값을 가지는 균일확률변수 x의 확률밀도함수 1 a≤x≤b b−a f (x) = 0 그 외 구간 – 확률밀도함수의 2가지 조건 (1)0 ≤ f (x) ˆ ∞ f (x)dx = 1 (2) −∞ 1 >0 b−a 1 ∗ 조건 (2) 만족 ⇒ P (a ≤ x ≤ b) = (b − a) =1 (b − a) ∗ 조건 (1) 만족 ⇒ b > a ⇒ b − a > 0 ⇒ • 사건의 확률 – 예 1: 비행시간이 120분과 130분 사이가 될 확률 = f (x)의 120과 130 사이의 면적 f (x) 1 20 a = 120 130 면적 = b = 140 1 (130 − 120) = 0.5 20 2 x – 예 2: P (120 ≤ x ≤ 140) 1 (140 − 120) = 1 20 – 예 3: P (115 ≤ x ≤ 130) 0(120 − 115) + 10 1 (130 − 120) = 0 + = 0.5 20 20 ∗ 다음 처럼 기계적으로 계산하면 안됨 15 1 (130 − 115) = = 0.75 20 20 • 균일확률변수의 평균과 분산 a+b 2 (b − a)2 V ar(x) = σ 2 = 12 E(x) = µ = – 예: 시카고에서 뉴욕까지의 비행 시간 ⇒ b = 140, a = 120 a+b 120 + 140 = = 130 2 2 (b − a)2 (140 − 120)2 202 V ar(x) = = = = 33.33 12 12 12 E(x) = 6.2 (평균 또는 중앙값) 정규확률분포 • 새로운 확률변수 1. 실험 ⇒ 확률변수 2. 확률분포 ⇒ 확률함수 또는 확률밀도함수 3. 평균 및 분산 – 그러나 정규확률분포에는 실험을 생각하기가 어려움 ⇒ 바로 확률밀도함수로 감 • 정규확률변수(normal random variable) = (−∞, ∞) 구간의 숫자 중 하나의 값을 가지는 연속확 률변수로 다음과 같은 확률밀도함수를 가짐 − 1 f (x) = √ e σ 2π (x − µ)2 2σ 2 – µ = 평균, σ 2 = 분산 ⇒ 확률밀도함수를 구하기 위해 평균과 분산이 필요 – e ≈ 2.72, π ≈ 3.14 – 예: µ = 0, σ = 0.5 3 f (x) = 1 √ 0.5 2π x2 2 e 2(0.5) − x −2.0 −1.0 1.0 2.0 ∗ 이 곡선을 정규곡선(Normal Curve)이라 부름 – 자연과학 및 사회과학에서의 많은 변수들이 정규확률변수로 설명될 수 있음 ∗ 예: 사람의 키, 몸무게, 강수량, 과학적 측정 등 – 또한 통계적 추론 과정에서 발생하는 불확실성을 설명하는 데 유용하게 쓰임 정규곡선 • 정규분포의 특성 1. 모든 정규분포는 평균과 분산에 의해 구별할 수 있음 – 번역판 “모든 정규분포군은 이의 평균 µ과 표준편차 σ에 대해 두 번 미분할 수 있다” 는 영문판 “The entire family of Normal distribution is differentiated by its mean and standard deviation”의 오역임 – 확률밀도함수에 µ와 σ 이외의 다른 계수가 없음 ⇒ 평균과 분산이 같으면 같은 확률 변수임 − 1 f (x) = √ e σ 2π (x − µ)2 2σ 2 – 분포의 형태에 대해서는 신경쓸 필요가 없음 ⇐ 왜냐하면 항상 왜도 = 0 이므로 (4 번째 특성) 2. 평균에서 정규곡선의 값이 가장 큼 ⇒ 최빈값(mode) = 평균(mean) – 최빈값을 연속확률변수에 맡게 재정의할 필요가 있음 µ (평균=최빈값) 4 3. 평균이 정규곡선의 위치를 결정 ⇒ 평균은 양수 또는 음수가 될 수 있음 µ = −1 µ=0 µ=1 −2.00 −1.00 0 1.00 2.00 4. 정규곡선은 평균을 중심으로 좌우 대칭임 ⇒ 왜도 = 0 ⇔ 종모양의 분포 ⇔ 평균 = 중앙값 – 왜도는 항상 0임 ⇒ 평균과 분산만 알면 됨(특성 1) 5. 표준편차(분산)이 정규곡선이 얼마나 평평하고 좁은지를 결정 – 표준편차가 클 수록 정규곡선이 더 평평해짐 σ=5 σ = 10 µ 6. 정규확률변수의 확률은 정규곡선의 아래의 면적으로 주어짐 – 정규곡선 아래의 전체 면적 = 1 ⇐ 확률의 두번째 조건 – 좌우 대칭(특성 4) ⇒ 평균을 중심으로 좌우의 면적이 각각 0.5임 0.5 0.5 µ 7. 자주 이용되는 확률 (a) 68.3%의 관측치가 평균으로부터 1 표준편차 내에 있음 (b) 95.4%의 관측치가 평균으로부터 2 표준편차 내에 있음 (c) 99.7%의 관측치가 평균으로부터 3 표준편차 내에 있음 – 경험법칙은 정규분포의 특성에서 유래된 것임 ⇒ 분포가 대칭인 경우 (a) 약 68%의 관측치가 1 표준편차 범위내에 있음 (b) 약 95%의 관측치가 2 표준편차 범위내에 있음 (c) 대부분의 관측치가 3 표준편차 범위내에 있음 • 확률밀도함수를 이용한 확률 계산 ⇒ 적분 5 – 예: 평균이 10이고 표준편차가 3인 정규확률변수 x가 9와 12 사이의 값을 가질 확률은 다음과 같이 계산될 수 있음 (x − µ)2 − 1 2σ 2 f (x) = √ e σ 2π (x − 10)2 ˆ 12 − 1 2 · 32 dx √ e P (9 ≤ x ≤ 12) = 3 2π 9 – 하지만 이 계산은 불가능함 ⇒ 정규분포표를 이용하여 계산 ⇒ 가장 단순한 경우에서 시작 표준정규확률분포 • 표준(standard)정규확률분포(z) ⇒ 평균이 0이고 표준편차가 1인 정규확률분포 – 확률밀도함수 (x − µ)2 − 1 2σ 2 f (x) = √ e σ 2π z2 1 − f (z) = √ e 2 2π (일반정규확률분포) (표준정규확률분포) • 주어진 구간의 확률 계산 – 어떤 양의 수 c > 0 에 대해 P (0 ≤ z ≤ c) 값이 정규분포표에 주어져 있음 – 예 1: P (0.00 ≤ z ≤ 1.25) = 0.3944 ∗ P (0.00 ≤ z ≤ 1.25) = P (0.00 ≤ z < 1.25) 왜냐하면 P (0.00 ≤ z ≤ 1.25) = P (0.00 ≤ z < 1.25) + P (z = 1.25) | {z } =0 왜 P (z = 1.25) = 0? ⇒ z가 연속확률변수이므로 ∗ 엑셀 ⇒ normsdist 함수 – 예 2: P (z ≤ 1.25) P (z ≤ 1.25) = P (z ≤ 0.00) + P (0.00 ≤ z ≤ 1.25) = 0.5 + 0.3944 = 0.8944 – 예 3: P (z ≥ 1.25) P (z ≥ 1.25) = P (z ≥ 0.00) − P (0.00 ≤ z ≤ 1.25) = 0.5 − P (0.00 ≤ z ≤ 1.25) = 0.5 − 0.3944 = 0.1056 6 – 예 4: P (z ≤ −1.00) P (z ≤ −1.00) = P (z ≥ 1.00) = 0.5 − P (0.00 ≤ z ≤ 1.00) = 0.5 − 0.3413 = 0.1587 – 예 5: P (z ≥ −1.00) P (z ≥ −1.00) = 1 − P (z ≤ −1.00) = 1 − 0.1587 = 0.8413 – 예 6: P (−1.00 ≤ z ≤ 1.00) P (−1.00 ≤ z ≤ 1.00) = P (−1.00 ≤ z ≤ 0.00) + P (0.00 ≤ z ≤ 1.00) = 0.3413 + 0.3413 = 0.6826 – 예 7: P (−2.00 ≤ z ≤ 2.00) P (−2.00 ≤ z ≤ 2.00) = P (−2.00 ≤ z ≤ 0.00) + P (0.00 ≤ z ≤ 2.00) = 0.4772 + 0.4772 = 0.9544 – 예 8: P (−3.00 ≤ z ≤ 3.00) P (−3.00 ≤ z ≤ 3.00) = P (−3.00 ≤ z ≤ 0.00) + P (0.00 ≤ z ≤ 3.00) = 0.4987 + 0.4987 = 0.9974 ∗ 예6, 7, 8 ⇒ 특성 7(경험법칙) – 예 9: P (−1.24 ≤ z ≤ 2.70) P (−1.24 ≤ z ≤ 2.70) = P (−1.24 ≤ z ≤ 0) + P (0.00 ≤ z ≤ 2.70) = P (0.00 ≤ z ≤ 1.24) + P (0.00 ≤ z ≤ 2.70) = 0.3925 + 0.4965 = 0.8890 – 예 10: P (1.00 ≤ z ≤ 1.58) P (1.00 ≤ z ≤ 1.58) = P (0.00 ≤ z ≤ 1.58) − P (0.00 ≤ z ≤ 1.00) = 0.4429 − 0.3413 = 0.1016 – 예 11: P (−2.01 ≤ z ≤ −1.30) P (−2.01 ≤ z ≤ −1.30) = P (1.30 ≤ z ≤ 2.01) = P (0.00 ≤ z ≤ 2.01) − P (0.00 ≤ z ≤ 1.30) = 0.4778 − 0.4032 = 0.0746 • 주어진 확률에 대응하는 구간 찾기 ⇒ 주어진 확률 A에 대해 P (0.00 ≤ z ≤ c) = A가 되는 c값 찾기 7 – 예 1: P (0.00 ≤ z ≤ c) = 0.3997 – 예 2: P (0.00 ≤ z ≤ c) = 0.4000 ∗ 정규분포표에서 0.4000를 찾을 수 없음 ⇒ 가장 가까운 값을 찾음 ⇒ 0.3997 < 0.4000 < 0.4015 ⇒ c = 1.28 ∗ 엑셀 ⇒ normsinv 함수 · 컴퓨터를 이용하면 좀 더 정교한 방법을 사용하므로 값이 다를 수 있음 – 예 3: P (0.00 ≤ z ≤ c) = 0.4010 ∗ 가장 가까운 값을 찾음 ⇒0.3997 < 0.4010 < 0.4015 ⇒ c = 1.29 – 예 4: P (z ≥ c) = 0.10 ∗ c는 양수가 되어야 함 ⇒ 만약 c가 음수이면 P (z ≥ c) > 0.5가 됨 ⇒ P (z ≥ c) = 0.10 ⇒ P (0.00 ≤ z ≤ c) = 0.40가 되는 c값을 찾음 ⇒ c = 1.28(예 2) 정규분포의 확률 계산 • 일반적인 정규분포의 확률 계산 ⇒ 평균과 분산이 반드시 0과 1이 아닌 경우 – 일반적인 정규확률변수 x를 다음 식을 이용하여 표준정규확률변수 z로 변환 z= x−µ σ ∗ 제3장에서 배운 z-값 공식과 동일 ⇒ 평균은 0이고 분산은 1이됨 1 1 x−µ = E (x − µ) = (E(x) − µ) = 0 E(z) = E σ σ σ x−µ 1 1 V ar(z) = V ar = 2 V ar (x − µ) = 2 V ar(x) = 1 σ σ σ • 확률 계산하기 – 예 1: 평균이 10이고 표준편차가 2인 정규확률변수가 10과 14 사이의 값을 가질 확률 P (10 ≤ x ≤ 14) = P (10 − 10 ≤ x − 10 ≤ 14 − 10) x − 10 14 − 10 10 − 10 ≤ ≤ =P 2 2 2 = P (0.00 ≤ z ≤ 2.00) ∗ 여기서 부터는 표준정규확률분포의 문제가 됨 P (0.00 ≤ z ≤ 2.00) = 0.4772 – 예 2: 그리어 타이어 회사 문제 ⇒ 타이어의 마일리지 x가 평균이 36,500마일이고 표준 편차가 5,000마일인 정규분포를 따른다고 가정 ⇒ 어떤 타이어가 40,000마일 이상 달릴 8 가능성은 P (x ≥ 40, 000) = P (x − 36, 500 ≥ 40, 000 − 36, 500) x − 36, 500 40, 000 − 36, 500 =P ≥ 5, 000 5, 000 3, 500 =P z≥ 5, 000 = P (z ≥ 0.70) ∗ 여기서 부터는 표준정규확률분포의 문제가 됨 P (z ≥ 0.70) = 0.5 − P (0.00 ≤ z ≤ 0.70) = 0.5 − 0.2580 = 0.2420 • 주어진 확률에 대응하는 구간 찾기 – 예 1: 그리어 타이어 회사 문제 ⇒ 이 회사가 타이어가 보증주행거리를 초과하지 못할 경우 소비자에게 교체 쿠폰을 제공하는 정책을 실시하고자 함 ⇒ 하지만 쿠폰을 받을 소비자가 전체의 10%를 초과하지 못하도록 보증주행거리(c)를 정할려고 함 ⇒ P (x ≤ c) = 0.10 x − 36, 500 c − 36, 500 P (x ≤ c) = P ≤ 5, 000 5, 000 c − 36, 500 =P z ≤ 5, 000 {z } | =c′ = P (z ≤ c′ ) = 0.10 ∗ 여기서 부터는 표준정규확률분포의 문제가 됨 P (z ≤ c′ ) = 0.10 ⇒ P (0.00 ≤ z ≤ −c′ ) = 0.40 ⇒ P (0.00 ≤ z ≤ −c′ ) = 0.3997 ′ ⇒ −c = 1.28 ⇒ c′ = −1.28 ∗ c′ 을 c로 변환 c′ = c − 36, 500 = −1.28 5, 000 ⇒c − 36, 500 = −1.28 × 5, 000 ⇒c = −1.28 × 5, 000 + 36, 500 = 30, 100 • 평균과 분산 – 일반적인 정규분포 ⇒ 평균µ와 표준편차 σ가 주어짐 – 표준정규분포 ⇒ 평균 µ = 0이고 표준편차 σ = 1 9 (−c′ 는 양수임) (가장 가까운 수) 6.3 이항확률의 정규근사 • 제5장에서 이항실험 = 다음의 4가지 특성을 가지는 실험 1. n개의 연속된 동일한 시행으로 구성 2. 각 시행에서 두 개의 결과만 가능 – 주사위를 두번 던지는 실험은 이 조건을 위반 ⇒ 만약 주사위를 두 번 던지면서 홀수 = 성공, 짝수 = 실패로 하면 이는 이 조건을 만족. 3. 성공의 확률 p는 시행에 따라 변하지 않음 ⇒ p는 0과 1사이의 어떤 수도 가능 4. 각 시행들은 독립적임 – 이항확률변수 x = 성공의 횟수 ⇒ x는 {0, 1, 2, . . . , n} 중 하나의 값을 가지는 이산확률변수 – 확률함수를 이용하여 확률을 계산 ⇒n = 3, p = 0.3 f (x) = Cxn · px · (1 − p)(n−x) f (2) = C23 · (0.3)2 · (1 − 0.3)(3−2) = 3 · (0.3)2 · (0.7)1 = 0.189 – 하지만 n이 큰 경우 계산이 어려움 ⇒ 예를 들어 n = 100, p = 0.1 100 f (12) = C12 (0.1)12 (0.9)100−12 = 100! (0.1)12 (0.9)88 =? (12!)(88!) • 이 경우 사용할 수 있는 근사법이 존재 ⇒ 정규근사 – 기본적인 아이디어: 만약 n이 크면 이항확률분포 ≈ 정규확률분포 ∗ 이 아이디어는 중심극한정리(central limit theorem)의 특별한 경우임 – “n이 크다”는 조건의 의미 1. np > 5 ⇒ n = 100, p = 0.03 ⇒ np = 100(0.03) = 3 < 5 2. n(1 − p) > 5 ⇒ n = 100, p = 0.98 ⇒ n(1 − p) = 100(0.02) = 2 < 5 ∗ 요약하면 n이 성공의 확률 p와 실패의 확률 1 − p의 수준을 고려한 상황에서 충분히 커야 함 ∗ p가 0이나 1에 가까울 수록 더 많은 n이 필요 ⇒ p = 0.5일 때 n = 10으로 가장 작은 값을 가짐 – 정규확률분포로 근사 ⇒ 평균과 분산이 필요 ⇒ 이항확률분포의 평균과 분산을 계산 E(x) = n · p V ar(x) = n · p · (1 − p) • 예 1: n = 100, p = 0.1 ⇒ P (x = 12)? – “n이 크다”는 조건을 확인 1. np > 5 ⇒ 100(0.1) = 10 > 5 10 2. n(1 − p) > 5 ⇒ 100(0.9) = 90 > 5 – 평균과 분산을 계산 µ = n · p = 100 · 0.1 = 10 σ 2 = n · p · (1 − p) = 100 · 0.1 · 0.9 = 9 σ=3 – 정규분포를 이용하여 확률을 계산 ⇒ x를 평균이 10이고 표준편차가 3인 정규확률변수로 생각 ∗ 문제점 ⇒ 정규확률변수 x가 12의 값을 가질 확률 P (x = 12) = 0 ⇒ 연속성 수정계수 (continuity correction factor)를 이용 P (x = 12) ⇒ P (12 − 0.5 ≤ x ≤ 12 + 0.5) = P (11.5 ≤ x ≤ 12.5) P (11.5 ≤ x ≤ 12.5) = P 11.5 − 10 x − 10 12.5 − 10 ≤ ≤ 3 3 3 = P (0.50 ≤ z ≤ 0.83) = P (z ≤ 0.83) − P (z ≤ 0.50) = 0.2967 − 0.1915 = 0.1052 • 예 2: n = 100, p = 0.1 ⇒ P (12 ≤ x ≤ 13) – x가 이산확률변수이므로 P (12 ≤ x ≤ 13) = P (x = 12) + P (x = 13) – 각각에 대해 정규근사를 적용 ⇒ “n이 크다”는 조건을 만족 ∗ P (x = 12) ⇒ P (11.5 ≤ x ≤ 12.5) = 0.1052 ∗ P (x = 13) ⇒ P (12.5 ≤ x ≤ 13.5) = 0.0823 P (12 ≤ x ≤ 13) = 0.1052 + 0.0823 = 0.1875 – 이 둘을 결합하여 한번에 계산하여도 됨 P (x = 12) + P (x = 13) = P (11.5 ≤ x ≤ 13.5) P (11.5 ≤ x ≤ 13.5) = P 11.5 − 10 x − 10 13.5 − 10 ≤ ≤ 3 3 3 = P (0.50 ≤ z ≤ 1.17) = P (z ≤ 1.17) − P (z ≤ 0.50) = 0.8790 − 0.6915 = 0.1875 11 ∗ 이 문제의 경우 연속성 수정계수를 간과할 가능성이 큼 ⇐ 왜냐하면 문제가 이미 구간 으로 주어졌으므로 • 예 3: n = 100 and p = 0.1 ⇒ P (x ≤ 13) P (x ≤ 13.5) = P x − 10 13.5 − 10 ≤ 3 3 = P (z ≤ 1.17) = 0.8790 – 엄밀하게 하자면 P (x ≤ 13) = P (0 ≤ x ≤ 13)이므로 P (−0.5 ≤ x ≤ 13.5) = P −0.5 − 10 x − 10 13.5 − 10 ≤ ≤ 3 3 3 = P (−3.5 ≤ z ≤ 1.17) = 0.8790 − 0.0000 = 0.8790 6.4 지수확률분포 • 생략 12