Review of probability and statistics

Introduction to Pattern Recognition for Human ICT Review of probability and statistics 2014. 9. 19 Hyunki Hong Contents • Probability • Random variables • Random vectors • The Gaussian random variable Review of probability theory • Definitions (informal) 1. Probabilities are numbers assigned to events that indicate “how likely” it is that the event will occur when a random experiment is performed. 2. A probability law for a random experiment is a rule that assigns probabilities to the events in the experiment. 3. The sample space S of a random experiment is the set of all possible outcomes. • Axioms of probability 1. Axiom I: 𝑃[𝐴𝑖] ≥ 0 2. Axiom II: 𝑃[𝑆] = 1 3. Axiom III: 𝐴𝑖∩𝐴j = ∅ ⇒ 𝑃[𝐴𝑖 ⋃ 𝐴𝑗] = 𝑃[𝐴𝑖] + 𝑃[𝐴𝑗] More properties of probability 예) N=3, P[A1] + P[A2] + P[A3] - P[A1∩A2] - P[A1∩A3] - P[A2∩A3] + P[A1∩A2∩A3] Conditional probability • If A and B are two events, the probability of event A when we already know that event B has occurred is 1. This conditional probability P[A|B] is read: – the “conditional probability of A conditioned on B”, or simply – the “probability of A given B” • Interpretation 1. The new evidence “B has occurred” has the following effects. - The original sample space S (the square) becomes B (the rightmost circle). - The event A becomes A∩B. 2. P[B] simply re-normalizes the probability of events that occur jointly with B. Theorem of total probability • Let 𝐵1, 𝐵2, …, 𝐵𝑁 be a partition of 𝑆 (mutually exclusive that add to 𝑆). • Any event 𝐴 can be represented as 𝐴 = 𝐴∩𝑆 = 𝐴∩(𝐵1∪𝐵2 …𝐵𝑁) = (𝐴∩𝐵1)∪(𝐴∩𝐵2)…(𝐴∩𝐵𝑁) • Since 𝐵1, 𝐵2, …, 𝐵𝑁 are mutually exclusive, then 𝑃[𝐴] = 𝑃[𝐴∩𝐵1] + 𝑃[𝐴∩𝐵2] + ⋯ + 𝑃[𝐴∩𝐵𝑁] and, therefore N [ A | Bk ]P[ Bk ] 𝑃[𝐴] = 𝑃[𝐴|𝐵1]𝑃[𝐵1] + ⋯ + 𝑃[𝐴|𝐵𝑁] 𝑃[𝐵𝑁]P = k 1 Bayes theorem • • • • Assume {𝐵1, 𝐵2, …, 𝐵𝑁} is a partition of S Suppose that event 𝐴 occurs What is the probability of event 𝐵𝑗? Using the definition of conditional probability and the theorem of total probability we obtain P[ B j | A]  P[ A  B j ] P[ A]  P[ A | B j ]P[ B j ] N  P[ A | B k ]P[ Bk ] k 1 • This is known as Bayes Theorem or Bayes Rule, and is (one of) the most useful relations in probability and statistics. Bayes theorem & statistical pattern recognition • When used for pattern classification, BT is generally p [ x |  j ] P [ j ] expressed as p [ x |  j ] P [ j ] P [ j | x ]   N  k 1 p [ x |  k ] P [ k ] p[ x ] Mel-frequency cepstrum (MFC): 단구간 신호의 파워스펙트럼을 표현하 는 방법. 비선형적인 Mel스케일의 주파수 도메인에서 로그파워스펙트럼 에 cosine transform으로 얻음. Mel-frequency cepstral coefficients (MFCCs)는 여러 MFC들을 모아 놓은 계수들을 의미함. (음성신호처리) where 𝜔𝑗 is the 𝑗-th class (e.g., phoneme) and 𝑥 is the feature/observation vector (e.g., vector of MFCCs) • A typical decision rule is to choose class 𝜔𝑗 with highest P[𝜔𝑗| 𝑥]. Intuitively, we choose the class that is more “likely” given observation 𝑥. • Each term in the Bayes Theorem has a special name 1. 𝑃[𝜔𝑗] prior probability (of class 𝜔𝑗) 2. 𝑃[𝜔𝑗|𝑥] posterior probability (of class 𝜔𝑗 given the observation 𝑥) 3. 𝑝[𝑥|𝜔𝑗] likelihood (probability of observation 𝑥 given class 𝜔𝑗) 4. 𝑝[𝑥] normalization constant (does not affect the decision) • Example 1. Consider a clinical problem where we need to decide if a patient has a particular medical condition on the basis of an imperfect test. - Someone with the condition may go undetected (false-negative). - Someone free of the condition may yield a positive result (false-positive). 2. Nomenclature TN / (TN+FP) X 100 특이도 - The true-negative rate P(NEG|-COND) of a test is called its SPECIFICITY TPcalled / (TP+FN) X 100 민감도 - The true-positive rate P(POS|COND) of a test is its SENSITIVITY 3. Problem - Assume a population of 10,000 with a 1% prevalence for the condition - Assume that we design a test with 98% specificity and 90% sensitivity - Assume you take the test, and the result comes out POSITIVE - What is the probability that you have the condition? 4. Solution - Fill in the joint frequency table next slide, or - Apply Bayes rule 198 9,702 • Applying Bayes reule Random variables • When we perform a random experiment, we are usually interested in some measurement or numerical attribute of the outcome. ex) weights in a population of subjects, execution times when benchmarking CPUs, shape parameters when performing ATR • These examples lead to the concept of random variable. 1. A random variable 𝑋 is a function that assigns a real number 𝑋(𝜉) to each outcome 𝜉 in the sample space of a random experiment. 2. 𝑋(𝜉) maps from all possible outcomes in sample space onto the real line. Random variables • The function that assigns values to each outcome is fixed and deterministic, i.e., as in the rule “count the number of heads in three coin tosses” 1. Randomness in 𝑋 is due to the underlying randomness of the outcome 𝜉 of the experiment • Random variables can be 1. Discrete, e.g., the resulting number after rolling a dice 2. Continuous, e.g., the weight of a sampled individual Cumulative distribution function (cdf) • The cumulative distribution function 𝐹𝑋(𝑥) of a random variable 𝑋 is defined as the probability of the event {𝑋 ≤ 𝑥} 𝐹𝑋(𝑥) = 𝑃[𝑋 ≤ 𝑥] − ∞ < 𝑥 < ∞ • Intuitively, 𝐹𝑋(𝑏) is the long-term proportion of times when 𝑋(𝜉) ≤ 𝑏. • Properties of the cdf Probability density function (pdf) • The probability density function 𝑓𝑋(𝑥) of a continuous random variable 𝑋, if it exists, is defined as the derivative of 𝐹𝑋(𝑥). • For discrete random variables, the equivalent to the pdf is the probability mass function • Properties 1lb = 0.45359237kg Statistical characterization of random variables • The cdf or the pdf are SUFFICIENT to fully characterize a r.v. • However, a r.v. can be PARTIALLY characterized with other measures • Expectation (center of mass of a density) • Variance (spread about the mean) • Standard deviation • N-th moment Random vectors • An extension of the concept of a random variable 1. A random vector 𝑋 is a function that assigns a vector of real numbers to each outcome 𝜉 in sample space 𝑆 2. We generally denote a random vector by a column vector. • The notions of cdf and pdf are replaced by ‘joint cdf’ and ‘joint pdf ’. 1. Given random vector 𝑋 = [𝑥1, 𝑥2, …, 𝑥𝑁]𝑇 we define the joint cdf as 2. and the joint pdf as • The term marginal pdf is used to represent the pdf of a subset of all the random vector dimensions 1. A marginal pdf is obtained by integrating out variables that are of no interest ex) for a 2D random vector 𝑋 = [𝑥1, 𝑥2]𝑇, the marginal pdf of 𝑥1 is Statistical characterization of random vectors • A random vector is also fully characterized by its joint cdf or joint pdf. • Alternatively, we can (partially) describe a random vector with measures similar to those defined for scalar random variables. • Mean vector: • Covariance matrix • The covariance matrix indicates the tendency of each pair of features (dimensions in a random vector) to vary together, i.e., to co-vary 1. The covariance has several important properties – If 𝑥𝑖 and 𝑥𝑘 tend to increase together, then 𝑐𝑖𝑘 > 0 – If 𝑥𝑖 tends to decrease when 𝑥𝑘 increases, then 𝑐𝑖𝑘 < 0 – If 𝑥𝑖 and 𝑥𝑘 are uncorrelated, then 𝑐𝑖𝑘 =0 – |𝑐𝑖𝑘 | ≤ 𝜎𝑖𝜎𝑘, where 𝜎𝑖 is the standard deviation of 𝑥𝑖. – 𝑐𝑖𝑖 = 𝜎𝑖2 = 𝑣𝑎𝑟[𝑥𝑖] 2. The covariance terms can be expressed as 𝑐𝑖𝑖 = 𝜎𝑖2 and 𝑐𝑖𝑘 =𝜌𝑖𝑘𝜎𝑖𝜎𝑘. – where 𝜌𝑖𝑘 is called the correlation coefficient. A numerical example • Given the following samples from a 3D distribution 1. Compute the covariance matrix. 2. Generate scatter plots for every pair of vars. 3. Can you observe any relationships between the covariance and the scatter plots? 4. You may work your solution in the templates below. 2 3 5 6 4 2 4 4 6 4 4 6 2 4 4 -2 -1 1 2 0 -2 0 0 2 0 0 4 2 1 -2 1 0 4 0 2.5 4 0 0 4 2 0 4 4 0 2 4 0 0 4 2 0 -2 -2 0 -1 0 0 0 0 0  2 .5  2    1 2 2 0  1  0  2  The Normal or Gaussian distribution • The multivariate Normal distribution 𝑁(𝜇,Σ) is defined as • For a single dimension, this expression is reduced to • Gaussian distributions are very popular since 1. Parameters 𝜇,Σ uniquely characterize the normal distribution 2. If all variables 𝑥𝑖 are uncorrelated (𝐸[𝑥𝑖𝑥𝑘] = 𝐸[𝑥𝑖]𝐸[𝑥𝑘]), then – Variables are also independent (𝑃[𝑥𝑖𝑥𝑘] = 𝑃[𝑥𝑖]𝑃[𝑥𝑘]), and – Σ is diagonal, with the individual variances in the main diagonal. • Central Limit Theorem (next slide) • The marginal and conditional densities are also Gaussian. • Any linear transformation of any 𝑁 jointly Gaussian r.v.’s results in 𝑁 r.v.’s that are also Gaussian. 1. For 𝑋 = [𝑋1𝑋2…𝑋𝑁]𝑇 jointly Gaussian, and 𝐴𝑁×𝑁 invertible, then 𝑌 = 𝐴𝑋 is also jointly Gaussian. • Central Limit Theorem 1. Given any distribution with a mean 𝜇 and variance 𝜎2, the sampling distribution of the mean approaches a normal distribution with mean 𝜇 and variance 𝜎2/𝑁 as the sample size 𝑁 increases - No matter what the shape of the original distribution is, the sampling distribution of the mean approaches a normal distribution. - 𝑁 is the sample size used to compute the mean, not the overall number of samples in the data. 2. Example: 500 experiments are performed using a uniform distribution. - 𝑁=1 1) One sample is drawn from the distribution and its mean is recorded (500 times). 2) The histogram resembles a uniform distribution, as one would expect. - 𝑁=4 1) Four samples are drawn and the mean of the four samples is recorded (500 times) 2) The histogram starts to look more Gaussian - As 𝑁 grows, the shape of the histograms resembles a Normal distribution more closely. 01_기초 통계  통계학  자료를 정보화하고 이를 바탕으로 하여 객관적인 의사 결정 과정을 연구하는 학문  불확실한 상태 추정의 문제  불확실한 상태의 판별 및 분석을 위한 방법으로 확률적인 여러 기법들 사용  Ex: 노이즈가 심한 데이터 모델링 및 분석  패턴인식에서는 통계학적인 기법들을 이용하여 주어진 상태에 대한 통계 분석이 필수  확률값을 이용한 상태 추정  확률: 개연성, 신뢰도, 발생 빈도 등.. 25 01_기초 통계  통계 용어  추정  요약된 데이터를 기반으로 특정 사실을 유도해 내는 것  데이터 분석의 신뢰성  서로 다르게 반복적으로 데이터를 수집하더라도 항상 동일한 결과가 얻어지는가?  즉, 보편적인 재현이 가능한가?  모집단  데이터 분석의 관심이 되는 전체 대상  표본  모집단의 특성을 파악하기 위해서 수집된 모집단의 일부분인 개별 자료  표본 분포  동일한 모집단에서 취한, 동일한 크기를 갖는 가능한 모든 표본으로부터 얻어진 통계 값들의 분포 26 01_기초 통계  통계 파라미터  평균(mean)  자료의 총합을 자료의 개수로 나눈 값.  자료 분포의 무게 중심에 해당한다.  분산(variance)  평균으로 부터 자료가 흩어져 있는 정도.  자료로부터 평균값의 차이에 대한 제곱 값.  표준 편차(standard deviation)  분산의 제곱근을 취하여 자료의 차수(1차) 와 일치시킨 것을 말한다. 27 01_기초 통계  바이어스(bias)  데이터의 편향된 정도를 나타냄 28 01_기초 통계  공분산(covariance)  두 종류 이상의 데이터가 주어질 경우에 두 변수사이의 연관 관계에 대한 척도  표본 데이터 이변량 데이터(bivariate) 일 경우의 공분산 계산  Ex  xi: 2시~3시 사이에 아트센터 정문을 출입하는 사람의 수 yi: 2시~3시 사이의 평균 기온  변수들 간의 선형관계가 서로 정방향(+)인지 부방향(-)인지 정도만 나타냄. Cov(x, y) > 0 : 정방향 선형관계 Cov(x, y) < 0 : 부방향 선형관계 Cov(x, y) = 0 : 선형관계가 없음 29 01_기초 통계  상관 계수(correlation coefficient)  두 변량 X,Y 사이의 상관관계의 정도를 나타내는 수치(계수)  공분산과의 차이점:  공분산: 변수들 간의 선형관계가 정방향인지 부방향인지 정도만 나타냄.  상관 계수: 선형 관계가 얼마나 밀접한지를 나타내는 지표  변수들의 분포 특성과는 관계 없음. 30 01_기초 통계  Ex: 도서관 상주시간, 성적, 결석횟수의 상관관계 x1: 주당 도서관에 있는 시간 x2: 패턴인식 과목 점수 x3: 주당 결석 시간  작은 상관 계수는 선형적으로 두 성분간의 관련성이 거의 없음을 나타낸다.  음의 상관 계수는 두 성분이 서로 상반되는 특성을 가짐을 의미함. 31 01_기초 통계  왜도(skewness, skew)  분포가 어느 한쪽으로 치우친(비대칭:asymmetry) 정도를 나타내는 통계적 척도.  오른쪽으로 더 길면 양의 값이 되고 왼쪽으로 더 길면 음의 값이 된다.  분포가 좌우 대칭이면 0이 된다. 32 01_기초 통계  첨도(kurtosis)  뾰족한(peakedness) 정도를 나타내는 통계적 척도이다. 33 2차원 데이터 생성  특정 확률분포를 따라 확률적으로 생성  연구 목적에 맞는 데이터 확률분포 정의  이 분포로부터 랜덤하게 데이터 추출  균등분포 rand()  가우시안 분포 randn()  일반적인 경우 평균/공분산에 따른 변환 필요 34 2차원 데이터 생성 replicate and tile an array N=25; m1=repmat([3,5], N,1); m2=repmat([5,3], N,1); s1=[1 1; 1 2]; s2=[1 1; 1 2]; matrix square root X1=randn(N,2)*sqrtm(s1)+m1; X2=randn(N,2)*sqrtm(s2)+m2; plot(X1(:,1), X1(:,2), '+'); hold on; plot(X2(:,1), X2(:,2), 'd'); save data2_1 X1 X2; normally distributed pseudorandom numbers ex) Generate values from a normal distribution with mean 1 and stadard deviation 2 r = 1+2.*randn(100,1) 35 2차원 데이터 생성 1 1 2 2 학습 데이터 테스트 데이터 36 학습 : 데이터의 분포 특성 분석  분포 특성 분석  결정경계 load data2_1; m1 = mean(X1); m2 = mean(X2); s1 = cov(X1); 1 m1 2 m2 s2 = cov(X2); save mean2_1 m1 m2 s1 s2; 학습 데이터로부터 추정된 평균과 공분산 37 분류 : 결정경계의 설정 판별함수 d(m1,xnew)-d(m2,xnew)=0 클래스 라벨 C1 d(m1,xnew) xnew m1 d(m2,xnew) m2 C2 38 성능 평가 학습 오차 계산 프로그램 load data2_1; load mean2_1 Etrain=0; N=size(X1,1) for i=1:N d1=norm(X1(i,:)-m1); d2=norm(X1(i,:)-m2); if (d1-d2) > 0 Etrain = Etrain+1; end d1=norm(X2(i,:)-m1); d2=norm(X2(i,:)-m2); if (d1-d2) < 0 Etrain = Etrain+1; end end fprintf(1,'Training Error = %.3f\n', Etrain/50); 39 성능 평가 학습 데이터 2/50 테스트 데이터 3/50 40 데이터의 수집과 전처리 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 테스트 데이터 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 전처리를 거친 데이터 집합 (크기 정규화, 이진화) 학습 데이터 수집된 데이터 집합 41 데이터 변환 영상 데이터를 읽어 데이터 벡터로 표현하고 저장  (전처리된)영상 데이터(20x16)  벡터(320차원) 학습 데이터 320x50 테스트 데이터 320x20 for i=0:1:9 for j=3:7 fn = sprintf('digit%d_%d.bmp', i, j); xi = imread(fn); x = reshape(double(xi), 20*16, 1); Xtrain(:, i*5+j-2) = x; Ttrain(i*5+j-2, 1) = i; end for j=1:2 fn = sprintf('digit%d_%d.bmp', i, j); xi = imread(fn); x = reshape(double(xi), 20*16, 1); Xtest(:, i*2+j) = x; Ttest(i*2+j, 1) = i; end end save digitdata Xtrain Ttrain Xtest Ttest reshape array: 320 by 1 학습데이터 집합: 320 by 50 클래스 레이블: 320 by 50 42 학습과 결정경계  학습 데이터에 대한 평균 벡터 계산 load digitdata for i=0:1:9 mX(:, i+1) = mean(Xtrain(:, i*5+1:i*5+5)’)’; end save digitMean mX; mXi = uint8(mX*255); convert to unsigned 8-bit integer for i = 0:1:9 subplot(1, 10, i+1); imshow(reshape(mXi(:, i+1), 20, 16)); end 평균영상 결정규칙 43 분류와 성능 평가 결정규칙 load digitdata; load digitMean Ntrain = 50; Ntest = 20; Etrain = 0; Etest = 0; for i = 1:50 학습 데이터 x = Xtrain(:.i); for j = 1:10 minv: 최소값. dist(j) = norm(x - mX(:, j)); minc_train: 최소거리를 갖는 평균 영 end 상데이터 레이블 [minv, minc_train(i)] = min(dist); if(Ttrain(i) ~= (minc_train(i) - 1)) Etrain = Etrain+1; end end for i = 1:20 테스트 데이터 x = Xtest(:, i); for j = 1:10 dist(j) = norm(x - mX(:, j)); end [minv, minc_test(i)] = min(dist); if(Ttest(i) ~= (minc_test(i) - 1)) Etest = Etest+1; end end 44 분류와 성능 평가 테스트 데이터 (오차 15%) 학습 데이터 (오차 2%) 45 01_기초 통계  회귀분석  회귀직선  표본 집합을 대표하는 최적의 직선을 구하는 과정  각 표본에서 직선까지의 거리 합이 가장 작은 직선을 구하는 과정  각 표본에서 직선에 내린 수선의 길이의 제곱 값의 합이 최소인 직선을 구함  '최소 자승법(Method of Least Mean Squares, LMS)' E  E      0, N  xi yi  N  x i2 N i  d i2  E N i [ y i  ( x i   )] 2 0  x   ( x ) i 2 i yi     y  x  x N  x  ( x ) 2 xi i i 2 i i yi 2 i 46 Least squares line fitting  Data: (x1, y1), …, (xn, yn)  Line equation: yi = m xi + b  Find (m, b) to minimize E   n i 1 ( yi  m xi  b )  E    y i  xi i 1   n y=mx+b (xi, yi) 2  y 1   x1 m      1           b   y n   x n 2 2 1  m      b   1  Y  XB 2  (Y  XB ) (Y  XB )  Y Y  2 ( XB ) Y  ( XB ) ( XB ) T dE T T T  2 X XB  2 X Y  0 T T dB X XB  X Y T T Normal equations: least squares solution to XB = Y 47 예제(선형대수학)  Data: (x1, y1), …, (xn, yn)  Line equation: yi = m xi + b, y1 = m x1 + b, …, yn = m xn + b  y 1   x1           y n   x n 1  m      b   1 M y  M Mv T T  y  M v, 측정오차 있으면, 측정된 점은 직선 위에 있지 않음.  1 v  (M M ) M y T T : 최소제곱직선(least squares line of best fit) 또는 회귀직선(regression line) 위 식으로 얻어진 y = m x + b  (0, 1), (1, 3), (2, 4), (3, 4)의 최소제곱직선? 0  1 M   2  3 1  1 , 1  1 1    3 y    4   4 0 T M M   1 1 2 1 1 0  3 1   1 2  3 1  1 14   1  6  1  2 m    T -1 T v     ( M M ) M y   10 3 b    10 6 , 4  3 10   0 7   1  10   2  T -1 ( M M )   10 3   10 1 2 1 1  3 10  7   10  1    3 3  1       1   4  1 . 5    4 48 Total least squares Distance between point (xi, yi) and line ax+by=d (a2 + b2 = 1): |axi + byi – d| ax+by=d Find (a, b, d) to minimize the sum of squared perpendicular distances E  n ( a x  b y  d ) 2  i 1 i i E d   n i 1  2 ( a xi  b yi  d )  0 d   x1  x n  2 E   ( a ( x i  x )  b ( y i  y ))   i 1   x n  x dE dN a  n Unit normal: N=(a, b) ( a x (x  b y, y i di)) E   n xi  i 1 n i 1 2 i i b  n y1  y   a    b    y n  y  n i 1 yi  a x  b y 2  (UN ) (UN ) T  2 (U U ) N  0 T 49 Total least squares  x1  x n  2 E   ( a ( x i  x )  b ( y i  y ))   i 1   x n  x dE 2 y1  y   a    b    y n  y   (UN ) (UN ) T  2 (U U ) N  0 T dN Solution to (UTU)N = 0, subject to ||N||2 = 1: eigenvector of UTU associated with the smallest eigenvalue (least squares solution to homogeneous linear system UN = 0)  x1  x  U     x n  x y1  y     y n  y  n  2 ( x  x )  i  T U U   n i 1  ( x i  x )( y i  y )   i 1 n  i 1  ( x i  x )( y i  y )   n 2  ( y  y )  i  i 1 second moment matrix 50 01_기초 통계  회귀곡선, 곡선 피팅 (curve fitting)  표본 데이터에 대한 2차 함수 매핑 과정  보다 높은 차수의 함수도 매핑 가능  곡선으로 나타낸 회귀 식을 '회귀 곡선'이라고 한다. 0 0 100 200 300 400 500 600 -2 -4 -6 -8 -10 y = -6E-12x 4 + 1E-07x 3 + 2E-05x 2 - 0.0461x - 0.1637 -12 51 02_확률 이론  확률 용어  통계적 현상  불확실한 현상을 반복하여 관찰하거나, 그에 대한 대량의 표본을 추출하여 고유의 법칙 및 특성을 찾아낼 수 있는 현상  확률 실험의 특성  동일한 조건 아래에서 반복 수행할 수 있음  시행의 결과가 매번 다르므로 예측할 수 없으나, 가능한 모든 결과의 집합은 알 수 있음  시행을 반복할 때 각각의 결과는 불규칙하게 나타나지만, 반복의 수를 늘이면 어떤 통계적 규칙성이 나타나는 특징을 가짐 52 02_확률 이론  확률(probability)  통계적 현상의 확실함의 정도를 나타내는 척도.  무작위 시행에서 어떠한 사건이 일어날 정도를 나타내는 사건에 할당된 수들을 말함  확률 법칙  무작위 시행에서 사건에 확률을 할당하는 규칙을 말함  무작위 시행의 표본 공간 S가 모든 가능한 출력 집합이 된다. 53 02_확률 이론  수학적 확률  표본공간 S에 대해서 사건 A가 일어날 경우의 수 n(A)/n(S)을 사건 A의 확률이라고 한다.  모든 경우의 수 및 표본 집합이 미리 주어진 경우  통계적 확률  시행을 여러 번 반복하여 대상 사건이 일어나는 확률을 상대적 빈도수로부터 경험적으로 추정하는 과정  일반적인 자연 현상이나 사회 현상에는 발생 가능성이나 횟수를 미리 알 수 없는 경우가 대부분임.  n회의 시행에서 사건이 r회 일어났다고 하면 상대적 빈도수는 r/n이 된다.  이와 같이 추정되는 확률을 통계적 확률이라고 한다.  사건(event)과 배반 사건 (mutually exclusive event)  결과가 우연인 실험을 시행(trial)이라고 함.  무작위 시행된 결과를 '사건'이라고 한다.  두 사건 A, B가 동시에 일어날 수 없을 때 A, B는 서로 배반(mutually exclusive)한다고 한다.  두 사건 A, B가 서로 전혀 무관한 사건일 경우, A, B를 독립사건 이라고 함. 54 02_확률 이론  표본 공간(sample space)과 확률 공간  관찰할 조건 및 발생 가능한 결과의 범위를 규정한 다음, 그 범위 내의 각 결과에 기호를 대응시킨 집합을 '표본 공간'이라고 한다.  표본 공간의 원소를 '표본점'이라 함  하나의 표본점으로 이루어진 사건을 '근원 사건'이라 함.  표본 공간의 부분 집합을 '사건’이라고 함.  표본 공간에 확률이 대응된 집합을 '확률 공간'이라 함  확률 공간이란 확률 실험에서 가능한 모든 결과의 집합을 말한다.  Example: 한 개의 주사위를 한 번 던져서 짝수의 눈이 나온 경우  표본공간은 S={1, 2, 3, 4, 5, 6}이고, 근원 사건은 Ep={1, 2, 3, 4, 5, 6}, 사건은 E={2, 4, 6} 55 02_확률 이론  확률에 관한 정리  확률에 관한 성질 56 02_확률 이론  주변 확률 (marginal probability)  2개 이상의 사건이 주어졌을 때 하나의 사건이 일어날 단순한 확률  즉, 다른 사건은 고려하지 않은 확률  조건부 확률 (conditional probability)  A와 B 두 개의 사건이 있을 경우, 사건 B가 일어날 확률이 이미 알려져 있을 경우에 사건 A가 일어날 확률  P[A|B] : Pr. of A given B  조건부 확률에서 개별 확률 P[A], P[B] 를 사전확률(priori probability)라고 함  조건부 확률 P[A|B], P[B|A]를 사후확률(posteriori probability)이라고 함.  사건 A와 B가 독립사건이면  P[A|B] = P[A] 주어진 B에 대한 A의 확률 57 02_확률 이론  결합 확률 (joint rule)  A와 B 사건이 동시에 발생하는 확률,  즉, 조건부 확률로 유도되는 확률  P[B]×P[A | B] =P(A∩B), P[A]×P[B | A] =P(A∩B)  만약 사건 A와 B가 독립사건이면  P[A|B]=P(A), P[B|A]=P(B)  P[A|B]=P(A)  P[B]×P[A]=P(A∩B)가 성립한다.  체인 규칙(chain rule)  각 사건이 일어날 확률을 조건부 확률과 결합 확률을 이용하여 연쇄적인(chain) 조건부 확률의 곱으로 표현한 것.  이를 '체인 규칙'이라고 한다. 58 02_확률 이론  체인 규칙(chain rule) 결합 분포: 확률 변수가 여러 개일 때 이들을 함께 고려하는 확률 분포 1. 이산적 경우: 2. 연속적인 경우,  각 사건이 일어날 확률을 조건부 확률과 결합 확률을 이용하여 연쇄적인(chain) 조건부 확률의 곱으로 표현한 것. 59 02_확률 이론  전체 확률 (total probability)  B1,B2,…,Bn 의 합집합이 표본 공간이고, 서로 상호 배타적인 사건이라고 할 때..  표본 공간 S의 분할 영역으로 이들 집합을 나타낼 수 있다. 이 때, 사건 A은 아래 식과 같이 표현된다. S  B1,B2,…,Bn 은 상호 배타적이므로  그러므로 아래식이 성립하며 이를 사건 A의 전체 확률이라고 한다. 60 02_확률 이론  전체 확률 (total probability)  사건 A의 전체 확률  예제: 어느 공장에서 A, B, C 세 종류의 기계를 사용하여 물건을 생산하고, 기계 A, B, C를 전체 생산량의 50%, 30%, 20%를 각각 생산한다. 여기서 만드는 제품의 불량률은 각각 1%, 2%, 3%라고 한다. 이들 재품에서 임의로 1개를 뽑아 검사할 때, 그것이 불량품일 확률은? P[불량] = P[A∩불량] + P[B∩불량] + P[C∩불량] = P[불량|A]P[A] + P[불량|B]P[B] + P[불량|C]P[C] = (0.01×0.5) + (0.02×0.3) + (0.03×0.2) = 0.017 61 02_확률 이론  베이즈의 정리 (Bayes’ rule)  표본 공간 S의 분할 영역 B1, B2, …, BN 주어졌을 때, 사건 A가 일어났다고 가정. 이 사건이 Bj 의 영역에서 일어날 확률은?  특징 벡터(x)가 관측되었을 때, 그 특징 벡터가 속하는 클래스(ωj)를 알아내는 문제 → 가장 큰 P[ωi|x] 갖는 클래스 ωi 선택  앞의 예제에서 창고에서 1개를 뽑아 검사해서 불량품이라면, 이것이 A 제품일 확률은? P[ω A | x ]  P [x | ω A ] P [ ω A ]  P [x | ω k  A , B ,C k ]P[ω k ]  P [x | ω A ] P [ ω A ] P [x | ω A ] P [ ω A ]  P [x | ω B ] P [ ω B ]  P [x | ω C ] P [ ω C ] = (0.01×0.5)/[(0.01×0.5) + (0.02×0.3) + (0.03×0.2)] = 5/17 62 01_확률변수  확률변수  확률 실험에서 개별 시행 결과를 수치로 대응시키는 함수를 '확률변수' 혹은 '랜덤변수'라고 정의한다.  Ex: 동전 두 개를 던지는 시행의 경우, 앞면(head) 아니면 뒷면(tail):  표본 공간 S = {(H, H), (H, T), (T, H), (T, T)} → 앞면이 하나 이상 나올 확률값: ¾  동전 열 개를 던지는 경우와 같이 시행이 복잡할 경우, 표본 공간 상에서 바로 확률을 구하는 것이 어려움. 실험 결과를 수치로 대응시켜 놓고 통계적 분석을 행하는 것이 용이.  예제: ‘두 개의 동전을 던지는 확률 실험에서 앞 면이 나오는 횟수’ 규칙으로 만들어지는 확률변수 X의 값 x = {0, 1, 2}  ‘두 개의 주사위의 점들의 합’ 규칙으로 만들어지는 확률변수 X의 값 x = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} cf. 확률(또는 랜덤) 의미: 시행 전에 어떤 값을 가질지 모르는 불확실성 또는 표본 공간 안의 모든 값이 나올 확률이 같다 확률변수는 영문 대문자로. 그 변수가 취할 수 있는 값는 소문자로 표시 63 02_확률분포  확률 분포  수치로 대응된 확률변수가 가지는 확률값의 분포 : 확률변수 X가 x의 값을 갖는 확률 P(X = x) 또는 p(x)로 표시  예1) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자 (앞=1, 뒤=0)  예2) 두개의 주사위를 던져서 나오는 점들의 합 cf. 확률변수가 취할 수 있는 구체적인 값을 확률공간상의 확률값으로 할당해 주는 함수 : 확률분포함수 또는 확률함수 64 03_확률함수의 종류  누적분포함수 65 03_확률함수의 종류  누적분포함수의 성질 (cdf) 66 03_확률함수의 종류  확률밀도함수(pdf), 확률질량함수(pmf) cf. 확률밀도함수는 확률의 밀도만을 정의. 실제 확률을 얻으려면 확률밀도함수를 일정 구간에서 적분 67 03_확률함수의 종류  가우시안 확률밀도함수  확률분포함수 중에서 가장 많이 이용되는 분포가 가우스(Gaussian) 확률밀도함수다.  1차원의 특징 벡터일 경우에는 두 개의 파라미터, 평균 μ 와 표준편차 σ 만 정해지면 가우시안 확률밀도함수는 다음과 같이 표현한다. 68 03_확률함수의 종류  가우시안 확률밀도함수  가우스(Gaussian) 확률밀도함수 Gaussian PDF Gaussian CDF 69 03_확률함수의 종류  확률밀도함수의 성질 70 03_확률함수의 종류  확률밀도함수와 확률 71 03_확률함수의 종류  확률질량함수 72 03_확률함수의 종류  기대값 : 확률변수의 평균  일반적인 표본 평균  확률변수의 평균과 분산  일반 데이터의 평균(x) 및 분산 (s)과 구별하기 위해서 평균은 μ, 분산은 σ로 나타냄.   1  n x nx n nxx   x nx x n : 상대도수, 빈도수 E[X ]    x p(x ) all x : X의 기대값(expectation) = 각 값의 가중 산술평균의 확률적 용어 표현 (연속확률 변수인 경우) 73 03_확률함수의 종류  기대값 : 확률변수의 평균  확률변수의 평균과 분산:   1  n x nxx   x nx x n An illustration of the convergence of sequence averages of rolls of a die to the expected value of 3.5 as the number of trials grows 74 03_확률함수의 종류  확률변수의 분산과 표준편차 (variance, 2th central moment) : 확률변수의 분산도 데이터의 분산식에서 유도 (연속확률 변수인 경우) 75 04_벡터 랜덤변수  랜덤변수 벡터  렌덤 변수로 구성된 벡터  확률 변수가 2개 이상 동시에 고려되는 경우  확률변수가 중첩된 것으로 열(column)벡터로 정의.  2개의 랜덤변수를 고려한 경우를 이중 랜덤변수 (bi-variate)라고 함.  이변위 랜덤변수  표본 공간 S 에서 정의되는 두 개의 랜덤변수 X, Y에 대해서  두 랜덤 벡터는 각각 x, y라는 값을 가지며 순서쌍 (x, y) 로 표현되는 2차원 표본 공간 내의 임의의 점(random point)에 대응됨.  누적분포함수와 확률밀도함수 개념은 '결합 누적분포함수 (joint cdf)'와 '결합 확률밀도함수(joint pdf)'로 확장된다. 76 04_벡터 랜덤변수  벡터 랜덤변수 77 04_벡터 랜덤변수  가우시안 확률밀도함수  단일 변수 vs. 이중변수 가우스 확률밀도 단일변수 PDF z y (ex: 몸무게 ) 이중변수 PDF x (ex: 신장) 78 04_벡터 랜덤변수  단일 랜덤변수의 누적 분포함수(cdf) 의 표현  X, Y의 이중 벡터 랜덤변수의 누적 분포함수 (cdf)의 표현 79 04_벡터 랜덤변수  단일 랜덤변수의 누적 분포함수의 표현  X, Y 의 이중 벡터 랜덤변수의 누적 분포함수의 표현  랜덤 벡터 가 주어질 경우 80 04_벡터 랜덤변수  주변확률밀도함수 (maginal pdf)  †주변 확률 (marginal probability)  2개 이상의 사건이 주어졌을 때 하나의 사건이 일어날 단순한 확률  즉, 다른 사건은 고려하지 않은 확률  랜덤벡터의 각 차원 성분에 대한 개별 확률밀도함수를 나타내는 용어다.  주변 확률밀도함수는 무시하고자 하는 변수에 대하여 적분하여 구할 수 있다 81 05_랜덤벡터의 통계적 특징  다변수 랜덤 벡터의 통계적 특징  결합 누적밀도함수(joint cdf) 혹은 결합 확률밀도함수 (joint pdf) 를 이용하여 정의됨.  랜덤 벡터를 스칼라 확률변수에서 정의한 것과 같은 방식으로 표현할 수 있다. 82 06_공분산 행렬  공분산 행렬  공분산 행렬  다변수 랜덤 벡터에서 각 변수(특징) 간의 관계를 나타낸다.  1  Cov ( X )      c ki  c ik     N  c ik  E [( X i   i )( X k   k )]  n  E [( X n   n )( X n   n )]  공분산 행렬의 성질 83 06_공분산 행렬  공분산 행렬  1  Cov ( X )      c ki  c ik     N  84 06_공분산 행렬  공분산 행렬  1  Cov ( X )      c ki  c ik     N   Auto covariance matrix (자기 공분산 행렬) C ik  E [( X i   i )( X k   k )]  n  E [( X n   n )( X n   n )]  Cross covariance matrix (상호 공분산 행렬) C ik  E [( X i   xi )( Y k   yk )]  n  E [( X n   xn )( Y n   yn )] 85 06_공분산 행렬  X  E [( X  X ) ]  E [( X  2 X X  ( X ) ] 2  공분산 행렬의 표현들 2 2 2  E[ X ]  2 E[ X ]X  ( X )  E[ X ]  2 X X  ( X )  E[ X ]  ( X ) 2 2 2 2 2 2 S: 자기상관행렬 (Auto correlation) 상관행렬 86 07_가우시안 분포  단변량 가우시안 확률밀도함수  확률분포함수 중에서 대표적으로 가장 많이 사용하는 분포가 가우시안(Gaussian) 확률밀도함수다.  1차원의 특징 벡터일 경우에는 두 개의 파라미터, 평균 μ 와 표준편차 σ 만 정해지면 가우시안 확률밀도함수는 다음과 같이 표현한다. 87 07_가우시안 분포  다차원(다변량) 가우스 확률밀도함수 : 분포를 가진다는 의미 x ~ N ( , ) μ는 가우시안 중심인 (d×1)의 평균벡터, Σ는 (d×d)의 공분산 행렬 T 여기서   E [ x ],   E [( x   )( x   ) ] 단일차원 가우스 분포: 88 07_가우시안 분포  다변량 가우시안 확률밀도함수의 예  어떤 모집단에서 남녀 신장과 몸무게를 특징 변수로 하여 2차원 공간상에 나타낸 그림.  이 데이터들은 정규분포 혹은 가우시안 분포를 갖는 이변량 정규 혹은 가우시안 분포를 이룬다고 가정.  미지의 특징 벡터 P가 주어질 경우, 이 특징 벡터가 남자 클래스에 속하는지 여자 클래스에 속하는가? 89 07_가우시안 분포  다변량 가우시안 확률밀도함수  남자의 신장과 몸무게, 이변량에 대한 확률밀도함수는 [그림 4-9]와 같은 종 모양의 3차원 분포를 이룸.  가우스 언덕(Gaussian hill) P 90 07_가우시안 분포  중심극한정리  임의 추출된 크기가 n인 표본으로부터 계산된 표본평균은  n의 크기가 큰 경우 근사적으로 정규분포를 따르게 됨.  표본의 개수를 많이 뽑을수록 표본들의 평균은 정규 분포와 유사해 짐을 의미. 91 07_가우시안 분포  완전 공분산 가우시안 (full covariance) 특징의 차원간(또는 구성요소간) 상관 존재 92 07_가우시안 분포  대각 공분산 가우시안 (diagonal covariance) 데이터가 축에 평형을 이루는 타원향 분포. 특징 차원간 상관 무시 93 07_가우시안 분포  구형 공분산 가우시안 (spherical covariance) 데이터를 구형 분포로 모델링 94 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 95 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 96 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 97 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 98 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 99 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기  plotgaus m-file은 가우시안 컨투어를 그려보는 함수 파일 100 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 101 08_MATLAB 실습  확률밀도함수에 따른 데이터 생성과 확률밀도함수 컨투어 그리기 102

Review of probability and statistics

Related documents

Products

Support

Review of probability and statistics

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib