Uploaded by cso_021114

기술 통계: 중심 경향 및 변동성

advertisement
수치기술통계 – 숫자를 이용하여 자료의 정보를 요약 기술 하는 것 ex) 평균,공분산,상관계수 등
모집단으로부터 얻어진 표본에서 구한 평균,분산,표준편차 등의 총칭 -> 통계량
통계적 추론(모수,,,,)
평균,중앙값 -> 숫자형
최빈값 -> 범주형, 숫자형 둘다 사용
<척도의 분류>
중심위치 척도 – 자료들이 대략 어떠한 값을 갖는지를 알아보기 위하여, 어니 위치를 중심으로
자료들이 분포 되어있는지를 나타내는 척도
1.
평균(Mean) (기하학적 -> 무게중심)
가장 많이 사용되는 중심위치 척도, 통계이론에서 중요 역할
정의: 자료의 값(Value)을 모두 더하여 자료의 수(Size)로 나누어 준 값
표본 평균(Sample Mean) : 표본 자료의 평균 (표본 자료의 개수 : n)
모집단 평균(Population mean) : 모집단 자료의 평균 (모집단 자료의 개수 : N)
μ = N/1
자료에 특이하게 작거나 큰 값이 들어있게 되면 평균이 대표값으로써 부적절한 경우 생김
(이상치에 민감)
해결->절사평균(trimmed mean) : 자료의 이상치 제거 + 반대편도 같은 수만큼 제거,
남은 것으로 평균 구하기
Ex)1,2,3,4,5,6,7,8,9,10,11,100 -> (100과 1 제외) 2,3,4,5,6,7,8,9,10,11의 평균 ->6.5
원자료 X, 도수분포표만 주어진 경우
-각 계급구간의 중앙값을 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정
도수분포표에서의 표본평균 -> mi 가 fi 개 있는 자료라 생각
( mi : 각 계급의 중앙값, fi : 각 계급의 도수)
2.
중앙값, 중위수(Median)
- 자료를 크기에 따라 오름차순으로 정렬 시, 가운데에 해당하는 값
-자료 홀수일 때 -> 가운데 값
-자료 짝수일 때 -> 가운데 두개의 평균
-특이하게 작거나 큰 값 자료에 있어도 영향 X(이상치에 둔감)
원자료 X, 도수분포표만 주어진 경우
- 각 계급구간의 중앙값 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정
도수분포표에서의 중앙값
자료 개수(n) 홀수 -> 가운데 관측값이 속한 계급구간의 중앙값
자료 개수(n) 짝수 -> 가운데 두 관측값이 속한 계급구간 중앙값의 평균
3.
최빈값(Mode) – 관측값 중에서 가장 자주 나오는, 빈도수가 최대인 값
-
명목형 자료 : 평균, 중앙값 의미X -> 최빈값 사용
-
연속형 자료 : 같은 값 중복되어 나오는 경우 매우 드묾 -도수분포표로 자료 그룹화, 최
대 도수갖는 계급구간의 중간값을 최빈값으로.. -> 계급구간의 폭에 따라 최빈값 달라지므
로 잘 사용 X
-자료 적은 경우 최빈값은 무의미
-최빈값 여러 개 나올 수 있음-> 중심위치 척도로써의 의미 줄어듦
(최빈값 - 단봉형 분포에서 적절)
원자료 X, 도수분포표만 주어진 경우
-각 계급구간의 중앙값 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정
도수분포표에서의 최빈값 -도수가 가장 많은 계급구간의 중앙값
4.
왜도
왜도와 중심위치 척도
-음의 왜도(left skewed): 평균<중앙값<최빈값
-양의 왜도(right skewed): 최빈값<중앙값<평균
-대칭(symmetry): 중앙값 = 평균 = 최빈값
+이상치로 인하여 평균이 영향 많이 받음
5.
사분위수(Quartile)
– 자료를 크기 순으로 나열 후 똑같은 크기의 네 덩어리로 만들 때 그 경계에 해당하는 값
최소값
-자료의 25% (¼), 50% (½), 75% (¾)에 해당하는 값
-제2 사분위수 = 중앙값
Q1 = (n+1)/4 번째 수
Q2 = (n+1)/2 번째 수
Q3 = 3(n+1)/4 번째 수
최대값
Ex) 자료 1,0,7,5,3,2,0,1,8,4,
크기순 나열-> 0,0,1,1,2,3,4,5,7,8
Q1 : (10+1) * 1/4 = 2.75(2+4/3)번째 수; Q1 = 0.75 (0+ (1-0)*3/4 = 0.75)
Q2 : (10+1)* 1/2 = 5.5번째 수; Q2= 2.5 (2+(3-2)*1/2= 2.5)
Q3 : (10+1)* 3/4 = 8.25번째 수;Q3 = 5.5 (5+(7-5)*1/4= 5.5)
변동성 척도 -> 중심위치의 척도만으로 분포 설명할 수 없음
변동성(variability): 자료의 변동, 퍼져 있는 정도
-관측값이 중심위치에서 얼마나 멀리 떨어져 있는가, 자료가 얼마나 퍼져있는가
1.
범위(Range)
– 최대값과 최소값의 거리 = xmax (최대값) -
xmin (최소값)
-
쉽고 빠르게 구할 수 있음
-
특이하게 크거나 작은 값 있을 경우 -> 자료의 범위에 왜곡 일어남
-
자료 개수와 상관없이 같게 나올 수 있음(자료의 개수가 반영되지 않음)
-> 자료의 변동성을 대표하지 못하는 경우가 많음
2.
사분위 범위(Inter Quartile Range : IQR) = Q3 – Q1
-양쪽 극단값에서 자료의 25%씩 안쪽으로 들어와 있는 값의 거리
-특이값의 영향을 거의 받지 않음
3.
분산 & 표준편차 – 각각 많이 사용되는 변동성 척도, 통계이론에서 중요한 역할
-자료 각각이 그 자료의 평균으로부터 떨어져 있는 거리를 제곱한 것의 평균값
모집단 분산 : ð2
(그림삽입)
표본 분산 : s2 (
-자료 하나하나의 값이 모두 반영되어 있음
-값이 클수록 변동성 크고 넓게 퍼져 있음
-음수가 나올 수 없음
4.
변동계수 – 표준편차를 평균으로 나누어 표시 = 표준편차/평균 X100(%)
-
일반적으로 퍼센티지 개념으로 사용 -> 100을 곱하여 퍼센트 단위로 표시
변동성을 평균에 대한 상대적인 값으로 표시
- 규모가 다른 두 자료를 같은 기준에서 놓고 평가하기 위해 필요
Ex) 아버지와 초등학생 아들의 한달 용돈 변동성
표준편차, 범위, 사분위수 범위가 퍼진 정도의 측도로 적당하지 않은 경우 사용
-
단위가 다른 경우
-
중심위치가 매우 다른 두개 이상의 분포를 비교하는 경우
연관성 척도 – 2개 또는 그 이상의 항목에 대한 자료들이 상호 관련되어 있는지를 나타내는 척도
 수업에서 선형관게(Linear relationship)에 대한 연관성 척도만 다룸
공분산(Covariance) – 두 변수 (X,Y)가 자기 평균으로부터 떨어진 값을 서로 곱한 후, 모두 합하여
모집단에서는 N, 표본에서는 n-1로 나눈 값
–두 변수가 어느 방향 (부호, sign)으로 얼마나 변동(크기, magnitude)하는지를 나타냄
공분산의 부호
-
양의 선형관계 : X와 Y가 평균에 대하여 서로 같은 방향의 값을 가질 때
-
음의 선형관계 : X와 Y가 평균에 대하여 서로 반대 방향의 값을 가질 때
상관계수(Correlation Coefficient): 두변수의 공분산을 표준편차의 곱으로 나눈 값
-표본 상관계수도 모집단 상관계수와 같은 성질을 가짐
Download