수치기술통계 – 숫자를 이용하여 자료의 정보를 요약 기술 하는 것 ex) 평균,공분산,상관계수 등 모집단으로부터 얻어진 표본에서 구한 평균,분산,표준편차 등의 총칭 -> 통계량 통계적 추론(모수,,,,) 평균,중앙값 -> 숫자형 최빈값 -> 범주형, 숫자형 둘다 사용 <척도의 분류> 중심위치 척도 – 자료들이 대략 어떠한 값을 갖는지를 알아보기 위하여, 어니 위치를 중심으로 자료들이 분포 되어있는지를 나타내는 척도 1. 평균(Mean) (기하학적 -> 무게중심) 가장 많이 사용되는 중심위치 척도, 통계이론에서 중요 역할 정의: 자료의 값(Value)을 모두 더하여 자료의 수(Size)로 나누어 준 값 표본 평균(Sample Mean) : 표본 자료의 평균 (표본 자료의 개수 : n) 모집단 평균(Population mean) : 모집단 자료의 평균 (모집단 자료의 개수 : N) μ = N/1 자료에 특이하게 작거나 큰 값이 들어있게 되면 평균이 대표값으로써 부적절한 경우 생김 (이상치에 민감) 해결->절사평균(trimmed mean) : 자료의 이상치 제거 + 반대편도 같은 수만큼 제거, 남은 것으로 평균 구하기 Ex)1,2,3,4,5,6,7,8,9,10,11,100 -> (100과 1 제외) 2,3,4,5,6,7,8,9,10,11의 평균 ->6.5 원자료 X, 도수분포표만 주어진 경우 -각 계급구간의 중앙값을 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정 도수분포표에서의 표본평균 -> mi 가 fi 개 있는 자료라 생각 ( mi : 각 계급의 중앙값, fi : 각 계급의 도수) 2. 중앙값, 중위수(Median) - 자료를 크기에 따라 오름차순으로 정렬 시, 가운데에 해당하는 값 -자료 홀수일 때 -> 가운데 값 -자료 짝수일 때 -> 가운데 두개의 평균 -특이하게 작거나 큰 값 자료에 있어도 영향 X(이상치에 둔감) 원자료 X, 도수분포표만 주어진 경우 - 각 계급구간의 중앙값 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정 도수분포표에서의 중앙값 자료 개수(n) 홀수 -> 가운데 관측값이 속한 계급구간의 중앙값 자료 개수(n) 짝수 -> 가운데 두 관측값이 속한 계급구간 중앙값의 평균 3. 최빈값(Mode) – 관측값 중에서 가장 자주 나오는, 빈도수가 최대인 값 - 명목형 자료 : 평균, 중앙값 의미X -> 최빈값 사용 - 연속형 자료 : 같은 값 중복되어 나오는 경우 매우 드묾 -도수분포표로 자료 그룹화, 최 대 도수갖는 계급구간의 중간값을 최빈값으로.. -> 계급구간의 폭에 따라 최빈값 달라지므 로 잘 사용 X -자료 적은 경우 최빈값은 무의미 -최빈값 여러 개 나올 수 있음-> 중심위치 척도로써의 의미 줄어듦 (최빈값 - 단봉형 분포에서 적절) 원자료 X, 도수분포표만 주어진 경우 -각 계급구간의 중앙값 선택하여 그 계급구간의 모든 관측값이 그 값을 갖는다고 가정 도수분포표에서의 최빈값 -도수가 가장 많은 계급구간의 중앙값 4. 왜도 왜도와 중심위치 척도 -음의 왜도(left skewed): 평균<중앙값<최빈값 -양의 왜도(right skewed): 최빈값<중앙값<평균 -대칭(symmetry): 중앙값 = 평균 = 최빈값 +이상치로 인하여 평균이 영향 많이 받음 5. 사분위수(Quartile) – 자료를 크기 순으로 나열 후 똑같은 크기의 네 덩어리로 만들 때 그 경계에 해당하는 값 최소값 -자료의 25% (¼), 50% (½), 75% (¾)에 해당하는 값 -제2 사분위수 = 중앙값 Q1 = (n+1)/4 번째 수 Q2 = (n+1)/2 번째 수 Q3 = 3(n+1)/4 번째 수 최대값 Ex) 자료 1,0,7,5,3,2,0,1,8,4, 크기순 나열-> 0,0,1,1,2,3,4,5,7,8 Q1 : (10+1) * 1/4 = 2.75(2+4/3)번째 수; Q1 = 0.75 (0+ (1-0)*3/4 = 0.75) Q2 : (10+1)* 1/2 = 5.5번째 수; Q2= 2.5 (2+(3-2)*1/2= 2.5) Q3 : (10+1)* 3/4 = 8.25번째 수;Q3 = 5.5 (5+(7-5)*1/4= 5.5) 변동성 척도 -> 중심위치의 척도만으로 분포 설명할 수 없음 변동성(variability): 자료의 변동, 퍼져 있는 정도 -관측값이 중심위치에서 얼마나 멀리 떨어져 있는가, 자료가 얼마나 퍼져있는가 1. 범위(Range) – 최대값과 최소값의 거리 = xmax (최대값) - xmin (최소값) - 쉽고 빠르게 구할 수 있음 - 특이하게 크거나 작은 값 있을 경우 -> 자료의 범위에 왜곡 일어남 - 자료 개수와 상관없이 같게 나올 수 있음(자료의 개수가 반영되지 않음) -> 자료의 변동성을 대표하지 못하는 경우가 많음 2. 사분위 범위(Inter Quartile Range : IQR) = Q3 – Q1 -양쪽 극단값에서 자료의 25%씩 안쪽으로 들어와 있는 값의 거리 -특이값의 영향을 거의 받지 않음 3. 분산 & 표준편차 – 각각 많이 사용되는 변동성 척도, 통계이론에서 중요한 역할 -자료 각각이 그 자료의 평균으로부터 떨어져 있는 거리를 제곱한 것의 평균값 모집단 분산 : ð2 (그림삽입) 표본 분산 : s2 ( -자료 하나하나의 값이 모두 반영되어 있음 -값이 클수록 변동성 크고 넓게 퍼져 있음 -음수가 나올 수 없음 4. 변동계수 – 표준편차를 평균으로 나누어 표시 = 표준편차/평균 X100(%) - 일반적으로 퍼센티지 개념으로 사용 -> 100을 곱하여 퍼센트 단위로 표시 변동성을 평균에 대한 상대적인 값으로 표시 - 규모가 다른 두 자료를 같은 기준에서 놓고 평가하기 위해 필요 Ex) 아버지와 초등학생 아들의 한달 용돈 변동성 표준편차, 범위, 사분위수 범위가 퍼진 정도의 측도로 적당하지 않은 경우 사용 - 단위가 다른 경우 - 중심위치가 매우 다른 두개 이상의 분포를 비교하는 경우 연관성 척도 – 2개 또는 그 이상의 항목에 대한 자료들이 상호 관련되어 있는지를 나타내는 척도 수업에서 선형관게(Linear relationship)에 대한 연관성 척도만 다룸 공분산(Covariance) – 두 변수 (X,Y)가 자기 평균으로부터 떨어진 값을 서로 곱한 후, 모두 합하여 모집단에서는 N, 표본에서는 n-1로 나눈 값 –두 변수가 어느 방향 (부호, sign)으로 얼마나 변동(크기, magnitude)하는지를 나타냄 공분산의 부호 - 양의 선형관계 : X와 Y가 평균에 대하여 서로 같은 방향의 값을 가질 때 - 음의 선형관계 : X와 Y가 평균에 대하여 서로 반대 방향의 값을 가질 때 상관계수(Correlation Coefficient): 두변수의 공분산을 표준편차의 곱으로 나눈 값 -표본 상관계수도 모집단 상관계수와 같은 성질을 가짐