01_통계학의 기본개념 1 / 15 1. 통계학이란? • 기술 통계학 ✓ 분석의 대상이 되는 집단으로부터 자료를 수집하고, 요약하고, 정리하는데 필 요한 방법론을 의미 • 추측 통계학 ✓ 표본을 추출하고, 표본정보를 통하여 그 표본이 추출된 모집단의 특성을 추론 하며, 그 추론을 토대로 의사결정대안을 제시하는데 필요한 이론적 체계를 말 함 ✓ 표본(sample)으로부터 모집단(population)의 특성을 추론 ✓ 항상 불확실성이 내재하며 위험을 수반 2 / 15 2. 모집단과 모수 / 3. 표본과 통계량 • 모집단(population) ✓ 관심 대상이 되는 사람 또는 사물 전체의 집합 ✓ 전수 조사로 측정(예: 인구주택 총 조사) ✓ 모수(parameter): 모집단의 특성을 나타내는 수치 • 표본(sample) ✓ 모집단의 부분 집합 ✓ 표본 조사(sample survey)로 측정 ✓ 통계량(statistic): 표본의 특성을 나타내는 수치 모집단 표본 K대학교 학생 K대학교 경영대학 학생 K대학교 경영대학 학생 K대학교 경영대학 1학년 추론(inference) 3 / 15 2. 모집단과 모수 / 3. 표본과 통계량 • 표본 조사를 실시하는 이유 ✓ 전수 조사는 많은 비용과 시간을 필요로 함 ✓ 경우에 따라서는 전수 조사 자체가 아예 불가능한 경우가 존재함 ➢ 예: 파괴검사 ▪ Smart TV의 견고함을 알아보려고 3m 높이에서 떨어뜨리는 실험 ✓ 전수 조사과정에서 발생하는 비표폰 오차(nonsampling error) ➢ 비표본 오차: 조사 및 자료수집과정에서 발생하는 오류 ▪ ▪ ▪ 조사원인 내가 직접 설문하는 경우 조사원의 커뮤니케이션 오류 코딩과정의 실수 ➢ 비표본 오차는 표본의 숫자가 늘어날수록 증가하는 경향성을 띰 4 / 15 4. 표본추출법 • 표본추출과정 모집단의 확정 ▪ 조사대상이 되는 집합체 표본 프레임의 결정 ▪ 표본 프레임: 모집단에 포함된 조사대상들의 명단이 수록된 목록 표본추출방법의 결정 ▪ 확률 표본추출 방법과 비확률 표본추출 방법 중에서 적합한 표본추출방법을 선택함 표본크기의 결정 ▪ 조사예산과 시간상의 제약조건을 고려해서 표본의 크기를 결정함 표본추출 5 / 15 4. 표본추출법 • 확률 표본추출(probability sampling) ✓ 모집단의 각 사람이나 원소가 표본에 포함될 확률을 알 수 있는 경우 ✓ 표본 추출 시 주관적 판단이 개입되지 않음 ✓ 무작위 추출, 계통 추출, 층화 추출, 군집 추출 • 비확률 표본추출(non-probability sampling) ✓ 주관적 판단에 의해 표본 추출 ✓ 모집단에 대한 통계적 추론에는 적당하지 않음 ✓ 모집단을 더 잘 이해하기 위한 소규모 또는 탐색적 조사에 적당 ✓ 편의 표본추출, 판단 표본추출 6 / 15 4. 표본추출법_확률 표본추출 방법 • 무작위 추출법(simple random sampling) = 단순확률 추출 ✓ 표본 프레임에 들어있는 각각의 표본에 대해 일련번호를 부여하고, 이를 이용 해서 일정수의 표본을 무작위(random)로 추출하는 방법 ✓ 확률표본 추출법 중 가장 기본적인 방법 • 계통 추출법(systematic sampling) ✓ N개의 모집단에서 n개의 표본을 계통 추출한다면, 각 개체에 1에서 N까지 일 련번호를 부여한 후, k=[N/n] 의 비율을 구한다. 일련번호에 따라 처음 k개체 중 에서 하나를 추출하고, 매 k번째 자료를 표본의 크기가 n이 될 때까지 추출한 다. ✓ 예제) N=500인 모집단에서 각 개체에 1부터 500까지의 일련번호를 부여한 후, n=25인 계통 추출법을 활용하여 표본을 추출하세요. ➢ k=500/25=20을 얻는다. 1에서 20까지의 중 임으로 한 숫자를 뽑는다. 8이 뽑혔다고 하자. 첫 번째 표본자료는 숫자가 8인 자료이다. 이후 28,48,68, ··· 등의 숫자가 매겨진 자료들을 추출하며, 자료의 개수가 25가 되면 멈춘다. 이 모든 관찰치들은 k=20단위 간격으로 떨어져 있다. 7 / 15 4. 표본추출법_확률 표본추출 방법 • 층화 추출법(stratified sampling) ✓ 모집단에 대한 사전 정보를 활용할 경우, 특히 모집단이 비교적 성질이 동일하 고 크기가 알려진 소그룹, 즉 계층 또는 층(strata)들로 분리될 수 있을 때 적용하 는 표본 추출법 ✓ 예제) 교육수준에 따른 층화 표본의 수 결정(n=1,000) 학력 1. 모집단 2. 비율 3. 층화 표본수 4. 층화 표본수 (반올림) 고졸 미만 10,466,000 9.46% 94.58738895 95 고졸 미만 34,011,000 30.74% 307.3773825 307 대학 중퇴 31,298,000 28.29% 282.8584081 283 대졸 34,874,000 31.52% 315.1768204 315 전체 110,649,000 100.00% 1,000 1,000 8 / 15 4. 표본추출법_확률 표본추출 방법 • 군집 추출법(cluster sampling) ✓ 층들이 지리적 영역으로 이루어진 경우 ✓ 군집 추출을 1단계(one-stage)만으로 수행하는 경우에는 임의로 k개의 하위지역 들(또는 군집들)을 골라 거기에 속해 있는 모든 항목들로 표본을 만듦 ✓ 2단계(two-stage) 군집추출의 경우에는 일차적으로 k개의 하위지역들(또는 군 집들)을 임의로 고른 다음, 선택된 각 군집에서 다시 임의표본을 추출하는 방식 9 / 15 4. 표본추출법_확률 표본추출 방법 • 군집 추출법(cluster sampling) ✓ 예) 2단계 군집 추출 ➢ 임의로 3개의 군집을 뽑은 다음, 각 군집에서 임의로 4개의 항목을 추출 10 / 15 4. 표본추출법_비확률 표본추출 방법 • 편의 표본추출법(convenience sampling) ✓ 가장 간단한 형태의 표본추출방법 ✓ 조사자가 임의로 정한 시간과 장소에서 표본대상을 선정하는 방법 ✓ 예) 연구자가 2019년 8월30일 오후 7시에 강남역을 지나가는 사람들 중 몇 명을 임으로 정하여 인터뷰를 실시 • 판단 표본추출법(purposive sampling) ✓ 조사문제와 관련하여, 전문적인 지식을 가진 표본을 연구자가 임의로 선정하는 방법 ✓ 조사문제에 대해 전문적인 지식을 가지고 있는 표본을 정확히 찾는 것이 중요 • 비확률 표본추출 방법이 확률 표본추출 방법보다 반드시 열등한 표본 추출인가? 11 / 15 5. 표본 오차와 비표본 오차 • 표본 오차(sampling error) ✓ 모집단의 일부분인 표본에 의해서 전체의 특성을 파악하려는 데서 오는 오차 ✓ 표본 오차는 표본의 크기가 커지면서 점차 감소, 전수 조사에서는 발생하지 않 음 • 비표본 오차(nonsampling error) ✓ 줄이는 방법 ➢ 조사원에 대한 훈련, 지도 및 감독의 강화 ➢ 체계적이고 과학적인 표본추출과정 도입 12 / 15 ❖ 통계학을 공부해야 하는 이유? • 다른 사람들이 제시하는 데이터 분석을 더 잘 이해할 수 있다. • 충분한 통계지식을 갖고 있어야만 다른 사람들이 과장된 주장으로 우리를 기만하는 것을 막을 수 있으며, 아울러 우리 스스로 자신의 전문지식의 한계가 어디까지 인지 알 수 있다. • 기업 차원에서 보면, 통계학 지식을 보유한 기업은 내부 및 외부 데이터를 활용하지 못하는 조직에 비해 비교우위를 가질 수 있다. • 개인적으로도 우리는 기초 통계학을 마스터함으로써, 관리자로서 비교우위를 갖고 더 빠른 승진의 기회를 잡을 수 있으며, 또는 더 나은 일자리를 찾을 수 있다. 13 / 15 ❖ 통계학의 활용분야 • 감사(auditing) ✓ 어떤 기업이 일부 청구서의 대금지불에 오류가 있다는 것을 알고 있지만, 이 문 제가 어느 정도 심각한지에 대해서 알지 못한다. 모든 청구서를 검토할 자원이 부족하기 때문에 표본을 추출하여 오류가 발생하는 비율을 추정할 수 있다. • 마케팅(marketing) ✓ 대다수 기업에서 고객관계관리(CRM)를 사용하여 다양한 소스의 고객 데이터 를 분석한다. 상관관계나 데이터 마이닝과 같은 통계 및 분석 도구를 사용하여 다양한 고객 그룹의 특정 니즈를 파악함으로써 제품 및 서비스를 보다 효율적, 효과적으로 마케팅 할 수 있다. • 구매(purchasing) ✓ 어느 식품업체에 납품된 500개의 플라스틱 용기 중 3개에서 결함이 발견되었다. 제조업체가 밝힌 경험적 결함률은 0.005이다. 이번 결과로 볼 때, 결함률이 상승 했는가, 아니면 운이 나쁜 것인가? 14 / 15 ❖ 통계학의 활용분야 • 제품 워런티(product warranty) ✓ 어떤 자동차 제조업체는 새로운 하이브리드 엔진에 대한 워런티 요구에 평균적 으로 어느 정도의 비용이 소요되는지 알고 싶다. • 운영 관리(operations management) ✓ 재고관리를 위한 고객의 수요 예측 15 / 15