Uploaded by 에블띵

산림통계학 정리

advertisement
산림통계학 정리
1.
Countif : 도수카운트하기, 숫자 아니라 질적변수
2.
Frequency : 양적 변수 셀 때, 계급구간이 나누어져 있는 곳에서 + 컨트롤 시프트 엔터
3.
Average : 평균/ 중간점
4.
상대도수 = 도수 / 도수의 합계
5.
Median : 중앙치, 가운데 두 수 더해 2로 나눈다.
6.
Mode : 최빈치
7.
가중평균 : (a평균 * a도수 + b평균 * b도수) / (a도수 + b도수)
8.
범위 : max – min
9.
Var.s : 표본분산
10. Stdev.s : 표본표준편차
11. Quartile.exc(a,b) : b는 1,2,3 이는 사분위수이다.
12. 사분위수 범위 : 3사분위 - 1사분위
13. 변동계수 =(표준편차/평균) * 100 서로 다른 단위의 값을 비교할 때 단위 없애주는 것
14. Abs : 절댓값
개요
1) 통계학 소개
2) 기술통계 대푯값, 산포도, 통계량
3) 확률분포
4) 표본집단 비교
5) 상관분석 및 회기분석
1) 통계학의 소개
통게학의 정의 : 연구 목적에 필요한 자료수집, 검사해 미지의 사실을 밝혀 신뢰성 있
는 결론을 과학적, 논리적으로 분석하는 학문
종류는 기술통계학 과 추론통계학으로 나눠진다.
기술통계학 : 데이터 집합 분포 파악, 특성을 요약해 설명해주는 대표치 개발하는 분
야. 사용자의 이해 돕기 위해 데이터 요약, 시각적으로 보기 좋게 표현한다.
추론통계학 : 수집된 데이터 이용해 모집단 특성(모수)를 추론해 변수들 간에 적절한
함수 관계를 진위 여부를 판단하는 과정이다.
문제 의식 → 가설 설정 → 실험 → 데이터 분석 → 가설 검증
모수 : 모집단의 확률분포함수의 형태를 결정하는 값 또는 모집단의 특성 나타내는
수치
통계량 : 표본의 성격 나타낸 수치
모수는 통계량에 의해 추정되고 필연적으로 오차가 발생 한다. 이 오차를 표본오차라
고 한다.
양적 변수는 두 가지로 나뉘는데, 불연속 변수와 연속 변수로 나뉜다.
불연속 변수 : 이산형 변수만 가능
표본의 대표성 : 모수 추정 위해서 표본이 모집단 특성 잘 반영되어야 함. 모집단 모
든 개체가 표본으로 추출될 확률 동일하게 해야 함.
데이터수집 방법엔 4가지가 있다.
1.
단순확률표본추출 : 번호표, 1/n
2.
집략표본추출 : 배치, 조를 뽑는다(집락 내 전수조사)
3.
단일표본 추출 : 2 → 1(2의 전수조사 힘들 때)
4.
층화확률표본추출 : 이질적인 모집단을 동질적인 몇 개의 부분집단 구분 후 1 실
시
2) 기술통계 대푯값, 산포도, 통계량
1.
대푯값과 산포도 : 대푯값 또는 변동의 크기 통해 수집된 자료의 특성 파악 범위
대푯값 설명 : 위치 통계량 = 자료의 특성
데이터 분포 설명 : 산포도 통계량 (산포도는 표본편차가 낮아질수록 신뢰도가 증가한다.)
2.
그래프
1.
도수분포표 : 각 개체 어느 계급인지 색으로 표현
2.
도수분포도 : (히스토그램) 계급 해당하는 부분 그래프 표시
3.
오자이브 : s자형태, 누적 빈도나 백분율
4.
산점도 : 두 변수의 분포 경향 혹은 선형 정도를 파악 → 상관분석이나 회귀
분석에 주로 이용한다.
추세선 이용
위치 통계량 : 데이터 구조를 요약하여 설명하기 위해 대푯값, 자료들이 어떤 값 중심
으로 분포되어 있는지 나타낸다.
1.
산술평균 :
특징
1) 편차 합
2) 편차 제곱 합 최소값 (산술평균 의한)ㄴ
3) 가장 기본 대표치
4) 극단치의 영향을 받는다 (단점)
절사평균 : 극단치 제외 (이상값 크게 영향x)
원저화 평균 : 극단치를 인근자료로 대치시킨다.
15% 절사평균
20% 절사평균
원저화
2.
중위수(중앙값) : 중앙에서 위치(오름차순 나열)
3.
최빈수
1) 여러 개의 최빈수가 가능
2) 도수 모두 동일 할 때 (한 개 씩일 때) → 최빈수가 없다
3) 평균과 중앙값보다 중심위치 척도로 중요할 수 있다.
4) 이산형 자료 → 빈도 세어서 구함
5) 연속형 자료
→ 도수분포표 이용함,
평균 중앙값, 최빈수의 관계
1.
대칭 : 셋 다 거의 같다.
2.
오른쪽 꼬리 김 (왜도 양수) : 평균 > 중앙값 > 최빈값
3.
왼쪽 꼬리 김 (왜도 음수) : 평균 < 중앙값 < 최빈값
비대칭계수(왜도)
모집단
표본집단
4.
4분위수 : 데이터 오름차순 정렬 후 100등분 시, 25% 50%(중앙값) 75% 위치에 있는 수
사분위수 범위 : 중앙 50% 관측값의 퍼진 정도를 나타내 극단값 영향을 받지 않는다. 하
지만 전체 값 추정 어려워 분산과 표준편차보다 덜 쓰임
구하는 방법
전체 자료 개수 홀수 시에는 n+1을 씀.
5.
상자그림과 상자수염그림
분포 위치, 산포도, 대칭성 혹은 치우침 파악
꼬리 부분 이상값 유무 파악 효과적이다.
6.
산포도 통계량 : 자료들이 중심위치에서 얼마나 떨어져 있는 지 나타내는 척도 (중심 위
치 + 산포도 정도)
Ex) 소나무 흉고직경
평균 흉고직경 : 2 > 1
균일성
:1>2
자승합 : 편차제곱 =sumsq()
7.
8.
분산
1) 모분산 : 자승합/n
var.p
2) 표본분산 : 자승합/자유도
var
표준편차 : 관측치들이 평균으로부터 평균적으로 얼마나 떨어져 있는 지 나타내는 수치
1) 모 표준편차 : stdev.p
2) 표본표준편차 : stdev
9.
비대칭도 와 첨도
비대칭도(왜도) : 숫자 클수록 비대칭 심함.
제1왜도계수 (평균, 최빈수)
모집단 :
표본집단 :
제2왜도계수 (평균, 중위수)
최빈수를 중위수로 바꾸면 된다.
첨도 : 꼭지점의 뾰족한 정도
10 변이계수 : 단위가 다른 두 데이터의 변이 분포 비교
Cv = 표준편차/평균 * 100 (%)
단위가 없다
추론통계(단일표본) – 가정 : 정규분포
1.
정규검정(z검정, 양측대립가설)
귀무가설(H0) : μ = μ0
대립가설(H1) : μ ≠ μ0
귀무가설 기각 = 대립가설 채택
유의수준 알파인 검정에서 기각할 확률 알파를 양쪽 꼬리에 동등하게 분할하여 다음과
같이 기각역을 결정한다.
2.
단일 표본 추론 : 한 모집단에서 추출된 표본 기초로 모집단의 특성을 추측하는 것이다.
1) 모수의 추정(기술통계)
2) 통계적 가설검정(추론통계) : 모수의 참값이 조사자의 추측을 지지하는지 부인하는지
에 대해 조사하는 것이다.
그 종류는 3가지다.
1.
점추정 : μ을 하나의 값으로 추정
표본 자료로부터 미지의 모수에 가까운 하나의 수 계산한다.
미지의 모수 = 추정량
추정량 : 모수 측정 위해 사용되는 통계량이다.
추정량의 표준편차 = 표준오차(평균과 측정된 평균의 차이)
추정값의 정확도를 알기 위해서 표준편차와 표본분포를 계산한다.
샘플 수가 늘수록 →오차가 줄어든다.
모집단 변이가 클수록 대표성이 줄어들게 된다.
표본오차 : 표본평균들의 표준편차
동일 표본 시험을 무수히 많이 했을 때 → 대부분 표본 평균들이 어느 범위에 속
하느냐를 파악해 모수의 위치를 추정 → 이 때 범위를 정해주는 것이 표준오차
표준편차 : 하나의 표본집단 대한 통계식
이미 실행한 데이터 분포에 대한 설명이다.
표준오차 : 가상의 여러 표본집단으로 나올수 있는 수치에 대한 추정이다 (모수
추정)
중심극한 정리 : 모집단이 정규분포하지 않을 때 표본의 평균들은 정규분포에 가
까워진다. → 평균이 μ이고 표준편차가 γ 인 임의의 모집단에서 확률분포를 추출
하면 n이 클 때 표본들의 평균은 μ이고 표준편차는 γ / 루트 n 인 정규분포를 근
사적으로 따른다.
3.
2.
구간 추정 : μ의 값이라고 기대되는 값들의 구간을 결정
3.
가설 검정 : μ와 모집단 비교
정규분포와 표준정규분포
정규분포 : 평균을 중심으로 좌우대칭(종모양)의 곡선으로 측정값이 분포하는 것.
특징
1.
x축과 만나지 않음
2.
연속확률분포를 함수형태로 표현한 것. 즉, 확률밀도 함수이다.
3.
면적 = 확률
표준정규분포 :
표준화 방법 :
엑셀 : =normsdist(1. 17) → 음의 무한대부터 z=1.17까지의 확률
표준화 안했을 시
=normdist(5.34 ,3,2, true) = 0.879 이는 음의 무한대부터 z=5.34까지의 확률
4.
t분포 : 표본집단의 평균 가지고 보는 분포.
Df = n -1
T 분포표 중앙이 t값 vs z분포표 중앙이 확률.
Tdist x : 2.262
5.
deg_~ : n-1 , talls(꼬리) : 1 or 2 → α값이 나오게 된다.
카이제곱 분포 : 표본집단의 분산을 가지고 하는 분포
내가 가진 표본집단의 분산이 모집단의 분산을 얼마나 잘 설명하는지 / 비대칭형 그래프
– 오른쪽부터 읽어야 한다 (30개 이상 시 정규분포 따른다).
=chilist(x, df) → 면적 ,
x는 카이제곱 값
=chiinv(probability, df) → 카이제곱 값
모분산의 구간추정
6.
f분포 ( 두 집단 분산 파악)
두 표본의 분산비
F = (집단 1의 분산 제곱)/(집단 2의 분산 제곱)
계산된 f 값 < f분포 값 → 통계적으로 동일 , 반대시 통계적으로 동일하지 않다.
=FDIST(F, df1, df2)
7.
모수 추정 문제
모수 추정 문제
1) 신뢰성 → 모수의 신뢰구간 설정으로 해결
신뢰구간 : 모수 포함할 것으로 기대되는 표본통계량 구간 (보통 95% 신뢰구간)
좋은 추정량 되기 위한 3가지의 조건
1.
2.
3.
불편향성 : 추정량 평균 = 모수
효율성 : 추정량의 분산이 낮으면 낮을수록 좋다.
일치성 : 표본크기가 많을수록 추정값과 모수값이 거의 일치한다.
이를 모두 만족할 시 불편향 추정량이라 한다.
2) 통계량의 진위여부 → 가설검증으로 해결
1.
제 1종의 오류(α) : 귀무가설 맞지만 기각하고 대립가설을 채택
2.
제 2종의 오류(β) : 귀무가설 틀린데 채택
실제
결정
결정
귀무가설 채택
귀무가설 기각
귀무가설이 진실
옳은 결정
α
귀무가설이 틀림
β
1- β
검정력 : 대립가설이 사실일 때 대립가설을 채택할 확률.
Download