확률과 통계 정리 - 모집단과 표본
Jan 8, 2022
»
math
해당 포스팅은 고등학생때 배웠던 확률과 통계의 내용을 복습하기 위해서 만들어졌으며 포스팅의 내용들은 유튜브의 고등학교 수학 채널 수악중독의 확률과 통계 개념정리내용을 바탕으로 작성되었습니다.
1. 모집단과 표본
- 모집단은 연구자 또는 사용자가 알고 싶어하는 집단으로 일반적으로는 모집단의 특성을 알 수 있는 평균이나 분산은 직접적으로 측정할 수 없는 경우가 많습니다.
- ex) 한국 고등학교 3학년의 평균 키를 알고 싶을 때, 전국에 있는 고등학교 3학년의 키를 직접 다 잴 수는 없습니다.
- 모평균 : $E(X) = m$
- 모분산 : $V(X)$
- 모표준편차 : $\sigma(X) = \sqrt{V(X)}$
- 표본은 모집단의 특성을 파악하기 위해서 모집단의 부분집합으로 표본을 통하여 모집단의 특성, 성향을 추정할 수 있으며 이를 통계적 추정이라고 부릅니다.
- ex) 전국에 있는 고등학교 3학년 중에서 3,000명만 뽑아서 측정하는 것이 좀 더 현실적이고 효율적인 방법입니다.
- 표본은 뽑는 방법으로는 다음과 같습니다.
- 임의추출 : 모집단에서 무작위로 표본을 추출하는 방법으로 편향을 제거하기 위한 목적으로 사용됩니다.
- 복원추출 : 복원추출이면 뽑히는 데이터의 확률이 독립시행이기 때문에 다른 데이터가 뽑히는 확률에 영향을 주지 않습니다. 또한, 뽑는 표본의 개수가 커질수록 중복으로 뽑힐 확률도 적어지게 됩니다.
- 표본을 뽑을 때 마다 표본의 특성을 달라지게 되며 그로인해 표본평균과 표본분산또한 표본을 뽑을 때 마다 달라지게 됩니다.
- 표본평균 : $\bar{X}$
- 표본분산 : $s^2 = \frac{\sum(x_i - \bar{x})}{n-1}$
- 표본표준편차 : $s$
2. 표본평균의 특성
- 표본평균의 평균, 분산을 통하여 모집단의 평균인 모평균과 모집단의 분산인 모분산을 추정할 수 있습니다.
- 표본평균의 평균 : $E(\bar{X}) = m = E(X)$
- 표본평균의 분산 : $V(\bar{X}) = \frac{1}{n}V(X)$ , $n$은 표본의 개수, 크기를 의미합니다.
- 표본평균의 표준편차는 표준오차라고도 부릅니다.
- 모집단이 정규분포를 따르면 $X \sim N(m, \sigma^{2})$ 포본평균의 분포 또한 정규분포를 따릅니다. $\bar{X} \sim N(m, \frac{\sigma^2}{n})$
- 모집단의 분포가 정규분포가 아니여도 표본의 크기 $n$ 이 충분히 크면 중심극한정리에 의해서 정규분포에 근사하게 됩니다.
모평균의 추정
-
값을 추정하는 방법으로는 점추정과 구간추정이 존재하며 점추정의 경우 정확성이 구간추정보다 낮기 때문에 구간추정을 하는 것이 좋습니다.
-
신뢰도란 실제 모평균이 추정한 구간안에 들어올 확률로 일반적으로는 90%, 95%, 99%로 사용되어집니다.
-
모평균을 신뢰도 95%로 추정하는 경우 $P(-1.96 \leq Z \leq 1.96) = 0.95$ 로 추정이 가능하며 표본평균의 분포가 $\bar{X} \sim N(m, \frac{\sigma^2}{n})$ 을 따를 때, 표준화 $Z = \frac{\bar{X}-m}{\sqrt{\frac{\sigma^2}{n}}}$를 시켜주면 $Z \sim N(0,1)$ 의 분포를 따르게 되고 신뢰구간은 $P(-1.96 \leq \frac{\bar{X}-m}{\sqrt{\frac{\sigma^2}{n}}}) \leq 1.96$ 이며 이를 모평균 $m$ 에 대하여 정리하면 다음과 같습니다.
$P(\bar{X} - 1.96 \sqrt{\frac{\sigma^2}{n}}) \leq m \leq \bar{X} + 1.96 \sqrt{\frac{\sigma^2}{n}}) = 0.95$
- 여기서 1.96이라는 수치는 95% 신뢰구간의 신뢰도 계수를 의미합니다.
- 신뢰도를 유지한 상태로 표본의 크기가 커질수록 신뢰구간의 크기, 길이, 폭은 감소하게되고, 정확도는 증가하게 됩니다.