확률과 통계 정리 - 모집단과 표본

Jan 8, 2022 » math

해당 포스팅은 고등학생때 배웠던 확률과 통계의 내용을 복습하기 위해서 만들어졌으며 포스팅의 내용들은 유튜브의 고등학교 수학 채널 수악중독의 확률과 통계 개념정리내용을 바탕으로 작성되었습니다.

1. 모집단과 표본

모집단은 연구자 또는 사용자가 알고 싶어하는 집단으로 일반적으로는 모집단의 특성을 알 수 있는 평균이나 분산은 직접적으로 측정할 수 없는 경우가 많습니다.
- ex) 한국 고등학교 3학년의 평균 키를 알고 싶을 때, 전국에 있는 고등학교 3학년의 키를 직접 다 잴 수는 없습니다.
- 모평균 : $E(X) = m$
- 모분산 : $V(X)$
- 모표준편차 : $\sigma(X) = \sqrt{V(X)}$
표본은 모집단의 특성을 파악하기 위해서 모집단의 부분집합으로 표본을 통하여 모집단의 특성, 성향을 추정할 수 있으며 이를 통계적 추정이라고 부릅니다.
- ex) 전국에 있는 고등학교 3학년 중에서 3,000명만 뽑아서 측정하는 것이 좀 더 현실적이고 효율적인 방법입니다.
- 표본은 뽑는 방법으로는 다음과 같습니다.
  - 임의추출 : 모집단에서 무작위로 표본을 추출하는 방법으로 편향을 제거하기 위한 목적으로 사용됩니다.
  - 복원추출 : 복원추출이면 뽑히는 데이터의 확률이 독립시행이기 때문에 다른 데이터가 뽑히는 확률에 영향을 주지 않습니다. 또한, 뽑는 표본의 개수가 커질수록 중복으로 뽑힐 확률도 적어지게 됩니다.
- 표본을 뽑을 때 마다 표본의 특성을 달라지게 되며 그로인해 표본평균과 표본분산또한 표본을 뽑을 때 마다 달라지게 됩니다.
  - 표본평균 : $\bar{X}$
  - 표본분산 : $s^2 = \frac{\sum(x_i - \bar{x})}{n-1}$
  - 표본표준편차 : $s$

2. 표본평균의 특성

표본평균의 평균, 분산을 통하여 모집단의 평균인 모평균과 모집단의 분산인 모분산을 추정할 수 있습니다.
- 표본평균의 평균 : $E(\bar{X}) = m = E(X)$
- 표본평균의 분산 : $V(\bar{X}) = \frac{1}{n}V(X)$ , $n$은 표본의 개수, 크기를 의미합니다.
- 표본평균의 표준편차는 표준오차라고도 부릅니다.
모집단이 정규분포를 따르면 $X \sim N(m, \sigma^{2})$ 포본평균의 분포 또한 정규분포를 따릅니다. $\bar{X} \sim N(m, \frac{\sigma^2}{n})$
모집단의 분포가 정규분포가 아니여도 표본의 크기 $n$ 이 충분히 크면 중심극한정리에 의해서 정규분포에 근사하게 됩니다.

모평균의 추정

값을 추정하는 방법으로는 점추정과 구간추정이 존재하며 점추정의 경우 정확성이 구간추정보다 낮기 때문에 구간추정을 하는 것이 좋습니다.
신뢰도란 실제 모평균이 추정한 구간안에 들어올 확률로 일반적으로는 90%, 95%, 99%로 사용되어집니다.
모평균을 신뢰도 95%로 추정하는 경우 $P(-1.96 \leq Z \leq 1.96) = 0.95$ 로 추정이 가능하며 표본평균의 분포가 $\bar{X} \sim N(m, \frac{\sigma^2}{n})$ 을 따를 때, 표준화 $Z = \frac{\bar{X}-m}{\sqrt{\frac{\sigma^2}{n}}}$를 시켜주면 $Z \sim N(0,1)$ 의 분포를 따르게 되고 신뢰구간은 $P(-1.96 \leq \frac{\bar{X}-m}{\sqrt{\frac{\sigma^2}{n}}}) \leq 1.96$ 이며 이를 모평균 $m$ 에 대하여 정리하면 다음과 같습니다.

$P(\bar{X} - 1.96 \sqrt{\frac{\sigma^2}{n}}) \leq m \leq \bar{X} + 1.96 \sqrt{\frac{\sigma^2}{n}}) = 0.95$
- 여기서 1.96이라는 수치는 95% 신뢰구간의 신뢰도 계수를 의미합니다.
- 신뢰도를 유지한 상태로 표본의 크기가 커질수록 신뢰구간의 크기, 길이, 폭은 감소하게되고, 정확도는 증가하게 됩니다.