확률과 통계 정리 - 확률변수와 확률분포

» math

해당 포스팅은 고등학생때 배웠던 확률과 통계의 내용을 복습하기 위해서 만들어졌으며 포스팅의 내용들은 유튜브의 고등학교 수학 채널 수악중독의 확률과 통계 개념정리내용을 바탕으로 작성되었습니다.

1. 확률변수와 확률분포

image

  • 확률변수는 표본공간을 정의역으로 하고 실수집합을 치역으로 매핑(대응)시켜주는 함수를 말합니다.
  • 확률분포는 실수집합을 정의역으로 하고 확률값들을 치역으로 매핑(대응)시켜주는함수를 의미합니다.

  • 확률변수의 기댓값(expectation value)
    • 평균값은 전체 모수를 기준으로 한 대표값입니다.
    • 기대값은 모수에서 뽑은 표본에 대한 대표값으로 가능성에 대한 평균값을 의미하며 예를 들어, 무작위 6명의 데이터로 100명의 성적을 미루어 짐작할 수 있습니다.
    • 기댓값은 각자 대응하는 확률변수의 실수값과 확률값들을 모두 곱하여 더한값으로 표현이 가능합니다.
      • $기댓값 = \sum^N_{i=1} 확률변수_i \times 확률값_i$​
      • $E(X) = \sum^N_{i=1}x_ip(x_i)$
      • $E(aX +B) = aE(X) + b$​
  • 확률변수의 분산(variance)와 표준편차(standard deviation)
    • 단순히 기댓값만으로는 두 표본집단의 특성을 모두 파악할 수 없기 때문에 사용되는 지표입니다.
    • 평균과 관측값사이의 차인 편차를 통하여 데이터들이 기댓값($m$​)으로부터 얼마나 떨어져 있는지 측정함으로써 표본집단의 특성을 파악합니다.
    • 분산이 커질수록 데이터들이 평균으로부터 멀리 떨어져 있다는 의미입니다.
    • $분산 = \frac{\sum^N_{n=1}(x_i - m)^2}{N}$
    • $표준편차 = \sqrt{분산}$
    • $V(X) = E[(X-m)^2]$​
    • $V(X) = E(X^2) - {E(X)}^2$​
    • $V(aX+b) = a^2V(X)$​

이산형 확률변수와 이산형 확률분포

  • 확률분포의 정의역 부분인 실수집합에서 셀 수 있는 값을 사용하는 이산형인 경우 이산형 확률분포 또는 확률질량함수라고 부르며 대표적인 분포로 이항분포가 존재합니다.
    • 확률질량함수의 범위는 $0 \le P(X=x_i) \le 1 $ 입니다.
    • 확률질량함수의 확률값을 모두 더하면 1이며 식으로는 $\sum^{n}_{i=1} P(X=x_i) = 1$입니다.
    • $P(x_i \le X \le x_j) = \sum^j_{k=1} p_k$ , $j=1,2,3\cdots n,$ $i \le j$​

이항분포(Binomial distribution)

  • 관심사건 $A$가 있을 때, $n$번 독립시행하여 사건 $A$가 일어난 확률를 $p$ 확률변수로 하는 분포입니다.

    • 이항분포의 확률질량함수 : $P(X=k) = _{n}\mathrm{C}_{k} \cdot p^k(1-p)^{n-k}$​

    • $X \sim B(n,p)$​의 의미는 확률변수 $X$가 이항분포를 따른다는 의미입니다.

      $E(X) = np$

      $V(X) = npq$, $(q = p-1)$

연속형 확률변수와 연속형 확률분포

  • 만약 실수 집합이 셀 수 없는 값을 사용하는 연속형인 경우는 연속형 확률분포 또는 확률밀도함수 라고 말하며 대표적인 분포로 정규분포가 있습니다.
  • 확률밀도함수 $f(x)$​의 성질은 다음과 같습니다.
    • $f(x) \geq 0$​
    • $\int^{\infty}_{-\infty} f(x)dx = 1$​​

정규분포(Normal distribution)

  • 연속형 확률분포중에서 가장 대표적인 분포로 평균인 지점이 그래프의 정중앙으로 가장 확률이 높고 평균을 기준으로 대칭인 형태를 띄고 있습니다.
    • 정규분포의 확률밀도함수 : $f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^2}{2\sigma^2}}$
    • $X \sim N(m, \sigma^2)$​의 의미는 확률변수 $X$​가 정규분포를 따른다는 의미로 정규분포는 평균($m$)과 분산($\sigma^2$)에 의해서 형태가 결정되어집니다.

표준정규분포

  • 표준정규분포는 서로 다른 형태의 분포를 표준화 $Z = \frac{X-m}{\sigma}$ 를 시켜주어서 분포를 통일시키고 차이를 비교하는데 사용되며 표준화를 거치면 평균이 0이고 표준편차가 1인 정규분포의 형태가 됩니다.