확률과 통계 정리 - 확률변수와 확률분포
Jan 7, 2022
»
math
해당 포스팅은 고등학생때 배웠던 확률과 통계의 내용을 복습하기 위해서 만들어졌으며 포스팅의 내용들은 유튜브의 고등학교 수학 채널 수악중독의 확률과 통계 개념정리내용을 바탕으로 작성되었습니다.
1. 확률변수와 확률분포
- 확률변수는 표본공간을 정의역으로 하고 실수집합을 치역으로 매핑(대응)시켜주는 함수를 말합니다.
-
확률분포는 실수집합을 정의역으로 하고 확률값들을 치역으로 매핑(대응)시켜주는함수를 의미합니다.
- 확률변수의 기댓값(expectation value)
- 평균값은 전체 모수를 기준으로 한 대표값입니다.
- 기대값은 모수에서 뽑은 표본에 대한 대표값으로 가능성에 대한 평균값을 의미하며 예를 들어, 무작위 6명의 데이터로 100명의 성적을 미루어 짐작할 수 있습니다.
- 기댓값은 각자 대응하는 확률변수의 실수값과 확률값들을 모두 곱하여 더한값으로 표현이 가능합니다.
- $기댓값 = \sum^N_{i=1} 확률변수_i \times 확률값_i$
- $E(X) = \sum^N_{i=1}x_ip(x_i)$
- $E(aX +B) = aE(X) + b$
- 확률변수의 분산(variance)와 표준편차(standard deviation)
- 단순히 기댓값만으로는 두 표본집단의 특성을 모두 파악할 수 없기 때문에 사용되는 지표입니다.
- 평균과 관측값사이의 차인 편차를 통하여 데이터들이 기댓값($m$)으로부터 얼마나 떨어져 있는지 측정함으로써 표본집단의 특성을 파악합니다.
- 분산이 커질수록 데이터들이 평균으로부터 멀리 떨어져 있다는 의미입니다.
- $분산 = \frac{\sum^N_{n=1}(x_i - m)^2}{N}$
- $표준편차 = \sqrt{분산}$
- $V(X) = E[(X-m)^2]$
- $V(X) = E(X^2) - {E(X)}^2$
- $V(aX+b) = a^2V(X)$
이산형 확률변수와 이산형 확률분포
- 확률분포의 정의역 부분인 실수집합에서 셀 수 있는 값을 사용하는 이산형인 경우 이산형 확률분포 또는 확률질량함수라고 부르며 대표적인 분포로 이항분포가 존재합니다.
- 확률질량함수의 범위는 $0 \le P(X=x_i) \le 1 $ 입니다.
- 확률질량함수의 확률값을 모두 더하면 1이며 식으로는 $\sum^{n}_{i=1} P(X=x_i) = 1$입니다.
- $P(x_i \le X \le x_j) = \sum^j_{k=1} p_k$ , $j=1,2,3\cdots n,$ $i \le j$
이항분포(Binomial distribution)
-
관심사건 $A$가 있을 때, $n$번 독립시행하여 사건 $A$가 일어난 확률를 $p$ 확률변수로 하는 분포입니다.
-
이항분포의 확률질량함수 : $P(X=k) = _{n}\mathrm{C}_{k} \cdot p^k(1-p)^{n-k}$
-
$X \sim B(n,p)$의 의미는 확률변수 $X$가 이항분포를 따른다는 의미입니다.
$E(X) = np$
$V(X) = npq$, $(q = p-1)$
-
연속형 확률변수와 연속형 확률분포
- 만약 실수 집합이 셀 수 없는 값을 사용하는 연속형인 경우는 연속형 확률분포 또는 확률밀도함수 라고 말하며 대표적인 분포로 정규분포가 있습니다.
- 확률밀도함수 $f(x)$의 성질은 다음과 같습니다.
- $f(x) \geq 0$
- $\int^{\infty}_{-\infty} f(x)dx = 1$
정규분포(Normal distribution)
- 연속형 확률분포중에서 가장 대표적인 분포로 평균인 지점이 그래프의 정중앙으로 가장 확률이 높고 평균을 기준으로 대칭인 형태를 띄고 있습니다.
- 정규분포의 확률밀도함수 : $f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^2}{2\sigma^2}}$
- $X \sim N(m, \sigma^2)$의 의미는 확률변수 $X$가 정규분포를 따른다는 의미로 정규분포는 평균($m$)과 분산($\sigma^2$)에 의해서 형태가 결정되어집니다.
표준정규분포
- 표준정규분포는 서로 다른 형태의 분포를 표준화 $Z = \frac{X-m}{\sigma}$ 를 시켜주어서 분포를 통일시키고 차이를 비교하는데 사용되며 표준화를 거치면 평균이 0이고 표준편차가 1인 정규분포의 형태가 됩니다.