분류 문제 해결하기
이진 분류 문제 해결하기
1. 분류 문제의 종류
분류 문제에는 True / False 와 같이 둘중에 하나만을 선택하는 경우 이진 분류 문제라고 부르며 2개 이상으로 분류되어지는 문제를 다중 분류 문제라고 부릅니다.
각 분류문제의 특성에 따라서 사용되는 함수가 서로 다르게 사용되는 경우가 많습니다.
이진 분류 문제의 경우 로지스틱 회귀분석의 시그모이드 함수를 자주 사용하며 이 함수가 제대로 나누어 졌는지 평가하는 지표로써 이중 교차 엔트로피(binary cross entropy)를 사용합니다.
다중 분류 문제의 경우 소프트 맥스 함수를 사용하여 결과값들을 모두 0과 1사이의 값으로 만들어 주면서 각 범주들에서 나온 값들의 합은 1이 되도록 만들어줍니다.
다중 분류 문제가 모델을 통해서 제대로 분류가 되었는지 평가하는 지표로써는 교차 엔트로피(cross entropy)가 사용되어 집니다.
2. 로지스틱 회귀분석이란?
시그모이드 함수를 알기 위해서는 로지스틱 회귀식을 이해하여야 합니다.
기존의 회귀분석이 종속변수가 연속형 변수였다면 로지스틱 회귀분석에서는 종속변수가 0과 1사이의 값으로 예측되어집니다.
로지스틱 회귀분석의 결과는 0과 1사이의 확률를 반환되며 특정 임계값(threshold)를 정하여 일정 확률 이상이면 1로 분류하고 미만이면 0으로 분류되는 이진 분류 문제를 해결할 수 있습니다.
선형 회귀식과 로지스틱 회귀식의 또 다른 차이점은 선형 회귀식은 정규분포를 따르는데 반해, 로지스틱 회귀식의 조건부 확률의 분포가 이항 분포를 따릅니다.
3. 로지스틱 회귀식 알아보기
만일 종속변수가 $1$ 일 확률을 $P(y=1\vert x) $ 이 라고 할때, 로지스틱 회귀식은 다음과 같이 나타낼 수 있습니다.
$ LogOdds = \log{\frac{P(y=1\vert x)}{1-P(y=1\vert x)}} = \beta_O + \sum^{p}_{j=1}\beta_jx_j = \beta^TX$
로지스틱 모형 식에서 독립변수의 범위는 $[-\infty, \infty]$ 이므로 어느 숫자이든 상관없고 종속변수의 범위는 $[0, 1]$ 사이에 있도록 만들어야 합니다.
-
$Odds$란 성공 확률이 실패 확률에 비해서 몇 배 더 높은가를 나타내며 식으로는 아래와 같이 나타낼 수 있습니다.
$Odds = \frac{P(y=1\vert x)}{1-P(y=1\vert x)}, 0 \le Odds \le \infty$
오즈에 로그를 취하는 로짓 변환을 함으로써 입력값의 범위가 $[0, 1]$ 일때, 출력값의 범위를 $(-\infty, \infty)$ 으로 조정해줍니다.
$LogOdds = ln\frac{P(y=1\vert x)}{1-P(y=1\vert x)} = \beta^TX, -\infty\le LogOdds \le \infty$
-
실제로 구해야 하는 값은 $P(y=1\vert x)$ 이기 때문에 $LogOdds$ 를 $P(y=1 \lvert x)$에 대하여 정리하면 로지스틱 함수가 나오게 됩니다.
$e^{\beta^TX} = \frac{P(y=1\vert x)}{1-P(y=1\vert x)}$
$\frac{1}{e^{\beta^TX}} = \frac{1 - P(y=1\vert x)}{P(y=1\vert x)}$
$e^{-\beta^TX} = \frac{1}{P(y=1\vert x)} -1$
$1 + e^{-\beta^TX} = \frac{1}{P(y=1 \lvert x)}$
$P(y=1 \lvert x) = \frac{1}{1+e^{-\beta^TX}}$
결과적으로 로지스틱 회귀분석은 데이터가 0 또는 1이라는 범주에 속할 확률을 예측하기 위해서 사용되어 집니다.
4. 다중 분류 문제를 위한 소프트 맥스
소프트 맥스의 식은 다음과 같습니다.
$softmax(x) = \frac{e^{x_i}}{\sum^k_{j=0} e^{x_i}}, i = 0, 1, 2….k$
소프트 맥스(Softmax) 함수는 2가지 이상의 범주로 분류해야 할 때 사용되어지는 함수로 소프트 맥스가 가지는 특징은 2가지 입니다.
- 각 범주들의 결과값은 0과 1사이의 값을 가진다.
- 각 범주들의 결과값들을 모두 합하면 1이 된다.
5. 분류문제의 평가지표 교차 엔트로피
교차 엔트로피(Cross entropy)의 식은 다음과 같습니다.
$H(p,q) = -\sum p(x) log(q(x))$
교차 엔트로피는 분류문제의 비용함수로 가중치가 갱신되어 모델이 최적화에 도달할 수록 교차 엔트로피는 감소하게 됩니다.
교차 엔트로피가 비용함수로써 채택이 된 이유는 모델이 추론한 확률분포 $q(x)$와 실제 데이터의 분포 $p(x)$ 의 차이를 계산한 것이기 때문입니다.
이 두 분포의 차이가 적어질 수록 교차 엔트로피는 작아지게 되며 추론한 확률분포는 실제 분포에 근사한다고 볼 수 있습니다.