-
Logistic RegrssionAI/Machine Learning 2025. 2. 17. 21:55
Logistic Regression을 배우기 전에, 기존 회귀(Regression)가 분류(Classification) 문제에서 가지는 한계를 이해할 필요가 있다.
Regression의 한계 (Limitation of Regression for Classification)
기존의 선형 회귀(Linear Regression) 는 연속적인 값을 예측하는 데 적합하지만, 이진 분류(Binary Classification, {0,1}) 문제에 적용할 때 다음과 같은 한계가 있다.
1. 회귀 모델은 가우시안(Gaussian) 분포를 가정
- 선형 회귀는 일반적으로 정규 분포(Gaussian Distribution, N) 를 가정
- 이 식은 연속적인 확률 밀도 함수(PDF)를 따르지만, 이진 분류(0 또는 1)에서는 적절하지 않음.
2. 이진 분류에서는 타겟 값이 {0,1} 만 존재
- 선형 회귀는 연속적인 값을 출력하지만, 분류 문제에서는 0 또는 1만 출력해야 함.
- 하지만, 선형 회귀를 이진 분류 문제에 적용하면 예측값이 0과 1을 넘어서는 값을 가질 수 있음.
예: y = 1.2 또는 y = -0.5 같은 비논리적인 값이 나올 수 있음.
3. 확률적 모델이 필요함
- 우리가 원하는 것은 특정 입력 xx 에 대해 y=1 또는 y=0 일 확률을 추정하는 것.
- 즉, 다음과 같은 확률 모델이 필요: P(y=1∣x) or P(y=0|x)
- 선형 회귀는 확률적인 의미에서 올바르게 해석되지 않으며, 확률값을 출력하는 모델이 아님.
해결책: 로지스틱 회귀(Logistic Regression)
Logistic Regression은 위의 한계를 해결하기 위해 고안된 모델로, 다음과 같은 특징을 갖는다.
https://www.tpointtech.com/linear-regression-vs-logistic-regression-in-machine-learning - 출력값을 0~1 사이의 확률 값으로 제한
- 로지스틱 함수(시그모이드 함수, Sigmoid Function)를 사용하여 출력값을 확률값으로 변환.
- 즉, 0과 1 사이의 값만 출력하므로 이진 분류 문제에 적합함.
- 확률적 모델 기반의 분류 가능
- 로지스틱 회귀는 이진 분류 문제를 확률적 모델로 해석하여 다음과 같이 표현
3. 학습
- 선형 회귀는 MSE(Mean Squared Error)를 사용하지만, 로지스틱 회귀는 크로스 엔트로피 손실 함수(Cross Entropy Loss) 를 사용하여 학습.
'AI > Machine Learning' 카테고리의 다른 글
Linear Regression Part 1 (0) 2025.02.17 Clustering (0) 2025.02.17 Density Estimation (0) 2025.02.17 Machine Learning math background part 2 (0) 2025.02.13 Machine Learning math background (0) 2025.02.13