s5unnyjjj's LOG

ML - Theory #1 : 선형회귀분석(Linear regression) 본문

Artificial Intelligence/Machine Learning

ML - Theory #1 : 선형회귀분석(Linear regression)

s5unnyjjj 2021. 3. 14. 11:35

선형회귀분석

정의 : 독립변수와 종속변수 사이의 관계

  • 독립변수: 연구자가 의도적으로 변화시키는 변수 ex) x1, x2, ...
  • 종속변수: 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수 ex) y(i)
  • e(i) : 오차 즉, 미리 알 수 없는 값
  • 회귀분석에는 단순회귀분석, 다중회귀분석이 있다.

▶ 단순회귀분석 (Simple linear regression model)

정의 : 독립변수가 1개 즉, 단일개가 존재하여, 1개의 독립변수와 종속변수와의 관계

▶ 다중회귀분석 (Multiple linear regression model)

정의 : 2개 이상의 독립변수와 종속변수와의 관계

 


선형회귀모델 훈련

선형 회귀 모델을 훈련시키기 위해서 선형 회귀를 아래와 같이 정의해준다.

  • n은 x의 수이다. 
  • x는 x(0)에서 x(n)까지의 값이 포함된 벡터 형태의 값이다.
  • h(theta)는 파라미터 theta를 이용한 가설(hypothesis) 함수이다. 

모델을 훈련시킨다는 것은 목표로 하는 값과의 차이를 줄이기 위해 훈련 데이터로 훈련을 시킴으로써 모델 파라미터를 설정하는 것이다. 우리는 어떤 실험을 하기 앞서서 현 모델을 분석하여 파악한 후, 실험에 들어간다. 그러므로 현 모델이 예측하는 값을 먼저 파악한다. 예를 들면 아래 그림과 같다. 

 

실제 정답은 초록색 동그라미 값이고, 훈련시키기 전 모델은 Y`이다. 즉 훈련시키기 전 모델이 정답인 초록색 동그라미 값이 되기 위해서는 그 둘의 값의 차이를 줄여야한다. 여기서는 그 둘의 차이를 e(i)라 한다. 

위 그림을 통해 우리는 현 모델을 파악하였다. 이제 모델이 정답에 가까워지도록 훈련시키기 위해서 우리는 최소제곱법을 사용한다. 최소제곱법을 사용하기 앞서서 평균 제곱 오차를 알아볼 것이며, 아래와 같다.

 

평균 제곱 오차(Mean square error, MSE)

모델 예측한 A 값과 목표로 하는 B값 간의 평균 오차 제곱합을 최소화 하는 것이다. 오차가 작아질수록 A과 B가 가까워진다는 것으로 정답에 가까워지고 있다는 것이다. 즉, 모델이 정답에 해당하는 값 또는 정답에 가까운 값을 예측하도록 모델의 파라미터 값을 최적의 파라미터 값과 같게 만들기 위하여 평균 제곱 오차를 이용한다.

 

평균 제곱 오차를 이용하여 식으로 표현하면 아래와 같다. 

 

최소제곱법 (Ordinary Least Squares, OLS)

 

최소제곱법을 이용하여 결과를 얻을 수 있는 수학 공식이 있다. 이를 정규방정식이라고 하며 아래와 같다. 위의 식이 나오게 된 방법은 본 글에서는 생략하기로 한다. 

 

위의 식을 통해 나온 OLS theta를 MSE 식의 theta값에 대입하면 Linear regression 문제를 해결할 수 있다.


>> 위 내용은 필자가 직접 작성한 내용입니다.

>> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다.

>> 긴 글 읽어주셔서 감사합니다. 

반응형
Comments