Critical Thinkings of The Linear Regression
포스트 난이도: HOO_Senior
# Linear regression에서 고려해야 하는 것들
Linear regression에서 얻은 결과를 분석하는데 있어서 기본적으로 고려해야 될 것들이 있다. 마치 기본적으로 산출된 결과를 분석하는데 알아두어야 될 지침서와 비슷하다. 아래의 예시를 활용하면 산출된 결과를 분석하는데 매우 용이하다.
- Is there a relationship between X1 and Y?
- How strong is the relationship between X2 and Y?
- Which X contribute to Y?
- How accurately can we predict future Y?
- is the relationship linear?
- Is there synergy among the X?
위의 질문들을 살펴보면 X와 종속 변수인 Y 간의 관계를 살펴보는데 도움이 되는 내용이다. 우선 X값이 여러 개가 존재하기 때문에 질문에서 주어진 X값 외에도 다른 X값과 Y값을 비교 분석해야 한다. 예를 들어서 첫 번째 질문에서 X1과 Y의 관계를 알아보았다면, X2와 Y의 관계도 살펴봐야 한다는 것이다. 다음으로 모든 X와 Y는 관계를 가지고 있다. 심지어 아무 관계성이 없다고 산출된 결과마저도 결국에는 관계가 없다는 걸 입증하기 때문에 관계를 가지고 있는 셈이다. 따라서 우리는 얼마나 강한 상관관계를 가지는 지에 대해서도 살펴봐야 한다. 이에 해당되는 질문이 바로 2번째 질문인 "How strong is the relationship..."이다.
또한 각 X값들이 Y에 어떻게 기여하는지나 Y의 예측 값이 얼마나 정확한 지도 살펴봐야 한다. 정확도가 떨어진다는 것은 알고리즘 자체에 문제가 있을 수도 있고 아니면 또 다른 경우의 수를 고려하지 못했다는 것을 보여준다. 마지막으로 우리는 Linear regression을 사용하고 있기에 관계가 선형을 나타내고 있는지 X가 어떤 결과를 도출해내는지 등에 대해서도 분석하고 이해해야 한다. 이를 통해서 결과가 만족스럽지 않다면 모델을 수정하거나 변수를 수정해서 최적의 결과를 산출해 낸다.
# A single predictor X
선형 추정 모델을 만든다면 위와 같은 식을 활용할 수 있다는 걸 저번 포스트에서 알아보았다. 간단하게 다시 요약하자면 베타의 경우에는 unknown constants이며, 한국말로는 임의의 상수들에 해당한다. 그리고 이를 통해서는 우리는 intercept과 slope를 알아낼 수 있으며, coefficients와 parameters도 알아낼 수 있다. 마지막으로 엡실론은 모델에서 발생할 수 있는 에러 경우의 수를 나타낸다. 이때 우리는 추정하여 모델에 적용할 경우 아래와 같이 미래 예측값을 나타낼 수 있다.
여기서 hat symbol를 통해서 estimated value라고 표현이 가능하다.
댓글