본문 바로가기
AI & Data

[Data Science] 피어슨 상관관계(Pearson Correlation)

by Henry Cho 2022. 11. 19.
728x90

피어슨 상관관계(Pearson Correlation)

포스트 난이도: HOO_Junior


# 피어슨 상관관계(Pearson Correlation)

 

피어슨 상관관계는 두 변수에 관계를 선형 데이터로 나타낸 방식을 의미한다. 데이터 사이언스에서 상관관계는 기본적으로 알고 있어야 하며, 피어슨 상관관계는 데이터를 다루는 데 있어서 가장 기본적으로 배우는 이론이다.

 

피어슨 상관 (계수) 관계는 Covariance(공분산)과 Standard deviation(표준 편차)을 사용하여 나타낼 수 있다. 여기서 비교되는 값은 두 개의 연속적인 변수를 의미한다. 한마디로 두 개의 서로 다른 연속성을 가진 데이터를 비교 분석을 피어슨 상관관계를 통해서 한다는 것이다.


# 피어슨 상관관계에서 무조건 선형이 아닐 수도 있다.

 

여기서 흥미로운 점은 선형 데이터로 표현을 하지만 피어슨 상관관계로 산출된 데이터가 선형이 아닐 수가 있다는 것이다. 피어슨 상관 관계가 선형으로 보이고 이를 선형 데이터로 표현한다고 말하는 이유는 연속성을 가진 수많은 데이터가 마치 하나의 선처럼 표현이 되기 때문이다. 따라서 두 개의 상관관계가 명확하지 않고 모호하다면 데이터들이 하나의 선 형태가 아니라 퍼져있는 점들로 보일 수 있다.


# 피어슨 상관관계의 수치

 

피어슨 상관관계 수치를 나타내는 기준은 아래와 같다.

  • Positive correlation: Correlation value > 0
  • Negative correlation: Correlation value < 0
  • No correlation: Correlation value = 0

# Correlation Coefficient(상관계수)

 

상관 계수는 선형 상관 관계에서 두 개의 상관관계가 얼마나 되는지를 수치적으로 표현한 것이다. 어렵게 생각할 필요 없이 수치가 음수인지 양수인지 또는 0 인지에 따라서 표현되는 선형 데이터가 어떻게 나타날지를 상관 계수를 통해 알 수 있다. 한마디로 피어슨 상관관계의 수치와 비슷한 개념이라고 생각하면 된다. 아래는 상관계수의 기준이다.

  • r = Correlation coefficient
  • r == 1 : Perfect straight line sloping up
  • r == -1: Perfect straight line sloping down
  • r == 0 : No visible trend => uncorrelated

 

728x90

댓글