[머신러닝] 상관분석 - 변수 간의 관계 (선형, 비선형)
상관분석(Correlation Analysis)
연속 변수로 측정된 두 변수간의 선형 관계를 분석하는 기법으로,
한 변수가 증가하면 다른 한 변수도 선형적으로 증가 혹은 감소하는지를 나타낸 것이다.
상관계수 (Correlation Coefficient)
두 변수 사이의 선형적인 관계 정도를 나타낸다. 계수는 상관관계 보고서에서 r로 기호화한다.
상관 계수 r은 -1과 1 사이의, 단위가 없는 값이다.
통계 유의성은 p-값으로 표기합니다. 따라서 상관관계는 보통 2개의 핵심 숫자인 r = 과 p = 로 표현한다.
값은 -1에서 1 사이의 값을 가지며, -1에 가까울 수록 두 변수가 음의 상관관계를,
1에 가까울 수록 두 변수가 양의 상관관계를 갖는다는 것을 의미합니다.
r = 0에 근접할 수록 선형관계가 약해진다. 이를 두 변수 간에 선형 관계가 없음을 의미한다고 하지만,
선형관계가 없다기 보단 선형적인 상관관계가 아니라고 말하는 것이 적절하다.
선형관계는 없지만 관계가 없다고 말 할 수 없기 때문이다.
선형 관계
변수간의 관계를 나타낸 개별 값들과 가장 오차가 나지 않는 선을 그었을 때 직선이 나타나는 경우를 말한다.
때문에 식으로 표현하자면 y = ax + b 로, 1차식이 나오게 된다.
원인 -> 결과가 하나의 방향으로만 흘러 원인에 대한 결과비가 일정하다.
비선형 관계
두 변수간에 비례하는 관계가 아니며 직선으로 표현 할 수 없는 관계를 말한다.
두 변수의 관계를 나타내는 기울기가 계속 변화한다.
원인 -> 결과가 양방향으로 흘러 원인에 대한 결과비가 일정하지 않고 시작점에 따라 다른 것을 말한다.
도움 받은 티스로리
1. 히트카운트팀 데이터분석이론 (3) 변수 간의 관계
04화 데이터분석이론(3) 변수 간의 관계
안녕하세요. 하트카운트 팀입니다. 이번에는 변수 간의 관계에 대한 이론을 다뤄 볼까 합니다. 사실 이 변수 간의 관계를 알고자 우리가 데이터를 분석하죠? 변수 간의 관계에는 선형 관계와 비
brunch.co.kr
나만 알고 싶은 상관계수 완벽 정리.zip | Statistics Playbook
오늘은 기초 통계 시간에 단골 손님인 상관계수에 대한 개념을 완벽하게 정리해보도록 하겠습니다. 이번 포스팅에서는 상관계수란 무엇인지, 상관계수와 공분산의 관계, 상관계수 계산 공식과
statisticsplaybook.com