Statistics,Visualization/R
R을 이용한 통계분석(상관 분석)
my_log
2021. 10. 16. 18:43
데이터 분석에서 변수 간의 관계를 파악하는 과정은 매우 중요합니다.
관계 파악을 빨리 끝낼수록 분석을 빠르게 진행 할 수있습니다.
이번에는 두 변수간의 선형관계를 파악하는 상관분석에 대해 간단하게 시각화 하며 알아보겠습니다.
- 공분산과 상관계수
- 공분산은 두 확률변수의 상관 정도를 나타내는 값이며 직관적이지만 분석 대상 데이터의 단위에 따라 공분산이 가지는 범위가 무한하다는 점이 한계점 입니다. 이러한 문제를 해결하기 위해서 만들어진 값이 상관계수입니다.
- 상관계수는 공분산을 각 확률변수의 표준편차로 나누어 단위를 통일시킨 값으로 0~1의 값을 가지게 됩니다. 대표적인 상관계수는 피어슨상관계수(Pearson Correlation)가 있습니다.
> 상관분석 진행
library(dplyr)
library(ggplot2)
DIR=read.csv("/Users/minyoung_jo/Desktop/R_data/archive/audi.csv")
Audi=DIR
Audi %>%
sample_n(size=1000,replace=FALSE) %>%
ggplot() +
geom_point(aes(x=mileage,y=price)) +
geom_smooth(aes(x=mileage,y=price)) +
theme_bw()
> 상관분석 결과
cor(Audi$mileage,Audi$price)
[1] -0.5353571
> 로그 변환 후 상관분석 진행
Audi %>%
sample_n(size=1000,replace=FALSE) %>%
ggplot() +
geom_point(aes(x=mileage,y=log(price))) +
geom_smooth(aes(x=mileage,y=log(price))) +
theme_bw()
> 로그 변환 후 상관분석 결과
cor(Audi$mileage,log(Audi$price))
[1] -0.6811704
결과해석
- 첫번째 결과는 raw_data자체로 상관분석을 진행 하였습니다. 시각화 자료를 보면 알수 있드시, 두 변수의 관계가 선형인지 의문스럽습니다. 이에 price데이터를 로그변환을 한 뒤 다시 상관분석을 진행 하였습니다.
- 두번째 결과는 price데이터에 로그변환을 한 뒤 상관분석을 한 결과입니다. 시각화 자료와 상관분석 결과 모두 향상 된것을 확인 할 수 있습니다.