Statistics,Visualization/R

R을 이용한 통계분석(상관 분석)

my_log 2021. 10. 16. 18:43
데이터 분석에서 변수 간의 관계를 파악하는 과정은 매우 중요합니다.
관계 파악을 빨리 끝낼수록 분석을 빠르게 진행 할 수있습니다.
이번에는 두 변수간의 선형관계를 파악하는 상관분석에 대해 간단하게 시각화 하며 알아보겠습니다.
  • 공분산과 상관계수 
    • 공분산은 두 확률변수의 상관 정도를 나타내는 값이며 직관적이지만 분석 대상 데이터의 단위에 따라 공분산이 가지는 범위가 무한하다는 점이 한계점 입니다. 이러한 문제를 해결하기 위해서 만들어진 값이 상관계수입니다.
    • 상관계수는 공분산을 각 확률변수의 표준편차로 나누어 단위를 통일시킨 값으로 0~1의 값을 가지게 됩니다. 대표적인 상관계수는 피어슨상관계수(Pearson Correlation)가 있습니다.
> 상관분석 진행 
library(dplyr)
library(ggplot2)
DIR=read.csv("/Users/minyoung_jo/Desktop/R_data/archive/audi.csv")
Audi=DIR

Audi %>%
  sample_n(size=1000,replace=FALSE) %>%
  ggplot() +
  geom_point(aes(x=mileage,y=price)) +
  geom_smooth(aes(x=mileage,y=price)) +
  theme_bw()
 
> 상관분석 결과 
cor(Audi$mileage,Audi$price)
[1] -0.5353571


> 로그 변환 후 상관분석 진행 
Audi %>%
  sample_n(size=1000,replace=FALSE) %>%
  ggplot() +
  geom_point(aes(x=mileage,y=log(price))) +
  geom_smooth(aes(x=mileage,y=log(price))) +
  theme_bw()
  
> 로그 변환 후 상관분석 결과
cor(Audi$mileage,log(Audi$price))
[1] -0.6811704

결과해석
  • 첫번째 결과는 raw_data자체로 상관분석을 진행 하였습니다. 시각화 자료를 보면 알수 있드시, 두 변수의 관계가 선형인지 의문스럽습니다. 이에 price데이터를 로그변환을 한 뒤 다시 상관분석을 진행 하였습니다.
  • 두번째 결과는 price데이터에 로그변환을 한 뒤 상관분석을 한 결과입니다. 시각화 자료와 상관분석 결과 모두 향상 된것을 확인 할 수 있습니다.