Statistics,Visualization/R

R을 이용한 데이터시각화

my_log 2021. 10. 16. 18:37
데이터를 시각화하는 도구는 상당히 많이 존재합니다.
그 중에서 다양한 패키지와 기능을 포함한 R을 통한 데이터 시각화 과정을 살펴보겠습니다.
ggplot2를 활용

1. 막대그래프 

#ggplot2
#데이터 불러오기 
library(ggplot2)
DIR="/Users/minyoung_jo/Desktop/R_data/archive/audi.csv"
Audi=read.csv("/Users/minyoung_jo/Desktop/R_data/archive/audi.csv")

#빈 배경의 도화지 생성
ggplot()

#x축설정,geom_bar로 막대그래프생성
#theme_classic으로 배경을 깔끔하게 설정
ggplot(Audi,aes(x=year)) +
  geom_bar() + 
	theme_classic()

#글꼴수정
theme(axis.text.x=element_text(size=7,face="bold"),
        axis.text.y=element_text(size=8,face="bold"),
        axis.title.x=element_text(size=8,face="bold"),
        axis.title.y=element_text(size=7,face="bold")) 

#글꼴수정
	theme(text=element_text(size = 7,face="bold"))

#그래프 축 조정
#breaks는 축의 간격을 설정
#expand는 x축,y축 그래프사이의 공백을 조절 
  scale_x_continuous(breaks=seq(1990,2020,by=2),
                     expand = c(0,0))+
  scale_y_continuous(breaks=seq(0,4000,by=500),
                     expand = c(0,0))
#그래프 색상 조정
ggplot(Audi,aes(x= year, fill=transmission)) +

#그래프 범례 조정
ggplot(Audi,aes(x=year,fill=transmission)) +
  geom_bar() + 
	theme_classic() +
	theme(legend.position="bottom")

2.히스토그램

#geom_histogramg활용하기
#geom_histogram은 데이터를 30등분하여 표현(bins=n으로 설정)
ggplot(Audi,aes(x=price)) +
  geom_histogram(bins=100)+
  theme_classic()

#geom_histogram 색, 축조정 
ggplot(Audi,aes(x=price,fill=transmission)) +
  geom_histogram(bins=100)+
  theme_classic()+
	scale_x_continuous(expand=c(0,0))+
	scale_y_continuous(expand=c(0,0))

3.산점도

#geom_point 산점도
ggplot(Audi,aes(x=mpg,y=price))+
 geom_point()+
 theme_classic()

#geom_point 산점도 색 수정 
ggplot(Audi,aes(x=mpg,y=price,col=fuelType))+
 geom_point()+
 theme_classic()

4.회귀선

#회귀선추가 _곡선
ggplot(Audi,aes(x=mpg,y=price))+
  geom_point() +
  geom_smooth() +
  theme_classic()

#회귀선추가 _직선
ggplot(Audi,aes(x=mpg,y=price))+
  geom_point() +
  geom_smooth(method='lm') +
  theme_classic()

5. 박스플롯

#박스플롯
ggplot(Audi,aes(x=fuelType,y=price))+
  geom_boxplot(outlier.color="red") +
  theme_classic()

#박스플롯 색 지정
ggplot(Audi,aes(x=fuelType,y=price,fill=transmission))+
  geom_boxplot(outlier.color="red") +
  theme_classic()

 

가장 대표적으로 시각화에 자주 사용하기는 도표들을 넣어보았습니다.