데이터 분석에서 변수 간의 관계를 파악하는 과정은 매우 중요합니다.
회귀분석은 변수 간의 함수관계를 추정하는 분석이고 회귀분석의 목적은 변수들의 관계를 하나의 선으로 표현하는 것 입니다.
구체적인 통계적인 수식은 생략하고 R_code와 결과해석 위주로 설명하겠습니다.
- 회귀분석_lm()
- 회귀분석의 귀무가설은 '회귀선의 기울기=0'입니다.
- 회귀선의 기울기가 0이라면 독립변수를 아무리 변화 시켜도 종속변수에는 영향을 주지 않기 때문에 유의하지 않은 것으로 가설검정을 진행합니다.
> 회귀분석_lm
set.seed(1234)
SL=sample(1:nrow(Audi),nrow(Audi)*0.7,replace=FALSE)
Sample=Audi[SL,]
Reg1=lm(price~mileage,data=Sample)
summary(Reg1)
결과해석
- Call : 회귀분석에 활용된 종속변수와 예측자를 의미.
- Residual : 잔차를의미. (최솟값)-17758 , (최댓값) 108415 를 의미
- Coeffineints : 최소제곱법으로 계산괸 회귀선의 절편과 기울기에 대한 정보를 의미, intercept는 estimate의 회귀선의 절편, 유의확률로 귀무가설 (회귀선의기울기는0이다.)기각 결정.
- Residual standard error는 잔차의 표준 오차를 의미
- R-squared는 회귀선의 설명력을 의미
- F검정과 함께 회귀분석의 분산분석표에서의 유의확률
더 정확한 회귀선을 추정하기 위해서는 현재 추정한 회귀선의 문제점을 진단해야 합니다.
이러한 과정을 잔차분석이라고 합니다.
추정된 회귀선이 의미가 있으려면 잔차의 정규성,독립성,등분산성을 만족해야합니다.