Statistics,Visualization/SPSS

SPSS를 이용한 통계분석_회귀분석

my_log 2021. 11. 26. 19:53
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다.
결과에는 다양한 변수들이 영향을 주는데 유의미한 영향을 주는 변수를 판단하고,
영향력의 정도가 유의미한지 판단하여 해석하는 과정은 매우 중요하다고 생각합니다.

 

이론 및 개념 

회귀분석 개념 

독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는

선형모형을 산출하는 방법 (즉, 결과변수와 영향을주는 변수간의 선형적,비선형적으로 관계를 시각화하여 표현한 것.)

 

예시

  • 매출액은 광고횟수에 따라 어떻게 변하는가?
  • 제조환경을 개선함에 따라 생산량은 어느 정도 증가할 것인가?
  • 담배판매량과 폐암환자수와의 관계는 어떠한가?

종류

  • 독립변수의 수 : 단순회귀분석(1개) , 다중회귀분석(2개이상)
  • 독립변수의 척도 : 일반회귀분석(등간,비율척도), 더미변수를 이용한 회귀분석(명목,서열척도)
  • 독립변수와 종속변수의 관계 : 선형회귀분석 , 비선형회귀분석

전제조건

  • 특정한 독립변수값을 갖는 종속변수값들은 정규분포를 따르며 분산은 모두 동일해야함
  • 종속변수값들은 통계적으로 서로 독립적이어야 함
  • 독립변수들이 여러 개인 경우 이들 독립변수들 간에는 다중공선성이 존재하지 않아야 함

회귀식 (간단하게 핵심만)

총편차 : 회귀선으로도 설명할 수 없는 편차(잔차) + 회귀선으로 설명할 수 있는 편차

 

아래의 순차적인 그래프를 통해 확인할 수 있드시, 우리가 알고있는 회귀식은 2가지 차이제곱으로 구성된다. 

즉, 회귀식으로 설명할 수있는 편차 + 회귀식으로 설명할 수 없는 편차 

점들은 우리가 관측한 관측치, 빨간선은 관측치들의 평균
회귀식과 평균선 사이의 차이는 회귀식으로 설명할 수 있는 차이.
회귀선과 빨간 점 사이의 차이는 회귀식으로 설명할 수 없는 차이.(편차)
즉, 식으로 표현하면 위의 그래프와 같다. 

각 항들에 제곱을 씌어서 구해보면, 

총제곱합 = 회귀선으로 설명되지않는 제곱합 + 회귀선으로 설명되는 제곱합

SST = SSE + SSR 

R스퀘어 : 회귀선에서 설명되는 제곱합/총 제곱합 → 설명력의 지표가 될수 있다.(결과값에서 살펴보아야 할 지표)

SPSS 실습
SPSS Flow : 분석 -> 회귀분석 -> 선형 -> 종속,독립변수 입력 -> 도표선택

결과표에서는 R스퀘어 값이 0.676이며 이는 회귀선이 67.6% 설명력을 가진다고 할 수 있다. 결과값에 나온 비표준화계수에서 상수와 몸무게 결과를 통해 회귀선을 완성할 수 있다. (유의확률 0.00) 

 

SPSS에서 도표선택 시 옵션을 통해 추가적인 시각적 그래프를 확인할 수 있다. 

  • 해당 자료는 고려대학교 정의승 교수님의 연구방법론 수업자료및 실습 데이터를 참고로 하여 작성하였습니다.