분류 전체보기
-
R을 이용한 통계분석(잔차 분석)Statistics,Visualization/R 2021. 10. 16. 18:56
앞의 과정에서 데이터 간의 관계를 선으로 표현하는 회귀분석을 살펴보았습니다. 이후 더 정확한 회귀선을 추정하기 위해서는 잔차분석이 이루어 져야 합니다. 아래의 3가지 과정을 통해 알아보겠습니다. 추정된 회귀선의 잔차 분석 잔차의 정규성 잔차의 독립성 잔차의 등분산성 > 잔차의 정규성 ggplot(NULL) + geom_histogram(aes(x=Reg1$residuals),bins=100) + theme_bw() + xlab("Residuals") > 잔차의 등분산성 ggplot(NULL) + geom_point(aes(Reg1$fitted.values,y=Reg1$residuals), alpha=0.4,col="grey20")+ geom_smooth(aes(Reg1$fitted.values,y=Reg..
-
R을 이용한 통계분석(회귀분석)Statistics,Visualization/R 2021. 10. 16. 18:50
데이터 분석에서 변수 간의 관계를 파악하는 과정은 매우 중요합니다. 회귀분석은 변수 간의 함수관계를 추정하는 분석이고 회귀분석의 목적은 변수들의 관계를 하나의 선으로 표현하는 것 입니다. 구체적인 통계적인 수식은 생략하고 R_code와 결과해석 위주로 설명하겠습니다. 회귀분석_lm() 회귀분석의 귀무가설은 '회귀선의 기울기=0'입니다. 회귀선의 기울기가 0이라면 독립변수를 아무리 변화 시켜도 종속변수에는 영향을 주지 않기 때문에 유의하지 않은 것으로 가설검정을 진행합니다. > 회귀분석_lm set.seed(1234) SL=sample(1:nrow(Audi),nrow(Audi)*0.7,replace=FALSE) Sample=Audi[SL,] Reg1=lm(price~mileage,data=Sample) s..
-
R을 이용한 통계분석(상관 분석)Statistics,Visualization/R 2021. 10. 16. 18:43
데이터 분석에서 변수 간의 관계를 파악하는 과정은 매우 중요합니다. 관계 파악을 빨리 끝낼수록 분석을 빠르게 진행 할 수있습니다. 이번에는 두 변수간의 선형관계를 파악하는 상관분석에 대해 간단하게 시각화 하며 알아보겠습니다. 공분산과 상관계수 공분산은 두 확률변수의 상관 정도를 나타내는 값이며 직관적이지만 분석 대상 데이터의 단위에 따라 공분산이 가지는 범위가 무한하다는 점이 한계점 입니다. 이러한 문제를 해결하기 위해서 만들어진 값이 상관계수입니다. 상관계수는 공분산을 각 확률변수의 표준편차로 나누어 단위를 통일시킨 값으로 0~1의 값을 가지게 됩니다. 대표적인 상관계수는 피어슨상관계수(Pearson Correlation)가 있습니다. > 상관분석 진행 library(dplyr) library(ggpl..
-
R을 이용한 데이터시각화Statistics,Visualization/R 2021. 10. 16. 18:37
데이터를 시각화하는 도구는 상당히 많이 존재합니다. 그 중에서 다양한 패키지와 기능을 포함한 R을 통한 데이터 시각화 과정을 살펴보겠습니다. ggplot2를 활용 1. 막대그래프 #ggplot2 #데이터 불러오기 library(ggplot2) DIR="/Users/minyoung_jo/Desktop/R_data/archive/audi.csv" Audi=read.csv("/Users/minyoung_jo/Desktop/R_data/archive/audi.csv") #빈 배경의 도화지 생성 ggplot() #x축설정,geom_bar로 막대그래프생성 #theme_classic으로 배경을 깔끔하게 설정 ggplot(Audi,aes(x=year)) + geom_bar() + theme_classic() #글꼴수정..
-
[Review]Toward a Theory of Situation Awareness in Dynamic SystemsErgonomics/Paper 2021. 10. 13. 00:24
Toward a Theory of Situation Awareness in Dynamic Systems MICA R. ENDSLEY, t Texas Tech University, Lubbock, Texas 목차 1. A model of Situation Awareness Theory 2. Human Properties Affection and Underlying SA 3. Task and System Factors 4. Errors In SA 내용 Introduction 기술이 발전함에따라 인간이 효율적이고 시기적절한 결정을 내리는데 부담을 주는 역동적이고 복잡한 시스템이 많이 만들어졌다. 이때 '운영자의 상황인식'은 이러한 시스템에서 의사결정과 performance 부분에서 핵심 역할을 할 것이다. S..
-
SPSS를 이용한 통계분석_ANOVA(일원분산분석)Statistics,Visualization/SPSS 2021. 10. 12. 23:35
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다. 통계분석을 하는 의미가 어떠한 차이와 효과가 존재할때 그 '차이'가 과연 의미가 있는 수치인지 아닌지를 객관적으로 증명하는 것이 목적이라고 생각합니다. 분산분석은 여러 집단 간의 평균을 비교하는 분석방법이며 앞에서 소개해 드렸던 독립표본 t-test의 확장판이라고 생각 할 수 있습니다. 아래의 분산분석은 일원분산분석입니다. t-test : 2집단의 평균 비교, ANOVA : 3집단 이상의 평균비교 검정을 하기위해 귀무가설과 대립가설을 세웁니다. 귀무가설 : 세집단의 평균은 모두 같다. vs 대립가설 : 모두 같지는 않다. 즉, 적어도 한개의 집단의 평균은 다르다. (not H0) Yij : i 번째 집단에서 j번째 관찰 SST = 전체 평균과의..
-
SPSS를 이용한 통계 분석_T-test(대응표본)Statistics,Visualization/SPSS 2021. 10. 12. 23:29
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다. 통계분석을 하는 의미가 어떠한 차이와 효과가 존재할때 그 '차이'가 과연 의미가 있는 수치인지 아닌지를 객관적으로 증명하는 것이 목적이라고 생각합니다. 대응표본T-test는 하나의 모집단에서 얻게되는 두 개의 수치를 비교하는 분석입니다. 대표적으로 만족도 혹은 인식도의 차이가 있는지, 효과에 대한 전후의 차이가 유의미한 차이인지 검정할때 사용됩니다. 앞의 독립표본 T-test에서는 등분산 검정을 실행하였지만 대응표본 T-test에서는 하나의 집단에서의 평균비교이기에 등분산 검정의 과정은 필요없습니다. Flow 귀무가설과 대립가설을 세웁니다. 귀무가설 : 처리 전과 후의 차이가 없다 , 대립가설: 처리 전과 후의 차이가 있다 정규분포를 가정합니다..
-
SPSS를 이용한 통계분석_ T test(독립표본)Statistics,Visualization/SPSS 2021. 10. 10. 18:59
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다. 통계분석을 하는 의미가 어떠한 차이와 효과가 존재할때 그 '차이'가 과연 의미가 있는 수치인지 아닌지를 객관적으로 증명하는 것이 목적이라고 생각합니다. 독립표본T-test는 서로 다른 '두'집단의 평균의 차이가 있는지를 검정하는 것 입니다. 여기서 '두'집단 이상 즉, 세집단 이상의 평균분석은 흔히 알고있는 'ANOVA'로 검정을 진행합니다.(ANOVA 관련된 글 참고 ) Flow 귀무가설과 대립가설을 세웁니다. 귀무가설 : 두 집단의 평균은 동일하다, 대립가설: 두 집단의 평균은 동일하지 않다 정규분포를 가정합니다. X1,X2가 정규분포를 따른다면, (X1-X2)표본분포도 정규분포를 따릅니다. (정규분포를 따르지 않더라도 중심극한정리에 의해 ..