Statistics,Visualization
-
태블로를 이용한 데이터 시각화(3) - 도넛차트,라인 차트Statistics,Visualization/Tableau 2022. 5. 28. 16:58
태블로를 이용한 데이터 시각화 3번째 블로그는 기본적인 차트에서 작은 요소를 추가하여 다른 방향으로 제안하는 방법들을 살펴볼 예정이다. 데이터를 시각화하는 것은 복잡한 시각화보다는 단순한 시각화를 사용하는 경우가 더욱 많기에 간단하고 기본적인 요소들의 사용법을 상세하게 배울 예정이다! 도넛차트는 두개의 파이차트를 이중축 기능으로 하나의 모형으로 보여주는 형태이다. 도넛차트는 파이차트보다 더 많이 쓰이는데 그 이유는 가운데의 정보를 제공함으로 데이터에 대한 총 값을 요약하거나 해당 데이터에 대한 정보 인덱스를 제공하는데 유용하기 때문이다. 라인차트는 여러 기준선을 추가하면서 비교가 가능한데 해당 라인차트에서는 년도와 분기별 데이터로 최소/최대 값을 나타내지고 2가지 평균선을 제시하면서 추세를 확인할 수 있..
-
태블로를 이용한 데이터 시각화(2)- 이중축,Area chart,스파크라인Statistics,Visualization/Tableau 2022. 5. 18. 14:09
태블로를 이용하여 다양한 시각화 방법에 대해 결과물을 업로드 할 예정이다! 과정을 상세히 적는 것 보다는 기초적인 방법들을 학습한 뒤, 해당 내용을 바탕으로 응용하여 대시보드를 설계하고 기록할 예정이다. 앞에 게시물에 이어서 다양한 시각화 방법을 통해 구현된 결과물을 기록해보았다 이중축 차트 Area Chart 슬로프 차트 스파트라인 차트 캘린더차트 Scatter Plot 박스 플랏
-
태블로를 이용한 데이터 시각화(1)- 트리맵,하이라이트,캘린더Statistics,Visualization/Tableau 2022. 5. 15. 12:44
태블로를 이용하여 다양한 시각화 방법에 대해 결과물을 업로드 할 예정이다! 과정을 상세히 적는 것 보다는 기초적인 방법들을 학습한 뒤, 해당 내용을 바탕으로 응용하여 대시보드를 설계하고 기록할 예정이다. 트리맵을 이용한 고객 이름 데이터 중 '성' 데이터 시각화 -> 가장 많이 분포하는 성을 한눈에 파악할 수있으며 해당 빈도 및 비율정보까지 동시에 확인이 가능하다. 하이라이트를 이용한 월별 매출 시각화 -> 위에 보여지는 분기별 매출 데이터시트와 아래의 월별매출 데이터시트를 각각 만들어서 하나의 대시보드에 제공하는 방법이다. 두가지 큰 데이터를 하나의 대시보드에 나타내기에 함축적이면서 간단하게 데이터를 나타낼 수 있다. 캘린더형 데이터 시각화 -> 캘린더 형으로 매출 데이터를 색상으로 구별하며 나타낼 수..
-
SPSS를 이용한 통계분석_요인분석(Factor Analysis)Statistics,Visualization/SPSS 2021. 12. 18. 14:25
실무에서 자주 사용되는 컨조인트분석에 대해 알아보겠습니다. 목적 : 요인들의 차원을 줄여서 간소화 시키는 것 추출할 적정요인 결정 방법 고유값에 의한 적정요인 수 결정 고유값 : 한 요인이 몇 개의 변수들이 가지고있는 양만큼의 분산을 설명하는가를 나타내는 값. 요인의 고유값이 1이상인 요인만을 선정한다는 것은 요인이 적어도 입력변수 1개 이상의 변동을 설명할 수 있는 요인들만을 추출한다는 것을 의미한다. 연구목적 등 사전기준에 의한 적정요인 수 결정 전체 입력변수들이 가지고 있는 분산 전체의 일정비율을 기준으로 적정요인 수 결정 일반적으로 사회과학연구에서는 추출된 요인들이 전체 입력변수들이 가지고 있는 총분산의 60 %이상을 설명할 수 있으면 적절한 것으로 판단한다. 스크리테스트에 의한 적정요인 수 결정..
-
SPSS를 이용한 통계분석_Conjoint AnalysisStatistics,Visualization/SPSS 2021. 12. 17. 14:11
실무에서 자주 사용되는 컨조인트분석에 대해 알아보겠습니다. 컨조인트 분석은 쉽게 말해서 가능한 모든 조합을 만들어서 사용자들에게 제시하여 점수를 얻고 이를 기반으로 분석하는 기법입니다. 장점 효과적으로 속성 간의 상대적 중요도를 파악할 수 있다. 속성 수준을 조합하여 소비자가 원하는 가장 이상적인 상품을 구설할 수 있다. 이산적인 형태로 현실적으로 상품화가 가용한 속성수준으로 구성됨 상품 자체를 평가함으로써 보다 효과적으로 소비자의 효용을 추정할 수 있다. 단점 속성과 속성수준이 많으면, 정확한 효용을 추정하기 위해 사용해야 할 가상상품의 수가 너무 많아진다. 가상상품에 대한 선호 정도를 정확하게 평가하는데에는 한계가 있다. 사례 자동차 타이어 선택 시 고려하는 중요한 속성과 수준을 결정한다.(마모성,브..
-
SPSS를 이용한 통계분석_ANOVA(이원분산분석)Statistics,Visualization/SPSS 2021. 12. 17. 13:29
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다. 통계분석을 하는 의미가 어떠한 차이와 효과가 존재할때 그 '차이'가 과연 의미가 있는 수치인지 아닌지를 객관적으로 증명하는 것이 목적이라고 생각합니다. 분산분석은 여러 집단 간의 평균을 비교하는 분석방법이며 앞에서 소개해 드렸던 독립표본 t-test의 확장판이라고 생각 할 수 있습니다. 아래의 분산분석은 이원분산분석입니다. t-test : 2집단의 평균 비교, ANOVA : 3집단 이상의 평균비교 일원분산분석 vs 이원분산분석 주효과와 상호작용효과분석 : 각각의 독립변수가 종속변수에 미치는 영향 분석 2개의 독립변수가 동시에 작용하여 종속변수에 미치는 영향 분석 상호작용이 있는 경우 vs 없는 경우 : 상호작용이 없는 경우 꺾은선 그래프가 일정..
-
SPSS를 이용한 통계분석_상관분석,교차분석Statistics,Visualization/SPSS 2021. 12. 15. 18:25
상관분석의 정의 : 2개 변수들 간의 연관성을 파악하는 분석방법 변수의 척도 교차 분석 : 명목 및 서열척도 스피어만 서열상관분석 : 서열척도 제3변수의 통제 여부 : 등간 및 비율척도 통제하면 편상관분석 통제안하면 피어슨 상관분석 분산 → 공분산(Covariance)을 Normalize 하면 → 상관계수(Correlation coefficient) 공분산 : 등간이나 비율척도로 측정된 두 변수간의 공통된 분포를 나타내는 분산으로 두 변수 간의 선형적인 연관성 정도를 나타내는 대표적인 지표로 사용된다. 상관계수 : 두 변수 간의 선형적인 관계 정도와 방향을 수학적인 수치로 정량화하여 표시하는 지수, 표준화된 공분산 일반적으로 t분포를 이용하여 상관계수의 통계적 유의성을 검정한다. 가설을 검정하기 위해서는..
-
SPSS를 이용한 통계분석_회귀분석Statistics,Visualization/SPSS 2021. 11. 26. 19:53
통계분석에서 가장 대표적으로 사용되는 분석을 살펴보겠습니다. 결과에는 다양한 변수들이 영향을 주는데 유의미한 영향을 주는 변수를 판단하고, 영향력의 정도가 유의미한지 판단하여 해석하는 과정은 매우 중요하다고 생각합니다. 이론 및 개념 회귀분석 개념 독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법 (즉, 결과변수와 영향을주는 변수간의 선형적,비선형적으로 관계를 시각화하여 표현한 것.) 예시 매출액은 광고횟수에 따라 어떻게 변하는가? 제조환경을 개선함에 따라 생산량은 어느 정도 증가할 것인가? 담배판매량과 폐암환자수와의 관계는 어떠한가? 종류 독립변수의 수 : 단순회귀분석(1개) , 다중회귀분석(2개이상) 독립변수의 척도 :..