Notice
Recent Posts
Recent Comments
Link
라일락 꽃이 피는 날
Chi-Square (카이제곱 검정) 본문
728x90
Chi-Square (카이제곱 검정)
- 카이제곱검정은 어떤 범주형 확률변수 𝑋 가 다른 범주형 확률변수 𝑌 와 상관관계를 가지는지를 검증하는데 사용된다.
- 카이제곱검정을 독립을 확인하는데 사용하면 카이제곱 독립검정이라고 부른다.
- 만약 두 확률변수가 독립이라면 𝑋=0 일 때의 𝑌 분포와 𝑋=1 일 때의 𝑌 분포가 같아야 한다.
- 따라서 표본 집합이 같은 확률분포에서 나왔다는 것을 귀무가설로 하는 카이제곱검정을 하여 채택된다면 두 확률변수는 독립이고, 기각된다면 두 확률변수는 상관관계가 있는 것이다.
- 𝑋 의 값에 따른 각각의 𝑌 분포가 2차원 표(contingency table)의 형태로 주어지면 독립인 경우의 분포와 실제 y 표본분포의 차이를 검정통계량으로 계산하고, 이 값이 충분히 크다면 𝑋 와 𝑌 는 상관관계가 있는 것이다.
# 버전별 생존자의 수 합계
df.groupby('version').sum()

# 버전별 전체 유저의 수
df.groupby('version').count()

버전 별 분할표

import scipy as sp
obs1 = np.array([[20119, (45489-20119)], [20034, (44699-20034)]])
sp.stats.chi2_contingency(obs1)

카이제곱 독립검정의 유의확률은 7.5% 이다.
즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 없다.
obs2 = np.array([[8501, (44699-8501)], [8279, (45489-8279)]])
sp.stats.chi2_contingency(obs2)

카이제곱 독립검정의 유의확률은 0.1% 이다.
즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 있다.
게이트가 30에 있는지 40에 있는지 여부에 따라 7일 뒤 retention이 상관관계가 있는 것이다.
7일 뒤 retention 유지를 위하여 게이트는 30에 유지해야 한다.
728x90
'데이터 분석 > Python' 카테고리의 다른 글
| Folium (0) | 2021.06.04 |
|---|---|
| 형태소 분석기 (0) | 2021.06.03 |
| T-test (T-검정) (0) | 2021.06.03 |
| Bootstrapping (부트스트래핑) (0) | 2021.06.03 |
| 텍스트 마이닝 (0) | 2021.05.27 |