라일락 꽃이 피는 날

Chi-Square (카이제곱 검정) 본문

데이터 분석/Python

Chi-Square (카이제곱 검정)

eunki 2021. 6. 3. 17:40
728x90

Chi-Square (카이제곱 검정)

  • 카이제곱검정은 어떤 범주형 확률변수 𝑋 가 다른 범주형 확률변수 𝑌 와 상관관계를 가지는지를 검증하는데 사용된다.
  • 카이제곱검정을 독립을 확인하는데 사용하면 카이제곱 독립검정이라고 부른다.
  • 만약 두 확률변수가 독립이라면 𝑋=0 일 때의 𝑌 분포와 𝑋=1 일 때의 𝑌 분포가 같아야 한다.
  • 따라서 표본 집합이 같은 확률분포에서 나왔다는 것을 귀무가설로 하는 카이제곱검정을 하여 채택된다면 두 확률변수는 독립이고, 기각된다면 두 확률변수는 상관관계가 있는 것이다.
  • 𝑋 의 값에 따른 각각의 𝑌 분포가 2차원 표(contingency table)의 형태로 주어지면 독립인 경우의 분포와 실제 y 표본분포의 차이를 검정통계량으로 계산하고, 이 값이 충분히 크다면 𝑋 와 𝑌 는 상관관계가 있는 것이다.

 

# 버전별 생존자의 수 합계
df.groupby('version').sum()

 

 

# 버전별 전체 유저의 수
df.groupby('version').count()

 

 

버전 별 분할표

 

 

import scipy as sp

obs1 = np.array([[20119, (45489-20119)], [20034, (44699-20034)]])
sp.stats.chi2_contingency(obs1)

 

카이제곱 독립검정의 유의확률은 7.5% 이다.

즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 없다.

 

 

obs2 = np.array([[8501, (44699-8501)], [8279, (45489-8279)]])
sp.stats.chi2_contingency(obs2)

 

카이제곱 독립검정의 유의확률은 0.1% 이다.

즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 있다.

게이트가 30에 있는지 40에 있는지 여부에 따라 7일 뒤 retention이 상관관계가 있는 것이다.

7일 뒤 retention 유지를 위하여 게이트는 30에 유지해야 한다.

728x90

'데이터 분석 > Python' 카테고리의 다른 글

Folium  (0) 2021.06.04
형태소 분석기  (0) 2021.06.03
T-test (T-검정)  (0) 2021.06.03
Bootstrapping (부트스트래핑)  (0) 2021.06.03
텍스트 마이닝  (0) 2021.05.27