Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 오라클
- 파이썬
- SQL
- level 2
- 프로그래머스
- Numpy
- 튜닝
- 데이터 분석
- 카카오
- python3
- 빅분기
- R
- 머신러닝
- level 1
- Kaggle
- 실습
- oracle
- Oracel
- sklearn
- 코딩테스트
- 알고리즘
- Python
- 빅데이터 분석 기사
- seaborn
- 실기
- pandas
- matplotlib
Archives
- Today
- Total
라일락 꽃이 피는 날
Chi-Square (카이제곱 검정) 본문
728x90
Chi-Square (카이제곱 검정)
- 카이제곱검정은 어떤 범주형 확률변수 𝑋 가 다른 범주형 확률변수 𝑌 와 상관관계를 가지는지를 검증하는데 사용된다.
- 카이제곱검정을 독립을 확인하는데 사용하면 카이제곱 독립검정이라고 부른다.
- 만약 두 확률변수가 독립이라면 𝑋=0 일 때의 𝑌 분포와 𝑋=1 일 때의 𝑌 분포가 같아야 한다.
- 따라서 표본 집합이 같은 확률분포에서 나왔다는 것을 귀무가설로 하는 카이제곱검정을 하여 채택된다면 두 확률변수는 독립이고, 기각된다면 두 확률변수는 상관관계가 있는 것이다.
- 𝑋 의 값에 따른 각각의 𝑌 분포가 2차원 표(contingency table)의 형태로 주어지면 독립인 경우의 분포와 실제 y 표본분포의 차이를 검정통계량으로 계산하고, 이 값이 충분히 크다면 𝑋 와 𝑌 는 상관관계가 있는 것이다.
# 버전별 생존자의 수 합계
df.groupby('version').sum()
# 버전별 전체 유저의 수
df.groupby('version').count()
버전 별 분할표
import scipy as sp
obs1 = np.array([[20119, (45489-20119)], [20034, (44699-20034)]])
sp.stats.chi2_contingency(obs1)
카이제곱 독립검정의 유의확률은 7.5% 이다.
즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 없다.
obs2 = np.array([[8501, (44699-8501)], [8279, (45489-8279)]])
sp.stats.chi2_contingency(obs2)
카이제곱 독립검정의 유의확률은 0.1% 이다.
즉, 𝑋 와 𝑌 는 상관관계가 있다고 말할 수 있다.
게이트가 30에 있는지 40에 있는지 여부에 따라 7일 뒤 retention이 상관관계가 있는 것이다.
7일 뒤 retention 유지를 위하여 게이트는 30에 유지해야 한다.
728x90
'데이터 분석 > Python' 카테고리의 다른 글
Folium (0) | 2021.06.04 |
---|---|
형태소 분석기 (0) | 2021.06.03 |
T-test (T-검정) (0) | 2021.06.03 |
Bootstrapping (부트스트래핑) (0) | 2021.06.03 |
텍스트 마이닝 (0) | 2021.05.27 |