일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Oracel
- SQL
- 오라클
- Python
- matplotlib
- 빅분기
- 알고리즘
- sklearn
- 튜닝
- R
- 머신러닝
- 파이썬
- seaborn
- 실기
- pandas
- 카카오
- Numpy
- python3
- 프로그래머스
- level 2
- 데이터 분석
- level 1
- 빅데이터 분석 기사
- oracle
- 코딩테스트
- 실습
- Kaggle
- Today
- Total
목록데이터 분석/Python (72)
라일락 꽃이 피는 날
1. 배열 합치기 (concatenate) 기준이 되는 축을 따라 배열 순서를 결합한다. a = np.array([[1, 2], [3, 4]]) b = np.array([[5, 6]]) np.concatenate((a, b), axis=0) # array([[1, 2], # [3, 4], # [5, 6]]) np.concatenate((a, b.T), axis=1) # array([[1, 2, 5], # [3, 4, 6]]) np.concatenate((a, b), axis=None) # array([1, 2, 3, 4, 5, 6]) 2. 배열 나누기 (split) 배열을 여러 개의 하위 배열로 분할한다. numpy.split(ary, N) 축을 따라 N등분하여 분할한다. x = np.arange(9.0..
1. 제목 정제하기 1) 정규표현식(re)으로 한글 데이터만 남기기 import re # 한글데이터(가-힣)와 띄어쓰기(\s)가 아니면 빈 문자열로 치환 df_sorted['title_refined'] = df_sorted['title'].apply(lambda x: re.sub('[^가-힣\s]','',x)) 2) 공백만 있는 row 삭제 df_sorted = df_sorted[df_sorted['title_refined'].apply(lambda x: re.sub('[^가-힣]','',x)) != ''] 2. 제목 단어 추출 1) soynlp 설치 pip install soynlp 2) WordExtractor로 단어 점수 학습 from soynlp.word import WordExtractor wo..

Folium import folium folium.Map() : 지도 생성 - location=[위도,경도] : 지도의 중심점 - zoom_start : 처음 지도의 zoom 조절 folium.CircleMarker() : CircleMarker 생성 - radius : 반경 - color : 원 테두리 색상 - fill : 원 안을 채울 것인지(True), 채우지 않을 것인지(False) - fill_color : 원 안을 채울 색상 - popup : 원을 클릭했을 때 popup 내용 map = folium.Map(location=[37.5662994,126.9757564], zoom_start=18) folium.CircleMarker([37.5662994,126.9757564], radius=100..
형태소 분석기 꼬꼬마 http://kkma.snu.ac.kr/documents/ 한나눔 http://semanticweb.kaist.ac.kr/hannanum/index.html 트위터 https://github.com/twitter/twitter-korean-text !pip install konlpy from konlpy.tag import Hannanum from konlpy.tag import Twitter from konlpy.tag import Kkma hannanum=Hannanum() twitter=Twitter() kkma = Kkma() 꼬꼬마 형태소 분석기 문장을 형태소 단위로 분리하고 품사를 태깅한다. 품사태그는 일반명사(NNG), 고유명사(NNP), 동사(VV), 형용사(VA) 등..
Chi-Square (카이제곱 검정) 카이제곱검정은 어떤 범주형 확률변수 𝑋 가 다른 범주형 확률변수 𝑌 와 상관관계를 가지는지를 검증하는데 사용된다. 카이제곱검정을 독립을 확인하는데 사용하면 카이제곱 독립검정이라고 부른다. 만약 두 확률변수가 독립이라면 𝑋=0 일 때의 𝑌 분포와 𝑋=1 일 때의 𝑌 분포가 같아야 한다. 따라서 표본 집합이 같은 확률분포에서 나왔다는 것을 귀무가설로 하는 카이제곱검정을 하여 채택된다면 두 확률변수는 독립이고, 기각된다면 두 확률변수는 상관관계가 있는 것이다. 𝑋 의 값에 따른 각각의 𝑌 분포가 2차원 표(contingency table)의 형태로 주어지면 독립인 경우의 분포와 실제 y 표본분포의 차이를 검정통계량으로 계산하고, 이 값이 충분히 크다면 𝑋 와 𝑌 는 상관관..
T-test (T-검정) T Score t-score가 크면 두 그룹이 다르다는 것을 의미한다. t-score가 작으면 두 그룹이 비슷하다는 것을 의미한다. P-values p-value는 5% 수준에서 0.05 이다. p-values는 작은 것이 좋다. 이것은 데이터가 우연히 발생한 것이 아니라는 것을 의미한다. 예를 들어, p-value가 0.01 이라는 것은 결과가 우연히 나올 확률이 1%에 불과하다는 것을 의미한다. 대부분의 경우 0.05(5%) 수준의 p-value를 기준으로 삼는다. 이 경우 통계적으로 유의하다고 한다. from scipy import stats tTestResult = stats.ttest_ind(df_30['retention_1'], df_40['retention_1']) ..
Bootstrapping (부트스트래핑) # A그룹: gate_30 / B그룹: gate_40 # 각각의 A,B 그룹에 대해 bootstrapp된 means값의 리스트 생성 boot_1d = [] for i in range(1000): boot_mean = df.sample(frac = 1,replace = True).groupby('version')['retention_1'].mean() boot_1d.append(boot_mean) # list를 DataFrame으로 변환 boot_1d = pd.DataFrame(boot_1d) # A Kernel Density Estimate plot of the bootstrap distributions boot_1d.plot(kind='density') 위의 두..
1. 텍스트 데이터 전처리 1) 정규 표현식 적용 1-1) 영어 import re def apply_regular_expression(text): text = text.lower() # 대문자를 소문자로 변경 english = re.compile('[^ a-z]') # 띄어쓰기를 포함한 알파벳 (^: 어떤 규칙으로 시작한다는 문자열) result = english.sub('', text) # english 정규표현식을 text에 적용 result = re.sub(' +', ' ', result) # 띄어쓰기가 2개 이상인 경우, 하나의 공백 문자열로 변경 return result df['preprocessed_text'] = df['text'].apply(lambda x: apply_regular_exp..