일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Numpy
- 파이썬
- Oracel
- 카카오
- level 2
- pandas
- python3
- 프로그래머스
- 빅분기
- 머신러닝
- matplotlib
- 알고리즘
- R
- Kaggle
- Python
- oracle
- 빅데이터 분석 기사
- SQL
- 오라클
- level 1
- seaborn
- 실기
- 데이터 분석
- 실습
- sklearn
- 코딩테스트
- 튜닝
- Today
- Total
목록데이터 분석 (139)
라일락 꽃이 피는 날

https://www.kaggle.com/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 데이터 정보 age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_phosphokinase: 크레아틴키나제 검사 결과 diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨) ejection_fraction: 박출계수 (%) high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압) platelets: 혈소판 수 (kiloplatelets/mL) serum_creatin..
transform groupby 후 transform 함수를 사용하면 원래의 index를 유지한 상태로 통계 함수를 적용한다. 전체 데이터의 집계가 아닌 각 그룹에서의 집계를 계산한다. 따라서 새로 생성된 데이터를 원본 dataframe과 합치기 쉽다. df.groupby('Pclass').transform(np.mean) df['Age2'] = df.groupby('Pclass').transform(np.mean)['Age'] df df['Age3'] = df.groupby(['Pclass', 'Sex']).transform(np.mean)['Age'] df
1. np.linalg.inv 역행렬을 구할 때 사용한다. 이때, 모든 차원의 값이 같아야 한다. x = np.random.rand(3, 3) np.linalg.inv(x) 행렬의 곱 (@) x @ np.linalg.inv(x) np.matmul(x, np.linalg.inv(x)) 2. np.linalg.solve Ax = B 형태의 선형대수식 솔루션을 제공한다. A = np.array([[1, 1], [2, 4]]) B = np.array([25, 64]) x = np.linalg.solve(A, B) # [18. 7.] np.allclose(A@x, B) # True
Boolean indexing ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링하여 반환한다. x = np.random.randint(1, 100, size=10) # [75 12 80 63 69 82 24 35 92 22] x[x % 2 == 0] # array([12, 80, 82, 24, 92, 22]) x[x 50)] # array([75, 12, 80, 63, 69, 82, 24, 92, 22])
1. ravel 다차원 배열을 1차원으로 변경한다. order='C' (row 우선 변경) / 'F' (column 우선 변경) x = np.arange(15).reshape(3, 5) np.ravel(x) # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) np.ravel(x, order='C') # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) np.ravel(x, order='F') # array([ 0, 5, 10, 1, 6, 11, 2, 7, 12, 3, 8, 13, 4, 9, 14]) 2. flatten 다차원 배열을 1차원으로 변경한다. ravel과 다르게 원본 데이터가 아닌 ..
Hierarchical clustering (계층적 군집화) 가장 가까운 데이터끼리 순차적(계층적)으로 묶어 나가는 군집화 기법 Hierarchical clustering process 1. 모든 데이터들 간의 거리 행렬(유사도 행렬) 생성 - 유클리드 거리 / 맨하탄 거리 / Correlation 2. 군집을 구성할 방법 선택 - 최단거리법 (single) / 최장거리법 (complete) / 평균기준법 (average) / 중앙중심법 (median) / Ward’s method 3. 군집화 데이터 확인 df % arrange(desc('Rape')) %>% slice(-1:-2) %>% column_to_rownames('rname') boxplot(df.rm.outlier) 유사도 행렬 생성 (유클..
사진 데이터 불러오기 library(jpeg) img
Clustering (군집화) 유사한 성질을 가지는 데이터 끼리 cluster(군집)를 나누는 과정 K-means clustering (K-평균 군집화) K개의 중심을 정하고, 그 중심을 기반으로 clustering하는 기법 K-means process 1. 랜덤하게 K개의 점을 찍고 각 점을 중심으로 데이터들을 할당 2. 할당된 군집에서 다시 중심점을 찾고 해당 중심점에서 가장 가까운 데이터로 재군집화 3. 군집에 할당된 데이터들이 바뀌지 않을 때 까지 2번의 과정을 반복 K 개수를 선택하는 방법 1. 사전 정보(domain knowledge)를 바탕으로 설정 2. Within Sum of square(WSS) 그래프에서 Elbow point로 설정 3. Silhouette method : 군집 내 거..