'데이터 분석' 태그의 글 목록 (6 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 분석 (139)

라일락 꽃이 피는 날

Heart Failure Prediction

https://www.kaggle.com/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 데이터 정보 age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_phosphokinase: 크레아틴키나제 검사 결과 diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨) ejection_fraction: 박출계수 (%) high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압) platelets: 혈소판 수 (kiloplatelets/mL) serum_creatin..

데이터 분석/실습 2021. 12. 22. 18:27

[Pandas] transform

transform groupby 후 transform 함수를 사용하면 원래의 index를 유지한 상태로 통계 함수를 적용한다. 전체 데이터의 집계가 아닌 각 그룹에서의 집계를 계산한다. 따라서 새로 생성된 데이터를 원본 dataframe과 합치기 쉽다. df.groupby('Pclass').transform(np.mean) df['Age2'] = df.groupby('Pclass').transform(np.mean)['Age'] df df['Age3'] = df.groupby(['Pclass', 'Sex']).transform(np.mean)['Age'] df

데이터 분석/Python 2021. 10. 7. 09:45

[Numpy] linalg

1. np.linalg.inv 역행렬을 구할 때 사용한다. 이때, 모든 차원의 값이 같아야 한다. x = np.random.rand(3, 3) np.linalg.inv(x) 행렬의 곱 (@) x @ np.linalg.inv(x) np.matmul(x, np.linalg.inv(x)) 2. np.linalg.solve Ax = B 형태의 선형대수식 솔루션을 제공한다. A = np.array([[1, 1], [2, 4]]) B = np.array([25, 64]) x = np.linalg.solve(A, B) # [18. 7.] np.allclose(A@x, B) # True

데이터 분석/Python 2021. 9. 8. 03:20

[Numpy] Boolean indexing

Boolean indexing ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링하여 반환한다. x = np.random.randint(1, 100, size=10) # [75 12 80 63 69 82 24 35 92 22] x[x % 2 == 0] # array([12, 80, 82, 24, 92, 22]) x[x 50)] # array([75, 12, 80, 63, 69, 82, 24, 92, 22])

데이터 분석/Python 2021. 9. 8. 03:15

[Numpy] ravel, flatten

1. ravel 다차원 배열을 1차원으로 변경한다. order='C' (row 우선 변경) / 'F' (column 우선 변경) x = np.arange(15).reshape(3, 5) np.ravel(x) # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) np.ravel(x, order='C') # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) np.ravel(x, order='F') # array([ 0, 5, 10, 1, 6, 11, 2, 7, 12, 3, 8, 13, 4, 9, 14]) 2. flatten 다차원 배열을 1차원으로 변경한다. ravel과 다르게 원본 데이터가 아닌 ..

데이터 분석/Python 2021. 9. 7. 23:48

[R] Hierarchical clustering (계층적 군집화)

Hierarchical clustering (계층적 군집화) 가장 가까운 데이터끼리 순차적(계층적)으로 묶어 나가는 군집화 기법 Hierarchical clustering process 1. 모든 데이터들 간의 거리 행렬(유사도 행렬) 생성 - 유클리드 거리 / 맨하탄 거리 / Correlation 2. 군집을 구성할 방법 선택 - 최단거리법 (single) / 최장거리법 (complete) / 평균기준법 (average) / 중앙중심법 (median) / Ward’s method 3. 군집화 데이터 확인 df % arrange(desc('Rape')) %>% slice(-1:-2) %>% column_to_rownames('rname') boxplot(df.rm.outlier) 유사도 행렬 생성 (유클..

데이터 분석/R 2021. 7. 8. 20:40

[R] K-means clustering (K-평균 군집화) 2

사진 데이터 불러오기 library(jpeg) img

데이터 분석/R 2021. 7. 8. 20:29

[R] K-means clustering (K-평균 군집화) 1

Clustering (군집화) 유사한 성질을 가지는 데이터 끼리 cluster(군집)를 나누는 과정 K-means clustering (K-평균 군집화) K개의 중심을 정하고, 그 중심을 기반으로 clustering하는 기법 K-means process 1. 랜덤하게 K개의 점을 찍고 각 점을 중심으로 데이터들을 할당 2. 할당된 군집에서 다시 중심점을 찾고 해당 중심점에서 가장 가까운 데이터로 재군집화 3. 군집에 할당된 데이터들이 바뀌지 않을 때 까지 2번의 과정을 반복 K 개수를 선택하는 방법 1. 사전 정보(domain knowledge)를 바탕으로 설정 2. Within Sum of square(WSS) 그래프에서 Elbow point로 설정 3. Silhouette method : 군집 내 거..

데이터 분석/R 2021. 7. 8. 20:21

이전 Prev 1 ··· 3 4 5 6 7 8 9 ··· 18 Next 다음

목록데이터 분석 (139)

라일락 꽃이 피는 날

티스토리툴바