일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 빅분기
- level 2
- Numpy
- 파이썬
- R
- sklearn
- 튜닝
- 카카오
- matplotlib
- 프로그래머스
- 실습
- pandas
- oracle
- SQL
- Oracel
- Kaggle
- 코딩테스트
- python3
- 알고리즘
- level 1
- 데이터 분석
- 머신러닝
- Python
- 빅데이터 분석 기사
- seaborn
- 오라클
- 실기
- Today
- Total
목록Python (164)
라일락 꽃이 피는 날
결측값 채우기 (fillna) fillna() 함수를 이용하여 '키' 컬럼의 NaN 값을 –1로 채운다. 값을 유지하려면 inplace=True 옵션을 주거나, 채워 준 값을 다시 컬럼에 대입해야 한다. 결측값이 있는 행 제거 (dropna) dropna() 함수로 결측값이 있는 행을 제거한다. subset 옵션으로 컬럼을 선택할 수 있다. axis 옵션으로 행이나 열을 제거한다. axis=0: 행 제거 (기본) axis=1: 열 제거 how 옵션 how='any': NaN이 한 개라도 있는 경우 행 제거 (기본) how='all': 모두 NaN인 경우 행 제거 how='all' 옵션을 적용하기 위해, 행 하나를 모두 NaN 값으로 채운다. how='all' 옵션으로 모두 NaN 값인 행을 제거한다. 중..
Multi-Index (복합 인덱스) 행 인덱스를 복합적으로 구성하고 싶은 경우에는 인덱스를 리스트로 만들어준다. 1. unstack 인덱스 레벨에서 컬럼 레벨로 dataframe을 변경한다. Multi-Index로 된 DataFrame을 다시 피벗 테이블로 변환할 수 있다. 2. stack 컬럼 레벨에서 인덱스 레벨로 dataframe을 변경한다. 즉, 데이터를 쌓아올리는 개념으로 이해하면 된다. 3. 인덱스 설정 (set_index) column 데이터를 index 레벨로 변경한다. 4. 인덱스 초기화 (reset_index) Multi-Index로 구성된 데이터 프레임의 인덱스를 초기화해준다.
GroupBy (그룹으로 묶어 보기) groupby는 데이터를 그룹으로 묶어 분석할 때 활용한다. 소속사별 키의 평균, 그룹별 키의 평균 등 특정 그룹별 통계 및 데이터의 성질을 확인할 때 유용하다. 산술통계는 자동으로 산술통계가 가능한 열만 출력한다. df.groupby('컬럼명') df.groupby(['컬럼명1', '컬럼명2']) 1. count (개수) 2. sum (합계) 3. mean (평균) 4. aggregate (집계) 이외에도 var(분산), std(표준 편차), min(최솟값), max(최댓값) 을 출력할 수 있다. index를 이용한 GroupBy index가 있는 경우, groupby 함수에 level을 사용할 수 있다. level은 index의 depth를 의미하며 가장 왼쪽에서..
피벗 테이블 (pivot_table) 피벗 테이블은 엑셀의 피벗 테이블과 동일하다. 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 의미한다. 왼쪽에 나타나는 인덱스를 행 인덱스, 상단에 나타나는 인덱스를 열 인덱스라고 부른다. index: 행 인덱스 columns: 열 인덱스 values: 조회하고 싶은 값 중복되는 모호한 값이 있을 경우, aggregation 함수를 사용하여 값을 채운다. aggfunc=np.mean : 조회하는 값을 평균 값으로 계산 (기본) aggfunc=np.sum : 조회하는 값을 총 합계로 계산
통계값 보기 (describe) 통계값은 data type이 float이나 int형인 column만을 다룬다. 1. min(최솟값), max(최댓값) df['키'].min() # 157.0 df['키'].max() # 181.5 2. sum(합계), mean(평균) df['키'].sum() # 2557.3 df['키'].mean() # 170.48666666666668 3. var, variance(분산) / std, standard deviation (표준 편차) 분산과 표준 편차는 데이터가 평균으로부터 얼마나 떨어져 있는지 정도를 나타낸다. data_01 = np.array([1, 3, 5, 7, 9]) data_02 = np.array([3, 4, 5, 6, 7]) data_01.var(), dat..
1. row 추가 dictionary 형태의 데이터를 만들어 준 다음 append() 함수를 사용하여 row를 추가한다. 이 때, ignore_index=True 옵션을 같이 추가해 주어야 에러가 안 난다. append() 함수로 추가한 데이터를 다시 dataframe에 대입해줘야 변경한 값이 유지된다. 2. column 추가 ① [] 사용하여 추가하기 단순히 새로운 column을 만들고 값을 대입해주면 자동으로 생성된다. 전부 동일한 값이 추가되면서 column도 추가된다. ② insert 함수를 사용하여 원하는 위치에 추가하기 3. row 제거 drop()을 활용하여 row를 제거할 수 있다. row를 제거할 때는 제거하고자하는 index와 axis=0 옵션을 준다. inplace=True 옵션을 통..
df를 새로운 변수(new_df)에 대입하고, '이름' 컬럼의 값을 0으로 변경한다. df를 다시 조회하면, 원래의 df 값도 같이 변경된 것을 볼 수 있다. 이렇게 되는 이유는 df와 new_df가 같은 메모리 주소를 참조하기 때문이다. 원본 데이터를 유지시키고, 새로운 변수에 df를 복사할 때는 copy() 함수를 사용한다. df를 다시 조회하면, 이번에는 값이 변경되지 않은 것을 볼 수 있다. df와 copy() 를 통해 복사한 copy_df의 메모리 주소는 다르다는 것을 알 수 있다.