일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Oracel
- pandas
- python3
- 빅데이터 분석 기사
- oracle
- 프로그래머스
- 튜닝
- 코딩테스트
- Kaggle
- Numpy
- sklearn
- level 1
- 머신러닝
- R
- 데이터 분석
- 파이썬
- 알고리즘
- 실습
- 실기
- seaborn
- SQL
- level 2
- matplotlib
- 오라클
- Python
- 빅분기
- 카카오
- Today
- Total
라일락 꽃이 피는 날
[Pandas] 결측값, 중복값 처리 본문
결측값 채우기 (fillna)
fillna() 함수를 이용하여 '키' 컬럼의 NaN 값을 –1로 채운다.
값을 유지하려면 inplace=True 옵션을 주거나, 채워 준 값을 다시 컬럼에 대입해야 한다.
결측값이 있는 행 제거 (dropna)
dropna() 함수로 결측값이 있는 행을 제거한다.
subset 옵션으로 컬럼을 선택할 수 있다.
axis 옵션으로 행이나 열을 제거한다.
axis=0: 행 제거 (기본)
axis=1: 열 제거
how 옵션
how='any': NaN이 한 개라도 있는 경우 행 제거 (기본)
how='all': 모두 NaN인 경우 행 제거
how='all' 옵션을 적용하기 위해, 행 하나를 모두 NaN 값으로 채운다.
how='all' 옵션으로 모두 NaN 값인 행을 제거한다.
중복된 값 제거 (drop_duplicates)
1. column의 중복값 제거
drop_duplicates 함수로 column의 중복값을 제거한다.
keep 옵션으로 유지하고 싶은 데이터를 선택한다.
keep='first': 가장 앞의 데이터를 유지하면서 컬럼의 중복 값 제거 (기본)
keep='last': 가장 뒤의 데이터를 유지하면서 컬럼의 중복 값 제거
2. 행 전체 제거 (drop_duplicates)
keep 옵션으로 유지하고 싶은 데이터를 선택한다.
keep='first': 가장 위의 행을 유지하면서 컬럼의 중복 값에 해당하는 행 제거 (기본)
keep='last': 가장 아래의 행을 유지하면서 컬럼의 중복 값에 해당하는 행 제거
'데이터 분석 > Python' 카테고리의 다른 글
[Pandas] dtype 변환 (0) | 2021.04.27 |
---|---|
[Pandas] DataFrame 합치기, 병합하기 (0) | 2021.04.27 |
[Pandas] Multi-Index (복합 인덱스) (0) | 2021.04.26 |
[Pandas] GroupBy (그룹으로 묶어 보기) (0) | 2021.04.26 |
[Pandas] 피벗 테이블 (pivot_table) (0) | 2021.04.26 |