[Pandas] 결측값, 중복값 처리

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

라일락 꽃이 피는 날

[Pandas] 결측값, 중복값 처리 본문

데이터 분석/Python

[Pandas] 결측값, 중복값 처리

eunki 2021. 4. 26. 20:07

728x90

결측값 채우기 (fillna)

fillna() 함수를 이용하여 '키' 컬럼의 NaN 값을 –1로 채운다.

값을 유지하려면 inplace=True 옵션을 주거나, 채워 준 값을 다시 컬럼에 대입해야 한다.

결측값이 있는 행 제거 (dropna)

dropna() 함수로 결측값이 있는 행을 제거한다.

subset 옵션으로 컬럼을 선택할 수 있다.

axis 옵션으로 행이나 열을 제거한다.

axis=0: 행 제거 (기본)

axis=1: 열 제거

how 옵션

how='any': NaN이 한 개라도 있는 경우 행 제거 (기본)

how='all': 모두 NaN인 경우 행 제거

how='all' 옵션을 적용하기 위해, 행 하나를 모두 NaN 값으로 채운다.

how='all' 옵션으로 모두 NaN 값인 행을 제거한다.

중복된 값 제거 (drop_duplicates)

1. column의 중복값 제거

drop_duplicates 함수로 column의 중복값을 제거한다.

keep 옵션으로 유지하고 싶은 데이터를 선택한다.

keep='first': 가장 앞의 데이터를 유지하면서 컬럼의 중복 값 제거 (기본)

keep='last': 가장 뒤의 데이터를 유지하면서 컬럼의 중복 값 제거

2. 행 전체 제거 (drop_duplicates)

keep 옵션으로 유지하고 싶은 데이터를 선택한다.

keep='first': 가장 위의 행을 유지하면서 컬럼의 중복 값에 해당하는 행 제거 (기본)

keep='last': 가장 아래의 행을 유지하면서 컬럼의 중복 값에 해당하는 행 제거

728x90

'데이터 분석 > Python' 카테고리의 다른 글

[Pandas] dtype 변환 (0)	2021.04.27
[Pandas] DataFrame 합치기, 병합하기 (0)	2021.04.27
[Pandas] Multi-Index (복합 인덱스) (0)	2021.04.26
[Pandas] GroupBy (그룹으로 묶어 보기) (0)	2021.04.26
[Pandas] 피벗 테이블 (pivot_table) (0)	2021.04.26

'데이터 분석/Python' Related Articles

라일락 꽃이 피는 날

[Pandas] 결측값, 중복값 처리 본문

[Pandas] 결측값, 중복값 처리

'데이터 분석 > Python' 카테고리의 다른 글

티스토리툴바