데이터 분석/Python

[Pandas] 기본 정보, 통계 정보

eunki 2021. 4. 26. 17:02
728x90

1. 기본 정보 알아보기

 

index(행) 출력

df.index

 

 

 

column(열) 출력

df.columns

 

 

 

column(열) 순서 재배치

df = df[['그룹', '이름', '성별', '소속사', '키', '생년월일', '브랜드평판지수', '혈액형']]
df.columns

 

 

 

column(열) 이름 재정의

new_col = ['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수']
df.columns = new_col
df.columns

 

df = df.rename(columns={'이름':'name'})
df.columns

 

 

 

shape(형태) 출력

df.shape

 

 

 

컬럼들의 dtypes(데이터타입) 출력

df.dtypes

 

 

 

기본 정보(info) 출력

기본적인 row(행)의 정보와 데이터 타입을 알려준다.

주로 빠진 값(null)과 데이터 타입을 볼 때 활용한다.

df.info()

 

 

 

column(열)의 고유값

df['혈액형'].unique()

 

 

 

column(열)에 각각의 value가 몇개 있는지 확인

df['혈액형'].value_counts()

 

 

 


2. 통계 정보 알아보기

 

통계 정보(describe) 출력

데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 알려준다.

수치 데이터로 이루어진 컬럼만 출력된다.

df.describe()

 

 

 


3. 상위/하위 정보 보기

 

head(): 상위 5개 row 출력

tail(): 하위 5개 row 출력

df.head()

상위 5개의 행을 출력한다.

 

df.tail()

하위 5개의 행을 출력한다.

 

df.head(3)

상위 3개의 행을 출력한다.

 

df.tail(2)

하위 2개의 행을 출력한다.

 

 

 

랜덤으로 row 출력

df.sample(3)

랜덤으로 3개의 행을 출력한다.

728x90