Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 빅분기
- 파이썬
- 머신러닝
- Numpy
- 카카오
- 튜닝
- seaborn
- R
- level 2
- 코딩테스트
- pandas
- 실습
- 데이터 분석
- level 1
- matplotlib
- 프로그래머스
- 빅데이터 분석 기사
- python3
- 실기
- sklearn
- SQL
- Python
- 알고리즘
- Kaggle
- oracle
- 오라클
- Oracel
Archives
- Today
- Total
라일락 꽃이 피는 날
[Pandas] 통계 값 다루기 본문
728x90
통계값 보기 (describe)
통계값은 data type이 float이나 int형인 column만을 다룬다.

1. min(최솟값), max(최댓값)

df['키'].min() # 157.0
df['키'].max() # 181.5
2. sum(합계), mean(평균)
df['키'].sum() # 2557.3
df['키'].mean() # 170.48666666666668
3. var, variance(분산) / std, standard deviation (표준 편차)
분산과 표준 편차는 데이터가 평균으로부터 얼마나 떨어져 있는지 정도를 나타낸다.

data_01 = np.array([1, 3, 5, 7, 9])
data_02 = np.array([3, 4, 5, 6, 7])
data_01.var(), data_02.var() # (8.0, 2.0)
np.sqrt(data_01.var()), np.sqrt(data_02.var()) # (2.8284271247461903, 1.4142135623730951)
data_01.std(), data_02.std() # (2.8284271247461903, 1.4142135623730951)
df['키'].var() # 86.90980952380956
df['키'].std() # 9.322543082432473
4. count(개수)
df['키'].count() # 15
5. median(중앙값)
df['키'].median() # 175.0
6. mode(최빈값)
df['키'].mode() # 161.0
728x90
'데이터 분석 > Python' 카테고리의 다른 글
[Pandas] GroupBy (그룹으로 묶어 보기) (0) | 2021.04.26 |
---|---|
[Pandas] 피벗 테이블 (pivot_table) (0) | 2021.04.26 |
[Pandas] row, column 추가/제거 (0) | 2021.04.26 |
[Pandas] copy (복사) (0) | 2021.04.26 |
[Pandas] 결측값 (NaN) (0) | 2021.04.26 |