'Python' 태그의 글 목록 (18 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록Python (164)

라일락 꽃이 피는 날

[Pandas] 결측값, 중복값 처리

결측값 채우기 (fillna) fillna() 함수를 이용하여 '키' 컬럼의 NaN 값을 –1로 채운다. 값을 유지하려면 inplace=True 옵션을 주거나, 채워 준 값을 다시 컬럼에 대입해야 한다. 결측값이 있는 행 제거 (dropna) dropna() 함수로 결측값이 있는 행을 제거한다. subset 옵션으로 컬럼을 선택할 수 있다. axis 옵션으로 행이나 열을 제거한다. axis=0: 행 제거 (기본) axis=1: 열 제거 how 옵션 how='any': NaN이 한 개라도 있는 경우 행 제거 (기본) how='all': 모두 NaN인 경우 행 제거 how='all' 옵션을 적용하기 위해, 행 하나를 모두 NaN 값으로 채운다. how='all' 옵션으로 모두 NaN 값인 행을 제거한다. 중..

데이터 분석/Python 2021. 4. 26. 20:07

[Pandas] Multi-Index (복합 인덱스)

Multi-Index (복합 인덱스) 행 인덱스를 복합적으로 구성하고 싶은 경우에는 인덱스를 리스트로 만들어준다. 1. unstack 인덱스 레벨에서 컬럼 레벨로 dataframe을 변경한다. Multi-Index로 된 DataFrame을 다시 피벗 테이블로 변환할 수 있다. 2. stack 컬럼 레벨에서 인덱스 레벨로 dataframe을 변경한다. 즉, 데이터를 쌓아올리는 개념으로 이해하면 된다. 3. 인덱스 설정 (set_index) column 데이터를 index 레벨로 변경한다. 4. 인덱스 초기화 (reset_index) Multi-Index로 구성된 데이터 프레임의 인덱스를 초기화해준다.

데이터 분석/Python 2021. 4. 26. 20:00

[Pandas] GroupBy (그룹으로 묶어 보기)

GroupBy (그룹으로 묶어 보기) groupby는 데이터를 그룹으로 묶어 분석할 때 활용한다. 소속사별 키의 평균, 그룹별 키의 평균 등 특정 그룹별 통계 및 데이터의 성질을 확인할 때 유용하다. 산술통계는 자동으로 산술통계가 가능한 열만 출력한다. df.groupby('컬럼명') df.groupby(['컬럼명1', '컬럼명2']) 1. count (개수) 2. sum (합계) 3. mean (평균) 4. aggregate (집계) 이외에도 var(분산), std(표준 편차), min(최솟값), max(최댓값) 을 출력할 수 있다. index를 이용한 GroupBy index가 있는 경우, groupby 함수에 level을 사용할 수 있다. level은 index의 depth를 의미하며 가장 왼쪽에서..

데이터 분석/Python 2021. 4. 26. 19:52

[Pandas] 피벗 테이블 (pivot_table)

피벗 테이블 (pivot_table) 피벗 테이블은 엑셀의 피벗 테이블과 동일하다. 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 의미한다. 왼쪽에 나타나는 인덱스를 행 인덱스, 상단에 나타나는 인덱스를 열 인덱스라고 부른다. index: 행 인덱스 columns: 열 인덱스 values: 조회하고 싶은 값 중복되는 모호한 값이 있을 경우, aggregation 함수를 사용하여 값을 채운다. aggfunc=np.mean : 조회하는 값을 평균 값으로 계산 (기본) aggfunc=np.sum : 조회하는 값을 총 합계로 계산

데이터 분석/Python 2021. 4. 26. 19:45

[Pandas] 통계 값 다루기

통계값 보기 (describe) 통계값은 data type이 float이나 int형인 column만을 다룬다. 1. min(최솟값), max(최댓값) df['키'].min() # 157.0 df['키'].max() # 181.5 2. sum(합계), mean(평균) df['키'].sum() # 2557.3 df['키'].mean() # 170.48666666666668 3. var, variance(분산) / std, standard deviation (표준 편차) 분산과 표준 편차는 데이터가 평균으로부터 얼마나 떨어져 있는지 정도를 나타낸다. data_01 = np.array([1, 3, 5, 7, 9]) data_02 = np.array([3, 4, 5, 6, 7]) data_01.var(), dat..

데이터 분석/Python 2021. 4. 26. 19:39

[Pandas] row, column 추가/제거

1. row 추가 dictionary 형태의 데이터를 만들어 준 다음 append() 함수를 사용하여 row를 추가한다. 이 때, ignore_index=True 옵션을 같이 추가해 주어야 에러가 안 난다. append() 함수로 추가한 데이터를 다시 dataframe에 대입해줘야 변경한 값이 유지된다. 2. column 추가 ① [] 사용하여 추가하기 단순히 새로운 column을 만들고 값을 대입해주면 자동으로 생성된다. 전부 동일한 값이 추가되면서 column도 추가된다. ② insert 함수를 사용하여 원하는 위치에 추가하기 3. row 제거 drop()을 활용하여 row를 제거할 수 있다. row를 제거할 때는 제거하고자하는 index와 axis=0 옵션을 준다. inplace=True 옵션을 통..

데이터 분석/Python 2021. 4. 26. 19:28

[Pandas] copy (복사)

df를 새로운 변수(new_df)에 대입하고, '이름' 컬럼의 값을 0으로 변경한다. df를 다시 조회하면, 원래의 df 값도 같이 변경된 것을 볼 수 있다. 이렇게 되는 이유는 df와 new_df가 같은 메모리 주소를 참조하기 때문이다. 원본 데이터를 유지시키고, 새로운 변수에 df를 복사할 때는 copy() 함수를 사용한다. df를 다시 조회하면, 이번에는 값이 변경되지 않은 것을 볼 수 있다. df와 copy() 를 통해 복사한 copy_df의 메모리 주소는 다르다는 것을 알 수 있다.

데이터 분석/Python 2021. 4. 26. 19:11

[Pandas] 결측값 (NaN)

결측값 (NaN) Null 값은 비어있는 값을 말한다. pandas에서는 NaN(Not a Number) 으로 표기한다. 결측 값 다루기 True가 return 되는 값이 결측값(NaN) 이다. 결측값이 하나라도 있는 row에 대하여 Boolean 인덱싱 NaN 값에 대하여 Boolean 인덱싱 NaN 값만 색출해내기 NaN이 아닌 값에 대하여 Boolean 인덱싱 NaN이 아닌 값만 색출해내기

데이터 분석/Python 2021. 4. 26. 19:04

이전 Prev 1 ··· 15 16 17 18 19 20 21 Next 다음

목록Python (164)

라일락 꽃이 피는 날

티스토리툴바