본문 바로가기
Python

Pandas에 대해

by 가으더 2022. 3. 1.
728x90

Pandas

Numpy 기반으로 개발된 데이터 분석도구.

pandas.Series -> 1차원 데이터 VS pandas.DataFrame -> 2차원 데이터

 

DataFrame

.values 속성 -> 데이터만 numpy array 형식으로 접근 가능

.columns -> Column의 이름 접근

.index -> Row의 이름 접근

 

df['새로운 열 이름'] = data 컬렉션 -> dataFrame에 새로운 열 추가

del df['기존 열 이름'] -> 기존 열 삭제

 

DataFrame에 함수 적용 => .apply(함수, axix = 정수) 로 사용

 

DataFrame에 NaN 처리

isnull(): NaN이나 None인 경우, True, 그 외엔 False

notnull(): isnull의 반대

dropna(): NaN이나 None을 소유한 행을 제외

fillna(): NaN이나 None을 특정 수로 채움

 

DataFrame에 groupby

그룹별로 통계 분석할 때 사용(반 별로 점수 매길 때)

df.groupby('반').mean() : 반별 평균 점수를 반환

df.groupby('칼럼이름').agg(함수) : 컬럼 이름이 같은 것들끼리 함수를 적용

 

'Python' 카테고리의 다른 글

Numpy에 대해  (0) 2022.02.25