728x90
Pandas
Numpy 기반으로 개발된 데이터 분석도구.
pandas.Series -> 1차원 데이터 VS pandas.DataFrame -> 2차원 데이터
DataFrame
.values 속성 -> 데이터만 numpy array 형식으로 접근 가능
.columns -> Column의 이름 접근
.index -> Row의 이름 접근
df['새로운 열 이름'] = data 컬렉션 -> dataFrame에 새로운 열 추가
del df['기존 열 이름'] -> 기존 열 삭제
DataFrame에 함수 적용 => .apply(함수, axix = 정수) 로 사용
DataFrame에 NaN 처리
isnull(): NaN이나 None인 경우, True, 그 외엔 False
notnull(): isnull의 반대
dropna(): NaN이나 None을 소유한 행을 제외
fillna(): NaN이나 None을 특정 수로 채움
DataFrame에 groupby
그룹별로 통계 분석할 때 사용(반 별로 점수 매길 때)
df.groupby('반').mean() : 반별 평균 점수를 반환
df.groupby('칼럼이름').agg(함수) : 컬럼 이름이 같은 것들끼리 함수를 적용