본문 바로가기
Kaggle Learn

Pandas - Creating, Reading and Writing

by 가으더 2024. 3. 20.
728x90

https://www.kaggle.com/code/residentmario/creating-reading-and-writing

 

Creating, Reading and Writing

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

영어라서 다시 학습할 때 조금 버거워서 여기에 한글로 정리해두려고 한다.

 

Introduction

pandas는 데이터 분석에서 가장 유명한 라이브러리인데, 그걸 배울거다.

이 튜토리얼을 통해, 어떻게 너의 데이터를 만드는지 어떻게 데이터를 다루는지 배울 것이다.

 

Getting started

파이썬을 사용하기 위해서 아래와 같은 코드로 시작한다.

 

Creating data

pandas에 2가지 핵심 objects : DataFrame, Series

DataFrame

DataFrame은 테이블이다.

 

pd.DataFrame() 을 통해 생성한다. 열 형태로 생성한다. 행 이름은 기본적으로 0부터 카운트 되며 올라간다.

하지만 열 이름을 배정해주고 싶다면 ==> index를 사용하자.

Series

serires는 데이터 값들의 연속이다. 즉 list.

DataFrame의 열행렬이라고 생각하자. 그래서 label을 할당할 수 있다. ==> index parameter로!

그러나 Series는 열 이름이 없다.

 

Reading data files

우리가 직접 데이터를 만드는 것보다 이미 존재하는 데이터로 작업할 것이다.

CSV = Comma-Separated Values == 쉼표로 분리된 값들(테이블 형태)

 

pd.read_csv() : 데이터를 DataFrame으로 읽기 위한 함수

shape : DataFrame의 크기 attribute

head() : 5행을 보여준다.

index_col=0 : Unnamed 칼럼을 지워준다.