https://www.kaggle.com/code/residentmario/creating-reading-and-writing
Creating, Reading and Writing
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
영어라서 다시 학습할 때 조금 버거워서 여기에 한글로 정리해두려고 한다.
Introduction
pandas는 데이터 분석에서 가장 유명한 라이브러리인데, 그걸 배울거다.
이 튜토리얼을 통해, 어떻게 너의 데이터를 만드는지 어떻게 데이터를 다루는지 배울 것이다.
Getting started
파이썬을 사용하기 위해서 아래와 같은 코드로 시작한다.
Creating data
pandas에 2가지 핵심 objects : DataFrame, Series
DataFrame
DataFrame은 테이블이다.
pd.DataFrame() 을 통해 생성한다. 열 형태로 생성한다. 행 이름은 기본적으로 0부터 카운트 되며 올라간다.
하지만 열 이름을 배정해주고 싶다면 ==> index를 사용하자.
Series
serires는 데이터 값들의 연속이다. 즉 list.
DataFrame의 열행렬이라고 생각하자. 그래서 label을 할당할 수 있다. ==> index parameter로!
그러나 Series는 열 이름이 없다.
Reading data files
우리가 직접 데이터를 만드는 것보다 이미 존재하는 데이터로 작업할 것이다.
CSV = Comma-Separated Values == 쉼표로 분리된 값들(테이블 형태)
pd.read_csv() : 데이터를 DataFrame으로 읽기 위한 함수
shape : DataFrame의 크기 attribute
head() : 5행을 보여준다.
index_col=0 : Unnamed 칼럼을 지워준다.
'Kaggle Learn' 카테고리의 다른 글
Data Visualization - Line Charts (0) | 2024.03.21 |
---|---|
Data Visualization - Hello, Seaborn (0) | 2024.03.21 |
Pandas - Data Types and Missing Values (0) | 2024.03.20 |
Pandas - Summary Functions and Maps (0) | 2024.03.20 |
Pandas - Indexing, Selecting & Assigning (0) | 2024.03.20 |