[Kaggle] Data Visualization: pd.read_csv, filepath
포스트 난이도: HOO_Middle
# Set the Data Visualization
캐글(Kaggle)에서 데이터 시각화(Data visualization)를 구현하기 위해서는 우선적으로 기본 세팅이 필요하다.
아래의 코드는 Data visualization에 필요한 기본 세팅 코드이다.
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")
위의 기본 코드는 캐글에서도 알려주는 기본 세팅 방법이기에 프로그래밍을 하는 과정을 수월하게 도와준다.
# filepath
기본적으로 Data visualization을 통해 시각화된 결과를 산출하고 싶다면 데이터가 있어야 하고 해당 데이터를 자신의 Notebook에 불러올 수 있어야 한다.
가장 많이 사용하는 기능이자 Data science 분야에 필요한 기능이 file path이다.
다른 프로그래밍 언어에서 특정 파일을 불러오는 기능을 사용했듯이 file path를 통해 데이터를 불러올 수 있다.
이번 포스트에서는 Data science 분야에서 많이 사용하는 .csv 파일을 캐글 Notebook에서 불러오고 읽는 방법을 살펴보자.
# 일부 예제 코드입니다.
HOO_filepath = "../input/top-100-cryptocurrency-2022/Top 100 Cryptocurrency 2022.csv"
https://www.kaggle.com/majyhain/top-100-cryptocurrency-2022
위의 예제코드는 일부만 가져온 코드이다.
위에서 사용한 데이터셋(Data sets)은 캐글에서 찾을 수 있는 데이터셋이며, 해당 데이터셋이 궁금하다면 링크를 통해 캐글에서 살펴볼 수 있다.
Anyway, 캐글에서 원하는 데이터셋을 불러오기 위해서는 데이터셋 추가(add)를 우선적으로 해야 한다.
데이터셋 추가는 본인의 Notebook에서 add 기능을 통해 어렵지 않게 할 수 있다.
데이터셋(Data sets)이 추가되고 나면 filepath 기능을 통해. csv로 된 데이터셋 위치를 코드로 정의할 수 있다.
이때 원하는 데이터셋 옆의 복사하기 버튼을 통해 filepath의 위치를 손쉽게 작성이 가능하다.
filepath는 정해져 있는 standard function은 아니다.
따라서 filepath라는 이름을 사용하지 않고도 데이터셋 위치 지정이 가능하다.
다만 실질적으로 프로그래밍하는 과정에서 변수명은 가독성을 높이는데 매우 중요한 역할을 한다.
따라서 filepath 명을 지정할 때는 관련된 키워드_filepath와 같은 방식으로 지정한다면 프로그래밍 과정에서 보다 더 효율적인 작업이 가능하다.
# pd.read_csv
Data visualization에서는 pandas를 이용하고 있다.
파일을 읽는 과정에서도 pandas의 기능을 활용하는데 그게 바로 pd.read_csv이다.
pandas 기능을 통해 csv 파일 형식을 읽을 것이라는 기능을 의미하며, 뒤에 filepath와 index_col, parse_dates 등을 설정해주면 된다.
예를 들어 아래와 같이 작성해주면 된다.
#일부 예제 코드입니다.
HOO_data = pd.read_csv(HOO_filepath, index_col="Ranking", parse_dates=True)
원하는 데이터셋이 산출되고 있는지 궁금하다면 언제든지 print 기능을 통해 쉽게 눈으로 확인이 가능하다.
'AI & Data' 카테고리의 다른 글
[데이터 사이언스] 캐글 프로젝트(Kaggle Project): Foursquare - Location Matching (0) | 2022.06.11 |
---|---|
[Data Science] Audio data를 ML하는 2가지 방법 (0) | 2022.04.17 |
[AI] Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법 (0) | 2021.12.26 |
[AI] Pytorch: Colab에서 파이토치 사용하는 방법 (0) | 2021.12.24 |
[AI] Colaboratory: 코랩이란? | Colab (0) | 2021.12.17 |
댓글