본문 바로가기
Computer Science/AI & Data

[Kaggle] Data Visualization: pd.read_csv, filepath

by Henry Cho 2022. 2. 9.
728x90

[Kaggle] Data Visualization: pd.read_csv, filepath


포스트 난이도: HOO_Middle

 

[Notice] 포스트 난이도에 대한 설명

안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다

whoishoo.tistory.com


 

# Set the Data Visualization

캐글(Kaggle)에서 데이터 시각화(Data visualization)를 구현하기 위해서는 우선적으로 기본 세팅이 필요하다.

아래의 코드는 Data visualization에 필요한 기본 세팅 코드이다.

import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")

위의 기본 코드는 캐글에서도 알려주는 기본 세팅 방법이기에 프로그래밍을 하는 과정을 수월하게 도와준다.

 


 

# filepath

기본적으로 Data visualization을 통해 시각화된 결과를 산출하고 싶다면 데이터가 있어야 하고 해당 데이터를 자신의 Notebook에 불러올 수 있어야 한다.

가장 많이 사용하는 기능이자 Data science 분야에 필요한 기능이 file path이다.

다른 프로그래밍 언어에서 특정 파일을 불러오는 기능을 사용했듯이 file path를 통해 데이터를 불러올 수 있다.

이번 포스트에서는 Data science 분야에서 많이 사용하는 .csv 파일을 캐글 Notebook에서 불러오고 읽는 방법을 살펴보자.

# 일부 예제 코드입니다.
HOO_filepath = "../input/top-100-cryptocurrency-2022/Top 100 Cryptocurrency 2022.csv"

https://www.kaggle.com/majyhain/top-100-cryptocurrency-2022

 

Top 100 Cryptocurrency 2022

Ranking the Top Cryptocurrency

www.kaggle.com


위의 예제코드는 일부만 가져온 코드이다.

위에서 사용한 데이터셋(Data sets)은 캐글에서 찾을 수 있는 데이터셋이며, 해당 데이터셋이 궁금하다면 링크를 통해 캐글에서 살펴볼 수 있다.

Anyway, 캐글에서 원하는 데이터셋을 불러오기 위해서는 데이터셋 추가(add)를 우선적으로 해야 한다.

데이터셋 추가는 본인의 Notebook에서 add 기능을 통해 어렵지 않게 할 수 있다.

데이터셋(Data sets)이 추가되고 나면 filepath 기능을 통해. csv로 된 데이터셋 위치를 코드로 정의할 수 있다.

이때 원하는 데이터셋 옆의 복사하기 버튼을 통해 filepath의 위치를 손쉽게 작성이 가능하다.

filepath는 정해져 있는 standard function은 아니다.

따라서 filepath라는 이름을 사용하지 않고도 데이터셋 위치 지정이 가능하다.

다만 실질적으로 프로그래밍하는 과정에서 변수명은 가독성을 높이는데 매우 중요한 역할을 한다.

따라서 filepath 명을 지정할 때는 관련된 키워드_filepath와 같은 방식으로 지정한다면 프로그래밍 과정에서 보다 더 효율적인 작업이 가능하다.

 


 

# pd.read_csv

Data visualization에서는 pandas를 이용하고 있다.

파일을 읽는 과정에서도 pandas의 기능을 활용하는데 그게 바로 pd.read_csv이다.

pandas 기능을 통해 csv 파일 형식을 읽을 것이라는 기능을 의미하며, 뒤에 filepath와 index_col, parse_dates 등을 설정해주면 된다.

예를 들어 아래와 같이 작성해주면 된다.

#일부 예제 코드입니다.
HOO_data = pd.read_csv(HOO_filepath, index_col="Ranking", parse_dates=True)

원하는 데이터셋이 산출되고 있는지 궁금하다면 언제든지 print 기능을 통해 쉽게 눈으로 확인이 가능하다.

 


 

728x90

댓글