본문 바로가기
AI & Data

[AI] Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법

by Henry Cho 2021. 12. 26.
728x90

Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법


포스트 난이도: HOO_Middle

 

[Notice] 포스트 난이도에 대한 설명

안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다

whoishoo.tistory.com


 

# Kaggle datasets

캐글(Kaggle)에서 프로젝트를 진행하거나 캐글에서 제공하는 예제를 직접 해보고 싶다면 캐글 데이터 셋을 이용하여 Machine learning을 돌려야 한다.

Machine learning을 돌리기 위해서는 특정 프로젝트의 캐글 데이터셋을 활용해야 하기 때문에 zip 파일이나 데이터 자체를 다운로드하여서 Local 환경에서 학습을 시킨다.

하지만 코랩(Colab)을 사용할 경우는 Cloud service 기반이기 때문에 데이터셋을 다운받아서 ML(Machine learning)을 하는 것이 아니라 특정 데이터셋을 사용할 것이라는 걸 코드로 작성해줘야 한다.

한마디로 Import 과정을 거쳐서 캐글의 특정 데이터셋을 가지고 오는 것이다.

 

# Kaggle 설치하기

캐글(Kaggle)에서 제공하는 데이터셋 API나 데이터셋 링크를 복사해서 붙여넣기하여 코랩(Colab)에서 바로 데이터셋 사용이 가능하면 좋겠지만 그렇게 쉽게 되지는 않는다.

일단은 코랩 서버에서 캐글 데이터셋을 불러온다고 가정했을때, 코랩 서버에서는 어떤 데이터셋인지 모르기 때문에 이 점을 코드 작성으로 알려줘야 한다.

한마디로 캐글에서 데이터셋을 사용할 것이라는 것을 캐글 설치를 통해 사용 권한을 가지고 와야 한다는 것이다.

로컬(Local) 환경에서는 한번만 세팅하면 되지만 코랩에서 새로운 notebook으로 작업을 할 시에는 매번 캐글 세팅을 해줘야 하는 상황이 발생할 수 있기 때문에 이 포스트를 즐겨찾기 해놓으면 캐글 프로젝트를 코랩 환경에서 하는데 도움이 될 것이다.

 

# Kaggle 설치 코드

!pip install -q kaggle

 

from google.colab import files
files.upload()

 

! mkdir ~/.kaggle

 

! cp kaggle.json ~/.kaggle/

 

! chmod 600 ~/.kaggle/kaggle.json

 

! kaggle datasets list

 

# Kaggle datasets 사용하는 방법

코랩(Colab)에서 캐글(Kaggle) 설치까지 끝냈다면 데이터셋 링크를 복사하여 입력해주면 된다.

원하는 프로젝트의 [Data]에 들어가면 데이터셋을 다운 받을 수 있는 링크가 있다.

해당 링크를 복사하여 코드에 작성해주면 데이터셋 다운이 시작된다.

앞서서 캐글 설치를 끝냈기 때문에 캐글 안에서 특정 데이터셋을 다운로드할 수 있도록 세팅이 되어 있다.

문제는 압축파일, zip 형태로 데이터셋이 다운되다보니, 데이터셋을 ML에 사용하기 위해서는 unzip 과정을 거쳐야 한다.

한마디로 로컬 환경에서 압축파일을 풀어주듯이 코랩 환경에서 내 코랩 서버 안에 존재하는 압축된 데이터셋을 풀어줘야 한다는 것이다.

 

!unzip train.zip

 

해당 코드를 통해 train.zip이라는 파일의 압축을 풀어줄 수 있다.

압축명이 train이 아닐 수도 있지만 대부분 학습 시켜야 하는 데이터셋을 train이라고 지정한다.

 

!unzip test.zip

 

train.zip의 압축을 풀어주고 나면 test할 test.zip 파일을 풀어주면 된다.

이렇게 train과 test할 데이터셋 압축이 모두 풀어주고 ML를 돌릴 수 있는 데이터셋이 코랩 안에 생성된다.


728x90

댓글