Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법
포스트 난이도: HOO_Middle
# Kaggle datasets
캐글(Kaggle)에서 프로젝트를 진행하거나 캐글에서 제공하는 예제를 직접 해보고 싶다면 캐글 데이터 셋을 이용하여 Machine learning을 돌려야 한다.
Machine learning을 돌리기 위해서는 특정 프로젝트의 캐글 데이터셋을 활용해야 하기 때문에 zip 파일이나 데이터 자체를 다운로드하여서 Local 환경에서 학습을 시킨다.
하지만 코랩(Colab)을 사용할 경우는 Cloud service 기반이기 때문에 데이터셋을 다운받아서 ML(Machine learning)을 하는 것이 아니라 특정 데이터셋을 사용할 것이라는 걸 코드로 작성해줘야 한다.
한마디로 Import 과정을 거쳐서 캐글의 특정 데이터셋을 가지고 오는 것이다.
# Kaggle 설치하기
캐글(Kaggle)에서 제공하는 데이터셋 API나 데이터셋 링크를 복사해서 붙여넣기하여 코랩(Colab)에서 바로 데이터셋 사용이 가능하면 좋겠지만 그렇게 쉽게 되지는 않는다.
일단은 코랩 서버에서 캐글 데이터셋을 불러온다고 가정했을때, 코랩 서버에서는 어떤 데이터셋인지 모르기 때문에 이 점을 코드 작성으로 알려줘야 한다.
한마디로 캐글에서 데이터셋을 사용할 것이라는 것을 캐글 설치를 통해 사용 권한을 가지고 와야 한다는 것이다.
로컬(Local) 환경에서는 한번만 세팅하면 되지만 코랩에서 새로운 notebook으로 작업을 할 시에는 매번 캐글 세팅을 해줘야 하는 상황이 발생할 수 있기 때문에 이 포스트를 즐겨찾기 해놓으면 캐글 프로젝트를 코랩 환경에서 하는데 도움이 될 것이다.
# Kaggle 설치 코드
!pip install -q kaggle
from google.colab import files
files.upload()
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
! kaggle datasets list
# Kaggle datasets 사용하는 방법
코랩(Colab)에서 캐글(Kaggle) 설치까지 끝냈다면 데이터셋 링크를 복사하여 입력해주면 된다.
원하는 프로젝트의 [Data]에 들어가면 데이터셋을 다운 받을 수 있는 링크가 있다.
해당 링크를 복사하여 코드에 작성해주면 데이터셋 다운이 시작된다.
앞서서 캐글 설치를 끝냈기 때문에 캐글 안에서 특정 데이터셋을 다운로드할 수 있도록 세팅이 되어 있다.
문제는 압축파일, zip 형태로 데이터셋이 다운되다보니, 데이터셋을 ML에 사용하기 위해서는 unzip 과정을 거쳐야 한다.
한마디로 로컬 환경에서 압축파일을 풀어주듯이 코랩 환경에서 내 코랩 서버 안에 존재하는 압축된 데이터셋을 풀어줘야 한다는 것이다.
!unzip train.zip
해당 코드를 통해 train.zip이라는 파일의 압축을 풀어줄 수 있다.
압축명이 train이 아닐 수도 있지만 대부분 학습 시켜야 하는 데이터셋을 train이라고 지정한다.
!unzip test.zip
train.zip의 압축을 풀어주고 나면 test할 test.zip 파일을 풀어주면 된다.
이렇게 train과 test할 데이터셋 압축이 모두 풀어주고 ML를 돌릴 수 있는 데이터셋이 코랩 안에 생성된다.
'AI & Data' 카테고리의 다른 글
[Data Science] Audio data를 ML하는 2가지 방법 (0) | 2022.04.17 |
---|---|
[Kaggle] Data Visualization: pd.read_csv, filepath (0) | 2022.02.09 |
[AI] Pytorch: Colab에서 파이토치 사용하는 방법 (0) | 2021.12.24 |
[AI] Colaboratory: 코랩이란? | Colab (0) | 2021.12.17 |
[AI] Jupyter lab(주피터 랩)이란? | Jupyter lab과 Jupyter notebook 차이점 (0) | 2021.12.13 |
댓글