[Computer Vision] 공개형 학습 데이터셋: 로보플로우 (Roboflow)
퍼블릭 학습 데이터셋: 로보플로우 (Roboflow)
포스트 난이도: HOO_Middle
# 로보플로우(Roboflow)
욜로 (YOLO)를 다뤄본 적이 있는 브로라면 로보플로우 (Roboflow)에 대해서 많이 들어봤을 것이고 실제로 기본 예제로 제공해 주는 coco 라이브러리라든지 로보플로우에서 공개되어 있는 데이터셋을 사용해 본 적이 있을 것이다. 로보플로우는 컴퓨터 비전(Computer vision)의 개발과 데이터의 관리에 있어서 편리성을 제공해 주는 도구이자 하나의 데이터셋 플랫폼이다. 이미지 데이터 작업을 하는 데 있어서 기본적인 데이터셋을 제공해 줄 뿐만 아니라 라벨링 작업을 하는 것도 아이콘화된 도구들을 활용해서 쉽게 데이터 가공이 가능하다. 무엇보다 글쓴이가 좋아하는 부분은 사용할 개발 환경이나 라이브러리에 맞춰서 데이터를 가공하고 저장이 가능하기 때문에 데이터셋 구축하는 데 있어 매우 편리한 툴이다. 우리가 많이 사용하는 object detection이나 segmentation 등의 이미지 가공이 가능하기 때문에 학습을 하거나 아니면 연구 데이터셋을 구축하는 데 있어서 데이터 라벨링 작업을 수월하게 할 수 있다.
# 공개형 데이터셋 (Public dataset)
학습 목적으로 사용할 데이터셋의 경우 로보플로우 유니버스(Roboflow Universe) 메뉴를 통해서 원하는 이미지의 키워드를 입력하면 다른 사용자가 라벨링한 데이터를 활용할 수 있다. 마찬가지로 본인이 라벨링 한 데이터셋의 경우 유니버스를 통해서 공유가 되기 때문에 만약에 공개할 수 없는 데이터셋의 경우에는 로보플로우 사용에 있어서 유의해야 한다. 만약에 private 하게 데이터셋을 유지하고 싶다면 멤버십 플랜을 구입하여하기 때문에 이 부분을 잘 고려해야 한다. 특히 연구자들의 경우에는 공개된 데이터셋에 대한 연구 가치성이 떨어지기 때문에 이 부분에 대해서 유의할 필요성이 있다. 다만 연구 전 단계의 학습이나 기초 연구 단계에서는 큰 문제가 없기 때문에 무료 버전으로 라벨링을 해도 괜찮다고 본다.
# 로보플로우로 익숙해진 다음에 다른 플랫폼을 사용해도 좋다.
사실상 로보플로우 말고도 라벨링이 목적이라면 다른 플랫폼이나 서비스를 사용할 수 있다. 컴퓨터 비전 관련된 서비스들이 상당히 많아졌기 때문에 다른 플랫폼 서비스를 사용해도 괜찮다. 다만 다른 플랫폼들도 로보플로우와 비슷한 방식으로 데이터셋을 다루고 있고 로보플로우가 라벨링에 있어서 가장 편리하게 툴을 만들어놓았다는 점에서 우선적으로 로보플로우를 사용해보는 것을 추천한다. 글쓴이도 현재는 로보플로우 말고도 다른 라벨링 서비스도 사용하기 때문에 추후에 본인의 스타일에 맞는 서비스로 라벨링 작업을 해주면 된다. 만약에 라벨링이 목적이 아니라 공개형 데이터셋을 찾는 것이라면 로보플로우나 캐글(Kaggle)에서도 공개형 데이터셋을 쉽게 찾을 수 있으니 검색을 통해서 사용하면 된다. 로보플로우 사용에 대한 어려움이 있다면 댓글로 남겨주길 바란다.