본문 바로가기

728x90

데이터셋6

[Computer Vision] Data Augmentation (데이터 증강) Data Augmentation (데이터 증강) 포스트 난이도: HOO_Senior # Data augmentation이란 무엇인가요? 한국말로 데이터 증강이라고 불리는 Data augmentation은 쉽게 말해서 부족한 데이터 수를 반강제적으로 늘려주는 역할을 의미한다. 우리가 일반적으로 테스트 데이터가 부족하면 학습데이터에서 가져오지만 학습 데이터 자체가 부족해지면 결국 데이터를 더 수집하고 가공해줘야 한다. 이럴 때 데이터를 새롭게 수집하는 게 가장 기본적인 방법이지만 현실적으로 원시 데이터의 추가적인 수집과 가공 과정 자체가 어려울 수 있다. 이런 경우 우리는 Data augmentation 통해 데이터의 수를 마치 원래부터 많았던 것처럼 늘려주는 것이다. Data augmentation를 반강.. 2023. 10. 28.

[Computer Vision] 공개형 학습 데이터셋: 로보플로우 (Roboflow) 퍼블릭 학습 데이터셋: 로보플로우 (Roboflow) 포스트 난이도: HOO_Middle # 로보플로우(Roboflow) 욜로 (YOLO)를 다뤄본 적이 있는 브로라면 로보플로우 (Roboflow)에 대해서 많이 들어봤을 것이고 실제로 기본 예제로 제공해 주는 coco 라이브러리라든지 로보플로우에서 공개되어 있는 데이터셋을 사용해 본 적이 있을 것이다. 로보플로우는 컴퓨터 비전(Computer vision)의 개발과 데이터의 관리에 있어서 편리성을 제공해 주는 도구이자 하나의 데이터셋 플랫폼이다. 이미지 데이터 작업을 하는 데 있어서 기본적인 데이터셋을 제공해 줄 뿐만 아니라 라벨링 작업을 하는 것도 아이콘화된 도구들을 활용해서 쉽게 데이터 가공이 가능하다. 무엇보다 글쓴이가 좋아하는 부분은 사용할 개발.. 2023. 10. 25.

[Machine Learning] Training Dataset vs Testing Dataset Training Dataset vs Testing Dataset 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Dataset Machine learning을 돌리기 위해서는 학습할 데이터가 필요하다. 이러한 데이터들을 모아놓은 하나의 그룹을 우리는 데이터셋(Dataset)이라고 부른다. Machine learning에서 사용되는 데이터셋은 학습하는 데이터의 종류에 따라 이미지가 될 수도 있고 텍스트 파일이 될 수도 있다. Machine .. 2022. 7. 17.

[PyTorch] 데이터셋과 데이터로더 (Dataloader and Dataset) 데이터셋과 데이터 로더 (Dataloader and Dataset) 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Dataloader and Dataset 파이토치(PyTorch)에서 ML를 통해 데이터를 학습하고 관리하는 과정에서 데이터셋을 관리하는 기능이 필요하다. 파이토치의 데이터셋과 데이터 로더는 학습할 데이터셋부터 산출되는 결과의 데이터셋을 다루는 라이브러리이다. 데이터셋과 데이터로더 기능을 사용함으로써 데이터를 데이터셋으로 관.. 2022. 7. 12.

[Data Science] 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # 디렉토리, 파일명 위치 선언 데이터 사이언스(Data science) 프로젝트를 수행하다 보면, 한 가지 데이터셋을 사용하는 것이 아니라 수많은 데이터셋을 사용하는 경우가 종종 있다. 종류가 다른 데이터셋을 사용하지 않더라도 학습할 데이터셋과 결과로 산출할 데이터셋만 해도 최소 2가지 이상의 데이터셋을 코드 내에서 선언하여 사용해야.. 2022. 7. 8.

[AI] Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법 Colaboratory: 코랩(Colab)에서 캐글 데이터셋(Kaggle Datasets) 사용하는 방법 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Kaggle datasets 캐글(Kaggle)에서 프로젝트를 진행하거나 캐글에서 제공하는 예제를 직접 해보고 싶다면 캐글 데이터 셋을 이용하여 Machine learning을 돌려야 한다. Machine learning을 돌리기 위해서는 특정 프로젝트의 캐글 데이터셋을 활용해야 하기 때.. 2021. 12. 26.

이전 1 다음

728x90

티스토리툴바