Training Dataset vs Testing Dataset
포스트 난이도: HOO_Middle
# Dataset
Machine learning을 돌리기 위해서는 학습할 데이터가 필요하다.
이러한 데이터들을 모아놓은 하나의 그룹을 우리는 데이터셋(Dataset)이라고 부른다.
Machine learning에서 사용되는 데이터셋은 학습하는 데이터의 종류에 따라 이미지가 될 수도 있고 텍스트 파일이 될 수도 있다.
Machine learning에서 사용하는 Dataset type 종류로는 크게 4가지로 구분하는데 아래와 같다.
- Numerical data
- Text data
- Time series data
- Categorical data
# Training dataset vs Testing dataset
현재 Machine learning을 통해 사용하고 있는 Artificial intelligence 종류는 데이터 기반의 인공지능 프로그램이다.
그렇다 보니 ML을 하는 데 있어서 데이터셋은 필수적이다.
그중에서도 학습할 데이터만 필요한 것이 아니라 학습된 결과가 잘 이루어졌는지를 검증할 수 있는 데이터셋도 필요하다.
그것이 바로 Training dataset과 Testing dataset의 차이이다.
Training dataset은 ML을 통해 학습하는데 필요한 데이터셋을 의미한다.
반대로 Testing dataset은 학습된 결과가 제대로 산출되었는지를 검증하는 데이터셋에 해당한다.
먼저 Training dataset으로 Machine learning을 돌린다.
Training dataset에 제공되는 데이터를 토대로 프로그램은 ML을 시작한다.
ML이 끝나고 나서는 개발자 또는 사용자가 원하는 방향대로 학습이 이루어졌고 해당 프로그램이 원하는 결과를 제대로 산출해낼 수 있는지 파악하는 것이 중요하다.
그렇지 않으면 해당 프로그램을 사용할 경우 잘못된 결과가 정답이라고 나타낼 것이기 때문이다.
이때 검증하는데 필요한 것이 Testing dataset이다.
Testing dataset은 학습에 사용되지 않은 dataset이기에 Testing dataset을 통해서 제대로 학습이 되었는지를 판단할 수 있다.
한마디로 인공지능 프로그램이라는 학생이 Training dataset이라는 문제지를 통해서 공부를 하고 Testing dataset을 통해서 시험을 본다고 생각하면 된다.
'AI & Data' 카테고리의 다른 글
[Machine Learning] Train Test Size (0) | 2022.07.27 |
---|---|
[Data Science] Data Science vs Data Analyst vs Data Engineering (0) | 2022.07.18 |
[Machine Learning] Learning Rate(학습률) (0) | 2022.07.15 |
[Data Science] Side Project: HuBMAP + HPA (0) | 2022.07.15 |
[Data Science] 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 (0) | 2022.07.08 |
댓글