캐글 타이타닉(Titanic Machine Learning Competition) #02
포스트 난이도: HOO_Junior
# 프로젝트에서 요구하는 내용을 파악한다
프로젝트에서 제공하는 데이터들의 파악이 끝났다면 해당 데이터를 기반으로 요구하는 내용을 파악하여 코드를 작성하는 것이 중요하다. 데이터 사이언스는 다양한 데이터를 활용해야 하기 때문에 코드 작성에 앞서서 프로젝트를 어떤 식으로 기획해서 목표를 이룰 것인지가 중요하다. 이 점이 완벽히 되지 않는다면 프로젝트 마무리가 될 수가 없다. 한마디로 머릿속에서 데이터를 어떻게 활용해서 결과를 산출해낼 것인지에 대한 정리가 이루어져 있어야 한다는 것이다.
우선 캐글 타이타닉 프로젝트에서는 3개의 데이터셋을 제공한다.
- gender_submission.csv
- test.csv
- train.csv
데이터셋들의 위치는 kaggle/input에 있기 때문에 별도의 location 설정을 하지 않아도 된다. 위의 3개의 데이터셋을 이용해서 타이타닉에서 생존할 수 있는 생존자를 예측해내야 한다.
# train.csv와 test.csv
데이터 사이언스 프로젝트에서 언제나 존재하는 데이터셋은 train.csv와 test.csv이다. train.csv는 Machine learning을 통해 컴퓨터가 학습할 데이터에 해당한다. 한마디로 이미 발생한 문제나 결과에 따른 결과적 수치를 포함하고 있는 데이터셋에 해당한다. 반면에 test.csv는 ML(Machine learning)을 통해서 학습한 모델을 테스트하는 데 사용되는 데이터셋에 해당한다. 타이타닉 프로젝에서는 train.csv를 통해서 얻어진 생존자들의 특징을 고려해서 test.csv에 있는 사람들 중에서 누가 생존할 것인지를 예측하게 된다. 여기서 유의할 점은 train.csv와 test.csv가 별도로 존재할 수 있지만 train.csv에서 일부를 test.csv로 사용하기도 한다. 이때에는 별도로 test size를 나눠져서 작업을 진행하면 된다.
# 결과를 위한 조건을 지정해야 한다
타이타닉 프로젝트에서는 누가 생존할 것인지를 예측하는게 최종 목표이다. 친절하게도 Competition 가이드에 해당함으로 첫 번째 예상 기준으로 성별을 제공하고 있다. gender_submission.csv에서는 성별에 따른 생존 여부를 확인할 수 있는 데이터셋이다. 여기서 중요한 것이 기준이 되는 요소를 분석하고 설정해주는 것이다. gender_submission.csv와 같이 기준이 되는 요소를 설정해서 원하는 결과를 도출해내는 것이 데이터 사이언스 프로젝트의 핵심인 셈이다.
'Computer Science > AI & Data' 카테고리의 다른 글
[Data Science] Empirically Detecting Causality: Convergent Cross Mapping (0) | 2022.11.14 |
---|---|
[Data Science] Time Series Data (0) | 2022.08.28 |
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #01 (0) | 2022.07.31 |
[Machine Learning] Batch Size, Iteration (0) | 2022.07.29 |
[Machine Learning] Momentum(모멘텀) (0) | 2022.07.27 |
댓글