본문 바로가기
AI & Data

[Data Science] 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기

by Henry Cho 2022. 7. 8.
728x90

데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기


포스트 난이도: HOO_Senior

 

[Notice] 포스트 난이도에 대한 설명

안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다

whoishoo.tistory.com


# 디렉토리, 파일명 위치 선언

데이터 사이언스(Data science) 프로젝트를 수행하다 보면, 한 가지 데이터셋을 사용하는 것이 아니라 수많은 데이터셋을 사용하는 경우가 종종 있다.

종류가 다른 데이터셋을 사용하지 않더라도 학습할 데이터셋과 결과로 산출할 데이터셋만 해도 최소 2가지 이상의 데이터셋을 코드 내에서 선언하여 사용해야 한다.

그렇다 보니 데이터셋을 먼저 특정 변수명으로 선언해줘서 사용하는 것이 데이터 사이언스 프로젝트를 수행하는 데 있어서 편리하다.

데이터셋을 우선적으로 선언해주면, 코드를 작성하는 데 있어서도 편리할 뿐만 아니라 생각지 못한 연관성을 발견하는 데에도 도움이 된다.

따라서 사용하게 될 모든 데이터셋을 먼저 선언해주는 것이 좋다.


# 디렉토리 또는 데이터셋 파일 선언하는 방법

디렉토리 및 데이터셋 파일을 선언하는 방법은 간단하다.

아래의 예제처럼 선언하여 사용이 가능하다.

dataset_dir = '/kaggle/input/paddy-disease-classification/train_images/'
submission_dir = '/kaggle/input/paddy-disease-classification/test_images/'
dataset_file = '/kaggle/input/paddy-disease-classification/train.csv'
submission_sample = '/kaggle/input/paddy-disease-classification/sample_submission.csv'
submission_output = '/kaggle/working/submission.csv'

파이썬의 경우에는 별도의 data type 없이 바로 변수명에 특정 디렉토리 및 파일명 위치를 작성하여 선언할 수 있다.

위의 경우에는 총 5가지의 데이터셋 변수를 사용할 것이며, 학습에 사용되는 데이터셋뿐만 아니라 산출되는 결과 데이터셋도 별도로 선언해주었다.

변수명에 있어서는 다른 변수명을 지정할 때처럼 가독성이 좋게끔 작성해주는 것이 좋다.

예를 들어 디렉토리를 선언해준다면 변수명에 dir를 붙여서 디렉토리라는 것을 구분해주는 것이 좋고, file명이라면 file를 변수명에 붙이거나 생략해주는 것이 구분하는데 도움이 된다.


# 디렉토리 및 데이터셋을 모두 선언하는 것이 좋다.

또한 어떤 데이터셋을 의미하는지를 변수명에 입력해주면 추후에 코드 내에서 데이터셋을 사용할 때 헷갈리지 않게 도와준다.

데이터셋 변수명 작성이 우선적으로 이루어지고 의미 있게 작성해야 되는 또 다른 중요한 이유는 유지관리 측면이다.

데이터 사이언스 프로젝트 특성상 학습 효율성이 좋지 않거나 정확도가 낮아 코드 수정이 필요한 경우가 정말 많다.

따라서 코드 수정할 때마다 데이터셋 변수명에 대한 의미가 정확히 파악이 된다면 코드를 보완하거나 수정하는 데 있어서 도움이 정말 많이 된다.

마지막으로 특정 데이터셋을 사용할지 안 할지 모르는 상황에서도 웬만해서는 모든 데이터셋을 선언해주는 것이 코드를 작성하는데 도움이 된다.

추후에 코드를 수정하는 단계에서 사용을 하지 않았거나 필요 없는 데이터셋의 경우에는 선언된 데이터셋 변수명만 삭제해주면 된다.

하지만 추후에 선언하지 않았던 데이터셋을 선언하여 작성된 코드에 추가하여 사용할 경우에는 일일이 필요한 부분마다 추가해줘야 하므로 삭제해주는 일보다 더 신경 써야 하는 부분들이 많아진다.

따라서 필자는 사용하게 될 데이터셋은 웬만하면 모두 선언해주되, 이후 수정 및 보완 과정에서 빼주는 방식으로 데이터 사이언스 프로젝트를 수행하곤 한다.


 

728x90

댓글