[AI & Data] Data Requirements
포스트 난이도: HOO_Senior
# Definition of Process Needs
프로그램을 만들기 전에 requirments라고 불리는 기획안을 꼼꼼히 작성하듯이 데이터도 사용하기 전에 기본적인 requirments들을 정리해 두는 것이 좋다. 데이터 분석을 기획하거나 툴을 만들거나 또는 연구를 하는 과정에서도 데이터에 대해 기본적인 정리를 해둔다고 생각하면 된다. 마치 우리가 소개팅을 나가기 전에 최소한의 상대방 정보를 알아보듯이 또는 요리를 만들기 전에 최소한 검색을 한번 정도를 해보듯이 말이다. 이번 포스트에서는 가장 기본적으로 데이터를 사용하기 전에 알아둬야 하는 요소 (Factors)들에 대해서 살펴볼 것이다.
# Physcial Data & Digital Data
무의식적으로 생각하면 데이터는 전부 digital이지만 막상 모델링을 하다보면 실생활에서 데이터를 수집하고 그걸 변환해서 디지털로 만든다는 걸 알 수 있다. 또한 우리가 사용하는 데이터가 처음부터 디지털로 변환된 상태일 수도 있지만 서류라든가 필름에 있는 사진, 또는 인터뷰한 내용을 메모한 경우 등과 같은 경우는 Physcial data에 해당한다. 물론 데이터를 사용하는 데 있어 우리는 Transform이라는 과정을 거치고 Calibration을 통해서 digitize를 할 것이지만 우선적으로 Physical과 Digital Data로 구분한다.
Physcial data를 사용하기 위해서는 아래와 같은 요소들을 정리해둘 필요가 있다.
- Types of physical data
- Data origin
- Digitally captioned data
- End point
Digital Data의 경우 아래와 같은 요소들을 정리해야한다. 물론 처음부터 디지털 데이터의 경우는 위에 physical data에 있었던 요소들도 같이 정리가 필요하다.
- Types of created data (e.g., images, analysis readouts, types of text docs etc.)
- End point (Where and how digital data management?)
# Data Management의 3가지 필수 조건
마지막으로 가장 데이터에 대한 requirments을 정리했다면, 어떻게 관리할 것인지에 대해서 최소 3가지 요건을 살펴봐야 한다.
- How do you organize your data?
- How do you back-up your data?
- Is there any data management issue?
세 가지의 최소 기준을 데이터 기획 또는 requirments임에도 불구하고 기준을 정해둬야 하는 이유는 데이터에 대한 투명성 문제이다. 우리가 흔히 사용하는 계좌이체 또는 카드 결제의 경우도 사실상 데이터의 트랜잭션이라고 볼 수 있다. 그럼에도 아무 걱정없이 사용하는 경우는 해당 데이터에 대한 신뢰성이 보장되기 때문이다. 따라서 데이터 관리 측면에 있어서도 당장 데이터가 활용되지 않더라도 기본적으로 세가지 요건에 대한 기준을 지정하고 관리가 이뤄져야 한다.