[AI & Data] Data Management란
포스트 난이도: HOO_Middle
# CS에서의 데이터 관점
데이터는 사용되는 맥락에 따라 다양한 정의를 가질 수 있는데 Computer Science (CS)에서의 데이터는 의미 있는 정보 (Information)로 가공되기 전의 기초적인 자료를 의미한다. 예를 들어 일반적 정의 데이터는 이산적(discrete) 또는 연속적(continuous)인 값들의 집합으로, 양적 또는 질적 특성, 사실, 통계, 기본 단위의 의미를 나타내며, 때로는 형식적으로 해석 가능한 기호의 연속으로 정의할 수 있다. 반면에 CS에서의 데이터는 관찰, 실험, 인터뷰, 설문지, 체크리스트, 평정 척도 등을 통해 수집된 원자료(raw data)로, 이러한 자료는 의미 있는 정보로 전환되기 위해 반드시 처리 과정을 거쳐야 한다고 본다. 심지어 이 (무시무시한) 컴퓨터쟁이들은 "Datum"이라는 데이터 보다도 더 작은 단위를 만들어 쓴다. 한마디로 데이터는 하나 이상의 기호로 이루어진 연속체로 정의되며, 데이터는 정보로 해석되기 위해 추가적인 해석 과정을 필요로 하다고 보는 것이 CS 관점의 데이터이다.
# 데이터 관리 (Data Management)
다른 분야에서는 데이터가 하나의 큰 Chunk로 이해가 될 수 있지만 CS에서 바라보는 데이터는 아직 Calibration 되지 않은 raw data부터 information에 가까운 형태의 데이터까지 다양하다. 데이터 사용이 많아짐은 당연하고 이와 더불어 다양한 데이터 종류와 크기, 관점 등에 따라서 효율적인 관리와 더 구체화된 정의가 필요해졌다. 여기서 말하는 "데이터 사용의 많아짐"은 그저 데이터 사용이 많아졌다기보다는 데이터 사용에 있어서 다양한 목적성이 생겼고 다양한 가치를 나타낼 수 있게게 되었음을 의미한다. 거두절미하고 정말 간단하게 말해서 "Data is a money"라고 말할 수 있는 연결성이 커지다보니 데이터에 대한 명확한 관리가 필요해졌다.
2000년대 중반부터 데이터 관리(data management)에 대해 새로운 개념이 연구 영역으로 등장하게 되었다. 대표적으로 영국에서의 데이터 관리 정책 2011년, 영국의 Research Councils UK는 데이터 정책에 대한 공통 원칙(Common Principles on Data Policy)을 발표하며 데이터 관리의 중요성을 강조한 걸 살펴볼 수 있다(Research Councils UK, 2011). 또한 미국에서는 2011년 *National Science Foundation(NSF)*이 연구 제안서에 데이터 관리 계획(data management plan)을 포함하도록 의무화하였다(NSF, 2013). 불과 20년 전만에 해도 명확하지 않은 데이터의 대한 기준과 관리들이 이제는 당연하게 여길 정도로 구체화되고 명확해졌다.
# Data Management in Agriculture (DMA)
"데이터 관리는 어떤 분야에서, 어떻게 이루어지는가?"라는 질문에 대해, 사실상 모든 분야에서 데이터를 활용하며 각 분야에 적합한 기준에 따라 데이터 관리가 이루어진다. 에너지, 금융, 의료와 같은 일반적으로 논의되는 분야 뿐만 아니라, 농업 분야에서의 데이터 관리에 대한 중요도가 높아지고 있다.
농업 (Agriculture)은 데이터 관리 측면에서 오랜 기간 어려움을 겪어온 분야 중 하나이다. 특히, 기술적 관점에서 외부 요인을 고려해야 하는 데이터의 양이 방대하여 정확도를 확보하기 어렵고, 조건이 매번 변화하는 상황에 대응하기 위한 데이터 관리가 복잡하게 이루어져야 했다. 그렇다 보니 다양한 경우의 수들을 고려해야 하는 환경, 바이오, 농업 등의 모델링을 연구하다 보면 항상 자주 듣는 이야기 중 하나가 George E. P. Box의 "All models are wrong, but some are useful" 이다.
다행히도 인공지능(AI) 기술의 접목과 기존 기계의 디지털화로 인해, 매우 세부적인 부분까지 데이터 수집이 가능해졌다. 이를 통해 농업 분야의 데이터 관리는 단순히 농업 생산성 향상과 환경 개선을 넘어, 에너지, 환경, 금융, 헬스케어와 같은 타 분야와의 융합 가능성을 열어주었다. 이러한 변화는 농업 데이터를 단순히 생산성 증가를 위한 도구로 보는 것이 아니라, 농업 정보 패키지의 일부로 접근할 수 있는 여건을 조성하였다. 특히, 이러한 패키지 형태의 농업 데이터 관리 시스템은 필요한 데이터를 특정 용도로 선택적으로 활용할 수 있게 해 주며, 이는 데이터 트랜잭션(data transaction)에 대한 관심을 불러일으켰다.
여기서 재미있는 사실은 어렵고 복잡하게 여겨왔던 농업을 비롯한 바이오, 환경 등의 데이터 관리가 사실상 하나의 통합된 패키지로써 다양한 방식으로 데이터를 활용하기에 용이할 수 있다는 것이다. 마치 수집하는 과정 자체가 특정한 목적에 의해서 이뤄지는 것이 아니라 다양한 목적을 염두에 두고 패키지로 관리가 되어 많은 Stakeholders들이 사용할 수 있다는 잠재적 가능성을 지니게 된 것이다.