데이터 사이언스가 쓸모없는 이유
포스트 난이도: HOO_Senior
# 데이터 사이언스는 쓸모가 없다
글쓴이가 개인적인 견해를 가지고 하는 말이 아니라 데이터 사이언스, 통계, 모델링 시스템 등의 분야에 있는 과학자들이 하는 말 중에 하나가 데이터 사이언스는 쓸모가 없다는 말이다. 20세기 위대한 통계학자로 불린 영국의 조지 박스 (George E. P. Box)는 "데이터 기반 모델링 시스템은 다 쓸모가 없다, 다만 몇 개는 쓸만하다."라는 말을 남겼다. 데이터 사이언티스트인 글쓴이에게는 정말 충격적인 말이었기에 아직까지도 기억에 남고 아마 이 포스트를 보러 들어온 다른 데이터 사이언스 분야 컴퓨터쟁이들에게도 꽤 신선한 충격일 수 있다.
# 데이터 기반 모델링은 현실이 될 수 없다.
솔직히 처음 글쓴이가 통계쟁이 박스 아재의 글을 보고서는 "20세기때 기술력이 없으니까 저런 소리나 하고 있지."라고 생각했다. 성부터가 박스이다보니 박스에 갇혀서 열린 생각을 못하시는 줄 알았다. 하지만 그의 글과 다른 통계학자 및 현재의 데이터 사이언티스트 박사들의 이야기를 듣다 보면, 데이터 기반 모델링은 과거에도 쓸모가 없었고 현재도 쓸모가 없는 게 맞다는 것을 깨닫게 되었다. 이 말인즉슨, 데이터 기반 모델링은 현실과 100% 일치할 수 없기에 쓸모가 없다는 것이며 모델링 시스템을 과도하게 신뢰하지 말아야 되는 점을 강조하고 있었다.
Data science에서 우리는 자연에 있는 비정형화된 데이터를 특정 공식을 통해서 데이터라는 것으로 정형화하는 과정을 거치게 된다. 한마디로 Natureal system을 Formal system화 하는 방식을 거쳐 우리가 다룰 수 있는 모델링 시스템을 구현하는데 다시 Formal system을 Natural system으로 decoding을 했을때 완전히 같은 결과가 산출되지 않는다. 자연에서 얻어진 데이터를 기반을 시스템을 구축했는데도 왜 우리는 자연계 시스템과 동일한 시스템을 만들어내지 못하는 것일까? 마치 유명한 화가가 그린 그림을 똑같이 그려냈는데도 왜 그 화가의 작품과 동일할 수 없는 것인가라고 비교하여 생각해 보면 자연 시스템에는 수많은 경우의 변수가 존재하기 때문이다. 예를 들어, Formal system을 구축한 시점에서 자연계 시스템과 동일해 보일 수 있지만 자연계 시스템은 Time series라는 연속성으로 계속 변화하고 움직이고 있다. 현재의 시스템을 구축하더라도 미래의 자연계 시스템과 동일하게 일치할 수 없다는 것이다.
# 데이터는 작은 창문 같은 존재
수많은 경우의 수를 고려하면서 많은 데이터를 통해서 시스템의 정확도를 높일 수 있게된 방법 중 하나인 빅데이터 (Big data)의 경우도 우리는 완벽한 시스템을 만들어낼 수 없다. 아무리 빅데이터를 수집하고 가공해서 시스템을 만들더라도 자연계 시스템에서는 작은 창문과 같은 존재에 불가하다는 것이다. 마치 우리가 우주를 보는 데 있어서 창문을 통해서 우주 일부를 보듯이 데이터 기반 모델링 시스템은 작은 창문과 같은 존재이며, 빅데이터는 그보다 조금 더 커진 창문에 해당한다는 것이다. 이러한 작은 창문으로 예측 모델링 작업과 시뮬레이션 모델 개발까지 이루어진다면 Simplicity가 발생할 것이고 결과적으로 원래 시스템과의 오차 범위는 점차적으로 커질 수밖에 없다. 결국 최종 모델은 실제 자연 시스템과 비교했을 때 데이터가 작은 창문이라면 마치 작은 구멍에 지나치지 않는다는 것이다.
# 근데 왜 데이터 사이언스가 필요한가요?
데이터에 대한 수집과 활용은 오래 전부터 있어왔다. 우리 조지 박스 아재가 활동하시던 20세기에도 데이터를 수집하고 활용하는 연구와 기술이 활용되고 있었고 중력이 발견되었던 시기에도 우리는 자연계에서 데이터를 얻고 가공하여 데이터 기반 모델링 시스템을 구축해 나갔다. 중세시대만 해도 우리는 중력에 대한 걸 인지하지 못하고 있었다. 그저 신이 주는 어떠한 신비한 힘으로 인식하고 있었다. 하지만 어느 순간부터 중력이 무엇인지 알기 시작했는데 그 시발점이 바로 사과이다. 아이작 뉴턴 아재의 만유인력 법칙에 대한 이야기는 어린아이도 알 정도로 유명하다. 사과를 떨어지는 걸 보고 중력에 대한 아이디어를 얻었다는 이야기 말이다. 하지만 심도 있게 들여다보면, 여러 과정을 뛰어넘었을 뿐 결과적으로 사과 떨어지는 자연계의 현상에 대한 데이터를 수집하여 반복적인 패턴이 있다는 것을 발견하고 이를 중력이라는 공식으로 모델링과 시스템화를 했다고 볼 수 있다. 한마디로 훗날 먼 미래에 이 중력이라는 공식 자체가 자연계 시스템과 일치하지 않는다는 결론이 나올 수도 있다는 것이다.
이처럼 우리는 오래전부터 데이털 분석과 활용을 알게 모르게 해오고 있었고 한번의 실험과 테스트로 끝나는 것이 아니라 반복적인 자연계 시스템과 공식 시스템의 비교 분석으로 최대한 비슷한 결과를 도출해 내고자 노력해 왔다. 이를 통해서 최대한 비슷한 모델링 시스템이 얻어진다면 이걸 우리 실생활에서 활용하고 발전해오고 있다. 모든 모델링이 쓸모없더라도 그중에서 얻어진 최대한 자연계 시스템의 일부 패턴을 파악한 모델링을 발견한다면 성공적이라는 것이다.
# 데이터 사이언스가 중요해진 이유
앞서 이야기한 바와 같이 정말 소수의 데이터 기반 모델링이 쓸모가 있어진다면 성공적이라고 보는데, 현재에 와서는 이러한 모델링의 성공 확률이 매우 높아졌기에 데이터 사이언스 분야가 중요해지고 있다. 예컨대 우리는 인공지능과 데이터 분석 기술의 발달로 과거보다 훨씬도 정확도가 높은 모델링 구현이 가능해졌다. 과장을 보태서 이야기하자면 작은 구멍에서 작은 창문 정도로 레벨 업한 셈이다. 그럼에도 작은 창문을 우주 전체를 판단하고 이해하기에는 부족한 것이 맞다. 조지 박스 아재 또한 이 점을 강조하고 싶었던 것으로 생각한다. 데이터 사이언스로 우리는 많은 기술발전이 빠른 속도로 이루어지고 있지만 모든 것이 완벽한 모델링이 아니며 특정 데이터에 의해 만들어진 인공 시스템이라는 점이다. 그렇기에 데이터 사이언티스트는 만들어진 모델링 시스템에 만족하지 말고 지속적인 자연계 시스템과 비교 분석, 데이터 수집, 가공 등의 작업을 통해 모델링 시스템을 업데이트해 나가야 한다는 것이다. 이 점에서 쓸모가 없어 보이는 모델링에서 쓸모가 있는 모델링을 찾아내기 위해 데이터 사이언스가 중요해진 것이다.
'AI & Data' 카테고리의 다른 글
[AI / Computer Vision] 매트릭스(Matrix)가 컴퓨터 비전 (Computer vision)에서 중요한 이유 (2) | 2023.09.10 |
---|---|
[Data Science] Soft System Methodology (연성체계 방법론) (0) | 2023.09.01 |
[Data Science] 경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요! (0) | 2023.08.23 |
[Data Science/Colab/Jupyter] 코랩, 주피터에서 압축 푸는 방법: torch, zipfile, patool (0) | 2023.08.03 |
[AI / Computer Vision] YOLOv8 (욜로v8) (0) | 2023.07.22 |
댓글