데이터 캘리브레이션 (Data Calibration)
포스트 난이도: HOO_Middle
# Data calibration
데이터 교정이라고도 불리는 Data calibration은 데이터를 다루는 대부분의 분야에서 한번 정도는 들어본 적이 있을 것이다. 캘리브레이션에 대한 의미를 찾아보면 "교정"이라는 뜻을 가지고 있고 하드웨어 쪽에서는 오차를 교정하는 과정을 캘리브레이션이라고 부르기도 한다. 데이터 사이언스 (Data science)에서도 결과를 교정한다는 점에서 비슷한 의미를 가졌지만 사실상 "표준화"에 더 가까운 의미를 가지고 있는 것이 데이터 사이언스에서의 캘리브레이션이다. 따라서 데이터 사이언티스트에게는 데이터를 어떻게 캘리브레이션에서 표준화하여 생성 및 수집해 내는지도 정말 중요한 요소 중에 하나이다. 왜냐하면 최종 모델링이나 시뮬레이션 결과를 산출해 내기까지 현실과 최종 산출 값의 차이가 발생할 수 있는 단계별 요소들이 많이 있기 때문이다.
# Calibration을 하는 이유
데이터 사이언스에서 데이터 캘리브레이션을 하는 가장 큰 이유는 현실을 알맞게 모델링을 하기 위해서이다. 조금 더 구체적으로 이야기하자면 알맞은 모델을 구현하는데 있어서 데이터가 필요하고 데이터를 생성하거나 수집하는 과정 자체에서 캘리브레이션이 필요하기 때문이다. 현재 인공지능을 비롯하여 모든 프로그램 및 시스템들은 데이터를 기반으로 만들어진 모델이다. 그렇기에 우리는 특정한 모델을 만들어내기 위해서는 우선적으로 모델을 구성할 수 있는 데이터를 생성해내야 한다. 쉽게 말해서 컴퓨터가 이해할 수 있는 방식으로 현실 정보를 데이터화하여 제공함으로써 컴퓨터가 가상의 모델 또는 시뮬레이션을 만들어낼 수 있는 것이다. 물론 추후의 인공지능이 데이터 기반이 아니라 사람처럼 즉각적으로 데이터 수집과 가공이 가능해진다면 데이터 캘리브레이션과 같은 작업이 필요 없어질 수도 있다. 이러한 관점을 넓혀서 생각하면 인간도 즉각적으로 데이터를 수집, 가공을 하고 있는데 인지를 못할 뿐이고 우리가 사는 세상 자체가 시뮬레이션일 수도 있다는 것까지 도달할 수도 있다. 아무튼 지금의 현실에서는 가상의 데이터를 생성해 내기 위해서는 특정한 조건이나 표준을 기반으로 데이터가 만들어져야 하다 보니 우리는 데이터를 수집하는 데 있어서 캘리브레이션 작업이 필요한 것이다.
# Calibration된 데이터는 현실 데이터와 다르다.
데이터에 심취해있다면 가장 유의해야 되는 점이 데이터는 현실과 다르다는 것이다. 또한 우리가 사용하는 모든 모델이나 시뮬레이션은 100% 현실과 동일할 수 없다는 점도 이해해야 한다. 데이터를 수집하는 과정에서 우리는 특정 조건이 포함된 캘리브레이션을 수행하는데 이 과정에서 현실의 모든 데이터를 가상의 데이터로 모두 전환할 수가 없다는 것이다. 대표적으로 효율성의 문제도 있겠지만 사실상 모든 조건을 가져다가 동일하게 만든다는 것 자체가 불가능하기 때문이다. 따라서 현실과 가상의 데이터 간에는 차이가 발생할 수밖에 없다는 것이다. 따라서 우리는 이러한 갭 (Gap)을 줄이고자 가장 단순하고 쉬운 방법을 사용하는데, 바로 데이터를 더 많이, 다양하게 수집하는 것이다. 그럼에도 우리가 현실과 동일한 데이터를 수집할 수 없는 이유는 현실적으로 데이터를 수집하는 데에는 무한하고 실시간으로 변화하는 현실 조건들을 모두 데이터로 수집하는데 한계가 있기 때문이다. 그렇기에 우리는 데이터를 캘리브레이션 하는 과정에서 최소화된 갭을 만들어내는 게 가장 중요한 요소이다.
'AI & Data' 카테고리의 다른 글
[Data Science] 엑셀에서 데이터 분석하기 (Data Analysis on Excel) (0) | 2023.10.26 |
---|---|
[Computer Vision] 공개형 학습 데이터셋: 로보플로우 (Roboflow) (4) | 2023.10.25 |
[AI / Computer Vision] Singular Value Decomposition (SVD) (2) | 2023.10.09 |
[AI / Computer Vision] 매트릭스(Matrix)가 컴퓨터 비전 (Computer vision)에서 중요한 이유 (2) | 2023.09.10 |
[Data Science] Soft System Methodology (연성체계 방법론) (0) | 2023.09.01 |
댓글