Empirically Detecting Causality: Convergent Cross Mapping
포스트 난이도: HOO_Senior
# Empirically Detecting Causality
현실 세계에서 일어나거나 발생하는 모든 데이터는 사실상 Time series로 존재한다. 왜냐하면 살고 있는 세상 자체가 시간을 기준으로 움직이다 보니 외부적인 요인에 대한 수치화 또는 표준화 과정은 Times series data를 통해서 산출되는 것이다. 문제는 Real world에서 우리는 Time series data를 바로 얻어낼 수 없다. 따라서 Dynamic data를 Time series로 record 하여 single variable를 산출한다.
또한 Time series data를 바로 사용하여 원하는 목적을 얻어낼 수 없기에 Data science 분야 개발자들은 이를 분석(Analysis)하고 재구조화(Reconstructing) 과정을 거쳐서 분석이 가능한 방식의 데이터로 변환하는 것이다. 이러한 복잡한 과정들을 하면서도 Time series data를 산출하고 재구조화하는 것 자체가 사실상 Empirically detecting causality를 하기 위해서인 셈이다.
Empirically detecting causality를 어렵게 생각할 필요가 없다. 간단하게 말해서 데이터 간의 인과 관계를 분석하고 이에 대한 원하는 정보를 얻어내는 과정을 의미한다고 생각하면 된다. 한마디로 Time series data 또는 한국말로 시계열 데이터를 분석해오는 과정 자체가 결국에는 데이터의 수치화와 체계화를 통해서 목적에 필요한 정보를 얻어내려는 것이다. 앞서서 데이터를 가공하고 정제해왔던 이유가 결과적으로 Empirically detecing causality에 있다는 것이다. 마치 최종 요리의 본모습을 보기 위해서 그동안 재료들을 정갈하게 준비해놓았다고 볼 수 있다.
# With this, not because of this
Empirically Detecting Causality에서 중요한 부분은 인과 관계이다. A로 인해 B가 발생하다는 것을 Time series data 분석을 통해서 알아내었다면 A가 B를 발생시키는 원인이라는 점에만 집중하지 않는다. 이게 무슨 말이냐면, 결과적으로 B가 발생되기 위해서는 A가 전제 조건이 되어야 한다는 점도 필요한 정보로써 인지한다는 것이다. 이것이 바로 Empirically Detecting Causlity에서 말하는 주요한 포인트인 셈이다.
사실상 언어적 관점에서 보면 두 말의 의미가 같다고도 볼 수 있다. 하지만 데이터 관점에서 보면 두 말의 의미가 다를 수도 있다는 것이다. Time series data를 사용하는 것 자체가 현실 세계, 즉 Real word에서 발생되는 특정 사건이나 정보를 데이터화해서 분석하여 예측하려고 하는 것이다. 그렇다보니 A로 인해 B가 발생되었지만, B가 발생할 때 A가 원인이 아닐 수도 있다는 것이다. 따라서 Mapping 과정에서 one-to-one 이루어지는가 중요한 판단 요소이자 인과 관계를 분석하는 방법이다.
# Convergent Cross Mapping
CCM logic이라고 불리는 Convergent Cross Mapping, Empirically detecting causality를 확인하기 위한 중요한 Logic이다. 여기서 활용되는 Attractor map 방식이 바로 one-to-one mapping이다. 이를 통해서 재구조화된 데이터의 1대1 mapping을 확인한다. 또한 두 데이터의 일치 여부를 확인하여 original data와 비교하여 확인하는 과정을 거치게 된다.
CCM을 통해서 이러한 과정들을 거치는 이유는 이미 재구조화된 데이터를 통해서 기존 데이터와 직접적으로 비교 분석이 어렵기 때문이다. 예를 들어 재구조화된 shadow attractors map이 original attractors와 testing이 어렵다. 따라서 CCM one-to-one mapping 방식을 재구조화된 두 개의 variables들을 통해서 테스트하고 데이터에 대한 비교 분석이 가능하다. 이를 통해서 재구조화된 Shadow attractors variables들이 one-to-one mapping이 된다면 실제로 original attractors 또한 one-to-one mapping이 된다는 걸 Euclid's axiom을 통해서 확인이 가능하다는 것이다. 결국 이것은 dynamic data 또는 dynamic system에서도 해당이 된다는 걸 알 수 있다.
또한 Convergent cross mapping을 하다보면, 그전까지 보이지 않던 연관점을 가진 데이터들이 확인이 될 수 있다는 점에서도 충분한 메리트를 가지고 있다. CCM의 one-to-one mapping 방식을 통해서 그전의 재구조화하고 분석된 데이터들에서 확인되지 않았던 새로운 연관점을 발견하는 경우가 있다. 반대로 연관성이 있다고 예측되어왔던 데이터들이 CCM Sync, 또는 CCM 동기화를 통해서 데이터 연관성이 없음이 밝혀지기도 한다.
# 바다와 대기는 모두 연결되어있다.
Empirically Detecting Causality와 Convergent cross mapping의 필요성을 쉽게 이해하는 데에는 페루 바다를 분석하는 사례에서 확인할 수 있다. 예를 들어 페루 바다의 환경적 변화 요인을 분석한다고 가정했을 때, 우리는 해류의 흐름뿐만 아니라 대기의 상태에서도 원인을 분석하여 연관점을 찾아낼 수 있다. 여기서 중요한 점은 해류를 포함하여 대기는 개별적인 요소가 아니라는 점이다. 이 말인즉슨, 지구라는 하나의 흐름 속에 대기가 있고 해류도 존재한다. 결국 페루 바다의 환경 변화를 파악하기 위해서는 지구 전체의 대기와 해류를 분석해야 한다는 것이다.
이상적으로 정확한 정보를 얻기 위해서는 전체 지구의 데이터를 확보하고 분석하는 것이 옳다. 하지만 현실에서는 불가능하기 때문에 일부분의 데이터를 기반으로 one-to-one mapping, 즉 CCM logic을 통해서 페루 바다의 환경 변화를 예측할 수 있다. 한마디로 한국의 대기 흐름이나 해류 흐름 데이터를 기반으로 페루 바다의 환경적 변화를 예측이 가능하다는 것이다. 물론 비교 분석을 위한 Methods들이 필요하지만 불가능한 것은 아니라는 것이다.
이것이 Time series가 가진 특징이자 Empirically detecting causality와 Convergent cross mapping이 할 수 있는 비교 분석의 역할이다.
'AI & Data' 카테고리의 다른 글
[Data Science] 데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요? (0) | 2022.11.18 |
---|---|
[Data Science] 데이터 사이언스란? (0) | 2022.11.16 |
[Data Science] Time Series Data (0) | 2022.08.28 |
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #02 (0) | 2022.07.31 |
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #01 (0) | 2022.07.31 |
댓글