Times Series Data
포스트 난이도: HOO_Middle
# Data, Information, Knowledge
데이터는 정보가 아니고 지식이 아닐 수도 있다. 마찬가지로 정보는 지식이 아닐 수 있다. 이 말인즉슨 데이터라고 해서 바로 정보나 지식이 되는 것이 아니며 정보라고 해서 바로 지식이 되는 것이 아니다. 데이터 분석, 엔지니어, 사이언티스트는 이러한 데이터들을 다루고 정보와 지식으로 바꿔주는 역할을 수행하게 된다.
데이터에도 다양한 종류가 있는데 그 중에서도 Time series data는 관찰, 실험, 예측을 통해서 얻어질 수 있으며 특정한 패턴으로 분석된다면 정보로서도 가치를 가지게 된다. 정보로 인정된 Times series data는 이론적으로 증명이 가능하다면 지식으로도 인정을 받을 수 있다.
# Time Series Data
데이터를 공부하는 개발자에게는 정말 많이 들어보고 실제로 Time series algorithm을 사용해본 경험을 가지고 있을 것이다. Times series data는 이름에서도 알 수 있듯이 연속성을 가진 데이터를 의미한다. 한국에서는 Times series data를 시계열 데이터라고도 부른다. 처음 Time series data를 보게 되면 불규칙적이고 복잡하게 보일 수밖에 없다. 왜냐하면 아직 데이터 분석을 통해서 패턴 분석 및 정제화가 이루어지지 않았기 때문이다. 결국 Ireegularity 하고 complex 한 data를 어떻게 분석하여 패턴을 찾아내는지가 Time series data에서 중요하다.
Times series data 중에서도 생물과 과련된 biophysical processes의 경우에는 당연히 더욱더 불규칙할 수밖에 없다. 하지만 불규칙 속에서도 규칙성을 찾아내는 것이 중요하며, 특정한 불규칙성이 반복된다면 어떤 이유에서 해당 지점에 불규칙성이 반복되는지 자체도 패턴이 될 수 있다. 예를 들어 특정 식물을 관찰한다고 했을 때 광합성 작용을 할 때나 기공이 열고 닫힐 때 등은 기존 Time series data와 다른 형태를 보일 수 있다. 또는 동물을 관찰한다고 했을 때 수면을 취하거나 먹이를 먹을 때 Time series data에 불규칙성이 나타날 수 있다. 이러한 부분에 대한 패턴을 분석하여 나타낼 수 있다면 정보가 되는 것이며, 이를 이론적으로 입증할 수 있다면 지식이 된다.
'AI & Data' 카테고리의 다른 글
[Data Science] 데이터 사이언스란? (0) | 2022.11.16 |
---|---|
[Data Science] Empirically Detecting Causality: Convergent Cross Mapping (0) | 2022.11.14 |
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #02 (0) | 2022.07.31 |
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #01 (0) | 2022.07.31 |
[Machine Learning] Batch Size, Iteration (0) | 2022.07.29 |
댓글