데이터 사이언스란?
데이터 사이언스(Data Science)
데이터 사이언스(Data Science)란 4차 산업 시대의 대표적인 프로그래밍 분야라고 볼 수 있다.
데이터 사이언스 분야의 확장은 결과적으로 데이터 경제 시대가 출현하게 된 원인 중 하나이다.
데이터 사이언스란 다양한 데이터로부터 목적 또는 목표에 따라서 원하는 정보를 찾아내는 통합된 분야이다.
데이터 중에서도 수집과 저장이 어려웠던 비정형 데이터도 프로그래밍을 통해
정형화하여 데이터화를 할 수 있다는 점에서 데이터 사이언스의 활용도는 정말 높다.
하지만 비정형 데이터를 어떤 기준과 알고리즘을 통해 수집과 저장 그리고 정제 과정을 거칠 것인지는
데이터 사이언티스트의 능력이기 때문에 데이터 자체를 연구 분석한다고 하여
데이터 사이언스라고 부르는 것이다.
데이터의 정보화
흔히 DIKW pyramid라고 불리는 데이터에 대한 전반적인 계층적 관계를 보여주는 피라미드 구조가 있는데
Data에서 Information으로 가는 과정을 데이터 마이닝, 머신러닝, 패턴 인식 등과 같은 다양한 알고리즘을 통해
자동적으로 데이터를 정보화를 하고 정보화된 데이터를 데이터 분석가 또는 데이터 사이언티스트를 통해
지식화(Knowledge)하여 효과적으로 사용하는 방식(Wisdom)의 전반적인 형태를 DIKW라고 줄여서 부른다.
여기서 말하는 DIKW 과정이 데이터 사이언스의 전반적인 과정이라고 볼 수 있다.
AI의 기술이 현재는 데이터를 기반으로 하지만 보다 더 진보한다면 DIKW 과정 전체가
개발자가 필요 없이도 자유롭게 이루어지고 결정될 것이다.
4차 산업시대에 맞는 데이터 사이언스
데이터 사이언스는 사실 완전히 새로운 기술은 아니다.
SW 분야에 비해 상대적으로 발전이 더딜 수밖에 없는 HW 분야의 발전 속도 차이 때문에
이론적으로는 알고 있지만 현실적으로 효율적인 면이나 실현 가능성에서 필요로 하지 않았던 기술이다.
사실 4차 산업 기술 중에서 SW 관련 분야의 경우 대부분 이미 90년대 때부터 구현되거나
개발자들 사이에서 이론적으로 알려진 기술이다.
다만 해당 기술을 필요로 하지 않았고 사용이 불가했기 때문에 사용하지 않았던 것이다.
데이터 사이언스라는 분야가 활성화가 된 것은 세계적으로 인터넷을 활용한 정보화 시대를 거쳐왔기 때문이다.
우리는 정보화 시대를 통해 다양한 정보를 인터넷에 저장하고 데이터화를 해왔다.
수많은 데이터는 과거 기술로는 감당하기 어려웠고 정보기술 발달에 따른 데이터 범람과
데이터 문제를 발생시킬 것이라고 예측하는 사람들도 많았다.
하지만 현재는 SW 기술뿐만 아니라 HW 기술의 발달로 2000년대 보다도 수많은 데이터를
가상공간에서 활용하고 저장하고 수집하고 있다.
데이터 사이언스는 이러한 데이터 경제시대에 맞추어 다양한 분야에 접목할 수 있는 적합한 기술로써 인정받은 것이다.
데이터 사이언스는 마케팅, 금융, 의학, 공학, 생물학 등 정말 모든 분야에서 활용될 수 있는 기술이다.
데이터 사이언스를 통해 각 분야의 정교화와 고도화를 이룰 수 있기에
4차 산업 시대의 대표적인 트렌드인 융합과 IoE와 맞아떨어진다.
다양한 분야에 이미 사용 중이 데이터 사이언스
불과 몇 년 사이에 다양한 분야에서 이미 데이터 사이언스를 활용하고 있다.
비즈니스의 구조적 변경을 하지 않고도 데이터 사이언스를 활용하여 충분히 효율성 증대를 할 수 있다는 점에서
다양한 분야에서 데이터 사이언스를 활용한 효율성 증대가 이루어진다.
다만, 현재 모든 기업에서 필요로 하는 기술은 아니다.
데이터 사이언스를 통한 효율성 증대를 이룰 수 있는 기업은 대표적으로 데이터가 많고
정확한 데이터의 정보를 필요로 하는 기업이다.
하지만 일반적인 기업에서는 효율성을 따져 보았을 때 데이터 사이언스를 통한 정밀한 정보가 마이너스인 경우가 있다.
사실 데이터 사이언스는 수많은 데이터를 알고리즘을 통해 관리된다는 것인데
수많은 데이터가 없는 경우는 사람이 직접 확인해도 무방하다.
또한 사실 데이터 사이언스를 통한 데이터의 정보화는 저렴하지 않다.
그렇다보니 일반적으로 유명한 대기업에서는 데이터 사이언스를 통한 효율성을 증대를 이루지만
데이터를 많이 활용하지 않는 기업에서는 데이터 사이언스 기술이 현재로써는 그다지 와닿지 않는다.
그러나 과거 영화에서만 보던 다양한 기술들이 실제로 사용되고 있다.
데이터 사이언스가 다양한 서비스를 통해 대중화가 이루어진다면
미래에는 모든 분야와 직종에서 데이터 사이언스를 사용할 것으로 보인다.
'Computer Science > AI & Data' 카테고리의 다른 글
[AI] Jupyter lab(주피터 랩)이란? | Jupyter lab과 Jupyter notebook 차이점 (0) | 2021.12.13 |
---|---|
[AI] YOLOv5와 YOLOv4의 차이점 (0) | 2021.12.12 |
[Data Science] 파이토치(PyTorch)를 배워야 하는 이유 (0) | 2021.06.09 |
[Data Science] 캐글(Kaggle)을 해야하는 이유 (0) | 2021.02.13 |
[Data Science] Reinforcement Learning(강화학습) (0) | 2021.02.01 |
댓글