데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요?
포스트 난이도: HOO_Junior
# 데이터 사이언스와 프로그래밍 언어
데이터 사이언스(Data science) 분야에는 크게 3가지의 직업으로 나뉜다. 데이터 분석가, 데이터 엔지니어 그리고 데이터 사이언티스트이다. 일반적으로 데이터 사이언티스트가 데이터 분석가와 데이터 엔지니어를 포괄하고 데이터 엔지니어가 데이터 분석가를 포괄하는 직업으로 알고 있다. 구체적으로 살펴보면 각 직업마다 데이터를 다루고 담당하는 분야나 방식이 조금씩 다르지만 완전히 틀린 말은 아니라고 본다. 사실상 데이터 엔지니어는 데이터 분석가가 하는 업무를 할 줄 알아야 하고 데이터 사이언티스트는 데이터 엔지니어와 데이터 분석가가 하는 업무를 모두 할 수 있어야 하기 때문이다.
이렇게 보면 데이터 사이언스라는 분야는 동일한 언어를 사용할 것으로 보이지만 사실상 그렇지가 않다. 왜냐하면 데이터 분석가가 데이터 엔지니어나 데이터 사이언티스트가 하는 업무까지를 알고 있을 필요는 없기 때문이다. 따라서 데이터 사이언스라는 분야에서도 어떤 분야를 담당할 것인지에 따라서 사용하는 언어가 조금 다를 수 있다는 것이다. 하지만 여기서 유의해야 되는 점은 데이터 사이언티스트는 데이터 엔지니어와 데이터 분석가의 업무를 모두 알고 있어야 하기에 데이터 분석가와 데이터 엔지니어에서 사용하는 언어를 모두 다 알고 있어야 한다는 것이다.
하지만 데이터 사이언스를 이제 막 공부하려고 고민 중이라면 처음부터 데이터 사이언스 분야에서 사용되는 모든 언어를 배우고 익히기는 어렵다. 프로그래밍 언어를 공부하는 게 어려워서 우선적으로 어떤 언어를 공부해야 할지 고민하는 단계라면 더더욱 그렇다. 따라서 이번 포스트에서는 데이터 사이언스에서 공통적으로 사용되는 프로그래밍 언어에 대해서 살펴봄으로써 데이터 사이언스를 하고 싶으면 어떤 프로그래밍 언어를 기본적으로 알아야 하는지에 대해서 이야기를 나눠 보도록 하자.
# Python
파이썬(Python)은 데이터 사이언스에서 꼭 알고 있어야 하는 기본 중의 기본 언어이다. 마치 미국에서 살아가기 위해서 영어를 알고 있어야 하는 거와 같이 데이터 사이언스 분야에서 데이터를 다루기 위해서는 파이썬을 기본적으로 알아야 한다. 따라서 데이터 사이언스 분야에 관심이 있다면 우선적으로 파이썬 언어를 공부하는 것을 추천한다.
데이터 다룬다는 것은 그저 프로그램을 통해서 데이터를 다루는 것이 아니라 인공지능 프로그램이 데이터를 다룰 수 있도록 만들어줘야 한다. 따라서 데이터 사이언스 분야는 머신러닝을 다룰 수 있어야 하며, 그러기 위해서 기본적으로 사용하는 언어가 바로 파이썬인 셈이다.
파이썬만을 알아도 다양한 패키지 또는 라이브러리를 통해서 데이터 분석이 가능하다. 파이썬은 데이터를 다루기에 특화된 언어 중 하나로써 다양한 데이터 라이브러리를 보유하고 있다. import를 통해서 쉽게 사용이 가능하고 파이썬 하나만으로도 간단하게 데이터에 대한 분석을 시각적으로 표현할 수 있기에 데이터 사이언스를 공부하는데 재미를 느낄 수가 있다.
파이썬의 또 다른 장점은 사용하는 분야가 다양하다는 것이다. 사실상 프로그래밍 언어를 뭘 공부해야 할지 고민하는 단계라면 추후에 데이터 사이언스 분야로 일을 하지 않을 가능성도 높다. 왜냐하면 아직 프로그래밍 언어에 대해서도 모르는데 다양한 컴퓨터 분야에서 데이터 사이언스 말고도 할 수 있는 분야가 너무나도 많기 때문이다. 그렇기에 공부하다 보면 원하는 분야가 충분히 달라질 수 있기 때문이다. 이러한 경우를 고려했을 때 파이썬을 공부한다는 건 좋은 선택지인 셈이다.
파이썬은 데이터 사이언스 분야 말고도 많은 컴퓨터 분야에서 사용되고 있고 사용되는 범위가 지속적으로 넓어지고 있는 언어이다. 프로그래밍 언어의 중요한 요소 중에 하나가 대중성인데 파이썬은 그러한 특징을 가지고 있기 때문이다. 물론 몇 년 전까지만 해도 파이썬이 편하고 좋다는 걸 알지만 사실상 현실에서는 어려움이 있었다. 기존 프로그램들이 이전 체계의 언어로 구성되어 있다 보니 파이썬을 알고 일을 하기가 막상 쉽지는 않았다. 하지만 이제는 국내도 파이썬을 기반으로 한 많은 프로그램 및 컴퓨터 분야 일자리가 늘어났고 데이터 사이언스에 흥미가 있다면 파이썬 언어를 먼저 공부해 보는 것도 좋은 선택지라고 본다.
# R
데이터 사이언스는 결국 데이터를 다루는 분야이고 통계와 떨어질 수가 없는 분야이기도 하다. 이 말인즉슨 결국 데이터 사이언스 분야로 일을 하고 싶다면 알고리즘과 더불어 통계학적 지식을 충분히 가지고 있어야지만 한다는 것이다. 그렇기에 Computer science 전공에 특화된 직업 분야가 데이터 사이언스인 셈이다. 예컨대 필자는 어렸을 적부터 수학을 좋아하지 않았지만 이제는 수학이 부전공이자, 수학에 대한 공부를 너무 많이 하다 보니 수학을 좋아하게 되어 버렸다.
아무튼 R 언어는 통계와 관련이 깊은 언어이자 대표적인 IDE 툴인 R studio가 있다. R studio는 데이터를 통계적으로 산출하는데 특화된 툴이다. 그렇다 보니 막상 어려워 보이는 R이 들어다 보면 너무나도 재미있는 언어이다. 물론 필자는 데이터 사이언스에 미쳐있기에 공감이 되지 않을 수도 있다. 하지만 객관적으로 보더라도 R은 정말 보다 더 편리하게 언어 구성이 되어 있어서 데이터를 분석하는데 정말 도움이 되는 언어이다.
결국 데이터 사이언스에 대해 공부를 시작하고 싶다면 파이썬 언어와 더불어 R 언어에 대한 공부도 같이 해주는 것이 좋다.
'AI & Data' 카테고리의 다른 글
[Data Science] 데이터 사이언스를 처음 공부할 때: 사이킷런(sklearn) (0) | 2022.12.16 |
---|---|
[Data Science] 피어슨 상관관계(Pearson Correlation) (0) | 2022.11.19 |
[Data Science] 데이터 사이언스란? (0) | 2022.11.16 |
[Data Science] Empirically Detecting Causality: Convergent Cross Mapping (0) | 2022.11.14 |
[Data Science] Time Series Data (0) | 2022.08.28 |
댓글