경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요!
# AI 학습용 공공데이터
데이터 사이언스 (Data science) 분야의 개발자를 꿈꾸는 학생들이나 데이터 분석을 통한 연구를 해야 하는 한국 박사생들에게 있어 학습용 데이터셋을 수집하고 가공하는 과정은 너무나도 귀찮고 힘들다. 라벨링 작업 자체나 데이터셋 파일을 만드는 것 자체가 귀찮은 건 어쩔 수 없다고 치지만 데이터 자체를 구하는 게 쉽지 않다. 회사에서 개발자의 경우에는 실무에서 경험을 쌓을 수 있다고는 하지만 개별적으로 본인 공부나 연습을 하고 싶은 개발자들도 무료 데이터셋을 찾아서 사용해 보는 게여간 쉽지 않은 일이다. 글쓴이를 포함하여 많은 데이터 사이언스 분야의 개발자들은 캐글 (Kaggle)이나 로보플로우 (Roboflow)처럼 오픈소스로 공개된 데이터를 사용해 보곤 했었는데 이제는 경기도가 제공하는 인공지능 학습용 공공데이터를 활용할 수 있게 되었다.
https://data.gg.go.kr/portal/mainPage.do
사실 공공데이터는 비영리 목적으로 국민 누구나 사용할 수 있는 공개된 데이터이다. 따라서 통계청에서 제공하는 정보나 각 부처에서 제공되는 데이터를 우리는 그동안 쭉 사용해오고 있었다. 그럼에도 불구하고 글쓴이가 경기도데이터드림을 칭찬하는 이유는 기본적인 인공지능 학습 데이터로써 가공까지는 아니더라도 정리가 되어있기 때문이다.
# 데이터 관련 인재 육성에 도움이 된다.
데이터 사이언스 분야의 컴퓨터쟁이들에게 있어 경기데이터드림이 왜 중요하냐라고 물어본다면, 크게 봤을때 국가 인재 육성에 매우 큰 도움이 될 것이라고 본다. 우리가 데이터 기반 인공지능을 더 이상 활용할 필요가 없어지는 시기가 도래한다면 상관없겠지만 아직까지는 사람이 직접 데이터를 기반으로 학습을 시켜줘야 하는 인공지능을 사용하고 있다. 한마디로 데이터 기반으로 학습이 되는 인공지능이다 보니 인공지능용 학습 데이터가 필요하다.
각 기업들은 이러한 학습 데이터를 자체적으로 가공하거나 아웃소싱을 통해서 학습용 데이터셋을 만들어 인공지능 모델을 학습시키지만 막상 이 분야에 관심을 가지고 공부를 하는 사람들의 경우에는 학습용 데이터를 수집하고 정리, 가공하는 과정이 현실적으로 어렵다. 한마디로 과장해서 예시를 들자면 수험생이 수능을 코앞에 두고 기출문제 풀기도 바쁜데 문제집과 교과서에 필요한 종이를 나무를 베어가면서 직접 만들라는 거와 같다고 볼 수 있다.
글쓴이는 한국 정부가 약 10년이 안되는 시점부터 공공데이터를 정리하고 인공지능 및 시스템에서 활용할 수 있도록 데이터를 공개하고 제공하는 서비스를 국민들에게 시행하고 있다는 걸 알고 있다. 내부적으로는 준비한 기간이 10년이 넘었을 수도 있지만 글쓴이가 처음 공공 데이터를 활용할 수 있게 된 시점 기준이니 정확하지는 않지만 그만큼 오래전부터 우리나라는 데이터 시대를 준비해 왔다는 것이다. 하지만 솔직히 말해서 인공지능 학습용으로 정리가 된 데이터셋이라고 말하기에는 부족한 점들이 많았다. 공공데이터를 분류하고 전산화하여 수집해 준 것 자체가 감사할 따름이지만 그걸 바로 Computer visiong이나 NLP와 같이 바로 활용이 불가하여 정리와 가공 작업이 필요했던 건 사실이다. 하지만 컴퓨터쟁이인 글쓴이가 감동스러웠던 포인트는 경기도에서 말하는 데이터셋 자체가 인공지능 학습 데이터로써 제공되고 있으며, 가공까지는 아니지만 어느 정도 정리가 되어 있었다. 이러한 점은 데이터 관련 공부를 하는 학생들이나 연구를 하는 연구원들 모두 손쉽게 해당 데이터셋을 활용하여 보다 빠르게 인공지능 모델 개발이 가능해졌다는 것이며, 결과적으로 인재 육성에 도움이 될 것으로 예측된다.
# 비영리 목적으로 사용이 가능하며, 영리 목적인 경우 확인이 필요하다.
공공데이터의 특성상 국민 누구에게나 공개되어 있고 비영리 목적, 연구, 학업 등의 목적으로 활용이 가능하다. 경기데이터 드림의 인공지능 학습용 데이터셋에 대한 소개에서도 도민의 데이터 이용편익을 향상시키기위해서 제공되는 서비스이며, 개발자를 위한 오픈 API 서비스도 같이 제공된다고 나와있었다. 또한 해당 데이터셋을 통해서 민간의 다양한 비즈니스 창출 기회를 제공한다고 하니, 비영리 목적 이외에 사용을 원하는 스타트업이나 개발자의 경우에는 경기데이터드림 담당자와 연락을 취해 확인을 받아볼 필요가 있다고 보였다. AI빅데이터산업과라는 부서 자체가 있는 것으로 보아 해당 정보에 대해 구체적인 설명을 확인받을 수 있을 것을 보인다.
# 어떻게 사용할 수 있는가?
우선 링크를 통해서 경기데이터드림 사이트에 접속이 가능하다. 링크를 통한 접근이 찝찝하다면 포털 사이트에서 "경기데이터드림"을 검색하면 쉽게 해당 사이트로 연결할 수 있는 링크가 나온다.
https://data.gg.go.kr/portal/mainPage.do
해당 사이트에서 제공되는 데이터를 사용하기 위해서는 우선 회원가입을 해야하는데 여러 SNS 계정을 통해서 간편 가입이 가능하니, 누구나 쉽게 가입할 수 있다. 처음에 글쓴이도 회원가입이 필수라고 해서 귀찮아졌지만 간편 가입을 보고 다시 해피해졌다.
회원가입 후에 상단에 메뉴에서 여러 데이터를 살펴보아도 되지만, "AI학습 데이터" 메뉴에서 원하는 공공데이터를 검색해서 인공지능 모델 연습에 활용하거나 학술 연구에 활용할 수도 있고, 회사에서 업무를 끝내놓고 해당 데이터셋을 기반으로 이직 준비나 스타트업을 해볼 수도 있다. 솔직히 이러한 공공데이터에 가장 큰 혜택을 받는 사람은 아무래도 대학생들이 아닐까 싶다. 특히 CS 전공 대학생이면서 데이터 관련 개발자를 꿈꾸고 있다면 해당 데이터를 기반으로 스타트업 컴퍼니까지는 아니더라도 스타트업 팀까지는 해보는 경험도 정말 좋을 거 같아 보였다.
# 결론
경기도에서 글쓴이에게 따로 준 것도 없지만 개발자 브로들에게 도움이 되는 이러한 서비스는 아낌없이 칭찬을 해주고 널리 알려야 한다고 생각한다. 경기도 입장에서도 나쁘지 않은 게 해당 경기도 공공데이터를 기반으로 연구와 사업적 모델링이 이루어지게 되면 장기적으로 경기도가 혜택을 볼 수밖에 없는 구조라고 생각한다. 인공지능에서 보면 대부분의 소스들이 오픈소스 형태로 공개되어 있는데, 그 이유는 장기적인 플랜에 있어서 오픈소스로 공개했을 때 개발과 발전되는 속도가 매우 빠르기 때문이다. 글쓴이의 개인적인 견해로는 아직은 데이터셋 수도 많지 않고 활용하는 데 있어서 한 번 더 가공이 필요한 건 사실이다. 그럼에도 이러한 시도를 한다는 것은 장기적으로 보았을 때 긍정적인 효과를 가져오지 않을까 싶다.
'AI & Data' 카테고리의 다른 글
[Data Science] Soft System Methodology (연성체계 방법론) (0) | 2023.09.01 |
---|---|
[Data Science] 데이터 사이언스가 쓸모 없는 이유 (0) | 2023.08.24 |
[Data Science/Colab/Jupyter] 코랩, 주피터에서 압축 푸는 방법: torch, zipfile, patool (0) | 2023.08.03 |
[AI / Computer Vision] YOLOv8 (욜로v8) (0) | 2023.07.22 |
[Data Science] 데이터 소유권이 왜 필요한가요? (4) | 2023.07.18 |
댓글