본문 바로가기
Computer Science/AI & Data

[AI & Data] 인공지능보다 데이터의 중요성을 강조하는 이유

by Henry Cho 2024. 6. 10.
728x90

인공지능보다 데이터의 중요성을 강조하는 이유 


# 인공지능이 있기 위해서 데이터가 필요하다

나는 데이터를 다루면서 인공지능 중에서도 Computer vision 분야를 주요하게 다루는 개발쟁이이다. 최근에 학회, 미팅, 세미나 등 다양한 인공지능 전문가 및 연구원분들과 이야기를 나누나 보면 한결같이 내 손을 붙잡고 말씀하시는 부분이 데이터 수집과 관리이다. 불과 7년 전까지만 해도 인공지능을 개발하고 적용하는 부분에 더 초점이 맞춰져 있어 왔다면 이제는 인공지능을 최적화하고 학습하기 위한 데이터의 초점이 맞춰지고 있다.

 

우리는 현재 데이터 기반의 인공지능을 사용하고 있다. 앞으로의 미래는 데이터 기반이 아닌 사람의 뇌와 같이 프로세싱이 가능한 인공지능이 개발될 지는 몰라도 현재는 데이터 기반인 셈이다. 인공지능의 활용도가 넓어지고 비교적 손쉽게 인공지능을 활용할 수 있는 기회들이 많아지다 보니 보다 더 Deep 하게 인공지능을 바라보게 되었다. 그중에 하나가 바로 인공지능이 학습하는데 필요한 데이터의 품질인 셈이다.

 

인공지능이 어린 아이라고 생각하면 데이터는 마치 아이를 위한 이유식과 같다. 개발자와 연구원 입장에서 소중한 인공지능 툴이나 시스템을 학습하고 최적화하는데 아무 데이터를 함부로 사용하기에 리스크가 있다. 나 또한 나무 주사용 로봇 시스템을 개발하는 데 있어서도 직접 Segmentation을 위한 데이터를 수집하고 가공하지 다른 데이터를 추가적으로 학습하는 데 사용하지 못했다. 가장 큰 이유는 만들어 놓은 시스템이 망가지거나 잘못될까 봐 두려웠기 때문이다.

 

CIGR 2024 Conference, Jeju Island, USDA 데이터 부분에 대한 예산 편성을 질문했었다.


# 데이터 소유권은 기술적인 측면에서 필요하다

데이터 소유권이라고 하면 경제적인 관점과 연결이 될 것처럼 보이지만 사실 인공지능을 학습하기 위한 데이터 품질이나 관리 측면에서 명확한 데이터 소유권이 필요하다. 명확한 데이터 소유권은 데이터를 사용하는 인공지능 개발자나 연구원들에게 확실한 메타 데이터를 제공해주고 데이터 품질에 대한 걱정을 덜고 인공지능 개발 및 최적화에 집중할 수 있도록 도와준다.

 

한마디로 현재의 개발자는 인공지능에게 줄 데이터를 위해 직접 씨앗을 뿌려서 작물을 키워서 재료를 손질하고 요리해서 "데이터"라는 이유식을 만들고 있는데 이 과정이 마치 믿을 수 있는 마켓에서 유기농 재료를 사서 요리하는 단계로 전환된다는 것이다. 물론 데이터 소유권이 명확해지면 데이터를 제공하는 Stakeholders들에게도 이점으로 작용이 되고 Small and Mid-size companies에도 이점을 작용할 수 있다. 예를 들어 내가 다루고 있는 농업 탄소 크레딧의 경우나 농업 데이터 수집과 Supply chain 구성 등이 있다.

 

CIGR 2024 Conference, Jeju Island, 학회에서 발표한 일부 예시 내용

 

하지만 개발쟁이 입장에서 다른 점을 배제하고도 기술적인 측면에서 데이터 소유권이 있어야 데이터 사용 및 활용이 자유로워지고 앞으로의 빅데이터 기반의 인공지능을 다루고 인공지능 시스템끼리 연결하는 측면에서도 큰 이점으로 작용을 하기 때문에 꼭 필요한 부분이라고 생각한다. 그렇기에 미국 내에서도 마이크로소프트를 비롯하여 대기업들과 연구기관 및 대학에서 데이터 센터를 설립하고 데이터 관리 및 수집에 대한 부분을 앞으로의 인공지능 개발 및 최적화를 위해서 강조하고 있다.

 

국내 또한 앞으로의 AI-driven data에 대한 부분 연구에 관심이 높아지고 있으며, 6월 말까지 국내 연구 및 정부 기관과의 해당 부분에 대한 세미나를 마무리할 예정이다.


 

728x90

댓글