본문 바로가기
728x90

데이터사이언스7

[Algorithms] Network Analysis Metrics: Eccentricity, Katz Centrality and Closeness Vitality Network Analysis Metrics: Eccentricity, Katz Centrality and Closeness Vitality 포스트 난이도: HOO_Senior # Eccentricity Eccentricity는 노드와 네트워크상의 다른 노드사이의 가장 큰 거리를 계산하는 네트워크 분석 알고리즘에 해당한다. 한마디로 네트워크 상에서 노드끼리의 가장 먼 거리를 측정해 낸다. 예를 들어서 테마파크나 놀이동산에 놀러 온 사람들이 걸어가는 경로를 생각해 보자. Eccentricity는 공원에서 가장 멀리 떨어진 곳에 있는 놀이기구에 가기 위해 누가 가장 멀리 걸어가야 하는지를 측정하는 것과 같다. 바이킹과 롤러코스터를 타러 가려고 하는데 바이킹을 타고나니 롤러코스터가 바이킹 위치에서 가장 먼 위.. 2024. 1. 25.
[Data Science] Soft System Methodology (연성체계 방법론) Soft System Methodology (연성체계 방법론) 포스트 난이도: HOO_Senior # Soft System Methodology (SSM) 한국에서는 연성체계 방법론이라고 불리는 Soft System Methodology (SSM)의 경우 문제점을 이해하고 분석해야 하는 과학 분야에서 많이 사용하는 기초 분석 방법론이다. 데이터 사이언스 (Data science)에서도 SSM이 필요한 이유는 사실상 공학과 과학을 모두 다루는 분야이기 때문이다. 데이터 사이언스에는 크게 데이터 분석, 엔지니어, 사이언스 등으로 나뉘는데, 데이터 사이언스의 경우 분석과 엔지니어링을 모두 포함한 상태에서 문제 원인과 앞으로 예측까지를 모두 해낼 수 있어야 하기에 SSM과 같은 방법론을 다룰 줄 알아야 한다. .. 2023. 9. 1.
[Data Science] 데이터 사이언스가 쓸모 없는 이유 데이터 사이언스가 쓸모없는 이유 포스트 난이도: HOO_Senior # 데이터 사이언스는 쓸모가 없다 글쓴이가 개인적인 견해를 가지고 하는 말이 아니라 데이터 사이언스, 통계, 모델링 시스템 등의 분야에 있는 과학자들이 하는 말 중에 하나가 데이터 사이언스는 쓸모가 없다는 말이다. 20세기 위대한 통계학자로 불린 영국의 조지 박스 (George E. P. Box)는 "데이터 기반 모델링 시스템은 다 쓸모가 없다, 다만 몇 개는 쓸만하다."라는 말을 남겼다. 데이터 사이언티스트인 글쓴이에게는 정말 충격적인 말이었기에 아직까지도 기억에 남고 아마 이 포스트를 보러 들어온 다른 데이터 사이언스 분야 컴퓨터쟁이들에게도 꽤 신선한 충격일 수 있다. # 데이터 기반 모델링은 현실이 될 수 없다. 솔직히 처음 글쓴이.. 2023. 8. 24.
[Data Science] 경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요! 경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요! # AI 학습용 공공데이터 데이터 사이언스 (Data science) 분야의 개발자를 꿈꾸는 학생들이나 데이터 분석을 통한 연구를 해야 하는 한국 박사생들에게 있어 학습용 데이터셋을 수집하고 가공하는 과정은 너무나도 귀찮고 힘들다. 라벨링 작업 자체나 데이터셋 파일을 만드는 것 자체가 귀찮은 건 어쩔 수 없다고 치지만 데이터 자체를 구하는 게 쉽지 않다. 회사에서 개발자의 경우에는 실무에서 경험을 쌓을 수 있다고는 하지만 개별적으로 본인 공부나 연습을 하고 싶은 개발자들도 무료 데이터셋을 찾아서 사용해 보는 게여간 쉽지 않은 일이다. 글쓴이를 포함하여 많은 데이터 사이언스 분야의 개발자들은 캐글 (Kaggle)이나 로보플로우 (Roboflow)처.. 2023. 8. 23.
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #02 캐글 타이타닉(Titanic Machine Learning Competition) #02 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # 프로젝트에서 요구하는 내용을 파악한다 프로젝트에서 제공하는 데이터들의 파악이 끝났다면 해당 데이터를 기반으로 요구하는 내용을 파악하여 코드를 작성하는 것이 중요하다. 데이터 사이언스는 다양한 데이터를 활용해야 하기 때문에 코드 작성에 앞서서 프로젝트를 어떤 식으로 기획해서 목표를 이룰 것인지가 중요하다... 2022. 7. 31.
[Data Science] 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # 디렉토리, 파일명 위치 선언 데이터 사이언스(Data science) 프로젝트를 수행하다 보면, 한 가지 데이터셋을 사용하는 것이 아니라 수많은 데이터셋을 사용하는 경우가 종종 있다. 종류가 다른 데이터셋을 사용하지 않더라도 학습할 데이터셋과 결과로 산출할 데이터셋만 해도 최소 2가지 이상의 데이터셋을 코드 내에서 선언하여 사용해야.. 2022. 7. 8.
[Data Science] 파이토치(PyTorch)를 배워야 하는 이유 파이토치(PyTorch)를 배워야 하는 이유 딥러닝 프레임워크 파이토치 파이토치란 데이터에 대한 딥러닝 분석을 쉽게 할 수 있도록 제공하는 오픈소스 기반 딥러닝 프레임워크이다. Data Science 분야의 개발자로 프로그래밍을 하기 위해서 꼭 사용해야 하는 툴 중 하나가 딥러닝 프레임워크(Deep Learning Frameworks)인데 그중에 하나가 바로 파이토치(PyTorch)인 것이다. 딥러닝 프레임워크를 툴로써 제공하기 때문에 개발자는 보다 손쉽게 프로그래밍을 할 수 있다. 예를 들어 딥러닝 프레임워크는 요리사에게 재료 준비와 손질까지 된 환경을 제공해준다고 볼 수 있다. 텐서플로우와 파이토치 5년 전까지만 해도 데이터 사이언스에 대한 공부를 한다고 하면 텐서플로우를 꼭 알아야 했다. 구글에서 .. 2021. 6. 9.
728x90