728x90 데이터 사이언스12 [Data Science] 데이터 캘리브레이션 (Data Calibration) 데이터 캘리브레이션 (Data Calibration) 포스트 난이도: HOO_Middle # Data calibration 데이터 교정이라고도 불리는 Data calibration은 데이터를 다루는 대부분의 분야에서 한번 정도는 들어본 적이 있을 것이다. 캘리브레이션에 대한 의미를 찾아보면 "교정"이라는 뜻을 가지고 있고 하드웨어 쪽에서는 오차를 교정하는 과정을 캘리브레이션이라고 부르기도 한다. 데이터 사이언스 (Data science)에서도 결과를 교정한다는 점에서 비슷한 의미를 가졌지만 사실상 "표준화"에 더 가까운 의미를 가지고 있는 것이 데이터 사이언스에서의 캘리브레이션이다. 따라서 데이터 사이언티스트에게는 데이터를 어떻게 캘리브레이션에서 표준화하여 생성 및 수집해 내는지도 정말 중요한 요소 중에.. 2023. 10. 12. [Data Science] Exploratory Data Analysis (탐색적 데이터 분석)이란? Exploratory Data Analysis (탐색적 데이터 분석)이란? 포스트 난이도: HOO_Senior # Exploratory Data Analysis 머신러닝을 통해서 데이터 분석 작업을 해본 개발자라면 EDA에 대해서 들어봤을 것이다. EDA는 Exploratory Data Analysis의 줄임말로 탐색적 데이터 분석이라고도 부른다. 말 그대로 데이터를 분석하기 전에 전반적인 데이터에 대해 알아보는 과정 자체를 EDA라고 부른다. 데이터 사이언스 프로젝트를 많이 해본 개발자에게는 EDA를 하라고 한다면 잠을 자고 있는 와중에도 뚝딱뚝딱할 수가 있다. 이 말인즉슨, EDA를 하는 과정 자체는 대부분의 데이터 사이언스 프로젝트에서 비슷하기 때문이다. 데이터를 분석하는 과정에서 데이터 정보를 나.. 2022. 12. 16. [Data Science] 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계(Pearson Correlation) 포스트 난이도: HOO_Junior # 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계는 두 변수에 관계를 선형 데이터로 나타낸 방식을 의미한다. 데이터 사이언스에서 상관관계는 기본적으로 알고 있어야 하며, 피어슨 상관관계는 데이터를 다루는 데 있어서 가장 기본적으로 배우는 이론이다. 피어슨 상관 (계수) 관계는 Covariance(공분산)과 Standard deviation(표준 편차)을 사용하여 나타낼 수 있다. 여기서 비교되는 값은 두 개의 연속적인 변수를 의미한다. 한마디로 두 개의 서로 다른 연속성을 가진 데이터를 비교 분석을 피어슨 상관관계를 통해서 한다는 것이다. # 피어슨 상관관계에서 무조건 선형이 아닐 수도 있다... 2022. 11. 19. [Data Science] 데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요? 데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요? 포스트 난이도: HOO_Junior # 데이터 사이언스와 프로그래밍 언어 데이터 사이언스(Data science) 분야에는 크게 3가지의 직업으로 나뉜다. 데이터 분석가, 데이터 엔지니어 그리고 데이터 사이언티스트이다. 일반적으로 데이터 사이언티스트가 데이터 분석가와 데이터 엔지니어를 포괄하고 데이터 엔지니어가 데이터 분석가를 포괄하는 직업으로 알고 있다. 구체적으로 살펴보면 각 직업마다 데이터를 다루고 담당하는 분야나 방식이 조금씩 다르지만 완전히 틀린 말은 아니라고 본다. 사실상 데이터 엔지니어는 데이터 분석가가 하는 업무를 할 줄 알아야 하고 데이터 사이언티스트는 데이터 엔지니어와 데이터 분석가가 하는 업무를 모두 할 수 있어야 하기 때문.. 2022. 11. 18. [Data Science] 데이터 사이언스란? 데이터 사이언스란? 포스트 난이도: HOO_Junior # Data science 데이터 사이언스(Data science)는 데이터를 기반으로 하여 결과를 도출해내거나 산출된 결괏값을 기반으로 미래의 대한 결과를 사전에 예측하는 것을 의미한다. 한마디로 데이터 분석을 통해서 현재의 결과를 도출해낼 뿐만 아니라 최종적으로 앞으로의 미래를 예측하는 역할도 수행하기에 우리는 데이터 사이언스 또는 한국말로는 데이터 과학이라고 부른다. 데이터 사이언스는 머신러닝을 통해서 정보(Information)을 산출해내고 이러한 정보는 사용자에게 전달하거나 또 다른 인공지능 프로그램의 학습 소재로 사용이 되어 인공지능 프로그램의 최적화를 만들어주기도 한다. 따라서 우리는 인간을 위한 데이터 사이언스와 기계를 위한 데이터 사.. 2022. 11. 16. [Data Science] Empirically Detecting Causality: Convergent Cross Mapping Empirically Detecting Causality: Convergent Cross Mapping 포스트 난이도: HOO_Senior # Empirically Detecting Causality 현실 세계에서 일어나거나 발생하는 모든 데이터는 사실상 Time series로 존재한다. 왜냐하면 살고 있는 세상 자체가 시간을 기준으로 움직이다 보니 외부적인 요인에 대한 수치화 또는 표준화 과정은 Times series data를 통해서 산출되는 것이다. 문제는 Real world에서 우리는 Time series data를 바로 얻어낼 수 없다. 따라서 Dynamic data를 Time series로 record 하여 single variable를 산출한다. 또한 Time series data를 바로 사.. 2022. 11. 14. [Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #01 캐글 타이타닉(Titanic Machine Learning Competition) #01 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com [해당 포스트는 2021.2.9일 자 포스트를 업데이트한 포스트입니다.] # 데이터 사이언스와 캐글 입문에 좋은 타이타닉 프로젝트 타이타닉 프로젝트는 캐글에서 제공하는 학습용 Competition에 해당한다. Competition을 시작하기 앞서서 데이터 사이언스 프로젝트와 캐글에서 프로젝트를 해본 경험이 .. 2022. 7. 31. [Data Science] Data Science vs Data Analyst vs Data Engineering Data Science vs Data Analyst vs Data Engineering 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # DS, DA, DE 데이터 기반 인공지능이 대중화되어 사용되고 있는 만큼 데이터를 다룰 줄 아는 인재들을 많은 기업과 기관에서 찾고 있다. 몇 년 전까지만 해도 Data science라는 분야 하나로 통일되어 왔던 데이터를 다루는 직종이 이제는 Data science, Data analyst, Data e.. 2022. 7. 18. [Data Science] Side Project: HuBMAP + HPA Side Project: HuBMAP + HPA 포스트 난이도: HOO_Lead [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # HuBMAP + HPA 기한 Started date: 6/22/2022 Rules Acceptance Deadline: 9/15/2022 Finished date: 9/22/2022 # Project Explanation: Functional tissue units HuBMAP + HPA 프로젝트는 kaggle에서 진행되는 Competitions .. 2022. 7. 15. [Q&A] epochs의 기준을 몇으로 잡아야 하나요? epochs의 기준을 몇으로 잡아야 하나요? # epochs 기준 ML을 돌리는 데 있어서 batch size와 epochs를 몇으로 잡아야 하는지 고민이 되는 경우가 종종 있다. 거두절미하고 epochs에 대한 일관된 하나의 답변은 존재하지 않는다. 한마디로 프로젝트 상황에 따라서 적합한 epochs 수가 다르다는 것이다. 그렇기에 optimal한 결과를 산출하기 위해서 underfit과 overfit 결과를 모두 겪기도 한다. 물론 바로 원하는 결과가 산출되었으면 좋겠지만 원하는 결과가 바로 산출되지 않는 것이 데이터 사이언스 프로젝트이다. 또한 원하는 optimal 값이 산출되더라도 다른 epochs 수를 통해 비교 분석을 해보는 것이 좋기 때문에 결과적으로 여러 번 ML 학습을 돌릴 수밖에 없다는.. 2022. 7. 8. [Data Science] 데이터 사이언스 프로젝트 코드 작성 요령 Data Science 프로젝트 코드 작성 요령 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Data science project 데이터 사이언스 관련 프로젝트를 사용할 때 노트를 활용해서 라이트 하게 작업을 수행하기도 한다. 과거에는 로컬 주피터랩과 같은 노트를 통해서 작업을 수행했지만 요즘에는 다양한 클라우드 기반 노트를 활용하여 작업을 수행하는 편이다. 이번 포스트에서는 클라우드 기반 노트로 데이터 사이언스 프로젝트를 수행할 때 .. 2022. 7. 6. [데이터 사이언스] 캐글 프로젝트(Kaggle Project): Foursquare - Location Matching 캐글 프로젝트(Kaggle Project): Foursquare - Location Matching 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Kaggle Project 캐글 프로젝트(Kaggle project)는 Data science에 대한 공부와 프로젝트 또는 Competition을 참여할 수 있는 커뮤니티 사이트이다. 프로젝트에 직접 참여하지 않더라도 캐글 사이트에서 Data science를 공부하기에도 충분히 괜찮은 사이트이.. 2022. 6. 11. 이전 1 다음 728x90