본문 바로가기
728x90

Computer Science/AI & Data79

[SML] Critical Thinkings of The Linear Regression Critical Thinkings of The Linear Regression 포스트 난이도: HOO_Senior # Linear regression에서 고려해야 하는 것들 Linear regression에서 얻은 결과를 분석하는데 있어서 기본적으로 고려해야 될 것들이 있다. 마치 기본적으로 산출된 결과를 분석하는데 알아두어야 될 지침서와 비슷하다. 아래의 예시를 활용하면 산출된 결과를 분석하는데 매우 용이하다. Is there a relationship between X1 and Y? How strong is the relationship between X2 and Y? Which X contribute to Y? How accurately can we predict future Y? is the re.. 2023. 1. 30.
[Statistical Machine Learning] Linear regression, Estimation of the parameters, residual, RSS Linear regression, Estimation of the parameters, residual, RSS 포스트 난이도: HOO_Senior # Linear regression(선형 회귀) 선형 회귀로 알려져 있는 Linear regression는 모델링 분석에서 상당히 많이 사용되는 방식이다. "회귀"에서 알 수 있듯이 Linear regression은 Dependence of Y(종속 변수 Y)와 다수의 선형 X값들을 추정해서 상관관계를 산출해 낸다. 여기서 선형 X값들을 독립적 변수 X라고도 부른다. https://whoishoo.tistory.com/568 [Statistical Machine Learning] Parametric models: Linear model Parametric m.. 2023. 1. 28.
[Statistical Machine Learning] Parametric models: Linear model Parametric models: Linear model 포스트 난이도: HOO_Senior # Parametric models: Linear model Parametric models(매개변수 모델)에서 Linear model(선형 모델)은 대표적이면서도 중요한 모델에 해당된다. 매개변수 모델을 배우는 데 있어서 가장 우선적으로 배우는 모델임에 동시에 비교 분석에서 가장 많이 사용되는 모델이기도 하다. 선형 모델을 식으로 표현하면 아래와 같이 표현이 가능하다. 여기서 베타가 의미하는 바가 바로 매개변수이다. 매개변수라고 해서 어색할 수는 있지만 파라미터(Parameters)를 의미한다. 파라미터는 p+1로 선형 모델에 나타내지며, 우리는 파라미터를 예측할 수가 있다. 파라미터를 예측하기 위해서는 주어진.. 2023. 1. 27.
[Statistical Machine Learning] Estimate f(x): neighborhood, nearest neighbor averaging, curse of dimensionality Estimate f(x): neighborhood, nearest neighbor averaging, curse of dimensionality 포스트 난이도: HOO_Senior # Estimate f Statistical machine learning(SML)에서 f(function)는 데이터를 분석하는 데 있어서 중요하다. f를 어떻게 설정하느냐에 따라서 결과가 완전히 달라질 수 있기 때문이다. 그렇다 보니 f를 어떻게 설정하는지가 데이터 분석에 있어서 중요한 요소이고 데이터 분석가 또는 데이터사이언티스트의 능력을 보여준다. 하지만 아무리 능력이 좋은 데이터사이언티스트라고 할지라도 데이터를 보자마자 f를 만들어낼 수는 없다. f를 구성하는 데 있어서도 데이터를 기반으로 해서 알아내야 한다. SML에.. 2023. 1. 25.
[Statistical Machine Learning] Introduce Statistical Learning Introduce Statistical Learning 포스트 난이도: HOO_Senior # Statistical Learning 위의 예제는 Statistical learning에서 사용하는 기본적인 수식이다. 우선 PL이라고 나와있는 Programming Languages라는 변수(Y)는 respons 또는 target에 해당한다. f라고 나와있는 function 안에는 여러 원소들이 포함되어 PL이라는 결과를 산출한다. f 안에 있는 원소(x)들을 input, feature, predictor이라고 부른다. 아래의 다른 예시들도 살펴보면 이해하는데 도움이 될 것이다. 위의 예시를 간단하게 수식을 표현하면 아래와 같다. 위와 같이 수식으로 표현할 수 있으며, function 안의 x로 표현된 원소들.. 2023. 1. 19.
[Data Science] 한글 csv 파일 cp949 인코딩으로 pd.read_csv() 하는 방법 한글 csv 파일 cp949 인코딩으로 pd.read_csv() 하는 방법 포스트 난이도: HOO_Middle # 한글 csv 파일 cp949 인코딩으로 pd.read_csv() 예제 코드 한글이 포함된 csv 파일인 경우에는 Pandas에서 데이터를 읽고 처리하는데 utf-8 에러가 발생할 수 있다. 영어로 되어 있다면 문제가 없겠지만 한글이나 한국에서 주로 사용하는 특수 기호가 포함되어 있다면 이러한 에러 문제가 발생한다. 한마디로 컴퓨터에게 한글을 사용할 것이라는 걸 알려줘야 하는데, 이때 인코딩 세팅을 추가로 해주면 문제없이 데이터 읽고 사용이 가능하다. 인코딩 넘버는 'cp949'이며 pd.read_csv()에 인코딩을 추가해줘서 쉽게 한글 csv 파일 사용이 가능하다. import pandas.. 2022. 12. 31.
[Data Science] Colab에서 출력한 Data Table를 Data Frame에 맞추어 정렬하는 방법, 데이터 프레임 전환하는 방법 Colab에서 출력한 Data Table를 Data Frame에 맞추어 정렬하는 방법, 데이터 프레임 전환하는 방법 포스트 난이도: HOO_Junior # Colab Data Table 코랩(Colab)에서 csv 파일 내의 데이터를 보기 위해서 특정 데이터 테이블을 출력할 경우 보기 안 좋게 망가져서 출력이 되는 경우가 있다. 왜냐하면 csv 데이터 파일 자체가 데이터 분석을 하기 위해서 데이터가 처음부터 정리되어 저장이 되어 있지 않거나 출력하려는 데이터 형태와의 차이가 있으면 이러한 경우가 종종 발생한다. 데이터를 분석하는데 있어서 코드 자체에 문제를 주지 않지만 출력된 데이터 테이블을 분석하는데 어려움이 있다. 한마디로 데이터에 대한 가독성이 떨어져서 작업이 시간이 소요된다는 것이다. 이러한 경우.. 2022. 12. 31.
[Data Science] Exploratory Data Analysis (탐색적 데이터 분석)이란? Exploratory Data Analysis (탐색적 데이터 분석)이란? 포스트 난이도: HOO_Senior # Exploratory Data Analysis 머신러닝을 통해서 데이터 분석 작업을 해본 개발자라면 EDA에 대해서 들어봤을 것이다. EDA는 Exploratory Data Analysis의 줄임말로 탐색적 데이터 분석이라고도 부른다. 말 그대로 데이터를 분석하기 전에 전반적인 데이터에 대해 알아보는 과정 자체를 EDA라고 부른다. 데이터 사이언스 프로젝트를 많이 해본 개발자에게는 EDA를 하라고 한다면 잠을 자고 있는 와중에도 뚝딱뚝딱할 수가 있다. 이 말인즉슨, EDA를 하는 과정 자체는 대부분의 데이터 사이언스 프로젝트에서 비슷하기 때문이다. 데이터를 분석하는 과정에서 데이터 정보를 나.. 2022. 12. 16.
[Data Science] 데이터 사이언스를 처음 공부할 때: 사이킷런(sklearn) 데이터 사이언스를 처음 공부할 때: 사이킷런(sklearn) 포스트 난이도: HOO_Middle # scikit-learn 사이킷런(scikit-learn)이라고 부르는 sklearn 라이브러리는 구조 데이터를 분석하는 데 사용되는 대표적인 머신러닝 라이브러리이다. 그렇기에 많은 개발자들이 사이킷런을 알고 있으며, 데이터 사이언스 분야가 아니더라도 머신러닝을 사용하는 개발자라면 사이킷런을 처음 접하고 공부했을 가능성이 높다. 머신러닝을 공부하는 데 있어서 사이킷런 라이브러리를 사용하는 이유는 머신러닝을 이해하는데 아주 심플하면서도 데이터 사용과 관리가 어떤 식으로 이루어지는지 쉽게 이해할 수 있기 때문이다. sklearn은 주로 구조화 데이터 분석을 하는데 사용이 되기 때문에 데이터를 다루는 데 있어서 .. 2022. 12. 16.
[Data Science] 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계(Pearson Correlation) 포스트 난이도: HOO_Junior # 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계는 두 변수에 관계를 선형 데이터로 나타낸 방식을 의미한다. 데이터 사이언스에서 상관관계는 기본적으로 알고 있어야 하며, 피어슨 상관관계는 데이터를 다루는 데 있어서 가장 기본적으로 배우는 이론이다. 피어슨 상관 (계수) 관계는 Covariance(공분산)과 Standard deviation(표준 편차)을 사용하여 나타낼 수 있다. 여기서 비교되는 값은 두 개의 연속적인 변수를 의미한다. 한마디로 두 개의 서로 다른 연속성을 가진 데이터를 비교 분석을 피어슨 상관관계를 통해서 한다는 것이다. # 피어슨 상관관계에서 무조건 선형이 아닐 수도 있다... 2022. 11. 19.
[Data Science] 데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요? 데이터 사이언스를 하고 싶으면 무슨 언어를 공부해야 할까요? 포스트 난이도: HOO_Junior # 데이터 사이언스와 프로그래밍 언어 데이터 사이언스(Data science) 분야에는 크게 3가지의 직업으로 나뉜다. 데이터 분석가, 데이터 엔지니어 그리고 데이터 사이언티스트이다. 일반적으로 데이터 사이언티스트가 데이터 분석가와 데이터 엔지니어를 포괄하고 데이터 엔지니어가 데이터 분석가를 포괄하는 직업으로 알고 있다. 구체적으로 살펴보면 각 직업마다 데이터를 다루고 담당하는 분야나 방식이 조금씩 다르지만 완전히 틀린 말은 아니라고 본다. 사실상 데이터 엔지니어는 데이터 분석가가 하는 업무를 할 줄 알아야 하고 데이터 사이언티스트는 데이터 엔지니어와 데이터 분석가가 하는 업무를 모두 할 수 있어야 하기 때문.. 2022. 11. 18.
[Data Science] 데이터 사이언스란? 데이터 사이언스란? 포스트 난이도: HOO_Junior # Data science 데이터 사이언스(Data science)는 데이터를 기반으로 하여 결과를 도출해내거나 산출된 결괏값을 기반으로 미래의 대한 결과를 사전에 예측하는 것을 의미한다. 한마디로 데이터 분석을 통해서 현재의 결과를 도출해낼 뿐만 아니라 최종적으로 앞으로의 미래를 예측하는 역할도 수행하기에 우리는 데이터 사이언스 또는 한국말로는 데이터 과학이라고 부른다. 데이터 사이언스는 머신러닝을 통해서 정보(Information)을 산출해내고 이러한 정보는 사용자에게 전달하거나 또 다른 인공지능 프로그램의 학습 소재로 사용이 되어 인공지능 프로그램의 최적화를 만들어주기도 한다. 따라서 우리는 인간을 위한 데이터 사이언스와 기계를 위한 데이터 사.. 2022. 11. 16.
[Data Science] Empirically Detecting Causality: Convergent Cross Mapping Empirically Detecting Causality: Convergent Cross Mapping 포스트 난이도: HOO_Senior # Empirically Detecting Causality 현실 세계에서 일어나거나 발생하는 모든 데이터는 사실상 Time series로 존재한다. 왜냐하면 살고 있는 세상 자체가 시간을 기준으로 움직이다 보니 외부적인 요인에 대한 수치화 또는 표준화 과정은 Times series data를 통해서 산출되는 것이다. 문제는 Real world에서 우리는 Time series data를 바로 얻어낼 수 없다. 따라서 Dynamic data를 Time series로 record 하여 single variable를 산출한다. 또한 Time series data를 바로 사.. 2022. 11. 14.
[Data Science] Time Series Data Times Series Data 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Data, Information, Knowledge 데이터는 정보가 아니고 지식이 아닐 수도 있다. 마찬가지로 정보는 지식이 아닐 수 있다. 이 말인즉슨 데이터라고 해서 바로 정보나 지식이 되는 것이 아니며 정보라고 해서 바로 지식이 되는 것이 아니다. 데이터 분석, 엔지니어, 사이언티스트는 이러한 데이터들을 다루고 정보와 지식으로 바꿔주는 역할을 수행하게 된.. 2022. 8. 28.
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #02 캐글 타이타닉(Titanic Machine Learning Competition) #02 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # 프로젝트에서 요구하는 내용을 파악한다 프로젝트에서 제공하는 데이터들의 파악이 끝났다면 해당 데이터를 기반으로 요구하는 내용을 파악하여 코드를 작성하는 것이 중요하다. 데이터 사이언스는 다양한 데이터를 활용해야 하기 때문에 코드 작성에 앞서서 프로젝트를 어떤 식으로 기획해서 목표를 이룰 것인지가 중요하다... 2022. 7. 31.
[Data Science] 캐글 타이타닉(Titanic Machine Learning Competition) #01 캐글 타이타닉(Titanic Machine Learning Competition) #01 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com [해당 포스트는 2021.2.9일 자 포스트를 업데이트한 포스트입니다.] # 데이터 사이언스와 캐글 입문에 좋은 타이타닉 프로젝트 타이타닉 프로젝트는 캐글에서 제공하는 학습용 Competition에 해당한다. Competition을 시작하기 앞서서 데이터 사이언스 프로젝트와 캐글에서 프로젝트를 해본 경험이 .. 2022. 7. 31.
[Machine Learning] Batch Size, Iteration Batch Size, Iteration 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Gradient Descent # Batch Size Data science 프로젝트에서 사용되는 데이터셋은 한 종류가 아니라 여러 종류의 데이터셋을 종합적으로 분석하여 사용한다. 여기서 말하는 하나의 데이터셋은 빅데이터에 해당하는 데이터셋인 경우가 있는데 결국 여러 종류의 빅데이터를 ML(Machine learning)에 사용되는 셈이다. 이 경우, .. 2022. 7. 29.
[Machine Learning] Momentum(모멘텀) Momentum(모멘텀) 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Momentum 머신러닝(Machine learning)에서 모멘텀(Momentum)을 사용하는 이유는 로컬 최솟값에서 빠져서 제대로 된 결과를 산출하지 못할 경우를 방지하기 위해서이다. 모멘텀을 통해서 로컬 값이 아닌 전역 또는 Global 최솟값에 도달할 수 있다. 이것을 우리는 Stochastic error surface라고도 부른다. # 모멘텀과 SGD 모멘텀.. 2022. 7. 27.
[Machine Learning] Train Test Size Train Test Size 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Train Test Size ML(Machine learning)을 돌리기 위해서 설정해줘야 하는 초기 설정 값들이 있다. 앞선 포스트에서 다룬 Learning rate나 Epoch가 이에 해당하며, Momentum이나 Seed도 해당된다. (Momentum과 Seed는 다음 포스트를 통해서 이야기를 나눠보도록 하자.) 이번 포스트에서 다루는 Test size 또.. 2022. 7. 27.
[Data Science] Data Science vs Data Analyst vs Data Engineering Data Science vs Data Analyst vs Data Engineering 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # DS, DA, DE 데이터 기반 인공지능이 대중화되어 사용되고 있는 만큼 데이터를 다룰 줄 아는 인재들을 많은 기업과 기관에서 찾고 있다. 몇 년 전까지만 해도 Data science라는 분야 하나로 통일되어 왔던 데이터를 다루는 직종이 이제는 Data science, Data analyst, Data e.. 2022. 7. 18.
[Machine Learning] Training Dataset vs Testing Dataset Training Dataset vs Testing Dataset 포스트 난이도: HOO_Middle [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Dataset Machine learning을 돌리기 위해서는 학습할 데이터가 필요하다. 이러한 데이터들을 모아놓은 하나의 그룹을 우리는 데이터셋(Dataset)이라고 부른다. Machine learning에서 사용되는 데이터셋은 학습하는 데이터의 종류에 따라 이미지가 될 수도 있고 텍스트 파일이 될 수도 있다. Machine .. 2022. 7. 17.
[Machine Learning] Learning Rate(학습률) Learning Rate 포스트 난이도: HOO_Senior # Gradient descent # Learning Rate Learning rate는 한국에서 학습률이라고 불리는 Mahcine learning에서 training 되는 양 또는 단계를 의미한다. Learning rate 또는 학습률은 딥러닝(Deep learning)에 대해서 배울 때 다룬다. 그 이유는 Deep learning neural networks 자체가 학습하는 과정에서 Stochastic gradient descent algorithm을 사용한다. 이때 사용되는 Stochastic gradient descent에서 학습 데이터를 기반으로 학습 모델 에러에 대한 가중치를 업데이트할 때 사용되는 기준점 중 하나가 Learning .. 2022. 7. 15.
[Data Science] Side Project: HuBMAP + HPA Side Project: HuBMAP + HPA 포스트 난이도: HOO_Lead [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # HuBMAP + HPA 기한 Started date: 6/22/2022 Rules Acceptance Deadline: 9/15/2022 Finished date: 9/22/2022 # Project Explanation: Functional tissue units HuBMAP + HPA 프로젝트는 kaggle에서 진행되는 Competitions .. 2022. 7. 15.
[Data Science] 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 데이터 사이언스 코드 작성 요령: 디렉토리, 파일명 선언하기 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # 디렉토리, 파일명 위치 선언 데이터 사이언스(Data science) 프로젝트를 수행하다 보면, 한 가지 데이터셋을 사용하는 것이 아니라 수많은 데이터셋을 사용하는 경우가 종종 있다. 종류가 다른 데이터셋을 사용하지 않더라도 학습할 데이터셋과 결과로 산출할 데이터셋만 해도 최소 2가지 이상의 데이터셋을 코드 내에서 선언하여 사용해야.. 2022. 7. 8.
[Data Science] Excel CSV 파일에서 한글 깨짐 현상 해결 방법: 메모장 활용하기 엑셀 CSV 파일에서 한글 깨짐 현상 해결 방법 | Excel CSV File 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # CSV 파일 한글 깨짐 현상 CSV 파일 기반 데이터를 가지고 프로그래밍을 하다 보면 한글 깨짐 현상이 종종 발생한다. 특히 CSV.txt 파일 자체에서 한글 깨짐 현상이 일어나지 않지만 엑셀로 전환하여 CSV 파일을 열면 가끔씩 한글 깨짐 현상이 발생하는데 간단한 방법으로 문제 해결이 가능하다. # CSV 파일에.. 2022. 7. 7.
[Data Science] 데이터 사이언스 프로젝트 코드 작성 요령 Data Science 프로젝트 코드 작성 요령 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Data science project 데이터 사이언스 관련 프로젝트를 사용할 때 노트를 활용해서 라이트 하게 작업을 수행하기도 한다. 과거에는 로컬 주피터랩과 같은 노트를 통해서 작업을 수행했지만 요즘에는 다양한 클라우드 기반 노트를 활용하여 작업을 수행하는 편이다. 이번 포스트에서는 클라우드 기반 노트로 데이터 사이언스 프로젝트를 수행할 때 .. 2022. 7. 6.
[Data Science] Side Project: Paddy Doctor Side Project: Paddy Doctor 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Kaggle - Paddy Doctor URL: https://www.kaggle.com/competitions/paddy-disease-classification Paddy Doctor: Paddy Disease Classification | Kaggle www.kaggle.com End Date: 8/31/2022 Paddy Doctor p.. 2022. 7. 3.
[Data Science] Side Project: VAST Challenge 2022 VAST Challenge 2022 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # VAST 2022 https://vast-challenge.github.io/2022/ VAST Challenge 2022 Submissions due: July 13, 2022 11:59PM AOE Challenge Overview In Engagement, Ohio, the future is now! For years this sleepy bedroom.. 2022. 7. 2.
[데이터 사이언스] 캐글 프로젝트(Kaggle Project): Foursquare - Location Matching 캐글 프로젝트(Kaggle Project): Foursquare - Location Matching 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Kaggle Project 캐글 프로젝트(Kaggle project)는 Data science에 대한 공부와 프로젝트 또는 Competition을 참여할 수 있는 커뮤니티 사이트이다. 프로젝트에 직접 참여하지 않더라도 캐글 사이트에서 Data science를 공부하기에도 충분히 괜찮은 사이트이.. 2022. 6. 11.
[Data Science] Audio data를 ML하는 2가지 방법 Audio data를 ML 하는 2가지 방법 포스트 난이도: HOO_Senior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Audio data와 Machine Learning ML을 하기 위해서는 Unstrucuture data를 structure data로 만들어주어야 한다. 아니면 정형 데이터화를 하지 않아도 library 자체를 활용해서 쉽게 처리가 가능하다. Audio data를 Mahcine learning을 돌리기 전에 개발자의 방법에 따라 다르겠지만 필자는.. 2022. 4. 17.
728x90