본문 바로가기
728x90

Computer Science/AI & Data78

[AI & Data] Database Architecture (데이터베이스 아키텍쳐) 포스트 난이도: HOO_Junior# Database Architecture 란?처음 Database architecture를 접했을 때의 느낌을 돌이켜보면 Database architecture는 그저 다가가기 어렵게 만드는 어려운 용어 중 하나일 뿐이었다. Database architecture 뿐만 아니라 다른 Computer science와 관련된 용어들과 마주치면 머리가 지끈지끈 아파올 수밖에 없다. 우리가 흔히 말하는 "용어"는 뜻을 살펴보고 한눈에 이해가 되어야 하는 게 아주 일반적인 상식이지만 사실상 개발자들이 사용하는 용어는 하나의 단어에 모든 개념과 사용 방법, 응용을 할 수 있는 이해력 등 하나의 단어의 의미를 나타내는 게 아니라 무한히 연결된 것 중의 한 요소이기 때문이다. 한마디로.. 2024. 11. 21.
[AI & Data] 인공지능보다 데이터의 중요성을 강조하는 이유 인공지능보다 데이터의 중요성을 강조하는 이유 # 인공지능이 있기 위해서 데이터가 필요하다나는 데이터를 다루면서 인공지능 중에서도 Computer vision 분야를 주요하게 다루는 개발쟁이이다. 최근에 학회, 미팅, 세미나 등 다양한 인공지능 전문가 및 연구원분들과 이야기를 나누나 보면 한결같이 내 손을 붙잡고 말씀하시는 부분이 데이터 수집과 관리이다. 불과 7년 전까지만 해도 인공지능을 개발하고 적용하는 부분에 더 초점이 맞춰져 있어 왔다면 이제는 인공지능을 최적화하고 학습하기 위한 데이터의 초점이 맞춰지고 있다. 우리는 현재 데이터 기반의 인공지능을 사용하고 있다. 앞으로의 미래는 데이터 기반이 아닌 사람의 뇌와 같이 프로세싱이 가능한 인공지능이 개발될 지는 몰라도 현재는 데이터 기반인 셈이다. 인공.. 2024. 6. 10.
[Data Science] CSV 파일에서 한 셀 안의 데이터 값을 여러 셀로 나누기 CSV 파일에서 한 셀 안의 데이터 값을 여러 셀로 나누기 # 한 셀에 다 포함된 데이터 데이터 분석을 하기 위해서 IoT 센서들로부터 수집된 데이터를 정리하려고 하는데 가끔 친절하지 않은 데이터 수집 프로세스로 인해 모든 데이터 값이 하나의 셀에 포함된 CSV 파일을 받아본 적이 한번 정도는 꼭 있길 마련이다. 도대체 데이터 수집할 때 왜 간단한 정렬 코딩을 해두지 않았는지 짜증이 확 올라오거나 데이터를 수집한 연구원이나 개발자에게 더럽게 정리해서 준 걸 보면 화가 난다. 별거 아닌 것 같지만 기본적으로 농생명을 비롯하여 의학 관련 데이터는 한 번에 수만 개의 데이터를 분석하기 때문에 수작업으로 작업이 불가능하다. 다행히도 CSV 파일 또는 엑셀 파일에 한 셀 안에 저장되어 있는 데이터 값을 여러 .. 2024. 3. 27.
[Data Science] 몽고DB (MongoDB) Iframe HTML 코드로 변환 후 출력하기 몽고DB (MongoDB) Iframe HTML 코드로 변환 후 출력하기 포스트 난이도: HOO_Middle # MongoDB 글쓴이가 프로그래밍을 시작하기 전부터 몽고DB(MongoDB)는 데이터 분석 및 시각화에 있어서 혁신적인 툴이자 플랫폼이었다. 지금이야 다양한 Data management system (DBMS)들이 많고 이제는 로컬 데이터베이스가 아닌 클라우드 기반으로 데이터를 분석하고 시각화가 이루어지다 보니 몽고DB를 사용하는 비중이 많이 줄어들긴 했다. 그럼에도 몽고DB도 클라우드 서버 기반으로 서비스를 제공하고 있고 다양한 데이터 관리 방식들을 지속적으로 업데이트해 나가면서 아직도 대표적인 DBMS이다. 실제로 구글을 비롯하여 IBM, 마이크로소프트 등 여러 IT기업에서 몽고DB를 사용.. 2024. 2. 9.
[Computer Vision Examples] Convert PyTorch: pt to onnx Convert PyTorch: pt to onnx 포스트 난이도: HOO_Senior # pt to onnx 아래는 onnx로 전환하는 예제코드이다. Colab이나 Notebook에서 작업할 수 있고 vscode에서도 notebook이 있으면 가능하다. 사용 조건에 맞춰서 조정해서 사용하면 된다. !pip install ultralytics onnx onnx-simplifier onnxruntime from ultralytics import YOLO model = YOLO("model_name.pt") model.export(format="onnx",imgsz=[640,640], opset=12) # export the model to ONNX format 2023. 11. 15.
[Computer Vision] YOLO랑 Fast R-CNN을 합쳐보았습니다. YOLO랑 Fast R-CNN을 합쳐보았습니다. 포스트 난이도: HOO_Senior # YOLO, 2015 Computer vision을 다루는 브로들이라면 2015년에 처음 나온 YOLO (욜로) 페이퍼를 최소 한번 정도는 읽어봤을 것이다. 물론 현재 버전의 욜로와 차이가 많이 있지만 욜로의 근본적인 구조는 동일한 방식으로 Detecting이 되기 때문에 꼭 한번 정도는 읽어보는 것을 추천한다. 글쓴이의 주관적인 견해뿐만 아니라 객관적으로도 4만 번 이상 cited가 된 페이퍼이기 때문에 충분히 입증되었다. Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE conf.. 2023. 11. 15.
[Computer Vision] Object Detection Systems: YOLO (욜로) Object Detection Systems: YOLO (욜로) 포스트 난이도: HOO_Senior # Introduction 이번 포스트는 YOLO(욜로)에 대한 전반적인 내용을 담고 있다. 특히 욜로의 첫 번째 버전이 나오던 시점의 2015년을 기준으로 욜로가 왜 나오게 되었는지, 욜로와 다른 Object detection systems들의 차이가 무엇인지에 대해서 살펴보았다. YOLO와 Object detection systmes에 대한 배경 지식이 있으면서 구체적으로 어떤 차이와 욜로만이 가진 특징이 무엇이었는지를 살펴보고 싶다면 해당 포스트를 참고하는 게 도움이 되는 부분들이 있을 수도 있으니, 가볍게 읽어보기에 좋다고 본다. (여담으로 포스트 작성과 더불어 연구 발표를 하면서 글쓴이의 성과와 .. 2023. 11. 10.
[Computer Vision] R-CNN vs Fast R-CNN vs YOLO R-CNN vs Fast R-CNN vs YOLO 포스트 난이도: HOO_Senior # Object detection algorithms 현재 기준으로 Object detection의 세 가지 주요 알고리즘을 뽑으라고 한다면 R-CNN, Fast R-CNN 그리고 YOLO를 말할 수 있다. 사실상 Object detection에 있어서 가장 많이 사용되고 있으며 그중에서도 개인적으로 가장 선호하는 YOLO의 경우는 v8 버전이 새롭게 나오면서 그동안의 문제점으로 이야기해 온 작은 사이즈의 그리드 구분이 점차적으로 해결되고 있다. 그럼에도 우리는 Object detection을 다룰 때 세 가지 알고리즘을 모두 다 고려하여 머신러닝을 돌리고 있다. 그 이유인즉슨 각 알고리즘의 장단점이 각기 다르기 때문이.. 2023. 10. 31.
[Computer Vision] Data Augmentation (데이터 증강) Data Augmentation (데이터 증강) 포스트 난이도: HOO_Senior # Data augmentation이란 무엇인가요? 한국말로 데이터 증강이라고 불리는 Data augmentation은 쉽게 말해서 부족한 데이터 수를 반강제적으로 늘려주는 역할을 의미한다. 우리가 일반적으로 테스트 데이터가 부족하면 학습데이터에서 가져오지만 학습 데이터 자체가 부족해지면 결국 데이터를 더 수집하고 가공해줘야 한다. 이럴 때 데이터를 새롭게 수집하는 게 가장 기본적인 방법이지만 현실적으로 원시 데이터의 추가적인 수집과 가공 과정 자체가 어려울 수 있다. 이런 경우 우리는 Data augmentation 통해 데이터의 수를 마치 원래부터 많았던 것처럼 늘려주는 것이다. Data augmentation를 반강.. 2023. 10. 28.
[Data Science] 엑셀에서 데이터 분석하기 (Data Analysis on Excel) 엑셀에서 데이터 분석하기 (Data Analysis on Excel) 포스트 난이도: HOO_Middle # Data analysis 글쓴이 이전 세대의 데이터 분석가라면 당연히 엑셀을 다룰 줄 알아야 했고 엑셀만 잘 다뤄도 6 digits 연봉을 받을 수 있었다. 지금도 엑셀로 간단한 데이터 분석과 통계 작업이 가능하지만 워낙 파이썬이나 R과 같이 작업할 수 있는 방법들이 다양해지고 편리하게 제공되다 보니 엑셀이 점점 등한시되고 있다. 그럼에도 데이터를 다루는 데이터 관련 개발자뿐만 아니라 모델링을 하는 엔지니어라면 엑셀 데이터 분석 기능 정도는 기본적으로 잘 다룰 수 있어야 한다. 이 포스트를 읽는 브로들의 경우에는 이미 데이터 사이언스 분야에 대한 지식이 있다는 가정하에 기능적인 방법에 대해서만 간.. 2023. 10. 26.
[Computer Vision] 공개형 학습 데이터셋: 로보플로우 (Roboflow) 퍼블릭 학습 데이터셋: 로보플로우 (Roboflow) 포스트 난이도: HOO_Middle # 로보플로우(Roboflow) 욜로 (YOLO)를 다뤄본 적이 있는 브로라면 로보플로우 (Roboflow)에 대해서 많이 들어봤을 것이고 실제로 기본 예제로 제공해 주는 coco 라이브러리라든지 로보플로우에서 공개되어 있는 데이터셋을 사용해 본 적이 있을 것이다. 로보플로우는 컴퓨터 비전(Computer vision)의 개발과 데이터의 관리에 있어서 편리성을 제공해 주는 도구이자 하나의 데이터셋 플랫폼이다. 이미지 데이터 작업을 하는 데 있어서 기본적인 데이터셋을 제공해 줄 뿐만 아니라 라벨링 작업을 하는 것도 아이콘화된 도구들을 활용해서 쉽게 데이터 가공이 가능하다. 무엇보다 글쓴이가 좋아하는 부분은 사용할 개발.. 2023. 10. 25.
[AI & ML Examples] Computer Vision Calibration: Normalized Points 예제코드 Computer Vision Calibration: Normalized Points 예제코드 포스트 난이도: HOO_Senior # Example Code 이번 포스트에서는 Computer vision에서 Normalized points에 대한 값을 구하기 위해서 Calibration이 어떻게 이루어지는지 살펴볼 수 있다. 아래의 예제코드를 보면 2 dimensional과 3 dimensional에 해당하는 포인트 값들이 homogeneous과정을 거치고 svd를 통해서 Normalized point에 대한 "M" 값이 구해지는 과정을 볼 수 있다. 여기서 꼭 svd function 말고도 lstsq () funciton을 사용해서도 Normalized 된 M을 산출해 낼 수 있다. 또한 산출된 resi.. 2023. 10. 13.
[Data Science] 데이터 캘리브레이션 (Data Calibration) 데이터 캘리브레이션 (Data Calibration) 포스트 난이도: HOO_Middle # Data calibration 데이터 교정이라고도 불리는 Data calibration은 데이터를 다루는 대부분의 분야에서 한번 정도는 들어본 적이 있을 것이다. 캘리브레이션에 대한 의미를 찾아보면 "교정"이라는 뜻을 가지고 있고 하드웨어 쪽에서는 오차를 교정하는 과정을 캘리브레이션이라고 부르기도 한다. 데이터 사이언스 (Data science)에서도 결과를 교정한다는 점에서 비슷한 의미를 가졌지만 사실상 "표준화"에 더 가까운 의미를 가지고 있는 것이 데이터 사이언스에서의 캘리브레이션이다. 따라서 데이터 사이언티스트에게는 데이터를 어떻게 캘리브레이션에서 표준화하여 생성 및 수집해 내는지도 정말 중요한 요소 중에.. 2023. 10. 12.
[AI / Computer Vision] Singular Value Decomposition (SVD) Singular Value Decomposition (SVD) 포스트 난이도: HOO_Middle # Computer vision에서의 SVD Computer vision에서의 Singular Value Decomposition (SVD)는 결과를 산출해 내기 위한 기본적인 매트릭스 계산 방법이다. 눈으로 보이는 물체를 우리는 이미지나 영상으로 담아냈고 이것을 컴퓨터가 분석하거나 인지하게 만들기 위해서는 픽셀 단위로 살펴봐야 한다. 이때 엄청난 픽셀의 수를 계산하고 분석하는 데 있어 간단하게 만들어줄 수 있는 아주 기초적인 방법이 바로 SVD인 셈이다. 그래서 우리는 SVD를 통해서 Data reduction, Fast fourier transform, Tailored에서 발생되는 특정 문제들을 해결할 .. 2023. 10. 9.
[AI / Computer Vision] 매트릭스(Matrix)가 컴퓨터 비전 (Computer vision)에서 중요한 이유 매트릭스(Matrix)가 컴퓨터 비전 (Computer vision)에서 중요한 이유 포스트 난이도: HOO_Middle # Computer vision이 빠르게 적용될 수 있었던 이유 Computerr vision (컴퓨터 비전)에 대한 역사는 의외로 오랫동안 연구와 개발이 지속적으로 이루어지고 있었다. 다만 우리가 현재 YOLO와 같이 AI (인공지능) 프로그램을 활용한 사물 인식 방법을 대중적으로 사용하기 시작한 시점은 얼마 되지 않았다. 짧은 시간에 인공지능을 활용한 컴퓨터 비전의 발전 속도가 빠르게 진행될 수 있었던 원인 중 하나는 이미 이전부터 이미지 센싱을 비롯하여 이미지를 데이터로 변환하여 어떻게 활용할 수 있을지에 대한 연구와 고민을 꾸준히 해왔기 때문이라고 본다. 그중에 대표적인 요소 .. 2023. 9. 10.
[Data Science] Soft System Methodology (연성체계 방법론) Soft System Methodology (연성체계 방법론) 포스트 난이도: HOO_Senior # Soft System Methodology (SSM) 한국에서는 연성체계 방법론이라고 불리는 Soft System Methodology (SSM)의 경우 문제점을 이해하고 분석해야 하는 과학 분야에서 많이 사용하는 기초 분석 방법론이다. 데이터 사이언스 (Data science)에서도 SSM이 필요한 이유는 사실상 공학과 과학을 모두 다루는 분야이기 때문이다. 데이터 사이언스에는 크게 데이터 분석, 엔지니어, 사이언스 등으로 나뉘는데, 데이터 사이언스의 경우 분석과 엔지니어링을 모두 포함한 상태에서 문제 원인과 앞으로 예측까지를 모두 해낼 수 있어야 하기에 SSM과 같은 방법론을 다룰 줄 알아야 한다. .. 2023. 9. 1.
[Data Science] 데이터 사이언스가 쓸모 없는 이유 데이터 사이언스가 쓸모없는 이유 포스트 난이도: HOO_Senior # 데이터 사이언스는 쓸모가 없다 글쓴이가 개인적인 견해를 가지고 하는 말이 아니라 데이터 사이언스, 통계, 모델링 시스템 등의 분야에 있는 과학자들이 하는 말 중에 하나가 데이터 사이언스는 쓸모가 없다는 말이다. 20세기 위대한 통계학자로 불린 영국의 조지 박스 (George E. P. Box)는 "데이터 기반 모델링 시스템은 다 쓸모가 없다, 다만 몇 개는 쓸만하다."라는 말을 남겼다. 데이터 사이언티스트인 글쓴이에게는 정말 충격적인 말이었기에 아직까지도 기억에 남고 아마 이 포스트를 보러 들어온 다른 데이터 사이언스 분야 컴퓨터쟁이들에게도 꽤 신선한 충격일 수 있다. # 데이터 기반 모델링은 현실이 될 수 없다. 솔직히 처음 글쓴이.. 2023. 8. 24.
[Data Science] 경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요! 경기데이터드림: 경기도 AI 학습용 공공 데이터 칭찬해요! # AI 학습용 공공데이터 데이터 사이언스 (Data science) 분야의 개발자를 꿈꾸는 학생들이나 데이터 분석을 통한 연구를 해야 하는 한국 박사생들에게 있어 학습용 데이터셋을 수집하고 가공하는 과정은 너무나도 귀찮고 힘들다. 라벨링 작업 자체나 데이터셋 파일을 만드는 것 자체가 귀찮은 건 어쩔 수 없다고 치지만 데이터 자체를 구하는 게 쉽지 않다. 회사에서 개발자의 경우에는 실무에서 경험을 쌓을 수 있다고는 하지만 개별적으로 본인 공부나 연습을 하고 싶은 개발자들도 무료 데이터셋을 찾아서 사용해 보는 게여간 쉽지 않은 일이다. 글쓴이를 포함하여 많은 데이터 사이언스 분야의 개발자들은 캐글 (Kaggle)이나 로보플로우 (Roboflow)처.. 2023. 8. 23.
[AI/Computer Vision] 커스텀 데이터셋으로 사물 분석하기 #01 (Object Detection by Custom Dataset) 커스텀 데이터셋으로 사물 분석하기 (Object Detection by Custom Dataset) 포스트 난이도: HOO_Senior # 커스텀 데이터셋 (Custom Dataset) 이전 포스트에서 코코 데이터셋을 활용해서 간단한 Obejct detection을 해보았다. 코코 데이터셋은 욜로에서 제공하는 기본 데이터셋으로써 욜로를 학습하는 데에도 활용되었던 데이터셋에 해당된다. 예를 들자면 우리가 파이썬을 사용한다고 가정했을 때 별도의 모듈 설치 없이도 기본적으로 사용이 가능한 기능들이 있는 것처럼 욜로를 사용하는 데 있어서도 코코 데이터셋으로 학습된 라벨링의 경우에는 이미지 디텍팅이 바로 가능하다. 아래의 링크를 참고하면 해당 포스트를 살펴볼 수 있다. https://whoishoo.tistory.. 2023. 8. 8.
[Data Science/Colab/Jupyter] 코랩, 주피터에서 압축 푸는 방법: torch, zipfile, patool 코랩, 주피터에서 압축 푸는 방법 포스트 난이도: HOO_Middle # 데이터 폴더 압축 풀기 vscode에서 작업을 해야 하는데 자꾸 사이드 프로젝트만 하면 코랩이나 주피터에서 하는 게 습관이 되어 버렸다. 그렇다 보니 실제 연구할 때에도 코랩을 같이 켜놓고 작업하는 습관이 생겨버렸다. 아무튼 이번 포스트에서는 학습시키고 테스트를 하기 위해서 데이터셋의 압축을 풀어줘야 하는데 이때 대표적으로 많이 사용하는 Unzip 방법 3가지에 대해서 살펴보도록 하자. 거두절미하고 그냥 냅다 사용하면 된다. # torch, !unzip 사실상 가장 많이 사용하는 방법 중 하나가 torch 모듈에서 unzip 기능을 사용하는 것이다. 데이터 분석 과정에서 어차피 파이토치를 사용할 거라면 굳이 다른 모듈을 사용할 필요.. 2023. 8. 3.
[AI / Computer Vison / Object Detection] COCO Dataset으로 간단한 Object Detection 해보기 COCO dataset으로 간단한 object detection 해보기 포스트 난이도: HOO_Middle # COCO Dataset COCO는 Common objects in context의 줄임말로 YOLO와 같이 computer vision의 효율성 향상을 위해서 만들어진 오픈형 데이터셋이다. 쉽게 생각해서 Google의 Open images dataset을 생각하면 된다. 우리가 사용하고 있는 computer vision 모델들은 Train과 Test, 학습과 테스트 과정을 위해서 특정한 데이터셋이 필요하다. 이러한 데이터셋을 기본값으로 사용하고 있는 것이 바로 코코 (COCO)인 셈이다. 따라서 YOLO에서는 특정한 이미지를 가지고 라벨링 학습 없이도 코코 데이터셋에서 제공된 라벨링의 경우에는 .. 2023. 7. 27.
[AI / Computer Vision] YOLOv8 맛보기 후기 YOLOv8 맛보기 후기 포스트 난이도: HOO_Senior # 단일 이미지 분석으로 YOLOv8과 이전 버전 비교 결국 도저히 참을 수 없어서 빠르게 급한 일부터 끝내놓고 YOLOv8 맛을 한번 봐 보았다. 이번 페이퍼 작업을 빠르게 끝낸 뒤에 여유 있을 때 사이드 프로젝트에 들어가기 전에 미리 맛을 보기 위해 YOLOv8을 colab 기반에서 살펴보았다. 일단 거두절미하고 글쓴이 프사에 있는 사진은 아마 v5인가 v6인가 가물가물하지만 암튼 YOLO 이전 버전인 건 확실하다. 왜냐하면 데이터 분석하는 과정에서 답답해서 놀던 시기였기에 프로젝트 이후에 해당하니 얼추 맞는 것 같다. %pip install ultralytics import ultralytics ultralytics.checks() 우선 .. 2023. 7. 27.
[AI / Computer Vision] YOLOv8 (욜로v8) YOLOv8 (욜로v8) 포스트 난이도: HOO_Senior # 2023년 1월에 공식적으로 공개된 YOLOv8 이번에 글쓴이가 학회를 다녀오면서 가장 크게 느낀 점이 Computer vision (컴퓨터 비전)에 대한 연구 및 개발이 정말 놀라울 정도로 많이 차지하고 있었다는 것이다. 글쓴이가 처음 computer vision을 했던 시기는 (라떼는 말이야) open cv나 YOLO 완전 초창기 버전이 막 나와서 대박이라고 외쳤었는데 어느샌가 많은 개발자 브로들이 computer vision을 다루고 있어서 새삼스럽게 눈물이 살짝 고였다. 물론 분야나 학회마다 특성이 달라서 그럴 수도 있지만 인공지능 분야에 있어서도 컴퓨터 비전에 대한 활용이 매우 많아졌다. 심지어 최근에는 NLP(Natural Lan.. 2023. 7. 22.
[Data Science] 데이터 소유권이 왜 필요한가요? 데이터 소유권이 왜 필요한가요? # 데이터 소유권, Data Ownership 우리가 일반적으로 재산에 대한 권리라고 하면 유형의 물체에 대한 권리를 의미한다. 한마디로 눈에 보이는 물체에 대해서 소유권을 주장해 왔다면 4차 산업 시대가 도래하고 나서는 불과 몇 년 사이에 무형의 가치인 디지털 재산에 대해서 소유권을 주장하고 디지털 재화에 대해서 가치를 인정하고 있다. 이 포스트를 처음 작성했던 2020년도만 하더라도 데이터 소유권에 대해서 이제 막 관심을 가지던 시기였는데 3년 사이에 많은 사람들이 디지털 가치에 대해서 인정하고 받아들이는 걸 보고 있으면 데이터 사이언티스트로써 감회가 새로울 만큼 우리 사회는 가상의 가치에 대해서 이미 받아들이고 인정하고 있었다. 다시 본론으로 돌아와서 데이터 소유권은.. 2023. 7. 18.
[AI In Agriculture] 스마트팜에서 AI가 하는 역할이 무엇인가요?(How AI Is Transforming Agriculture) 스마트팜에서 AI가 하는 역할이 무엇인가요? Q: 스마트팜에서 AI가 하는 역할이 무엇인가요? # Smart farming, Smart agriculture이란? 국내에서는 스마트팜 (Smart farm)이라고 부르고 있지만 글로벌하게는 스마트 농업 (Smart agriculture)라고 불리고 있는 새로운 방식의 농업 시스템은 현재 전반적인 농업 프로세스의 변화를 주고 있다. 사실 5년 전까지만 해도 스마트 팜에 대한 전반적인 지식이나 기술이 부족하였고 국가 연구 단계일 뿐 실질적인 활용이 되는 사례는 많지 않았다. 하지만 4차 산업 시대와 더불어 SW 기술의 발달과 기후 변화와 코로나 바이러스로 인해 농업 분야의 생산량이 급격히 감소되는 영향으로 농업의 스마트화가 빠른 속도로 진행 중이다. 그렇다 보.. 2023. 7. 2.
[SML] Marginal PDF Example codes Marginal PDF Example codes 포스트 난이도: HOO_Lead # Example codes # Library import numpy as np import pandas as pd from scipy.stats import norm, t import matplotlib.pyplot as plt #μX=μY= 0,σX=σY= 1 muX=0 muY=0 sigmaX=1 sigmaY=1 #interval [-3,3] xGrid=np.arange(-3,3,.01) yGrid=np.arange(-3,3,.01) #Normal X Pdf plt.figure() plt.plot(xGrid, norm.pdf(xGrid,muX,sigmaX)) plt.title("Marginal PDF(X)") plt.sh.. 2023. 2. 15.
[SML] Misclassification Rates Example Codes: guess, test data Misclassification Rates Example Codes: guess, test data 포스트 난이도: HOO_Lead # Example Codes # Library import numpy as np import pandas as pd from scipy.stats import norm, t import matplotlib.pyplot as plt def getClass1Prop(x,r): x=np.array(x) dist=np.zeros(len(x_train)) for i in range(len(x_train)): dist[i] = np.linalg.norm(x-x_train[i]) dist_label_1 = dist[y_train==1] dist_1r = dist_label_1[dist_.. 2023. 2. 15.
[AI/ML Examples] Factorization criterion in action in the special case of the bivariate normal pdf Factorization criterion in action in the special case of the bivariate normal pdf 포스트 난이도: HOO_Senior # Example 1 Find the marginals (i.e., the marginal pdfs of Xand Y from the joint pdf). If you are unable to do this analytically (which is fine, nopenalties), assume μX=μY= 0,σX=σY= 1, and ρ= 0.5; specifically, use numerical integration to find the values of the marginal pdfs on a fine grid from.. 2023. 2. 6.
[AI/ML Examples] MLE with data from exponential distribution MLE with data from exponential distribution 포스트 난이도: HOO_Senior # Example LetX1, . . . , X100be independent rvs from the exponential distribution with rateλ(i.e., rate is thereciprocal of the population mean here). Nature uses the following code to generate the data: set.seed(0); x = rexp(100,10); I.e., in the game theory setup, Nature chosesλ= 10, but this is not known to the Statistician. # Ex.. 2023. 2. 6.
[SML] Critical Thinkings of The Linear Regression Critical Thinkings of The Linear Regression 포스트 난이도: HOO_Senior # Linear regression에서 고려해야 하는 것들 Linear regression에서 얻은 결과를 분석하는데 있어서 기본적으로 고려해야 될 것들이 있다. 마치 기본적으로 산출된 결과를 분석하는데 알아두어야 될 지침서와 비슷하다. 아래의 예시를 활용하면 산출된 결과를 분석하는데 매우 용이하다. Is there a relationship between X1 and Y? How strong is the relationship between X2 and Y? Which X contribute to Y? How accurately can we predict future Y? is the re.. 2023. 1. 30.
728x90