728x90 데이터11 [Blockchain] 데이터 활용 목적에서의 재구조화된 블록체인 포스트 난이도: HOO_Senior* 해당 포스트는 글쓴이의 개인적인 견해가 포함되어 있습니다.# 블록체인의 추적성대학원생이나 연구원들의 가장 큰 문제점 중에 하나가 본인의 분야에서 사로잡혀 있다 보니 트렌드나 기술을 공유하는 사람들이 정해져 있다는 것이다. 나 또한 마찬가지이다. 내 분야의 사람들을 만나고 이야기하는 거와 개발자 브로들과 이야기를 나누다 보면 관점의 차이가 정말 많이 다르다. 그래서 여유가 있을 때마다 개발자 브로들과 이야기를 나누는 시간을 가지려고 최대한 노력하는 편이다. 아무튼 오늘 포스팅을 할 내용은 사실상 2년 넘게 공들여왔다 Redesign한 농업용 블록체인 프로토타입을 만든 걸 자랑하기 위해서이다. 사실 농담이고 블록체인 개발자와 공학 연구원 가운데 서 있는 내 입장에서 현재.. 2025. 4. 3. [AI & Data] SQL 기초 공부 - W3School SQL exercises 포스트 난이도: HOO_Intern# 데이터가 중요한 이유10년 전만에 해도 인공지능을 다룰 줄 안다는 게 노벨티 했었지만 이제는 인공지능 개발자들이 정말 많이 늘어났고 이제는 개발자라면 간단한 머신러닝 라이브러리 정도는 다룰 줄 알아야 할 정도로 인공지능이 대중화되었다. 과거에는 인공지능을 application 하는 부분에 대해서 우선시되었다면, 이제는 인공지능을 사용할 줄 아는 것뿐만 아니라 인공지능에 들어가는 데이터를 어떻게 관리를 해야 할 지에 대한 관심이 커졌다. 예를 들어 자동차가 인공지능이라고 가정하면, 예전에는 자동차를 만들어서 타야했는데 이제는 표준화된 모델이 있어서 일일이 만들어서 탈 필요가 없어진 셈이다. 다만 자동차에 들어가는 연료가 좋은 연료인지, 연료 종류가 무엇인지에 대해서 .. 2025. 3. 2. [AI & Data] Data Management란 포스트 난이도: HOO_Middle# CS에서의 데이터 관점데이터는 사용되는 맥락에 따라 다양한 정의를 가질 수 있는데 Computer Science (CS)에서의 데이터는 의미 있는 정보 (Information)로 가공되기 전의 기초적인 자료를 의미한다. 예를 들어 일반적 정의 데이터는 이산적(discrete) 또는 연속적(continuous)인 값들의 집합으로, 양적 또는 질적 특성, 사실, 통계, 기본 단위의 의미를 나타내며, 때로는 형식적으로 해석 가능한 기호의 연속으로 정의할 수 있다. 반면에 CS에서의 데이터는 관찰, 실험, 인터뷰, 설문지, 체크리스트, 평정 척도 등을 통해 수집된 원자료(raw data)로, 이러한 자료는 의미 있는 정보로 전환되기 위해 반드시 처리 과정을 거쳐야 한다고 본.. 2025. 1. 25. [AI & Data] Data Requirements 포스트 난이도: HOO_Senior# Definition of Process Needs프로그램을 만들기 전에 requirments라고 불리는 기획안을 꼼꼼히 작성하듯이 데이터도 사용하기 전에 기본적인 requirments들을 정리해 두는 것이 좋다. 데이터 분석을 기획하거나 툴을 만들거나 또는 연구를 하는 과정에서도 데이터에 대해 기본적인 정리를 해둔다고 생각하면 된다. 마치 우리가 소개팅을 나가기 전에 최소한의 상대방 정보를 알아보듯이 또는 요리를 만들기 전에 최소한 검색을 한번 정도를 해보듯이 말이다. 이번 포스트에서는 가장 기본적으로 데이터를 사용하기 전에 알아둬야 하는 요소 (Factors)들에 대해서 살펴볼 것이다.# Physcial Data & Digital Data무의식적으로 생각하면 데이터.. 2025. 1. 21. [AI & Data] Database Architecture (데이터베이스 아키텍쳐) 포스트 난이도: HOO_Junior# Database Architecture 란?처음 Database architecture를 접했을 때의 느낌을 돌이켜보면 Database architecture는 그저 다가가기 어렵게 만드는 어려운 용어 중 하나일 뿐이었다. Database architecture 뿐만 아니라 다른 Computer science와 관련된 용어들과 마주치면 머리가 지끈지끈 아파올 수밖에 없다. 우리가 흔히 말하는 "용어"는 뜻을 살펴보고 한눈에 이해가 되어야 하는 게 아주 일반적인 상식이지만 사실상 개발자들이 사용하는 용어는 하나의 단어에 모든 개념과 사용 방법, 응용을 할 수 있는 이해력 등 하나의 단어의 의미를 나타내는 게 아니라 무한히 연결된 것 중의 한 요소이기 때문이다. 한마디로.. 2024. 11. 21. [Computer Vision] Data Augmentation (데이터 증강) Data Augmentation (데이터 증강) 포스트 난이도: HOO_Senior # Data augmentation이란 무엇인가요? 한국말로 데이터 증강이라고 불리는 Data augmentation은 쉽게 말해서 부족한 데이터 수를 반강제적으로 늘려주는 역할을 의미한다. 우리가 일반적으로 테스트 데이터가 부족하면 학습데이터에서 가져오지만 학습 데이터 자체가 부족해지면 결국 데이터를 더 수집하고 가공해줘야 한다. 이럴 때 데이터를 새롭게 수집하는 게 가장 기본적인 방법이지만 현실적으로 원시 데이터의 추가적인 수집과 가공 과정 자체가 어려울 수 있다. 이런 경우 우리는 Data augmentation 통해 데이터의 수를 마치 원래부터 많았던 것처럼 늘려주는 것이다. Data augmentation를 반강.. 2023. 10. 28. [Computer Vision] 공개형 학습 데이터셋: 로보플로우 (Roboflow) 퍼블릭 학습 데이터셋: 로보플로우 (Roboflow) 포스트 난이도: HOO_Middle # 로보플로우(Roboflow) 욜로 (YOLO)를 다뤄본 적이 있는 브로라면 로보플로우 (Roboflow)에 대해서 많이 들어봤을 것이고 실제로 기본 예제로 제공해 주는 coco 라이브러리라든지 로보플로우에서 공개되어 있는 데이터셋을 사용해 본 적이 있을 것이다. 로보플로우는 컴퓨터 비전(Computer vision)의 개발과 데이터의 관리에 있어서 편리성을 제공해 주는 도구이자 하나의 데이터셋 플랫폼이다. 이미지 데이터 작업을 하는 데 있어서 기본적인 데이터셋을 제공해 줄 뿐만 아니라 라벨링 작업을 하는 것도 아이콘화된 도구들을 활용해서 쉽게 데이터 가공이 가능하다. 무엇보다 글쓴이가 좋아하는 부분은 사용할 개발.. 2023. 10. 25. [Data Science] 데이터 사이언스가 쓸모 없는 이유 데이터 사이언스가 쓸모없는 이유 포스트 난이도: HOO_Senior # 데이터 사이언스는 쓸모가 없다 글쓴이가 개인적인 견해를 가지고 하는 말이 아니라 데이터 사이언스, 통계, 모델링 시스템 등의 분야에 있는 과학자들이 하는 말 중에 하나가 데이터 사이언스는 쓸모가 없다는 말이다. 20세기 위대한 통계학자로 불린 영국의 조지 박스 (George E. P. Box)는 "데이터 기반 모델링 시스템은 다 쓸모가 없다, 다만 몇 개는 쓸만하다."라는 말을 남겼다. 데이터 사이언티스트인 글쓴이에게는 정말 충격적인 말이었기에 아직까지도 기억에 남고 아마 이 포스트를 보러 들어온 다른 데이터 사이언스 분야 컴퓨터쟁이들에게도 꽤 신선한 충격일 수 있다. # 데이터 기반 모델링은 현실이 될 수 없다. 솔직히 처음 글쓴이.. 2023. 8. 24. [Data Science] 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계(Pearson Correlation) 포스트 난이도: HOO_Junior # 피어슨 상관관계(Pearson Correlation) 피어슨 상관관계는 두 변수에 관계를 선형 데이터로 나타낸 방식을 의미한다. 데이터 사이언스에서 상관관계는 기본적으로 알고 있어야 하며, 피어슨 상관관계는 데이터를 다루는 데 있어서 가장 기본적으로 배우는 이론이다. 피어슨 상관 (계수) 관계는 Covariance(공분산)과 Standard deviation(표준 편차)을 사용하여 나타낼 수 있다. 여기서 비교되는 값은 두 개의 연속적인 변수를 의미한다. 한마디로 두 개의 서로 다른 연속성을 가진 데이터를 비교 분석을 피어슨 상관관계를 통해서 한다는 것이다. # 피어슨 상관관계에서 무조건 선형이 아닐 수도 있다... 2022. 11. 19. [Memory System] Cache Coherence: Write-through, Write-back Cache Coherence: Write-through, Write-back 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Cache Coherence Cache coherence(캐시 일관성)이란, 데이터가 write(쓰일 때) 캐시를 어떤 식으로 활용할 것인지에 대한 걸 의미한다. 캐시를 사용함으로써 전반적인 Computing 효율성을 증가시키는 것인데 이때 데이터를 캐시에 어떤 방식과 방법으로 저장할지에 대해서 메모리 처리 속도에 .. 2022. 2. 26. [Database] Metadata: 메타데이터란? Metadata: 메타데이터란? 포스트 난이도: HOO_Junior [Notice] 포스트 난이도에 대한 설명 안녕하세요, HOOAI의 Henry입니다. Bro들의 질문에 대한 내용을 우선적으로 포스팅이 되다 보니 각각의 포스트에 대한 난이도가 달라서 난이도에 대한 부분을 작성하면 좋겠다는 의견을 들었습니다 whoishoo.tistory.com # Metadata 메타데이터(Metadata)란 데이터베이스(database)에 저장되는 데이터(data)를 설명해주는 역할을 한다. 최근 이슈가 되고 있는 메타버스(Metaverse)와는 완전히 다른 의미의 용어이다. 메타데이터의 Meta는 설명이라는 의미를 가지고 있다. 메타데이터가 데이터를 설명해준다는 의미는 쉽게 말해서 데이터를 구조화하여 정리된 데이터를.. 2022. 1. 17. 이전 1 다음 728x90