본문 바로가기
Computer Science/AI & Data

[Computer Vision] YOLO랑 Fast R-CNN을 합쳐보았습니다.

by Henry Cho 2023. 11. 15.

YOLO랑 Fast R-CNN을 합쳐보았습니다.

포스트 난이도: HOO_Senior


# YOLO, 2015

Computer vision을 다루는 브로들이라면 2015년에 처음 나온 YOLO (욜로) 페이퍼를 최소 한번 정도는 읽어봤을 것이다. 물론 현재 버전의 욜로와 차이가 많이 있지만 욜로의 근본적인 구조는 동일한 방식으로 Detecting이 되기 때문에 꼭 한번 정도는 읽어보는 것을 추천한다. 글쓴이의 주관적인 견해뿐만 아니라 객관적으로도 4만 번 이상 cited가 된 페이퍼이기 때문에 충분히 입증되었다.


Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.


해당 페이퍼를 언급한 이유는 석사 브로가 페이퍼 안에서 나온 내용에 대해서 질문을 해왔기 때문이다. 페이퍼를 읽다 보면 욜로의 문제점을 보완하고 Fast-RCNN의 문제점을 보완하고자, 둘을 합친 Combine object detection system에 대한 아이디어와 산출된 결과를 비교하는 테이블을 제시하고 있다. 석사 브로는 이 부분에 대해서 도대체 어떻게 다른 두 방식의 object detection systems들이 합쳐질 수 있고 어떤 부분에서 합쳐지는지에 대해서 이해가 되지 않아 글쓴이에게 질문을 하게 되었다.


# Combining Fast R-CNN and YOLO

섹션 4.3에 있는 이 부분은 앞서서 욜로에 대한 장점과 특징, 그리고 문제점들을 보여주고 나서 기존에 다른 CNN 방식 중 하나인 Fast R-CNN와 비교하고 있다. 결국 두 개의 장단점을 보완하기 위해 Combining을 해보지만 결과적으로 YOLO가 가진 속도의 장점이 합쳐진 모델에서는 효과가 없었다는 게 해당 섹션의 연구 결과이다. 여기까지는 페이퍼에 작성된 내용을 바탕으로 이해가 가지만 석사생 브로는 구체적으로 어떻게 합쳐졌는지가 이해가 잘 되지 않는다는 것이다.

 

우선 Combinning에 대해서 이해하기 위해서는 CNN과 R-CNN의 방식을 이해할 필요가 있다. 우선 두 시스템이 합쳐질 수 있는 근본적인 이유 중 하나는 바로 둘 다 CNN 방식이라는 것이다. 거기다가 R-CNN, Fast R-CNN은 지역 기반의 컨볼루션 신경망을 사용하는데, 이 말인즉슨, 먼저 각 이미지는 지역 기반 알고리즘을 사용하여 관심 영역으로 자른 다음 자른 이미지를 CNN 네트워크에 input하게 된다는 것이다. 결국 이 과정에서 Background 인식에 대한 실수가 적은 욜로를 사용하여 Fast-RCNN의 정확도와 더불어 YOLO의 단순함과 속도를 통해 결과적으로 모든 면에 있어서 향상될 것이라고 예측한 것이다. 한마디로 배경 탐지 제거에 YOLO를 활용하여 R-CNN에서 가진 문제점과 속도에 대한 부분을 해결하고자 했다. 하지만 결과적으로 합쳐진 두 시스템의 결과는 그리 좋지 않았다는 게 해당 연구 내용과 방법의 주요 포인트이다.

 

그래서 우리는 그다음으로 YOLO와 같이 single model기반의 지역 이미지를 디텍팅하는 SSD object detection을 주목하게 되었지만 위의 연구 페이퍼는 2016년도에 나온 것이기 아직까지는 이 부분에 대해서 알지 못했다.


 

728x90

댓글