You Only Look Once: Unified, Real-Time Object Detection

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

juooo1117

You Only Look Once: Unified, Real-Time Object Detection 본문

Artificial Intelligence/Research Paper

You Only Look Once: Unified, Real-Time Object Detection

Hyo__ni 2024. 1. 8. 11:55

Abstract

We present YOLO, a new approach to object detection.

- YOLO는 기존의 방법과는 달리, 공간적으로 분리된 bounding box 및 관련된 클래스 확률에 대한 회귀(regression) 문제로 객체 감지를 구성한다.

- 하나의 단일 신경망은 이미지 전체에 대해서 bounding box와 class probabilities를 한 번의 계산만으로 예측한다.

- 객체 검출 파이프라인이 하나의 네트워크이기 때문에, end-to-end 형식으로 동작한다.

- 우리의 unified architecture는 매우 빠르다. Base YOLO 모델은 초당 45프레임의 이미지를 실시간으로 처리한다. Fast Yolo는 초당 155프레임이라는 속도를 처리하는 동시에 다른 실시간 감지기의 mAP(mean Average Precision)의 두 배를 달성한다.

- 다른 최첨단의 detection system과 비교할 때, YOLO는 localization error가 많지만 배경에서 잘못된 긍정을 할 가능성이 더 낮다.

Introduction

사람은 이미지를 한 번 보면 즉시 어떤 물체가 이미지 안에 있는지 알 수 있다. 사람의 visual system은 빠르고 정확하기 때문이다.

object detection을 위한 빠르고 정확한 알고리즘을 통해 컴퓨터는 특수한 센서 없이 자동차를 운전할 수 있고, 보조 장치가 실시간으로 장면 정보를 인간 사용자에게 전달할 수 있으며, 범용 반응형 로봇 시스템의 잠재력을 발휘할 수 있다.

기존 탐지시스템은 detection을 수행하기 위해서 classifier를 고쳐서 만들었다. 객체를 감지하기 위해 이러한 시스템은 해당 객체에 대한 한 classifier를 가져와 테스트 이미지의 다양한 위치(locations)와 규모(scales)에서 평가한다. 변형 가능한 모델(DPM)과 같은 시스템은 classifier가 전체 이미지에 걸쳐 균등한 간격의 위치에서 실행되는 슬라이딩 윈도우 접근 방식을 사용한다.

R-CNN과 같은 좀 더 최근의 접근은, 영역 제안 방법을 사용하여 먼저 이미지에 잠재적인 bounding box를 생성한 다음 제안된 box에 대해 classifier를 실행하는 것이다. classification 후에는 post-proessing(후처리)를 사용하여 bounding box를 정제하고, 중복 감지를 제거하고, 이미지의 다른 objects 를 기반으로 box's 점수를 다시 매긴다. 이 복잡한 파이프라인은 각각의 요소가 분리되어서 학습되어야 하기 때문에 느리고 최적화되기가 어렵다.

우리는 object detection을 이미지 픽셀로부터 bounding box의 위치와 클래스 확률을 구하는 하나의 회귀 문제로 보았다. YOLO를 이용하면 이미지에 어떤 물체가 있고 어디에 있는지를 단 한번만 보면 예측할 수 있다.

YOLO is refreshingly(참신하게) simple;

먼저 하나의 convolutional network 가 여러 bounding boxes 와 그 boxes 에 대한 class probabilities를 동시에 예측한다.

YOLO는 전체 이미지를(full images) 학습하고 바로 검출 성능을 최적화한다. YOLO의 이런 통합된 모델은 object detection의 전통적 방법보다 여러 장점이 있다.

YOLO는 extremely fast

- detection을 회귀 문제로 정의했기 때문에 복잡한 파이프라인이 필요하지 않다.

- 테스트를 위해서 단순히 새로운 이미지를 신경망에 넣어주기만 하면 쉽게 detection을 예측할 수 있다.

- YOLO Base Network는 배치처리(batch processing)없이 Titan X GPU 환경에서 1초에 45프레임을 처리하고, 빠른 버전의 경우(Fast YOLO)는 1초에 150프레임을 처리한다.

- 따라서, 동영상을 실시간으로 처리할 수 있다. (less than 25 milliseconds of latency)

- YOLO는 다른 실시간 시스템보다 2배 이상의 mAP(mean average precision)을 달성했다.

YOLO는 예측할 때 이미지에 대해 전역적으로(globally) 추론한다.

- sliding window, region proposal 기반의 방식과는 다르게, YOLO는 훈련과 테스트 동안에 이미지 전체를 보기 때문에 클래스에 대한 상황 정보와 해당 모양을 암암리에 인코딩한다.

- top detection model인 Fast R-CNN의 경우, 더 큰 컨텍스트를 볼 수 없기 때문에 이미지의 배경 패치를 객체로 착각하는 실수를 한다.

- YOLO는 Fast R-CNN에 비해서 background error가 반 이상 적다.

YOLO learns generalizable representations of object. (일반화 가능한 표현을 학습)

- natural image를 학습해서 art-work 이미지로 테스트할 때 놀랄만한 성능을 낸다.

- 따라서, YOLO는 새로운 도메인이나 unexpected input을 테스트에서 넣었을 때 고장 날 확률이 적다.

하지만, YOLO는 정확도 면에서 최신 모델에 비해서 처진다. 빠르게 검출이 가능한 반면에, 몇몇 객체의 위치를 정확하게 알아내는 데에는 어려움을 겪는데 특히 작은 물체에 대해서 심하다.

Unified Detection

우리는 object detection을 위한 개별 요소들을 단일 신경망(single neural network)으로 통합했다. 네트워크는 각각의 bounding box를 예측하기 위해서 전체 이미지의 특성(features)을 이용한다. 또한 동시에 bounding box들의 class도 예측한다. 즉, 전체 이미지에 대해서 전역적으로 모든 객체를 추론하는 것이다. YOLO는 높은 average precision을 유지하면서 end-to-end 학습과 실시간 검출이 가능하다.

YOLO 시스템은 input images를 S X S grid로 나눈다. 만약 어떤 객체의 중심이 특정한 grid cell에 위치한다면, 해당 grid cell이 그 객체를 검출할 책임이 있다. 각 grid cell은 B 개의 bounding boxes와 그 박스들에 대한 confidence score를 예측한다. 이 confidence score는 bounding box가 객체를 포함하는 것이 얼마나 신뢰할 수 있는지, 또한 예측한 bounding boxes가 얼마나 정확한지를 말한다. 만약 grid cell에 아무런 객체가 없다면 confidence score는 0이 된다. 그렇지 않으면 우리는 confidence score 가 예측된 상자와 실제와의 IOU(intersection over union)와 같기를 원한다.

Each bounding box consists of 5 predictions: x, y, w, h and confidence

- (x, y) : bounding box 중심의 grid cell 내의 상대 위치 (0~1 사이의 값 / 중심에 위치한다면 (0.5, 0.5))

- (w, h) : bounding box의 상대 너비와 상대 높이 (0~1 사이의 값) / 이미지 전체의 높이&너비를 1이라고 가정했을때)

- confidence score : predicted box 와 실제(ground truth box)사이의 IOU

각각의 gird cell은 conditional class probabilities(C)를 예측한다. 이것은 gird cell 이 객체를 포함한다는 조건 하에 그 객체가 어떤 클래스인지에 대한 조건부 확률이다. Grid cell 안에 몇 개의 bounding box가 있는지와 무관하게 하나의 gird cell 에서는 하나의 클래스에 대한 확률 값만을 구한다. (Only predict one set of class probabilities per grid cell, regardless of the number of boxes B)

테스트 시 조건부 클래스 확률(conditional class probabilities)과 개별 박스의 confidence를 곱한다.

이 점수는 해당 클래스가 상자에 나타날 확률과 예측된 상자가 개체에 얼마나 잘 맞는지 모두 인코딩한다.

For evaluating YOLO on PASCAL VOC,

S=7, B=2(하나의 gird cell에서 bbox 2개씩 예측), C=20(데이터셋의 클래스가 20개 이므로) 이면

→ 7 x 7 x (2 * 5 + 20=30) tensor 를 생성한다. Fianl predict tensor 의 dimension은 (7*7*30) 이다.

Network Design

The initial convolutional layers of the network extract features from the image.

The fully connected layers predict the output probabilities and coordinates.

신경망 구조는 GoogLeNet에서 영감을 얻었으며, 24개의 convolutional layers + 2개의 fc layers 가 연결되어 있다.

구글넷의 inception modules을 대신해서, we simply sue 1x1 reduction layers followed by 3x3 convolutional layers.

The Full Network

The final output of our network is the (7x7x30) tensor of predictions.

*Fast YOLO : 좀 더 빠른 객체 인식을 위해서 convolutional layers(24 → 9), filters in those layers 를 줄여서 사용한다.

Training

우리는 1000개의 클래스를 갖는 ImageNet dataset으로 YOLO의 convolutional layers 를 사전학습시켰다. Pretraining을 위해서 첫번째 20개의 convolutional layers 만 사용했다. 그리고 average-pooling layers 와 fully-connected layer 를 연결시켰다. 우리는 이 네트워크를 약 1주간 훈련시켰고, 88%의 정확도를 달성했다.

그런 다음, 모델을 변환해서 detection을 수행했다. 사전 훈련된 네트워크에 convolutional layers 와 connected layers 를 모두 추가하면 성능이 향상될 수 있음을 보여준다. 연구에 따르면, 4개의 convolutional layers와 무작위로 초기화된 가중치가 있는 2개의 fully-connected layer 를 추가한다. Detection에는 세분화된 시각적 정보가 필요한 경우가 많으므로 네트워크의 입력 해상도를 224*224 에서 448*448 로 높혔다.

- Our final layer predicts both class probabilities and bounding box coordinates.

- We normalizethe bounding box width and height by the image width and height so that they fall between 0 and 1.

- We parametrize the bounding box (x, y) coordinates to be offsets of a particular grid cell location so they are also bounded between 0 and 1.

- We use a linear activation function for the final layer and all other layers use the following leaky ReLU.

우리는 SSE(sum-squared error)를 통해서 최적화를 합니다.

하지만 SSE를 사용하는 것이 maximizing average precision 이라는 우리의 목표에 완벽하게 맞지는 않습니다.

이상적이지 않을 수 있는 classificatino error 와 동일하게 localization error 에 가중치를 부여합니다.

또한, 이미지 마다 많은 grid cell은 어떠한 객체도 포함하지 않으며, 이것은 'confidence' score를 0으로 만든다. (모델을 안정적이지 못하게 만듦)

이것을 바로잡기 위해서, 우리는 객체가 존재하는 bounding box의 좌표에 대한 loss의 가중치를 증가시키고, 객체가 존재하지 않는 bounding box의 confidence loss에 대한 가중치는 감소시켰다.

→ We use two parameters to accomplish this (λ_coord=5, λ_noobj=0.5)

SSE는 또한 크기가 큰 상자와 작은 상자에 동일한 가중치를 부여해서 loss를 계산한다.

우리의 오류 측정 기준은 크기가 큰 상자의 작은 편차가 작은 상자보다 덜 발생한다는 점을 반영해야 한다. (즉, 큰 상자가 덜 민감!)

이 문제를 부분적으로 해결하기 위해 너비와 높이를 직접 예측하는 대신 경계 상자 너비와 높이의 제곱근을 예측한다.

YOLO는 하나의 grid cell 당 여러개의 bounding box를 예측한다.

훈련단계에서 하나의 bounding box predictor는 하나의 객체에 대한 책임을 가져야 한다.

우리는 gorund truth와의 IOU가 가장 높은 예측을 기반으로 객체 예측을 담당하는 하나의 예측자를 할당합니다.

→ 즉, 객체 하나당 하나의 bounding box와 매칭을 시킨다!

이렇게 훈련된 bounding box predictor는 size, aspect ratios, 객체의 class 를 잘 예측하고 전체의 recall 을 개선한다.

훈련에 사용되는 Loss Function:

- 손실 함수는 객체가 해당 그리드 셀에 존재하는 경우에만 classification error 에 불이익을 준다.

- 해당 예측자가 ground truth box 에 대한 책임이 있는 경우에만 bounding box coordinate error 에 페널티를 적용한다.

우리는 PASCAL VOC 2007, 2012 데이터 셋을 활용해서 135 epochs 로 모델을 학습시켰다.

학습하는 동안 batch size = 64, momentum = 0.9, decay = 0.0005 로 설정했고, 초반에는 learning rate를 0.001 에서 0.01로 천천히 상승시켰다. 만약 처음부터 높은 learning rate 를 설정했다면 불안정한 기울기로 인한 발산이 발생했을 것이다. 75 epochs 동안은 0.01, 30 epochs 동안에는 0.001, 마지막 30 epochs 동안은 0.0001 로 learning rate 를 설정해서 학습했다.

overfitting을 피하기 위해서 dropout, data augmentation 을 사용했다.

- A dropout layer with rate = 0.5 after the first connected layer prevents co-adaptation between layers.

- For data augmentation, 원본 이미지의 20%까지 random scaling과 random translation(이동)을 적용했다.

- HSV color space 에서 이미지의 노출과 채도를 최대 1.5배까지 무작위로 조정했다.

Inference

학습과 마찬가지로, 테스트 이미지를 검출 예측할 때 하나의 네트워크만 필요하다. PASKAL VOC 데이터셋에 대해서 YOLO는 한 이미지당 98개의 bouding boxes 를 예측하고 각 박스에 대해서 클래스 확률을 구한다. YOLO는 classifier-based 방법들과는 달리 단일 네트워크 검증(single network evaluation)이 요구되기 때문에 테스트할 때 매우 빠르다.

그리드 디자인은 bounding box 예측에 공간적 다양성을 적용한다. 종종 객체가 어느 grid cell 에 속하는지 명확하면 네트워크는 각 객체에 대해 하나의 상자만 예측한다. 그러나 큰 객체나 여러 cell 의 경계에 인접한 경우 그 객체에 대한 bounding box 가 여러개 생길 수 있다. Non-maximal suppression을 사용하여 이러한 다중 감지를 수정할 수 있다. R-CNN 또는 DPM 처럼 성능에 중요하지는 않지만 non-maximal suppression은 mAP를 2~3% 향상시켰다.

Limitations of YOLO

YOLO는 bounding box가 각각의 grid cell 마다 오직 두개의 박스만 예측하고 하나의 클래스만 가질 수 있도록 제한했다. 이 공간적 제약으로 인해 모델이 예측할 수 있는 인근 객체의 수가 제한된다. 우리 모델은 새 떼와 같이 그룹에 나타나는 작은 객체를 검출하는데 어려움을 겪는다.

우리 모델은 데이터로부터 bounding box 예측을 학습하기 때문에 새롭거나 특이한 종횡비 또는 배치를 객체로 일반화하는 데 어려움을 겪는다. 또한 우리의 아키텍처가 입력 이미지에서 여러 개의 다운샘플링 레이어를 가지고 있기 때문에 경계 상자를 예측하기 위해 상대적으 거친 특징(coarse features)을 사용한다.

마지막으로 감지 성능에 근접한 손실 함수를 학습하는 동안, 손실 함수는 작은 경계 상자와 큰 경계 상자의 오류를 동일하게 처리한다. 큰 박스에서 작은 오류는 무해하지만 작은 박스에서의 작은 오류는 IOU에 더 큰 영향을 준다. 오류의 주요한 원인은 잘못된 localizations 이다.

Comparison to Other Detection Systems

object detection은 computer vision의 핵심 문제이다. 검출 파이프라인은 일반적으로 input 이미지에서 확고한 특징을 추출하는 것으로 시작된다. 다음, classifiers 또는 localizers 가 feature space에서 객체를 발견한다. 이 classifer 또는 localizers는 전체 이미지 또는 이미지의 일부 영역의 하위 집합에서 sliding window 방식으로 실행된다. 우리는 YOLO의 검출 시스템을 비슷한 점과 다른 점을 중점으로 두고 몇 개의 top detection 프레임워크와 비교해 보았다.

Deformable parts models (DPM)

DPM 은 객체검출을 위해서 sliding window 방식을 이용한다. DPM은 정적객체를 추출하고 지역을 나누고 bounding box를 예측하는데 해체한 파이프라인을 사용한다. (즉, 파이프라인이 분리되어있다.) 우리의 시스템은 모든 분리된 부분을 하나의 convolutional neural network로 대체했다. 네트워크는 피쳐추출, bounding box 예측, 비 최대 억제 등을 동시에 수행한다. 정적 특성 대신 네트워크는 특성을 인라인으로 훈련하고 탐지 작업에 맞게 최적화한다. 우리의 통합된 모델은 DPM 보다 빠르고 더 정확하다.

R-CNN

R-CNN은 sliding window 대신에 region proposal 방식을 사용해서 객체를 찾는다. Selective search 라는 방식으로 잠재적인 bounding boxes 를 생성하고, convolutional 네트워크로 피쳐를 추출하고, SVM으로 bounding boxes 에 대한 점수를 매긴다. 그리고 선형 모델로 bounding box를 조절하고 non-max suppression 으로 중복된 검출을 제거한다. 각 단계는 독립적으로 튜닝되어야 하므로 결과를 내는데 매우 느리다. 한 테스트 이미지를 처리하는데 40초 이상이 소요된다.

YOLO는 R-CNN과 몇가지 비슷한 점이 있다. 각각의 gird cell은 잠재적인 bounding boxes 와 convolutional features를 이용해서 이 박스들에 대한 점수를 제안한다는 것이다. 그러나 우리 시스템은 grid cell의 공간적인 제약으로 같은 객체에 대해서 여러번 검출을 하는 것을 완화시켰다. 우리 시스템은 훨씩 적은 bounding box를 제안한다. Selective search 는 2000개인데 이에 비해서 이미지당 오직 98개의 bounding box만을 제안한다. 마지막으로 우리 시스템은 이러한 개별 구성 요소를 공동으로 최적화된 단일 모델로 결합한다.

Experiments

먼저, 우리는 다른 실시간 검출 시스템과 YOLO를 비교해보았다. YOLO와 Fast R-CNN의 성능 차이를 비교하기 위해서 VOC2007 데이터셋을 가지고 에러를 탐구했다. Fast R-CNN은 가장 높은 성능의 R-CNN 버전이다. 다양한 오류 프로필을 기반으로 우리는 YOLO가 Fast R-CNN 감지의 점수를 다시 매기고 배경 오류로 인한 오류를 줄여 성능을 크게 향상시킬 수 있음을 보여준다. 또한 VOC2012 결과를 제시하고 mAP를 현재 최첨단 방법과 비교한다. 마지막으로 우리는 YOLO가 두 개의 데이터셋에서 다른 탐지기보다 더 나은 새로운 도메인으로 일반화된다는 것을 보여준다.

Comparison to Other Real-Time Systems

object detection에 대한 많은 연구들은 표준화된 객체 검출 파이프라인을 빠르게 만드는데 노력을 기울인다. 우리는 YOLO를 30Hz 또는 100Hz에서 실행되는 DPM의 GPU 구현과 비교한다. 다른 노력은 real-time milestone 에 도달하지 못하는 반면 상대 mAP와 속도를 비교하여 객체 감지 시스템에서 사용할 수 있는 정확도-성능 균형을 조사합니다. Fast YOLO는 가장빠른 객체 검출 모델이다. (mAP=52.7%) YOLO는 실시간 성능은 그대로 유지하면서 mAP를 63.4% 높혔다.

우리는 또한 VGG-16을 사용해서 YOLO를 훈련시켰다. 이 모델은 YOLO보다 더 정확하지만 상당히 느리다. VGG-16를 사용하는 다른 객체 검출 모델과 비교하기에는 유용하지만 실시간 객체 검출에 사용하기에는 느려서 우리의 모델에 집중하겠다.

Fastest DPM은 mAP를 많이 희생하지 않고도 DPM 속도를 효과적으로 향상시키지만 여전히 실시간 성능이 2배나 부족하다. 또한 신경망 접근 방식에 비해 DPM의 탐지 정확도가 상대적으로 낮기 때문에 제한된다.

R-CNN minus R 모델은 Selective Search 방식을 static bounding box proposals 방식으로 대체했다. 따라서 기존 R-CNN 보다는 속도가 빨라졌지만 여전히 실시간 성능이 부족하고 괜찮은 제안이 없기 때문에 정확도가 크게 저하된다.

Fast R-CNN 모델은 R-CNN 분류 단계의 속도를 높이지만 여전히 bounding box proposals 를 생성하는 데 이미지당 약 2초가 걸릴 수 있는 selective search 에 의존한다. 따라서 mAP는 높지만 0.5fps에서는 여전히 실시간과는 거리가 멀다.

VOC 2007 Error Analysis

YOLO와 다른 객체 검출 모델을 더 평가해 보자. PASCAL2007 데이터셋에 대해서 YOLO 와 Fast R-CNN의 성능을 비교해 보았다. 테스트 시 각 카테고리에 대해 해당 카테고리에 대한 상위 N개의 예측을 살펴보았다. 각 예측은 정확하거나 오류 유형에 따라 분류된다.

- Correct : correct class / IOU > 0.5
- Localization : correct class / 0.1 < IOU < 0.5
- Similar : similar class / IOU > 0.1
- Other : wrong class / IOU > 0.1
- Background : for any object / IOU < 0.1

Follow figure shows the breakdown of each error type averaged across all 20 classes.

YOLO는 물체의 위치를 정확하게 파악하는 데 어려움을 겪는다. localization error는 YOLO 오류의 가장 큰 부분을 차지한다. Fast R-CNN은 훨씩 적은 localization 오류를 만드는 반면에 더 많은 background error가 발생한다.

Combining Fast R-CNN and YOLO

YOLO는 Fast R-CNN에 비해서 background mistakes가 훨씬 적다. 따라서 YOLO를 이용해서 Fast R-CNN에서 background error를 줄인다면 상당한 성능 향상을 이룰 수 있다. R-CNN이 예측하는 모든 bounding box에 대해서 YOLO도 유사하게 예측하는지 체크한다. 만약 그렇다면, 우리는 YOLO에 의해 예측된 확률과 두 상자 사이의 중첩을 기반으로 해당 예측에 부스트를 제공한다. VOC 2007 데이터 셋에 대해 가장 성능이 좋은 Fast R-CNN 모델은 71.8% mAP이다. Fast R-CNN과 YOLO를 결합하면 mAP가 3.2% 올라 75.0%가 된다. Fast R-CNN과 다른 모델을 앙상블 해봤지만 mAP 향상은 0.3%, 0.6%로 작았다.

서로 다른 버전의 Fast R-CNN을 결합해도 이점이 거의 없기 때문에, YOLO의 boost는 단순한 모델 앙상블의 부산물이 아니다. 오히려 YOLO가 테스트 시 다양한 종류의 실수를 하기 때문에 Fast R-CNN의 성능을 향상시키는 데 매우 효과적이다. 안타깝게도 이 조합은 각 모델을 별도로 실행한 다음 결과를 결합하기 때문에 YOLO의 속도 이점을 얻지 못한다. 하지만 YOLO는 매우 빠르기 때문에 Fast R-CNN만 실행했을 때에 비해서 계산 시간이 크게 추가되지 않는다.

Real-Time Detection In The Wild

YOLO는 빠르고 정확한 물체 감지기로 컴퓨터 비전 애플리케이션에 이상적이다. 웹캠에 연결하고 카메라에서 이미지를 가져오고 감지 내용을 표시하는 시간을 포함하여 실시간 성능을 유지하는지 확인했다. 결과 시스템은 상호작용적이고 매력적이다. YOLO는 이미지를 개별적으로 처리하는 반면 웹캠에 연결하면 추적 시스템처럼 작동하여 물체가 움직이고 모양이 변할 때 이를 감지한다.

Conclusion

우리는 object detection 을 위한 통합된 모델인 YOLO를 소개했다. YOLO는 구조가 단순하고 전체 이미지에 대해서 바로 학습한다. classifier-based 방식과 달리, YOLO는 탐지 성능에 직접적으로 부합하는 손실 함수로 훈련되고 전체 모델이 공동으로 훈련된다. Fast YOLO는 문헌상 가장 빠른 범용 객체 감지기이며 실시간 객체 감지 분야에서 최첨단 기술을 제공한다. YOLO는 또한 새로운 도메인에 잘 일반화되므로 빠르고 강력한 객체 감지에 의존하는 애플리케이션에 이상적이다.

'Artificial Intelligence > Research Paper' 카테고리의 다른 글

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks (0)	2024.05.27
Attention Is All You Need (0)	2024.05.20
Generative Adversarial Nets (1)	2023.12.09
Research paper 공부내용 정리2 (MobileNet, R-CNN, SSD, RefineDet) (0)	2023.11.02
Research paper 공부내용 정리1 (LeNet, AlexNet, VGGNet, ResNet, Batch Norm, DenseNet) (1)	2023.11.02

'Artificial Intelligence/Research Paper' Related Articles

juooo1117

You Only Look Once: Unified, Real-Time Object Detection 본문

You Only Look Once: Unified, Real-Time Object Detection

Abstract

Introduction

Unified Detection

Network Design

Training

Inference

Limitations of YOLO

Comparison to Other Detection Systems

Experiments

Comparison to Other Real-Time Systems

VOC 2007 Error Analysis

Combining Fast R-CNN and YOLO

Real-Time Detection In The Wild

Conclusion

'Artificial Intelligence > Research Paper' 카테고리의 다른 글

티스토리툴바