본문 바로가기

Computer Vision/Multiple Object Tracking

[논문 읽기/2018] REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATESELECTION AND PERSON RE-IDENTIFICATION

ABSTRACT

시간이 중요한 비디오 분석 어플리케이션에 있어서 온라인 다중 객체 추적은 근본적으로 해결해야 할 문제임. tracking-by-detection 프레임워크에서 극복해야 할 주요 사항은 아래와 같음. 

  • 신뢰하기 어려운 detection 결과를 어떻게 존재하는 track들과 연관(association)시킬 것인가?

본 연구에서 제안한 내용

  • detection 및 tracking 모두에서 나온 출력의 후보들을 수집함으로써(collecting), 신뢰하기 어려운 detection을 다루는 법을 제안함.
  • 중복된 후보 생성 뒤에 숨겨진 직관(intuition)은 detection과 tracks은 서로 다른 시나리오 상에서 상호 보완을 할 수 있다는 것임.
  • 높은 confidence를 가진 detection 결과는 long term 상황에서 tracking이 표류되는 현상을 방지 할 수 있으며, tracks의 예측은 가려짐(occlusion)에 의해 발생한 noisy detection을 처리할 수 있음.
  • 실시간 내에 상당한 양의 후보들로부터 최적의 선택을 적용하기 위해 새로운 scoring 함수를 제안
  • fully convolutional neural network에 기반하고 있으며, 전체 이미지에 대해 대부분의 계산을 공유함.
  • 대규모의 person re-identification 데이터셋을 이용하여 훈련된 깊게 학습된 외관 표현(appearance representation)을 채택함으로써, 제안한 tracker의 identification 성능을 향상시킴.
  • 많은 실험을 통해, 널리 사용되는 사람 추적 벤치마크에서 제안한 tracker는 실시간 및 최신의 성능을 보이는 것을 확인함.

1. INTRODUCTION

비디오 감시, 스포츠 분석, 자율 주행 등의 여러 비디오 분석 및 멀티미디어 어플리케이션에서 복잡한 장면 내 다중 객체를 추적하는 것은 도전적인 문제임. 다중 객체 추적의 목적은 구체적인 카테고리 내 객체들의 궤적(trajectories)을 추정하는 것임. 지난 10년간 객체 검출의 발전에 따라 다중 객체 추적도 많은 이점을 얻게 됨.

  • 보편적인 tracking-by-detection 기법은 detector를 매 프레임에 적용하고 프레임에 걸쳐 detection을 연관지음으로써 객체 궤적을 생성함.
  • 카테고리 내(intra-category) 가려짐과 신뢰하기 어려운 detection은 [1, 2]와 같은 추적 프레임워크에서는 상당히 도전적인 요소임.
  • 카테고리 내 가려짐 및 객체의 외관의 유사성은 데이터 연관 시 모호한 결과를 갖게 됨.
  • [3, 4]에서는 이러한 문제를 완화시키기 위해 움직임, 모양, 객체 외관을 포함한 여러개의 cue들을 융합시킴.
  • 반면에 detection 결과는 항상 신뢰 할 수 없으며, 붐비는 장면 내 자세 변화 및 가려짐 등으로 인해 detection 실패(오검출, 검출을 놓침(missing detection), 부정확한 bounding box 등)를 야기시킴.

배치(batch) 모드에서 신뢰하기 어려운 detection을 다룬 연구들[2, 5, 6]

  • 향 후 프레임의 정보들을 도입하여 detection noise들을 해결하고자 함.
  • 전체 비디오 프레임 또는 temporal window 내 detection 결과는 전역 최적화 문제를 해결함으로써, 궤적에 적용 및 연결되어짐.
  • 배치 모드 상의 추적은 인과 관계가 없으며(non-causal), 시간이 중요한 어플리케이션에는 적합하지 않음.
  • 대조적으로, 본 연구에서는 단지 현재 및 과거 프레임들만을 이용하는 온라인 다중 사람 추적에 초점을 두고 있음.

온라인 모드에서 신뢰하기 어려운 detection을 다루기 위해서, 본 연구의 추적 프레임워크는 매 프레임마다 detection과 tracks 모두에서 나온 출력의 후보들을 최적으로 선택함(그림 1 참고).

대부분의 존재하는 tracking-by-detection 기법에서 데이터 연관을 이야기 할 때, 기존의 tracks들과 연관되어질 후보들은 detection 결과만으로 구성되어짐. [4]에서는 tracker과 object detector를 2개의 독립적인 identities로 취급하고 이들의 결과를 후보들로 유지하도록 제안함.

  • hand-crafted features(예: 컬러 히스토그램, optical flow, 움직임 features 등)들을 기반으로 후보들을 선택함.

중복된 후보 생성 뒤에 숨겨진 직관은 detection과 tracks들은 서로 다른 시나리오 상에서 상호 보완할 수 있다는 것임. 한편, trackers에서 만들어진 신뢰할만한 예측은 검출을 놓치거나 부정확한 bounding 등과 같은 경우의 short-term 상황에서의 연관을 위해 사용되어짐. detection과 tracks 모두의 출력을 어떻게 통합된(unified) 방법으로 점수화(scoring) 할 것인지는 여전히 열려있는 질문임. 최근 deep neural networks, 특히 convolutional neural networks(CNN)는 컴퓨터 비전 및 멀티미디어 분야에서 상당히 많은 발전을 가져오게 함. 본 연구에서는 신뢰하기 어려운 detection 및 카테고리 내 가려짐을 다루기 위해 deep neural networks를 최대한 활용함.

 

본 연구의 3가지 기여

  • 온라인 추적 시 신뢰하기 어려운 detection을 해결하기 위해 detection 및 tracking 결과 모두를 후보들로 결합하고 deep neural networks에 기반한 최적의 후보들을 선택함.
  • 계층적(hierarchical) 데이터 연관 전략을 제안: 공간 정보 및 깊게 학습된 person re-identification(ReID) features를 활용함. 
  • 제안한 tracker가 널리 사용되는 사람 추적 벤치마크에서 실시간 및 최신의 성능을 보인다는 것을 확인함.

2. RELATED WORK

다중 객체 추적을 위한 tracking-by-detection은 가장 보편적인 전략으로 자리잡고 있음. [1]에서는 신뢰도 값(confidence values)에 따라서 다양한 방법으로 tracklets을 detection과 연관시킴.

[7]에서는 추적 성능 향상을 위해 여러개의 detector를 활용함.

  • over-detection이라 불리는 처리 과정 동안에, 여러개의 detector들로부터 나온 출력을 수집함.
  • 여러개의 detector들로부터 나온 결과를 결합하는 것은 추적 성능 향상에 도움이 되지만, 시릿간 어플리케이션에는 효율적이지 못함.
  • 대조적으로, 본 연구에서 제안한 추적 프레임워크는 단지 하나의 detector만 필요하며, 존재하는 tracks들로부터 후보들을 생성함.

[8]에서는 온라인 다중 객체 추적을 위해 binary classifier와 단일(single) object tracker를 사용함.

[4, 5, 6, 9] 등의 배치 기법들은 추적을 전역 최적화 문제(global optimization problem)로 공식화(formulate) 함.

  • 이러한 기법들은 향 후 프레임들의 정보를 활용하여 noisy detection을 처리하고, 데이터 연관 시 발생하는 모호함을 줄임.
  • [10]에서는 연관 시 보다 안정적인 유사도 측정을 얻기 위해, 향 후 정보들을 포함된 역방향의 tracklets 생성을 위한 추적 되감기(rewind to track) 전략을 제안함.
  • [6, 9, 11]에서는 전역 최적화를 위해 person re-identification를 활용함.
  • 본 연구에서 제안한 프레임워크는 카테고리 내 가려짐 문제를 대처할 때 식별 능력 향상을 위해 깊게 학습된 ReID features를 사용함.

3. PROPOSED METHOD

3.1. Framework Overview

detection 및 tracks 모두에서 나온 출력을 후보들로 수집함으로써, 고전적인 tracking-by-detection을 확장시킴. 후보 선택 및 데이터 연관 등의 2개의 순차적인 task로 구성됨. 

1) 후보 선택

  • 하나의 통합된 scoring 함수를 이용하여 모든 후보들에 대한 측정을 수행
  • scoring 함수: 변별력있게(discriminatively) 훈련된 object classifier(section 3.2)와 잘 고안된 tracklet confidence를 융합(section 3.3)하여 사용함.
  • 추정된 score를 이용하여 순차적으로 Non-maximal suppression(NMS)가 수행됨.

2) 데이터 연관

  • 중복이 제거된 후보들을 취득한 후, 외관 표현 및 공간 정보를 함께 사용하여 계층적으로 존재하는 tracks들과 선택된 후보들을 연관지음.
  • 외관 표현은 person re-identification으로부터 깊게 학습되어 만들어짐(section 3.4).
  • 계층적 데이터 연관은 section 3.5에서 다룸.

3.2. Real-Time Object Classification

detection 및 tracks의 모든 출력을 결합하는 것은 상당한 양의 후보들을 만드는 결과를 초래함. 본 연구의 classifier는 region-based fully convolutional neural network(R-FCN)[12]를 사용함으로써, 전체 이미지에 대해 대부분의 계산을 공유하게 됨. 따라서, 상당히 중첩된 후보 영역들로부터 crop하는 image patches 상의 분류보다 훨씬 더 효율적임. 이 두가지 방법에 대한 소요 시간 비교는 그림 3과 같음.

 

본 연구에서 제안한 효율적인 classifier는 그림 2와 같음.

이미지 프레임이 주어졌을 때, encoder-decoder 아키텍처를 가진 fully convolutional neural network를 이용하여 전체 이미지에 대한 score maps을 예측함.

  • encoder part: 실시간 성능을 위한 경량(light-weight)의 convolutional backbone
  • decoder part: 추 후 분류를 위한 출력 score maps의 공간 해상도를 높이기 위해 up-sampling을 도입

분류되어야 할 각 후보들은 아래와 같은 관심 영역((region of interest(RoI))으로 정의

  • x = (x_0, y_0, w, h), where (x_0, y_0): 좌상단 point / w, h: 영역의 너비 및 높이

계산 효율성을 위해, 각 RoI에 대한 분류 확률(classification probability)은 공유된 score maps에 의해 직접적으로 투표(voting)가 됨.

  • 투표를 위한 간단한 접근은 이미지 상의 모든 점들에 대한 전경(foreground) 확률을 구성한 후 RoI 내부의 점들에 대한 평균 확률을 계산하는 것임.
  • 하지만 이렇게 간단한 전략은 객체의 공간 정보를 잃어버리게 됨.
  • 예로, 만약 RoI가 객체의 일부분만을 덮더라도, 여전히 높은 신뢰도 점수(confidence score)를 얻게 됨.

공간 정보를 명시적으로 score maps에 encoding하기 위해, position-sensitive RoI pooling layer[12]를 적용하고 k^2개의 position-sensitive score maps z로부터 분류 확률을 추정함.

  • 특히, 규칙적인 grid를 이용하여 RoI를 k x k 크기의 bins들로 분할함.
  • 각각의 bins들은 [w/k x h/k]의 동일한 크기를 가지고 있으며, 객체에 대한 특정한 공간적 위치를 나타냄.
  • k^2개의 score map으로부터 k x k 크기의 bins들에 대한 응답(response)을 추출하였으며, 각 score map은 단지 한개의 bin에 대해서만 대응하게 됨.
  • 하나의 RoI x에 대한 최종적인 분류 확률은 아래와 같이 공식화 할 수 있음.

  • 아래 식은 sigmoid 함수를 의미하며, z_i는 i번째 score map을 나타냄.

훈련 과정동안에, ground truth에 해당하는 bounding boxes 주변의 RoI들을 positive examples로써 랜덤하게 샘플링하고 배경으로부터 동일한 개수의 RoI들을 negative examples로써 취함.

  • network를 end-to-end 방식으로 훈련시킴으로써, decoder part의 상단 출력인 k^2개의 score maps은 객체의 특정한 위치에 대한 응답을 학습하게 됨.
  • 예로, 만약 k=3인 경우 객체의 9개(좌상단, 중앙 상단, 우상단, ... , 우하단 등) 부분에 대한 score maps의 응답을 갖게 됨.
  • 이러한 방식으로, RoI pooling layer는 공간적 위치에 민감하게 되며(sensitive), 학습 가능한 파라미터들의 사용 없이도 객체 분류를 위한 강한 변별력을 갖게 됨.
  • 기억해야 할 것은 제안된 neural network는 bounding box에 대한 regression이 아니라, 후보 분류에 대해서만 훈련이 된다는 것임.

3.3. Tracklet Confidence and Scoring Function

하나의 새로운 프레임이 주어졌을 때, Kalman filter를 이용하여 각각의 존재하는 track들에 대해 새로운 위치를 추정하게 됨.

  • 이러한 예측은 붐비는 장면에서 객체의 시각적 속성의 변화와 가려짐 등으로 야기되는 검출 실패를 처리하기 위해 채택됨.
  • 하지만, long-term tracking에 있어서 이러한 접근은 적합하지 못함.
  • detection에 의한 갱신이 장기간 이뤄지지 않을 경우 Kalman filter의 정확도는 떨어질 수 있음.
  • tracklet confidence는 시간상(temporal)의 정보를 이용하여 필터의 정확도를 측정하기 위해 고안됨.

tracklet은 연속적인 프레임들에서 후보들에 대한 시간상의 연관을 통해 생성되어짐.

  • track의 수명이 다할 때까지 track을 중단하고 검색할 수 있도록 하나의 track을 일련의 tracklets으로 분할함.
  • 잃어버린 상태(lost state)로부터 track을 검색할 때마다 Kalman filter는 다시 초기화됨.
  • 따라서, 가장 마지막 tracklet에 대한 정보만이 track의 confidence를 공식화하는데 사용되어짐.

tracklet confidence는 아래와 같의 정의됨.

  • L_det: tracklet과 연관된 detection 결과의 개수
  • L_trk: 마지막 detection이 연관된 후의 track 예측의 개수
  • 1( ): 입력이 1이면 true, 그렇지 않으면 0이 되는 지시 함수(indicator function)
  • track이 후보로 사용되기 전에, 관측된 detection을 이용하여 합리적인 움직임 모델을 구축하기 위해서는 L_det ≥ 2가 되어야 함.

하나의 후보 x에 대한 통합된 scoring 함수는 아래와 같이 분류 확률과 tracklet confidence를 혼합시킴으로써 형성되어짐.

  • C_det: detection의 후보들 / C_trk: tracks의 후보들
  • 불확실한 tracks들의 후보들을 벌하기 위해(punish), s_trk ∈ [0, 1]가 되어야 함.
  • 데이터 연관을 위한 후보들은 non-maximal suppression을 이용하여 통합된 scores를 기반으로 최종적으로 선택되어짐.
  • 최대 intersection over union(IoU)에 대한 임계치는 τ_nms로 정의하였으며, τ_s는 최소 score에 대한 임계치를 나타냄.

3.4. Appearance Representation with ReID Features

후보들 사이의 유사도 함수는 데이터 연관을 위한 중요한 구성 요소임.

  • 유사도 추정 task에 있어서, data driven 접근으로 깊게 학습한 객체 외관이 전통적인 hand-crafted features보다 우수하다고 생각을 함.
  • 객체 외관 및 유사도 함수에 대한 학습을 위해, deep neural network를 사용하여 RGB 이미지들로부터 특징 벡터를 추출하였으며, 추출된 특징들 사이의 거리를 사용하여 유사도를 공식화함.

[13]에서 제안한 network 아키텍처를 이용하였으며, 대규모의 person re-identification 데이터셋들을 조합하여 network를 훈련시킴.

  • network H_reid는 GoogLeNet [14]의 convolutional backbone으로 구성되며, 그 뒤에는 part-aligned된 fully connected (FC) layers의 k개 branches들로 이어짐(자세한 network 아키텍처는 [13]을 참고할 것).
  • 한명의 사람에 대한 RGB 이미지 I가 주어진 경우, 외관 표현은 f = H_reid(I)로 공식화 할 수 있음.
  • 2개의 이미지 I_i와 I_j 사이의 거리 d_ij를 측정하기 위해, 특징 벡터들 사이의 유클리디안 거리를 직접적으로 이용함.
  • 훈련 과정 동안에, 훈련 데이터셋에 있는 identities 이미지들은 triplets들의 집합 T={<I_i, I_j, I_k>}로 형성이 됨.
  • <I_i, I_j>: 동일한 사람을 나타내는 positive 쌍 / <I_i, I_k>: 서로 다른 사람을 나타내는 negative 쌍
  • N 개의 triplets이 주어진 경우, loss function은 아래의 공식을 이용하여 최소화됨.

  • m > 0 은 미리 정의된 margin을 나타냄.
  • 학습된 특징 표현의 변별력을 향상시키기 위해, 다루기 쉬운 triplets(예: d_ik - d_ij > m)들은 무시함.

3.5. Hierarchical Data Association

tracks의 예측은 붐비는 장면에서 발생하는 놓친 검출(missing detection)을 처리하기 위해 활용됨. 카테고리 내 가려짐에 의해 영향을 받게 되면, 이러한 예측은 다른 객체들과 연관이 될 수 있음. 다른 원하지 않는 객체와 배경을 외관 표현으로 사용하지 않기 위해, 서로 다른 features들을 사용하여 계층적으로 서로 다른 후보들을 tracks들과 연관지음.

  • 먼저 최대 거리에 대한 임계치 τ_d를 가진 외관 표현을 사용하여, detection의 후보들에 대해 데이터 연관을 적용함.
  • 그 다음, 임계치 τ_iou를 이용하여 후보들과 tracks들 사이의 IoU를 기반으로 남아 있는 후보들을 연관되어 있지 않은 tracks들과 연관지음.
  • detection과 연관지어졌을 때만 tracks의 외관 표현을 갱신함.
  • 갱신은 연관된 detection으로부터 ReID features들을 저장함으로써 수행되어짐.
  • 최종적으로, 새로운 tracks들은 남아 있는 detection 결과에 기반하여 초기화되어짐.

제안된 온라인 추적 알고리즘의 상세한 설명은 아래의 Algorithm 1과 같음.

  • 계층적 데이터 연관을 이용하면, 프레임 당 한번의 detection으로 만들어진 후보들에 대해서만 ReID features를 추출하면 됨.

  • 계층적 데이터 연관과 이전의 효율적인 scoring 함수, tracklet confidences 등을 결합하여 프레임워크를 실시간 속도로 수행할 수 있음.

4. EXPERIMENTS

4.1. Experiment Setup

다중 사람 추적을 위한 벤치마크로 널리 사용되는 MOT16 데이터셋[15]를 이용하여 제안한 온라인 추적 기법의 성능 평가를 수행함.

  • MOT16 데이터셋[15]는 훈련 set과 테스트 set으로 구성되어 있으며, 각각은 7개의 제한되지 않은 환경에서 촬영된 비디오 시퀀스를 가지고 있음.
  • 본 연구에서 제안한 프레임워크의 각 구성 요소에 대한 기여도를 분석하기 위해, 훈련 set으로부터 5개의 비디오 시퀀스를 이용하여 검증 set으로 구성함.
  • 그 후, 테스트 set에 대한 추적 결과를 벤치마크로 제출하고, 벤치마크 상의 최신 방법들과 비교를 수행함.

Implementation details

1) 사람 분류

실시간 성능을 위해 R-FCN의 backbone으로 SqueezeNet[16]을 적용함.

  • 본 연구의 fully convolutional network는 SqueezeNet과 decoder part로 구성되어 있으며, GTX1080Ti GPU를 이용하여 1152 x 640 크기의 입력 이미지를 사용했을 때 score maps을 추정하는데 단지 8ms만 소요됨.
  • 하이퍼 파라미터들: position-sensitive score maps을 위해 k=7로 설정함. RMSprop optimizer를 이용하여 network를 훈련시킴.이 때 learning rate는 1e-4임. 20,000 iterations에 대한 batch size는 32임.
  • 사람 분류용 network(SqueezeNet+R-FCN)를 위한 훈련 데이터: MS COCO[17]와 남아 있는 2개의 비디오 시퀀스로부터 수집함.

2) ReID

  • ReID용 network[13](GoogLeNet+part net)를 위한 훈련 데이터: 추적 시 일반화 능력을 향상시키기 위해, 대규모의 person re-identification 데이터셋 3개(Market1501 [18], CUHK01, CUHK03 [19])를 조합하여 이용함.

3) 계층적 데이터 연관

  • τ_d=0.4, τ_iou=0.3을 이용

Evaluation metrics

bounding boxes 및 identities의 정확성을 동시에 측정하기 위해 제안한 방법에 대해 벤치마크에서 사용되는 multiple metrics을 아래와 같이 채택함.

  • multiple object tracking accuracy(MOTA)[20]
  • false alarm per frame(FAF)
  • the number of mostly tracked targets (MT, > 80% recovered)
  • the number of mostly lost targets (ML, < 20% recovered)[21]
  • false positives(FP)
  • false negatives(FN)
  • identity switches(IDS)
  • identification recall(IDR)
  • identification F1 score(IDF1)[22]
  • processing speed(frames per second, FPS)

4.2. Analysis on Validation Set

Contribution of each component

제안한 방법의 효율성을 나타내기 위해, 아래 표 1과 같이 프레임워크 내 각 구성 요소들의 기여도를 조사함.

  • baseline 방법: 각 track에 대한 새로운 위치를 Kalman filter를 이용하여 예측한 후 IoU를 기반으로 detection과 tracks들을 연관지음.
  • detection 및 tracks 모두에서 후보 선택을 위한 분류 확률 적용했을 때, baseline 방법보다 MOTA가 4.6% 향상이 됨.
  • 불확실한 tracks에 대해 벌을 줌(punish)으로써, tracklet confidence와 분류 확률의 조합은 section 3.3에서 예상한 바와 같이 MOTA를 더욱 향상시키고 false positives를 줄일 수 있었음.
  • 반면에, ReID features에 기반한 외관 표현을 도입하면, identification의 성능이 상당히 향상되는 것을 IDF1 및 IDS의 평가를 통해 확인할 수 있음.
  • 통합된 scoring 함수와 ReID features를 결합하는 본 연구에서 제안한 기법은 모든 metrics에서 가장 우수한 결과를 보임.

Comparison with different appearance features

표 2에서 보는 바와 같이 section 3.4에서 이야기했던 data driven 접근에 의해 학습된 표현을 2개의 고전적인 hand-crafted features(예: color histogram, histogram of oriented gradient(HOG))와 비교함.

  • 외관 기술자(appearance descriptors)로[23] 널리 사용되는 고정된 부분 모델(fixed part model)에 따라서, 각각의 사람 이미지를 컬러 히스토그램에 대해 동일한 크기를 갖는 6개의 수평 방향의 줄무늬(stripes)로 나눔.
  • 각각의 줄무늬에 대한 컬러 히스토그램은 125개의 bins을 가진 HSV 컬러 공간에서 만들어짐.
  • 컬러 히스토그램 및 HOG features들을 L2 norm으로 정규화시킨 후 코사인 유사도 함수를 이용하여 유사도를 공식화 함.
  • 본 연구의 외관 표현이 다른 방법들과 비교했을 때 짧은 특징 벡터를 가짐에도 불구하고, IDF1 및 IDS의 측면에서 전통적인 hand-crafted features보다 크게 우수하다는 것을 표에서 확인 할 수 있음.
  • 검증 set에 대한 평가 결과는 다중 사람 추적에 있어서 data driven 접근의 효율성을 검증하고 있음.
  • 제안된 추적 프레임워크는 차량 re-identification[24]과 같이 해당되는 데이터셋을 외관 표현으로 학습시킴으로써, 다른 카테고리에도 쉽게 전이될 수 있음.

4.3. Evaluation on Test Set

MOT16-03 시퀀스에 대해 제안한 추적 프레임워크의 시간 소요에 대해서 분석을 함.

  • 그림 3(3.2. Real-Time Object Classification 참고)에서 보는 바와 같이, 제안한 방법이 전체 이미지에 대한 계산을 공유함으로써 훨씬 더 효율적인 시간을 보이고 있음.

MOT16의 테스트 set에 대한 평가 결과를 보고 하였으며, 표 3과 같이 제안한 tracker를 다른 오프라인 및 온라인 tracker들과 비교함.

  • 추적 성능은 detection의 품질에 따라 상당히 의존적이며, 공정한 비교를 위해 표에 있는 모든 tracker들은 벤치마크에서 제공한 동일한 detection을 사용함.
  • 표에서 보는 바와 같이, 제안한 tracker는 실시간 속도로 동작을 하며, 대부분의 metrics들(특히, IDF1, IDR, MT, ML 등)에서 다른 온라인 trackers들보다 우수한 성능을 보임.
  • 깊게 학습된 외관 표현에 의해 식별 능력(identification ability)은 향상됨.
  • MT 및 ML에서의 향상은 후보 선택을 위한 통합된 scoring 함수의 이점을 보여주고 있음.
  • detection 및 tracks 모두에서 후보를 선택하는 것은 놓친 검출으로 인한 추적 실패를 정말로 줄일 수 있음.
  • 또한, 제안한 온라인 tracker는 훨씬 더 낮은 계산 복잡성을 보이고 기존의 대부분의 방법들보다 5~20배 정도 빠른 속도를 보임.

5. CONCLUSION

본 논문에서는 최근 deep neural networks의 이점을 최대한 활용하는 온라인 다중 사람 추적 프레임워크를 제안함.

  • detection과 tracks 결과 모두에서 후보들을 선택함으로써, 신뢰하기 어려운 detection에 대해 대처함.
  • 후보 선택을 위한 scoring 함수는 전체 이미지에 대해 모든 계산을 공유하는 효율적인 R-FCN에 의해 공식화 됨.
  • 또한, 카테고리 내 가려짐을 대처하기 위해, 데이터 연관을 위한 ReID features를 도입함으로써 식별 능력을 향상시킴.
  • data-driven 접근에 의해 훈련된 ReID features는 전통적인 hand-crafted features에 비해 큰 차이로 우수한 성능을 보임.
  • 제안한 tracker는 MOT16 벤치마크에서 실시간 속도와 최신의 성능을 보임.

향후 연구는 분류 및 외관 추출 모두에서 convolutional layers를 공유함으로써, 효율성을 더욱 향상시키는 것을 목표로 함.