Abstract
- tracking-by-detection은 multi-object tracking을 위한 대중적인 접근임.
- object detector들의 성능이 지속적으로 향상됨에 따라, tracker을 위한 기반 기술은 더욱 더 신뢰할 수 있게 됨.
- 일반적으로 더 높은 frame rates와 결합함으로써, 성공적인 trackers를 만들기 위한 도전에 있어서 변화를 가져오게 됨.
- 이러한 변화를 통해, 계산 비용의 일부 관점에서, 보다 정교한 접근 방식들과 경쟁할 수 있는 훨씬 더 단순한 tracking 알고리즘의 배포를 가능하게 함.
- 본 논문에서는 이러한 알고리즘을 제시하고 여러 object decectors들을 이용하여 이러한 잠재력을 철저한 실험을 통해 확인함.
- 제안한 방법은 DETRAC vehicle tracking 데이터셋에서 100K fps로 쉽게 동작하여, 최신의 기법들을 성능을 능가하는 결과를 보임.
1. Introduction
object tracking은 비디오 내 의미를 보간하기 위한 핵심 기술임.
- 이는 고전적인 computer vision 문제로서, 교통량 분석, 스포츠 등과 같은 분석 시스템을 위한 중요한 단서가 되는 정보를 제공함.
- 또한, 감시 분야의 대표적인 사용 사례인 번호판 자동 인식, 얼굴 인식 등의 어플리케이션에서도 탐색 공간을 줄이는데 도움이 됨.
- 일반적인 시나리오에서 multi-object tracking을 위해서는 비디오 내 알려지지 않은 수의 관심 객체들에 대한 추정과 각각의 이동 경로를 모두 필요로 함.
이는 특히, 매 비디오 frame에 첫번째 단계로 object detector를 적용하는 대중적인 tracking-by-detection 분야에서 중요함. 두번째 단계에서 tracker는 detection들과 track들을 연관(association)짓는데 사용이 됨.
- tracking-by-detection 시스템에서 특히 온라인 적용을 고려했을 때, 전형적인 어려움은 false positive와 missed detections를 만드는 기반 detector의 제한된 성능에 있었음.
- 우수한 tracker는 missing detections의 "gap"을 채우고 false positive를 무시함으로써, 이러한 결점을 처리할 수 있어야 함.
여러 objects들이 서로 서로 교차하고 이들의 경로가 모호해질 경우에 더 많은 문제들이 발생하며, 이러한 문제를 해결하기 위한 많은 연구들이 제안됨.
- [1, 2]에서는 정교한 minimization 기법을 사용하여 연속적인 energy function을 정의하고 강력한 local minima를 탐색함.
- [6]에서는 모호하지 않은 frame에 대해 짧은 tracklets들을 추정하고, dynamics-based similarity에 따라 이들을 이어 붙임(stitches).
- 이외에도 [12]에서는 globally optimal 및 locally greedy 기법과 integer linear programming을 사용하였으며, [3]에서는 온라인의 discriminative appearance learning을 사용함.
hand-crafted된 feature vectors를 이용하는 전통적인 접근[7, 9]과 CNN 기반 접근[4, 10, 5, 16]을 포함한 detection 분야의 최근 발전에 따라, tracking 기법에 대한 새로운 가능성이 모색됨.
- 이전 접근 방식들 대비, 시간적인 흐름 상에서 object detection 시 발생하는 gap은 점점 더 드물어지고 bounding boxes에 대한 보고된 precision은 상당히 정확해짐.
- 일반적으로 높은 비디오 frame rate(예: DETRAC 데이터셋[17]의 fps는 25)과 함께 frame 간 detection의 크기 및 위치에 대한 차이도 상당히 작아지게 됨.
이런 모든 발전은 tracking task에 대한 상당한 단순화를 만들 수 있음.
- 따라서 본 논문에서는 [8]에서 소개된 passive한 detection filter의 아이디어에 기반하여 매우 단순한 tracking 접근에 대해서 평가를 함.
- 언급한 detectors들의 성능 개선으로 인해 훨씬 더 단순한 tracking 접근으로도 성공적인 결과를 만들었으며, 모든 경우에 있어서 보다 정교한 tracking 알고리즘의 부가비용이 반드시 필요한 것이 아님을 확인함.
상당히 낮은 계산 공간 덕분에, 제안한 방법은 다른 trackers들에 대한 단순한 baseline 기법으로서의 사용될 수 있으며, tracking 알고리즘에 있어서 추가적인 노력에 대한 중요성을 평가할 수 있게 해줌.
- 또한, tracking 벤치마크에서 제기된 특정 문제들(예: missed detections, frame rate)이 이미 알고리즘이 달성할 수 있는 것들과 일치하는지 확인 할 수 있도록 tracking 벤치마크에 대한 평가를 할 수 있게 해줌.
2. Method
위에서 언급한대로, 높은 precision의 detection 및 높은 frame rate의 비디오 사용은 tracking task를 상당히 단순화 할 수 있으며 본 연구는 아래의 가정들에 기반함.
- 추적할 모든 object들에 대해 detector는 매 frame 마다 detection을 생성한다고 가정함.
- detection은 "gap"이 아예 없거나 거의 없으며, 충분히 높은 frame rate를 사용할 때 흔히 있는 경우인 상당히 중첩된 IOU(intersection-over-union)를 갖는다고 가정함.
본 논문에서 사용된 IOU 측정은 아래와 같음.
만약 위의 두개 요구가 모두 충족된다면, tracking은 사소한 문제가 되며, 이미지 정보 없이도 수행될 수 있음.
- 본 논문에서는 특정한 임계값 sigma_IOU를 만족할 경우, 이전 frame 내 마지막 detection과 가장 높은 IOU(위 식)를 갖는 detection을 연관시킴으로써, track을 본질적으로 지속할 수 있는 단순한 IOU tracker를 제안함.
- 기존 track에 할당되지 않은 모든 detection은 새로운 track을 시작할 것이며, 할당된 detection이 없는 모든 track들은 종료가 됨. 이러한 원리는 그림 1에 설명이 되어 있음.
길이가 t_min보다 짧은 모든 track들과 sigma_h 이상의 score를 가진 detection이 하나 이상 없는 track들을 걸러냄으로써 성능을 더욱 향상시킬 수 있음.
- 짧은 track들은 보통 false positives를 야기시키며, 출력에 혼란(clutter)을 추가하기 때문에 filtering됨.
- track에 적어도 하나 이상의 높은 score의 detection을 갖도록 요구하면, track의 완성도를 위한 낮은 score의 detections의 이점을 가지면서도 track이 진짜(true) 관심 object들에 속할 수 있음을 보장할 수 있음.
제안한 방법에 대한 상세한 설명은 아래 Algorithm 1과 같음
- D_f: frame f에서의 detection
- d_j: 해당 frame에서의 j번째 detection
- T_a: 활성화된(active) track
- T_f: 완료된 track
- F: 시퀀스의 frame 수
5번째 line에서는 가장 잘 matching된 할당되지 않은 detection만이 track을 확장하기 위한 후보로 간주가 됨.
- 이는 detection D_f와 track T_a 사이의 최적의 연관을 반드시 야기하지는 않지만, 해결이 될 수 있음(예: 해당 frame에서 모든 IOU들의 합을 최대화 하는 Hungarian algorithm을 적용).
- 하지만, 보통 sigma_IOU는 detector의 non maxima suppression을 위한 IOU 임계값과 동일한 범위에서 선택되기 때문에 가장 잘 matching된 것을 취하는 것은 합리적인 경험적 발견(heuristic)이라 할 수 있음.
- 따라서 sigma_IOU를 만족하는 다수의 matching된 것들은 실제로는 거의 발생하지 않음.
제안한 방법의 전체적인 복잡도는 다른 최신의 trackers들과 비교 했을 때 매우 낮음.
- frame에 대한 시각적인 정보가 사용되지 않았기 때문에, detection 수준에서 간단한 filtering 절차로서 간주될 수 있음.
- 이는 tracker가 최신의 detector와 함께 온라인으로 사용되는 경우, detector에 비해 tracker의 계산 비용은 무시할 수 있는 수준이 되므로 사실상 detection으로부터 추가적인 계산 비용없이 track을 얻을 수 있게 됨.
- tracker를 단독으로 수행하면, 이 후 실험에서 볼 수 있듯이 100K의 fps를 초과하는 frame rates를 쉽게 달성할 수 있게 됨.
- 또한, 속도적인 이점으로 인해, 출력을 이미지나 움직임 정보를 사용하여 연결할 수 있는 tracklets으로 고려함으로써, 결과 위에 더 많은 tracking 구성 요소들을 추가할 수 있음.
3. Experiments
제안한 tracker를 DETRAC 데이터셋[17]을 이용하여 성능 실험을 수행함.
- DETRAC 데이터셋은 차량 검출 및 추적을 목적으로 하는 10 시간 이상의 비디오로 구성이 되어 있으며, 25 fps로 녹화되어 있음.
- baseline detector는 CompACT[5], R-CNN[10], ACF[7], VGG16 1-3-5 model를 이용한 Evolving Boxes detector(EB)[16] 등을 사용함.
- 참고로, DPM[9] detection은 너무 부정확하기 때문에 제안한 tracker에 적합하지 않으므로 따로 결과를 보고하지 않음.
UA-DETRAC evaluation protocol을 이용하여 평가를 수행하였음.
- 이 방법은 precision-recall 곡선을 계산하기 위해, tracking에 서로 다른 detection score 임계값 sigma_l을 여러번 적용하는 것을 의미함.
- 이 곡선에서 일반적인 CLEAR MOT metrics[14]이 계산되며, 최종적인 score는 이 곡선 아래 영역으로 구성되고 모든 detector 임계값 sigma_l에 대한 tracker의 성능을 고려함(보다 자세한 정보는 [17]을 참고할 것).
- 이는 임계값 sigma_h에 영향을 주지 않으며, 낮은 score를 갖는 detection의 가용성에 영향을 줌.
- 일반적으로 [8]에 따르면, 낮은 score를 갖는 detection의 개수가 많을수록 본 논문의 접근에 대한 tracking의 성능은 더욱 더 높아질 수 있다고 가정할 수 있음.
- 구현은 순수하게 파이썬을 이용하였으며, 어떠한 성능 최적화도 수행하지 않음.
sigma_IOU, sigma_h, t_min에 대한 가장 우수한 파라미터들은 각각의 detector에 대해 훈련 데이터셋 상에서 grid search를 수행하여 결정되었으며, 범위는 표 2와 같음.
- 모든 detection scores들은 [0.1; 1.0]의 범위 내로 정규화 되었으나, 여전히 detector마다 다르게 분포되어 있으므로, sigma_h에 대해 다른 범위가 선택되어야 함.
표 2의 범위 내에서 3가지 파라미터들에 대한 모든 조합을 평가하였으며, 각 detector 당 64번 실행시킴.
- UA-DETRAC 챌린지 내 기본 metric이 PR-MOTA metric이므로 이를 이용하여 최상의 구성이 선택되어짐. 결과에 대한 시각화는 그림 2와 같음.
- 각 detector에 대해 가장 우수한 결과와 이들의 상대적인 구성은 표 3에 비교되어 있음.
정말로 가장 우수한 결과는 거의 최대 점수를 가진 detections이 많은 EB detector를 사용하여 얻을 수 있음.
- EB detector가 매우 낮은 score를 갖는 detection으로 많은 양의 false positive를 생성하기 때문에, 이러한 결과는 평가 metric의 잠재적인 결함으로 인해 혜택을 본 것으로 보여짐.
- 이는 높은 recall에서 PR 곡선을 낮은 precision으로 효과적으로 확장함.
- 하지만, IOU tracker는 이러한 detections에 영향을 받지 않고, MOTA의 PR 곡선 아래 영역은 상당히 커지게 됨.
- 결과적으로, 공정한 비교는 PR 곡선이 precision과 recall 축을 가진 교차점 사이에 완전히 정의된 경우에만 가능함.
다른 참조된 detection들보다 CompACT가 훨씬 더 우수한 PR 커브의 average precision을 보였지만(자세한 내용은 [17]을 참고), ACF와 R-CNN를 이용했을 때, 더 나은 PR-MOTA 값을 얻을 수 있었음.
- 이는 CompACT의 detection은 R-CNN과 ACF의 detection보다 적지만 더 정확하기 때문임.
- 하지만 본 논문에서 제안한 tracker는 missing detection을 예측할 수 없기 때문에 더 많은 detections이 있는 경우 이점을 얻을 수 있음.
- 특히, DETRAC evaluation script에서는 tracker가 작동하기 전에 detections은 sigma_l를 이용하여 임계값이 적용됨.
- matching된 detection이 없는 경우, sigma < sigma_l을 이용한 detection을 탐색하는 것을 방지하기 때문에, [8]에 따라서 상당히 개선이 될 수 있음.
따라서, 하나의 track에 대해 하나의 missed detection은 ID switch와 false negative를 모두 야기시켜 전체적인 성능을 저하시키게 됨.
- 반면에 false positives는 일반적으로 낮은 score를 가진 detections으로 구성된 짧은 track들을 생성하기 때문에 어느 정도 배제 될 수 있음.
- 이러한 track들은 sigma_h와 최소 길이 t_min을 사용하여 높은 score를 갖는detections에 임계값을 적용함으로써 filtering됨.
이러한 evaluation에 기반하여, 본 논문에서 제안한 tracker는 DETRAC-Test 데이터에 대해 R-CNN detection(sigma_IOU=0.5, sigma_h=0.7, t_min=2)과 EB detection(sigma_IOU=0.5, sigma_h=0.8, t_min=2)을 이용하여 테스트가 됨.
- 6개의 최신 tracker들에 대한 비교 결과는 위의 표 3에 있음.
본 논문에서 제안한 IOU tracker는 accuracy(PR-MOTA), precision(PR-MOTP), mostly tracked(PR-MT), mostly lost(PR-ML) 등의 전반적인 metric을 고려해봤을 때 다른 기법들보다 상당히 우수함.
- 특히, R-CNN detections의 경우에는 100K fps의 속도를 보이며, 이는 0.7~390 fps를 보이는 baseline 기법들보다 빠른 수치임.
- EB에 대해 높은 score를 갖는 detection의 양이 많으면, 큰 범위에서 변화하는 sigma_l에서 처리할 수 있는 detection의 수가 크게 증가하기 때문에 달성 가능한 fps의 수가 감소하지만, EB detection을 이용하더라도, 다른 trackers들 대비 실행 시간은 무시할 수 있는 수준이라 할 수 있음.
훈련과 전체적인 테스트 데이터 사이의 큰 성능 차이는 해당 sets 사이에서 detector들의 서로 다른 accuracy와 연관이 있을 것임.
- detector들은 훈련 시퀀스에 대해서도 훈련이 되었기 때문에 테스트 시퀀스보다 이러한 비디오에서 더 나은 결과를 생성하는 것은 분명한 사실임.
- 본 논문에서 제안한 tracker는 detection errors에 약하므로, 성능이 떨어질 수 있음.
- 또한, 훈련 데이터를 이용하여 훈련된 파라미터들은 훈련 데이터에 대한 고품질의 detection에 overfitting되어 어려움을 겪을 수 있음.
그림 3은 최종적인 PR-MOTA와 PR-MOTP score에 요약된 다양한 sigma_l 값에 대한 MOTA와 MOTP의 score를 나타냄.
- plot은 MOTA 값이 약간만 변경되는 동안에 tracker가 넓은 범위의 sigma_l을 다룰 수 있다는 것을 보여줌.
- 성능은 sigma_h 이상으로 상승한 후에만 떨어지기 시작하지만, sigma_h의 score에 대한 detection 없이 track을 filtering한 덕분에 낮은 sigma_l에서는 감소하지 않음.
- MOTP는 이러한 metric에 대해 sigma_l에 따라 상승하는 경향을 보이며, 높은 값은 보다 정확한 detection으로 얻을 수 있음.
표 3의 easy 시퀀스에 대한 평가는 최신 기법들에 비해 제안한 tracker가 우수한 결과를 보여주지만, 모든 4개의 detector에 대한 평균 score만 나타내고 있기 때문에, 참조 기법들에 대해 이러한 숫자를 해석할 때 주의가 필요함.
- UADETRAC 평가 서버 제출 정책이 테스트 데이터에 대한 과도한 실험을 금지하기 때문에 본 연구에서는 적합하지 않음.
DETRAC 데이터셋 같은 경우에는 IOU tracker와 같은 단순한 tracking 기법이 지난 10년간의 연구에 기반한 접근들보다 다 우수한 결과를 보여줌.
- 하지만, 이것은 보편적으로 유효하지는 않으며, 사용된 데이터셋에 의존성이 있음. 보행자 tracking과 같은 다른 tracking task에서는 짧은 프레임 간에서도 보행자의 크기 및 종횡비에 더 많은 변화가 생기게 됨(예: 사람이 걷고 있는 경우).
- 또한, 심한 occlusion과 낮은 frame rates로 인해 overlap을 계산하여 정확하게 matching된 detection의 성공률이 낮아질 수 있으며, 이는 보다 정교한 방법이 필요함을 나타냄.
이러한 점을 고려하여, 보행자 tracking을 위한 MOT16/MOT17[11] 벤치마크에 대해 IOU tracker의 성능을 평가함.
- detector: 제공된 Faster FR-CNN[13]과 SDP[19]을 이용
- 시퀀스의 frame rates: 14~30 fps
- 가장 우수한 파라미터 선정 방법: 훈련 데이터셋에 대해 광범위한 grid search를 수행
- 훈련 시퀀스가 7개만 있으므로, sigma_h, sigma_l, sigma_IOU는 0.1 단계로, t_min은 {1, 2, 3, 4, 5}로, 파라미터 공간에 대한 완벽한 범위의 적용이 가능하였음
- FR-CNN[13]의 가장 우수한 파라미터: sigma_h=0.9, sigma_l=0.0, sigma_IOU=0.4, t_min=4 / MOTA score=49.96
- SDP[19]의 가장 우수한 파라미터: sigma_h=0.5, sigma_l=0.3, sigma_IOU=0.3, t_min=5 / MOTA score=62.77
- 표 4는 테스트 시퀀스에 대한 결과를 나타냄
- FR-CNN을 이용한 IOU tracker는 평균보다 다소 높은 성능을 달성하였으며, 보다 정확한 SDP detections을 이용할 경우 MOTA score를 크게 높일 수 있으며, 본 논문 작성 시점에서는 64개의 trackers들 중에서 13위의 성능을 보임.
- 이는 보행자 tracking, 카메라 이동, 다양한 frame rates 등의 보다 도전적인 상황에서도 경쟁력 있는 결과를 보여주고 있음.
추가적으로, 정적인 카메라에서 고정된 크기의 객체를 다루는 차량 tracking의 경우 높은 frame rates의 높은 정확도의 detections을 보였으며, 단순한 수준에서는 우수한 tracking을 달성할 수 있었음.
- 이러한 tracking 접근의 결과가 새로운 tracking 벤치마크의 고안을 위해 고려되길 추천함.
4. Conclusions
본 논문에서는 단순한 방법으로도 성공적인 tracking이 가능하다는 것을 확인함.
- 제안한 IOU tracker는 극히 일부분의 복잡성과 계산 비용만으로도 최신의 기법들을 상당히 능가함.
- 이는 CNN 기반 접근 방식의 현재 유행 뿐만 아니라, 최근 객체 검출 분야의 발전으로 인해 가능해졌음.
- 일반적으로 비디오의 더 높은 frame rates와 조합하여, tracking-by-detection 프레임워크에서 multi-object tracker에 대한 요구 사항이 크게 변경이 됨.
- 간단하지만 효율적인 IOU tracker는 이러한 특성을 활용하며, 이러한 새로운 조건에서 tracker의 설계를 반영하는 예라 할 수 있음.