본문 바로가기

Computer Vision/Multiple Object Tracking

[논문 읽기/2017] SIMPLE ONLINE AND REALTIME TRACKING

ABSTRACT

  • 다중 객체 추적(Multiple Object Tracking)을 위한 실용적인 접근을 제안하였으며, 온라인과 실시간으로 객체들을 효율적으로 연관(association)시키는데 초점을 두고 있음.
  • 검출 품질(detection quality)은 추적 성능에 영향을 주는 중요한 요소로 여겨지며, detector만 변경해도 추적 성능을 18.9%까지 향상시킬 수 있음.
  • 추적을 위한 구성 요소로서 칼만 필터(Kalman Filter) 및 헝가리안(Hungarian) 알고리즘과 같은 익숙한 기술들을 기본적으로 조합했음에도 불구하고, 최신의 온라인 tracker들과 비교할 수 있는 정확성을 보임.
  • 제안한 추적 기법이 단순하기 때문에 최신의 tracker들보다 약 20 배 이상 빠름.

1. INTRODUCTION

다중 객체 추적(MOT)을 위해 검출에 의한 추적(tracking-by-detection) 프레임워크를 구현하는 방법을 제안하였으며, 매 프레임마다 검출된 객체들은 바운딩 박스로 표시가 됨. 본 연구는 여러 배치(batch)[1, 2, 3] 기반 접근들과 대조적으로, 이전 및 현재 프레임의 검출 결과만 tracker에게 제공되는 온라인 추적을 주요 대상으로 삼음. 자율 주행 차량을 위한 보행자 추적과 같은 어플리케이션에 실시간 추적을 용이하게 할 수 있도록 효율성에 중점을 두고 있음. MOT 문제는 비디오 시퀀스에서 프레임간의 검출을 연관시키는 것이 목적인 데이터 연관 문제로 볼 수 있음. 데이터 연관 프로세스를 돕기 위해, tracker들은 장면 내 객체의 움직임(motion)[1, 4] 및 appearance[5, 3]을 모델링하기 위한 다양한 방법들을 사용함.

 

본 논문에서 제안한 방법은 최근에 확립된 visual MOT benchmark[6]를 관찰한 결과로부터 동기를 부여 받음.

  • 1) MOT benchmark에서 상위를 차지하는 접근들 중에는 MHT(Multiple Hypothesis Tracking)[7, 3], JPDA(Joint Probabilistic Data Association)[2] 등을 포함하는 잘 정립된 데이터 연관 기법들이 재등장함.
  • 2) ACF(Aggregate Channel Filter) detector[8]를 사용하지 않는 단지 tracker만으로도 최상위의 tracker가 될 수 있기 때문에, 검출 품질은 다른 trackers들에 영향을 줄 수 도 있다는 것을 나타내고 있음.
  • 대부분의 정확한 tracker들의 속도는 실시간 어플리케이션으로 적용하기엔 상당히 느리기 때문에 정확도와 속도에 대한 trade-off가 상당히 두드러지게 나타나고 있음(그림 1).
  • 가장 좋은 온라인 및 배치 tracker들 사이에서 전통적인 데이터 연관 기법이 부각됨에 따라, 본 연구에서는 MOT를 얼마나 단순하게 그리고도 잘 할 수 있는지에 대해서 연구함.

  • Occam’s Razor에 따라서, 추적 시에는 검출 구성 요소 이외의 appearance features는 무시되고, 바운딩 박스 위치와 크기만이 움직임 추정 및 데이터 연관을 위해 사용되어짐.
  • 단기간(short-term) 및 장기간(long-term) 동안의 가려짐에 대한 문제는 매우 드물게 발생하며, 이들을 개선하기 위해서는 추적 프레임워크에 원치 않는 복잡성을 만들 수 있으므로 무시되어짐.
  • 객체를 재식별(re-identification)하는 형태로 복잡성을 통합하면, 추적 프레임워크에 상당한 비용이 추가되어, 잠재적으로 실시간 어플리케이션을 위한 사용에 제약이 있을 수 있다고 판단됨.
  • 다양한 에지 케이스와 검출 에러를 다루기 위해 여러 구성 요소들을 통합하는 기존의 여러 visual trackers들[9, 10, 11, 12]과는 대조적으로, 본 연구의 추적 프레임워크에 대한 디자인 철학은 일반적인 프레임-대-프레임(frame-to-frame) 연관을 효율적이고 신뢰할 수 있도록 다루는데 초점을 두고 있음.
  • 검출 에러에 강건하도록 하기보다는, 검출 문제를 풀기 위한 객체 검출 분야의 최근 발전을 직접적으로 활용함: 최근의 CNN(Convolutional Neural Network) 기반의 detector[13]와 ACF pedestrian detector[8]를 비교함으로써 설명이 가능함. 
  • 추가적으로, 고전적이지만 상당히 효율적인 방법들인 칼만 필터[14] 및 헝가리안 기법[15]을 적용하여 추적 문제의 구성 요소인 움직임 예측 및 데이터 연관을 각각 다룸. 이렇게 추적을 최소한으로 공식화함으로써, 온라인 추적의 효율성과 신뢰성 모두를 용이하게 할 수 있음(그림 1 참고).
  • 본 연구에서는 다양한 환경에서 보행자를 추적하기 위한 목적으로 적용되었지만, CNN 기반의 detector[13]들의 유연성으로 인해 다른 객체 클래스에도 일반화시켜 적용이 가능함.

본 연구의 주요 기여

  • MOT 관점에서 CNN 기반의 검출력을 활용함.
  • 칼만 필터와 헝가리안 알고리즘을 기반으로 하는 실용적인 추적 접근을 제안하였으며, 최근의 MOT benchmark에 대해 평가를 수행함.
  • 연구용 실험을 위한 베이스라인을 제공하기 위해 소스 코드를 오픈할 예정이며, 충돌 회피 어플리케이션에 활용될 수 있음.

2. LITERATURE REVIEW

전통적으로 MOT는 MHT[7] 또는 JPDA[16, 2] 필터를 이용하여 해결하였으며, 이러한 접근들은 객체 할당에 높은 불확실성이 있는 경우 어려운 결정을 지연시키는 방식을 취하고 있음. 이러한 접근법들의 조합 복잡성(combinatorial complexity)은 추적되는 객체의 수가 기하급수적으로 증가하기 때문에 상당히 동적인 환경에서의 실시간 어플리케이션에는 실용성이 없음. 최근 [2]에서는 visual MOT에 있어서 integer program을 해결하는 최근 개발을 활용하여 JPDA를 효율적으로 근사함으로써, 조합 복잡성의 문제 해결을 위한 JPDA 공식화(formulation)을 재검토함. 유사하게 [3]에서는 최신의 성능을 목표로, 각각의 타겟(target)에 대한 MHT 그래프를 가지치기 하기(prune) 위해 appearance 모델을 사용함. 하지만 이러한 방법들은 여전히 의사 결정을 지연시키기 때문에 온라인 추적에는 적합하지 못함. 다수의 온라인 추적 기법들은 온라인 학습을 통해, 개별 객체 자신[17, 18, 12]만의 혹은 전역 모델[19, 11, 4, 5]에 대한 appearance 모델을 구축하는 것을 목표로 함. appearance 모델 이외에도, 움직임 정보는 detections과 tracklets과 연관시키는 것을 돕는데 종종 함께 포함되어짐[1, 19, 4, 11]. 이분(bipartite) 그래프 매칭으로 모델링되는 일대일 대응 관계를 고려해봤을 때, 헝가리안 알고리즘[15]과 같은 전역 최적 솔루션(globally optimal solutions)이 사용될 수 있음[10, 20]. 

 

[20]에서는 헝가리안 알고리즘을 2단계 과정으로 사용함.

  • 단계 1: geometry와 appearance cues들을 결합하여 유사도 행렬을 만들어 detections과 인접한 프레임들을 연관지음으로써, tracklets을 형성함.
  • 단계 2: 가려짐에 의해 손상된 trajectories를 연결하기 위해, 다시 geometry와 appearance cues를 사용하여 tracklets들은 서로 연결되어짐.
  • 이렇게 두개의 단계로 구성되는 연관 기법은 이러한 접근을 배치 계산으로 한정시킴. 본 연구에서는 [20]의 추적 구성 요소에서 영감을 얻었지만, 기본적인 cue들만 이용하여 연관을 하나의 단계로 단순화시킴.

3. METHODOLOGY

제안한 방법은

  • "detection의 주요 구성 요소, 객체의 상태(state)를 이 후 프레임으로 전파(propagation), 현재 detection을 기존 객체들과 연관(association), 추적되는 객체의 수명(lifespan) 관리" 등으로 설명 될 수 있음.

3.1. Detection

CNN 기반 검출의 빠른 발전을 활용하기 위해, Faster Region CNN(FrRCNN)[13] 검출 프레임워크를 이용함.

 

end-to-end 프레임워크로서 2 단계로 구성

  • 첫번째 단계: 특징 추출 및 영역 제안(proposal)
  • 두번째 단계: 제안된 영역 내에서 객체를 분류

이점

  • 검출을 위한 효율적인 프레임워크를 만들기 위해 두개의 단계 사이에 파라미터들을 공유함.
  • 다른 아키텍처를 이용한 빠른 실험을 통해 성능 개선이 가능하도록, 네트워크 아키텍처 자체가 다른 종류의 어떤 설계(design)로도 교체가 가능함.

검출 프레임워크 및 backbone 구성

  • backbone: ZFNet[21], VGG16[22]
  • 파마미터: PASCAL VOC를 위해 학습된 기본 파라미터들을 적용
  • 보행자 검출에만 관심이 있기 때문에 모든 다른 클래스들은 무시하고, 사람 검출 결과의 출력 확률이 50% 초과인 경우에만 추적 프레임워크로 넘겨줌.

detector의 구성 요소 교체에 따른 추적 성능 비교

  • FrRCNN과 ACF detection을 비교했을 때, 검출 품질은 추적 성능에 상당한 영향을 준다는 것을 발견함.
  • FrRCNN에 ZFNet보다 deep한 VGG16을 이용한 경우가 MDP 온라인 tracker와 본 연구에서 제안한 tracker 모두에서 가장 우수한 성능을 보이는 것을 확인할 수 있음.

3.2. Estimation Model

객체 모델(타겟의 ID(identity)를 다음 프레임으로 전파하기 위해 사용되는 표현(representation) 및 움직임 모델)

  • 각 객체에 대한 프레임 간의 변위(displacement)는 다른 객체들과 카메라 움직임에 독립적인 선형 등속 모델(linear constant velocity model)로 근사화함.

각 객체의 state는 아래와 같이 모델링됨.

  • x = [u, v, s, r, u̇, v̇, ṡ] T
  • u: 타겟의 중심을 나타내는 픽셀의 가로 위치
  • v: 타겟의 중심을 나타내는 픽셀의 세로 위치
  • s: 타겟의 바운딩 박스의 스케일(면적)
  • r: 타겟의 바운딩 박스의 종횡비(일정하게 간주됨)

detection이 타겟과 연관되면 검출된 바운딩 박스는 타겟의 상태를 갱신하는데 사용되어지며, 여기서 속도 성분은 칼만 필터 프레임워크[14]를 통해 최적화된 해로 구함. 반대로 타겟과 연관된 detection이 없는 경우, 타겟의 상태는 선형 속도 모델을 사용한 보정(correction) 없이 단순히 예측되어짐.

3.3. Data Association

기존 타겟에 detection을 할당함에 있어서, 각 타겟의 바운딩 박스 기하학(geometry)은 현재 프레임 내 새로운 위치를 예측함으로써 추정되어짐. 그 다음에 할당 비용 행렬(assignment cost matrix)은 각 detection과 기존 타겟에서 예측된 모든 바운딩 박스 사이의 IOU(Intersection-Over-Union) 거리를 이용하여 계산됨. 헝가리안 알고리즘을 이용하여 할당에 대한 최적화된 해를 구함. 부가적으로, detection과 타겟의 중첩 영역이 IOUmin 보다 작은 할당들을 거부(reject)하기 위해, 최소 IOU가 적용이 됨.

 

지나가는(passing) 타겟으로 인해 발생하는 단기간의 가려짐(occlusion)은 바운딩 박스의 IOU 거리를 이용하여 암묵적으로 다룰 수 있다는 것을 발견함.

  • 구체적으로, 타겟이 가려짐을 야기하는 물체로 덮혀 있을 때, IOU 거리는 유사한 면적을 가진 detection을 적절히 선호하므로 가려짐을 야기한 물체만 검출할 수 있음.
  • 이렇게 하면, 덮혀진 물체는 할당이 되지 않았기 때문에 영향을 받지 않게 하면서도, 가려짐을 야기한 양쪽 타겟 모두 detection을 통해 보정이 가능함.  

3.4. Creation and Deletion of Track Identities

객체가 이미지에 들어오고 나갈 때, 고유한 객체의 신원(identities)이 적절히 생성되거나 파괴되어야 함.

  • tracker 생성에 있어서, 추적되지 않은 객체의 존재를 표시하기 위해 IOUmin보다 작은 중첩된 영역을 가진 모든 detection들을 고려하게 됨. 
  • tracker는 속도가 0으로 설정된 바운딩 박스의 기하학을 이용하여 초기화됨.
  • 이 시점에서는 속도가 관찰되지 않으므로, 속도 성분의 공분산(covariance)은 불확실성이 반영되어 큰 값으로 초기화됨. 
  • 추가적으로, 새로운 tracker는 false positive의 추적을 막기 위해 detection들과 target을 연관시켜 충분한 증거를 축적하도록 수습(probationary) 기간을 갖게 됨.

TLost 동안 검출된 객체들이 없는 경우 Track은 종료가 됨.

  • 이는 detector로부터 보정없이 장기간에 걸친 예측에 의해서 야기되는 trackers들의 수가 무한히 증가하는 것과 localization 오류를 막기 위한 것임.

모든 실험에서 TLost는 아래와 같은 주요 이유로 1로 설정함.

  • 등속 모델은 실제 동역학(dynamics)에 대해 빈약한(poor) 예측 변수(predictor)임.
  • 프레임-대-프레임 추적에만 관심이 있으며, 객체 재식별은 본 연구의 범위를 벗어남.
  • 추가로, 잃어버린 타겟을 빨리 삭제하면 효율성이 향상 될 수 있음.

객체가 다시 나타나게 되면, 암묵적으로 새로운 ID로 추적이 다시 시작되게 됨.

4. EXPERIMENTS

정적 및 동적 카메라 시퀀스 환경의 데이터를 포함하고 있는 MOT benchmark 데이터베이스[6]의 다양한 테스트 시퀀스 set에 대해 성능 평가를 수행함. 칼만 필터의 초기 공분산, IOUmin, TLost 등의 파라미터 튜닝을 위해 [12]와 동일하게 훈련/검증 set으로 분할시킴. detection 아키텍처는 FrRCNN(VGG16)을 이용함.

4.1. Metrics

단일 score로 다중 객체 추적의 성능을 평가하기는 어렵기 때문에, 표준 MOT 측정 방법[25]과 [24]에 정의된 측정 방법을 이용함.

  • MOTA: Multi-object tracking accuracy[25]
  • MOTP: Multi-object tracking precision[25]
  • FAF: number of false alarms per frame
  • MT: number of mostly tracked trajectories. I.e. target has the same label for at least 80% of its life span.
  • ML: number of mostly lost trajectories. i.e. target is not tracked for at least 20% of its life span.
  • FP: number of false detections
  • FN: number of missed detections
  • ID sw: number of times an ID switches to a different previously tracked object[24].
  • Frag: number of fragmentations where a track is interrupted by miss detection.

결과

  • Ground Truth 바운딩 박스와 중첩된 영역이 50% 이상인 경우에만 True Positive로 고려됨.
  • 성능 평가 코드는 [6]에서 다운로드 가능

4.2. Performance Evaluation

11개의 시퀀스에 대해 추적 성능 평가를 수행함. 제안한 방법이 온라인 tracker들 중에서는 가장 높은 MOTA score를 보였으며, 최신의 성능을 보이지만, 복잡한 방법인 NOMT와도 유사한 성능을 보임. 제안한 방법은 프레임-대-프레임 연관에 초점을 두고 있기 때문에, 다른 tracker들과 유사한 false negative를 가지면서도 잃어버린 타겟의 개수(ML)는 최소를 보임. 추가로 제안한 방법은 tracklets를 증가시키기 위해 프레임-대-프레임 연관에 초점을 두고 있기 때문에, 다른 방법들에 비해서 잃어버린 타겟의 개수가 가장 낮음. 

4.3. Runtime

대부분의 MOT 솔루션들은 런타임 성능을 희생시키면서 성능을 더 높은 정확도로 끌어올리는 것을 목표로 함. 로봇 및 자율 주행 차량과 같은 오프라인 처리 task에서 느린 런타임은 어느정도 용인될 수 있지만, 실시간 성능은 필수적인 요건임. 

 

그림 1(1. INTRODUCTION 참고)은 MOT benchmark에서 속도 및 정확도와 관련된 여러 tracker들의 성향을 보여줌.

  • 최고의 정확도를 보이는 방법이 가장 느린 경향이 있음을 보여줌(그림 1의 우하단).
  • 반대로 가장 빠른 방법은 정확도가 낮은 경향이 있음(그림 1의 좌상단).
  • 제안한 방법은 전형적인 단점 없이 2개의 바람직한 속성인 속도와 정확도를 결합할 수 있음(그림 1의 우상단).
  • 속도: 메모리(16GB), 단일 코어 CPU(Intel i7 2.5GHz)에서 260Hz로 동작 

5. CONCLUSION

본 연구에서는 프레임-대-프레임 예측 및 연관에 초점을 두는 단순한 온라인 추적 프레임워크를 제안함. 추적 품질은 검출 성능에 상당히 의존적인 것을 확인하였으며, 최근에 검출 분야의 발전을 활용하여 단지 고전적인 추적 기법들만으로도 최신의 추적 품질을 만들 수 있었음. 제안한 방법은 속도 및 정확도를 함께 고려했을 때 가장 우수한 성능을 보였으며, 반면에 다른 방법들은 둘 중에 하나를 희생시켜야 함. 제안한 방법의 단순함은 베이스라인으로 적합하므로, 장기간의 가려짐을 다루기 위한 객체 재식별에 초점을 두는 새로운 방법들을 적용할 수 있음. 본 연구는 추적에 있어서 검출 품질의 중요성을 강조함에 따라, 향 후에는 밀접하게 결합된 검출 및 추적 프레임워크에 대한 연구를 수행할 예정임.