[논문 읽기/2014] Ten Years of Pedestrian Detection, What Have We Learned?
link: https://arxiv.org/pdf/1411.4304.pdf
Abstract
- 지난 10년간의 보행자 검출과 관련된 40개 이상의 detectors들에 대해서 Caltech pedestrian detection benchmark를 기반으로 분석함.
- 크게 3가지의 부류의 접근방법들이 존재하며, 현재 모든 방법들은 유사한 검출 성능을 보이는 것을 발견함.
- 다수의 공개된 전략을 결합하여, 가장 우수한 아이디어들의 상호 보완성에 대한 연구를 수행함.
- 새롭게 제안한 decision forest detector는 Caltech-USA dataset를 이용하여 가장 우수한 성능을 보임.
1 Introduction
- 객체 검출을 위한 주요 패러다임들은 1) Viola&Jones variants, 2) HOG+SVM rigid templates, 3) deformable part detectors(DPM), 4) convolutional neural networks(ConvNets) 등이 있음.
- 본 논문의 목적은 지난 10년간 보행자 검출과 관련된 40개 이상의 기법들의 발전에 대해 리뷰를 하고, 어떤 아이디어가 최종 검출 품질에 가장 많은 영향을 주었는지를 정량화 하는데 있음.
- section 2에서는 현존하는 dataset에 대해 리뷰하고, section 3에서는 여러 접근법들에 대한 논의 결과를 제공하며, section 4에서는 최근 기법들에 대한 재현 실험 및 정량화를 수행하였으며, 20개의 새롭게 훈련된 detector model에 대한 실험을 함.
- 본 논문에서는 비록 새로운 기법을 제안하지 않았지만, 기존의 알려진 기법들을 함께 이용하여 Caltech-USA dataset 상에서 가장 우수한 검출 결과를 보임.
● 지난 10년간 보행자 검출은 상당한 발전이 있었음.
● Caltech-USA가 현재 가장 많이 사용되는 dataset임.
● 논문 제목에 “Pedestrian detection”이 들어간 논문의 개수는 상당히 증가하고 있음.
● 보행자 검출은 여전히 매우 활발하게 연구가 되고 있음.
2 Datasets
공용 보행자 dataset의 종류: INRIA [1], ETH [2], TUD-Brussels [3], Daimler [4] (Daimler stereo [5]), Caltech-USA [6], KITTI [7](이들 모두는 각각 다른 특징과 장단점을 가지고 있음)
- INRIA: 가장 오래되었기 때문에 비교적 적은 영상이 있지만, 다양한 환경(도시, 해변, 산)에서 높은 품질을 가지는 보행자 annotation을 가지고 있음. 이 때문에 training 시 일반적으로 선택이 됨.
- ETH/TUD-Brussels: 중간 크기의 비디오 dataset임.
- Daimler: 컬러 채널이 없기 때문에 모든 접근법들에서 사용되지는 않았음.
- Daimler stereo/ETH/KITTI: 스테레오 정보를 제공함.
- INRIA를 제외한 모든 dataset은 비디오로부터 취득을 하였기 때문에, 추가적인 단서로 optical flow의 활용이 가능함.
현재 Caltech-USA와 KITTI가 가장 많이 사용됨: 비교적 방대하며, challenging한 특징이 있음.
- Caltech-USA: 가장 많은 접근법들에서 평가를 위해 사용함.
- KITTI: test set이 약간 더 다양하지만 그렇게 자주 사용되지는 않음.
dataset과 관련된 더 많은 논의는 [7][8]을 참고할 것.
본 논문에서는 방법들의 비교를 위해 우선적으로 Caltech-USA를 이용하며, 부차적으로 INRIA와 KITTI를 이용함. 그림 2는 이미지의 예를 나타내고 있음.
Caltech-USA와 INRIA의 결과는 log-average miss-rate(MR, 낮을수록 우수함)를 이용하여 측정되는 반면에 KITTI는 precision-recall curve(AUC, 높을수록 우수함) 내 area를 사용함.
3 Main approaches to improve pedestrian detection
그림 3과 표 1은 Caltech pedestrian detection benchmark(July 2014)를 이용한 결과를 가지고 있는 40개 이상의 detectors들에 대한 정량적/정성적 개요를 함께 나타내고 있음.
- 이태릭체로 표시된 부분은 본 논문에서 새롭게 훈련시킨 모델임(section 4에 기술함)
- 성능 지표: MR의 %가 낮을수록 우수하며, 체크 표시는 각 방법에서 강조되는 양상들을 보여줌.
- Family: DF(Decision Forests), DPM(Deformable Part Model), DN(Deep Networks)
- Training: I(INRIA), C(Caltech), I+(INRIA+추가 데이터), C+(Caltech+추가 데이터), P(Pascal), T(TUD-Motion), I&C(INRIA와Caltech)
● 연대순의 주요 알고리즘 5개에 대한 결과 및 본 논문의 결과(붉은색 사각형)
● Solution Families:
1. DF(VJ, HOG, ChnFtr), 2. DPM(LatSvm-2), 3. DN(DBN-Isol), 본 논문(Katamari)
Brief chronology: 2003년도에 Viola와 Jones는 이들이 과거에 제안한 VJ detector[44]를 보행자 검출을 위해 적용함. 2005년도에는 Dalal와 Triggs가 보행자 검출의 landmark로 불리는 HOG[1] detector를 제안하였으며, 이는 2008년도에 Felzenswalb[12]가 제안한 deformable part model DPM(LatSvm 라고 칭함)을 위한 building block의 역할을 하게 됨. 2009년도에는 Caltech pedestrian detection benchmark가 도입되었으며, [6]에서는 7개의 보행자 detectors들이 비교 되어짐. [8]에서 per-window (FPPW)의 결점이 확인되어짐에 따라, 평가 지표는 per-window (FPPW)에서 per-image (FPPI)로 변화하게 되었음. 이러한 새로운 평가 지표를 적용했을 때 초기 연구들은 원래 성능보다 떨어지는 결과를 보이게 됨.
● 검출력 향상을 이끌 수 있는 요소들에 대한 관찰
1) 불분명한 요소들
solution family(DPM, deep networks, decision forests)
: solution family와 관련하여 명백하게 우수한 기법들은 없음.
better classifiers(SVM or decision forests, linear or non-linear kernels)
: 분류기의 종류와 관련하여 명백하게 우수한 기법들은 없음.
deformable parts
: 보행자 검출에 있어서 deformable parts 의 적용이 명백하게 우수하단 증거는 없음.
multi-scale models
: 약간의 도움이 되긴 하나 Caltech-USA에 대해서는 검출력 향상을 위한 주된 요소는 아님.
deep architectures
: 활발하게 연구되는 영역이긴 하나, 아직까진 최상의 검출력을 보이지 못함. CVPR 2015를 기대해봄!
2) 분명한 요소들
training data
: SquaresChnnFtrs를 이용하여 훈련 데이터를 INRIA에서 Caltech-USA로 바꾼 경우 MR이 15.4%(50.2% -> 34.8%) 낮아지는 우수한 결과를 나타내며, 훈련 데이터 선택의 중요성을 보여줌.
additional(test time) data
: stereo나 flow와 같이 좀 더 많은 프레임 정보를 활용하는 것은 도움이 됨.
exploiting context
: additional data와 비교했을 때 개선 정도는 낮지만, context 정보를 활용하는 것은 도움이 됨.
better features
: features들만 단독으로 조명해보더라도 지난 10년간 발전을 했으며, 시행 착오를 통해 추가된 features들은 성능 개선에 도움이 되고 있음.
3.1 Training data
- 그림 3은 당연하게도, 훈련 데이터의 선택에 따라 검출 성능이 지배적으로 달라진다는 것을 보여줌. Caltech-USA를 이용하여 훈련한 방법들은 INRIA를 이용하여 훈련한 방법들보다 우수함.
- 표 1은 사용된 훈련 데이터에 대한 상세한 추가 정보를 제공하며, “other training”을 이용한 방법들이 우수한 성능을 보이는데, 이는 Caltech-USA의 확장된 버전을 이용하여 훈련시킨 결과임(C+ 를 말함).
- 예를 들면, MultiResC+2Ped 는 Caltech-USA에 추가로 INRIA에 대해 annotation의 확장된 데이터 셋을 사용하였으며, MT-DPM+Context 는 Caltech-USA에 추가로 차량에 대한 외부 훈련 셋을 사용하였으며, ACF+SDt 는 Caltech-USA에 추가로 원래 Caltech-USA Video로부터 취득한 부가적인 프레임 정보를 함께 사용함.
3.2 Solution families
40개 이상의 방법들은 크게 3가지 family로 분리할 수 있다는 것을 발견함.
- 1) DPM: DPM(Deformable Part Model) variants (MultiResC [33], MT-DPM [39], 등)
- 2) DN: Deep Networks (JointDeep[40], ConvNet [13], 등)
- 3) DF: Decision Forests (ChnFtrs, Roerei, 등)
가공되지 않은 수치에 기반하면, boosted decision trees(DF)가 특히 보행자 검출에 적합해 보이며, ”INRIA로 훈련시키고 Caltech으로 테스트”한 경우와 ”Caltech으로 훈련시키고 INRIA로 테스트”한 경우 모두에서 높은 성능에 도달함. 하지만 어떤 경계를 제공하는지에 대해서는 불분명함. 또한 deep networks(DN)은 검출력에 있어서 흥미로운 특성과 빠른 발전을 보여주고 있음.
Conclusion: 그림 3에서 보는 바와 같이 DPM의 변종과 DN과 DF 모두 Caltech-USA를 이용하여 가장 높은 약 37% 대의 MR을 보임.
3.3 Better classifiers
- 원래의 HOG+SVM [1]의 연구 이후로, 선형 및 비선형 커널에 대한 중요성이 고려되었음. HikSvm [15]은 비선형 커널에 대한 빠른 근사화를 고려하였으며, 이 방법은 section 3에서 이야기 했듯이, 평가 지표로 결함이 있는 FPPW를 이용한 경우에는 우수한 성능을 보였지만, 적합한 FPPI를 평가 지표로 이용한 경우에는 우수한 성능을 보이지 못함.
- MultiFtrs [16]를 이용한 연구에서는 충분한 feature가 주어진 경우 Adaboost 와 linear SVM은 거의 동일한 성능을 보임.
- 최근 들어, detectors들의 구성 요소(components)들은 “decision component”와 함께 공동으로 결합하여 최적화되는 추세임(예: pooling regions in ChnFtrs [26], filters in JointDeep [40]). 그 결과 특징과 분류기 사이의 경계에 대한 명확한 구분은 더 이상 없어지게 됨(section 3.8과 3.9 참고)
Conclusion: 비선형 커널이 선형 커널에 비해 의미 있는 결과를 제공한다는 것에 대해 결정적으로 실험된 증거는 없음. 유사하게 어떤 특정 형태의 분류기(예를 들면 SVM 또는 decision forests)가 보행자 검출을 위해 다른 분류기보다 좋다는 것 역시 불분명함.
3.4 Additional data
- 보행자 검출을 위한 연구들은 주로 개별적인 단안 컬러 영상 프레임에 초점을 맞추고 있음. 몇몇의 연구들은 성능 개선을 위해 훈련 및 테스트 때 부가적인 정보를 외부로부터 도입하는 방법을 사용함. 이들은 stereo images [45], optical flow(이전 프레임을 이용함, 예: MultiFtr+Motion [22], ACF+SDt [42]), tracking [46] 또는 다른 센서로(lidar [47] 또는 radar)부터 취득된 정보 등을 이용함.
- 단안 카메라 기반 접근법에서는 Tracking을 적용함으로써, 매 프레임 마다 detection을 했을 때보다 성능이 얼마나 개선이 되는지는 아직도 불분명함. 그림 4에서 보는 바와 같이 optical flow를 활용하는 것은 기준 방법(baseline) 대비 의미 있는 개선을 할 수가 있음. 신기하게도, 현재 가장 우수한 결과(ACF-SDt [42])는 높은 quality의 flow보다는 coarse한 정보를 이용하여 얻게 되었다는 것임. Section 4.2에서는 다른 요소들을 도입하여 flow에 대한 상호보완성에 대해서 점검을 할 예정임. [48]에서는 Daimler dataset에 대해 flow와 stereo를 활용함으로써 성공적인 결과를 보였다고 했으나, KITTI와 같은 새로운 dataset에 대해서는 아직까지 유사한 결과를 보이지 못함.
Conclusion: stereo와 flow와 같은 cue를 완벽하게 활용해야 하지만, 추가적인 데이터를 사용하는 것은 성능 개선을 위해 의미 있는 결과를 제공함. 현재로서는 단지 하나의 단안 영상 프레임에 기반한 방법들의 경우 추가적인 정보를 도입함으로써 성능 개선을 유지할 수 있음.
3.5 Exploiting context
sliding window 기반 detectors들은 window 내 content를 이용하여 잠재적인 detection window에 대해서 score를 매김. detection window의 context를 구상하는 것(예: window 주변의 영상 content를 이용)은 검출 성능을 개선시킬 수 있음.
context 이용을 포함하는 전략을 사용한 연구는 아래와 같음:
- 1) ground plane constraints: MultiResC [33], Rand-Forest [30]
- 2) variants of auto-context[49] : MOCO [36]
- 3) 다른 카테고리의 detectors: MT-DPM+Context [39]
- 4) person-to-person patterns: DBN−Mut[34], +2Ped [35], JointDeep [40]
그림 4는 context 정보를 함께 사용할 경우에 성능 개선이 이루어진다는 것을 보여줌. 전반적으로 MR의 비율차이가 3~5 정도 증가함(AFS+Geo의 부정적인 영향은 section 3에서 언급했던 평가 지표의 변화로 인한 것임). 흥미롭게도, +2Ped [35]는 기존의 방법 대비 MR의 비율차이가 2~5 정도 증가하는 일관적인 결과를 보임.
Conclusion: 비록 추가적인 테스트 데이터를 사용(section 3.4)하는 것과 비교해봤을 때 개선 정도는 낮지만, Context 정보의 활용은 보행자 검출에 있어서 일관성이 있는 성능 향상을 가져옴.
3.6 Deformable parts
- DPM detector [19]는 원래 보행자 검출을 위해 고안이 되었으며, 해당 아이디어는 상당한 인기를 얻게 되어, 많은 변종 기법들이 제안이 됨.
- 보행자 검출에 대한 결과들은 경쟁이 심하지만, 두드러진 결과는 없음(LatSvm [50,12], MultiResC [33], MT-DPM [39]). 좀 더 흥미로운 결과는 부분(part) 및 이들의 내부에 있는 deep architecture에 대한 변형(deformation)을 모델링 할 때 얻을 수 있었음(예. DBN−Mut [34], JointDeep [40]).
- DPM과 이들의 변종은 단일 component를 사용하며, 부분을 사용하지 않는 방법들(Roerei [31], SquaresChnFtrs, section 4.1 참고) 보다 체계적으로 뛰어남.
- 최근 연구들에서는 부분에 대한 고려 없이 전체 변형(deformation)을 capture할 수 있는 방법들을 모색하고 있음[51, 52].
Conclusion: 차폐에 대한 고려를 넘어서, 보행자 검출에 있어서 component 및 부분에 대한 필요성을 뒷받침 하는 명백한 증거는 여전히 없음.
3.7 Multi-scale models
- 보통 검출을 위해서는 특징 추출 이전에, 높은 해상도와 낮은 해상도의 후보 windows들이 일정한 크기로 재 샘플링 되어야 함. 최근 연구[33, 31, 39]에서는 detector가 각 window 크기에서 이용할 수 있는 완전한 정보에 대한 접근을 할 수 있기 때문에, 다른 해상도에 대해 다른 모델을 이용한 훈련 결과를 통해 체계적인 성능 개선(MR의 비율차이가 1~2 증가)이 가능하다는 것이 보고가 됨. 이러한 기법은 검출 시간에서는 계산 비용에 있어서 영향을 주지 않으며[53], 훈련 시간은 증가하게 됨.
Conclusion: multi-scale model은 존재하는 detectors들을 이용하여 단순하며 포괄적인 확장이 가능하도록 해줌. 일관적인 성능 개선에도 불구하고, 최종 검출 품질에 대한 이들의 기여는 오히려 사소한 편임.
3.8 Deep architectures
- 대량의 훈련 데이터 및 증가된 연산력 덕분에, 최근 컴퓨터 비전과 관련된 다양한 주제(large scale classification and detection [54, 55], semantic labelling [56])에 deep architectures(보통convolutional neural networks를 적용)의 적용은 성과를 이끌게 되었음. 이러한 결과들은 보행자 검출에 있어서 deep architectures를 적용하는 동기를 부여하게 됨.
- ConvNet [13]은 INRIA에 대해 훈련된 convolutional neural network를 만들기 위해 감독(supervised)과 무감독(unsupervised) 훈련을 혼합시켜 사용함. 이 방법은 INRIA, ETH, TUD-Brussels 등에 대해서는 공정한 결과를 보였지만, Caltech 환경에서는 일반화 하는데 실패를 함. 이 방법은 raw pixel 값으로부터 직접적으로 특징을 추출하도록 학습을 시킴.
- 다른 선상에 있는 연구들로는 deep architectures를 사용하여 부분(part)과 차폐(occlusion)를 공동으로 모델링 하는 것에 초점을 맞추고 있음((DBN−Isol [28], DBN−Mut [34], JointDeep [40], SDN [41]). 이러한 통합을 통한 성능 개선은 1.5~14 MR의 증가된 비율 차이를 보이게 됨. 해당 연구들은 보통 deep architectures에서 수행하는 방법인 raw pixel 값으로부터 특징을 발견하기 보다는, edge 및 컬러 특징([40, 34, 28])을 사용하거나, edge-sensitive filters로 network의 가중치를 초기화시킴. ImageNet [54, 57]에 대해 미리 훈련된 특징을 사용한 결과는 아직 알려지지 않았음.
Conclusion: 일반적인 관점에도 불구하고, 보행자 검출에 있어서 특징을 학습 시킬 때 deep networks의 적용이 좋다는 것에 대한 명백한 증거는 없음. 가장 성공적인 기법들은 부분(part)과 차폐(occlusion)와 context의 양상(aspect)을 더 높은 level로 모델링 하기 위해 deep architectures를 사용하는 것임. 이러한 결과는 DPM이나 decision forest 접근과 유사한 수준의 결과를 보임.
3.9 Better features
- 검출 품질을 향상시키기 위한 가장 인기 있는 접근(고려된 방법들 중에 약 30% 정도)은 입력 영상에 대해 계산되는 특징을 증가시키고 다각화 하는 것임. 풍부하고 더 높은 차원의 표현력을 갖게 함으로써, 분류 업무는 다소 쉬워질 수 있으며, 개선된 결과를 제공할 수 있음. 대량의 set으로 구성되는 특징 타입들이 활용됨: 에지 정보[1, 26, 58, 41], 컬러 정보[26, 22], 텍스처 정보[17], 지역 모양 정보[38], 공분산 특징[24] 등이 있음. 더욱 더 다양한 특징들의 적용은 체계적으로 성능을 개선시킬 수 있다는 것을 보여줌.
- 다양한 decision forest 기법들은 10개의 특징 채널(ChnFtrs, ACF, Roerei, SquaresChnFtrs 등)을 사용하는 반면에, 몇몇 연구들에서는 더 많은 채널들을 고려함[16, 58, 24, 30, 38]. 채널을 더 많이추가시킴으로서 얻는 개선에도 불구하고, 최고 성능은 여전히 단지 10개의 채널을 사용할 경우에 머물러 있음(6개의 그레디언트 방향, 1개의 그레디언트 크기, 3개의 컬러 채널, 본 논문에서는 이 를 HOG+LUV라고 칭함); 표 1과 그림 3을 참고할 것. Section 4.1에서는 서로 다른 특징 조합에 대한 상세한 내용에 대해서 살펴볼 것임.
- VJ(95% MR)부터 ChnFtrs(56.34% MR, HOG와 LUV 채널 추가)를 거쳐 SquaresChnFtrs-Inria(50.17% MR, pooling size에 대해 낱낱 탐색(exhaustive search)을 함, section 4를 참고할 것)까지 개선된 특징들은 검출 성능을 개선시킴. 훈련 set을 바꾸는 것(section 3.1)은 SquaresChnFtrs-Caltech이 Caltech-USA dataset에 대해 최신의 성능에 도달 할 수 있도록 해줌. InformedHaar [43]는 을 보행자 검출에 적합하도록 수동적으로 고안된 Haar-like feature set를 이용하여 최상의 결과를 얻음. 대조적으로 SquaresChnFtrs-Caltech은 정교하게 고안한(hand-crafted) features를 사용하지 않고, 데이터에 따라 처리를 시킴으로써(data-driven) 유사한 결과를 보임.
- [59, 60]에서는 더 많은(그리고 좀 더 나은) 특징들을 사용함으로써 더욱 더 성능 개선이 가능하다는 것을 보여줌. 보행자 검출을 위한 더 나은 특징들은 deep learning 접근을 통해서는 아직 얻을 수 없다는 것에 주목을 해야 함(section 3.8의 ImageNet features에 대한 언급을 참고할 것).
Conclusion: 지난 10년 동안 개선된 특징들은 검출 품질 개선을 위한 변함없는 견인차 역할을 했으며, 앞으로 몇 년 동안 유지될 것으로 보임. 이러한 개선의 대다수는 다양한 시행 착오를 통해서 얻을 수 있었으며, 향 후 고려해야 할 과학적인 단계는 우수한 특징의 생성에 대해 심오한 이해를 하는 것과 좀 더 나은 특징이 되도록 어떻게 설계를 해야 하는가에 관한 것임.
4 Experiments
- 본 논문의 이전 section에서의 분석을 기반으로, 검출 품질에 영향을 주는 관점에서 가장 두드러진 3가지 양상을 확인 할 수 있었음: better features(section 3.9), additional data(section 3.4), context information(section 3.5). 따라서 이러한 측면에 대해 상호 보완을 위한 실험을 수행함.
- section 3.2에서 논의했던 3가지 family 중에서 Integral Channels Features framework [26](decision forest)를 실험을 위한 방법으로 사용함. 이러한 family에 기반한 기법들은 우수한 성능을 보여주며, 훈련이 분에서 시간 사이에 완료되고 분석에 적합함.
- 특히 [31]에서 기술한 SquaresChnFtrs를 기준 방법으로 사용하였음: HOG+LUV(10개 채널)에 대해 2048개의 level-2 decision trees(3 threshold comparisons per tree)와 64 x 128 픽셀 크기를 가지는 템플릿을 vanilla AdaBoost를 이용하여 학습시킴.
4.1 Reviewing the effect of features
본 section에서는 특징 복잡도의 증가가 주는 영향에 대해서 평가를 함. 모든 기법들은 INRIA test set에 대해 튜닝을 하였으며, 그림 5는 Caltech-USA test set에 대한 실험 결과를 나타냄.
첫번째 시리즈의 실험들은 VJ [44], HOG+linear SVM [1], ChnFtrs [26]와 같은 landmark detection 기술을 대체하는 것을 지향하고 있음.
- 1) VJLike: luminance 컬러 채널만을 사용하였으며, level 2의 decision trees를 기반으로 원래 기법[44]인 Haar wavelet like features를 모방하여 이용함.
- 2) HOGLike-L1/L2: 8x8 픽셀 크기의 pooling region을 사용하였으며, 1개의 그레디언트 크기와 6개의 방향을 가진 그레디언트 채널과, level 1/2의 decision trees를 이용함. 또한
- 3) HOGLike+LUV: HOGLike에 LUV 컬러 채널을 추가한 결과(총 10개의 특징 채널)를 나타냄.
- 4) SquaresChnFtrs: section 4의 시작부에서 언급한 기준 방법이며, HOGLike+LUV와 유사하지만 임의의 크기에 대해 square pooling regions을 적용하고 있음.
- 5) SquaresChnFtrs+DCT: [60]에서 영감을 얻어서, 각 채널을 3개의 DCT(이산 코사인 변환) 기저 함수(7x7 픽셀)와 회선시키고 필터 응답의 절대값을 추가적인 특징 채널로 저장함으로써, 10개의 HOG+LUV 채널을 40개의 채널로 확장시킴. 이러한 변종을 본 논문에서는 SquaresChnFtrs+DCT 라고 칭함.
Conclusion: VJ 이후에 더 나은 특징을 사용함으로써 많은 발전이 이루어졌으며, 이는 방향성 그레디언트 및 컬러 정보 등을 기반으로 하고 있음. 이렇게 잘 알려진 특징들에 단순한 수정을 가함으로써(예: DCT 기저로의 projection 등) 분명한 성능 개선이 가능하다는 것을 확인 할 수 있음.
4.2 Complementarity of approaches
● 분명한 요소들의 상호 보완을 통한 성능 향상
: Strong features + Flow + Context 의 결합을 통해 상당한 상호 간의 보완이 이루어짐.
: 가장 우수한 검출 성능을 보인 Katamari-v1는 SquaresChnFtrs + DCT + SDt + 2Ped 의 조합으로 구성이 되며, 여기서 SquaresChnFtrs는 square pooling regions를 적용한 HOGLike+LUV의 방법을 말함.
: 훈련 Set과 테스트 Set을 서로 교체하여 실험 시 과다적합이 발생하지 않음.
본 section에서는 더 나은 특징들(HOG+LUV+DCT), 추가적인 데이터(optical flow를 통한), context(person-to-person interactions을 통한) 등의 상호 보완성에 대해 고려를 함.
ACF+SDt [33]로부터 동일한 SDt 특징을 사용하여 optical flow를 encoding시킴(현재 프레임 T와 coarse하게 aligned된 T-4 프레임과 T-8 프레임 사이의 영상 차이).
Context 정보는 +2Ped re-weighting 전략[35]를 이용하여 추가 되었음(검출 score는 “2 person” DPM detector의 score와 결합이 됨).
HOG+LUV 특징들에 대해 “all square sizes”를 사용하는 것 대신 모든 실험들에서는 DCT와 SDt 특징들은 모두 8x8 영역에 대해 [33]과 같이 pooling되어짐.
본 논문에서는 SquaresChnFtrs+DCT+SDt+2Ped의 조합을 Katamari-v1라고 칭함. 당연하게도 Katamari-v1는 Caltech-USA dataset에 대해 가장 우수한 결과에 도달함. 그림 7에서는 각각의 훈련 set과 solution family에 대해, 함께 결합한 조합이 최고의 성능을 보이는 방법임을 볼 수 있음(표 1을 참고할 것).
Conclusion: 본 논문의 실험을 통해 강력한 detector에서 시작을 할지라도, 여분의 특징과 flow와 context 정보를 추가하는 것은 상당한 보완이 이루어진다는 것을 볼 수 있었음. 핵심 알고리즘에 대해 더 심오한 통찰을 하거나 내부 시스템에 적용되는 기술의 다양성을 확장 시키는 것이 검출 품질의 향상을 가져올지는 미지수임.
4.3 How much model capacity is needed?
- 검출의 주요 목적은 훈련 set으로부터 테스트 set까지 잘 동작하는 일반화 성능을 보이는 것임. 일반화 능력을 분석하기 전에, 고품질의 검출을 위한 필수적인 조건을 고려해봄: 학습된 모델이 훈련 set에 대해 잘 동작하는가?
- 그림 6에서는 section 4.1에서 고려된 모델들에 대한 검출 품질을 볼 수 있으며, 어떤 방법도 훈련 set에 대해 완벽한 성능을 보이지 못함. 사실, 그림 5에서 보는 바와 같이 테스트 set에 대한 성능과 거의 유사한 경향을 보이며, 과다적합(over-fitting)에 대한 현상은 아직 발견하지 못함.
Conclusion: detector의 변별력 증가는 더욱 더 검출 품질을 개선시킬 수 있다는 것을 실험을 통해 확인함. 더 많은 변별력은 더 나은 특징들이나 더욱 더 복잡한 분류기를 사용함으로써 얻을 수 있음.
4.4 Generalisation across datasets
벤치마크를 넘어선 실제 세계에 적용을 위해서는 모델의 일반화 능력이 상당히 중요함. 그러한 관점에서 INRIA를 이용하여 훈련되고 Caltech-USA를 이용하여 테스트된 모델의 결과는 Caltech-USA만을 이용하여 훈련되고 테스트된 모델의 결과보다 더 적합함.
- 표 2는 다른 훈련 set(INRIA/Caltech/ETH의 경우 MR, KITTI의 경우는 AUC)을 사용했을 때 Caltech-USA에 대한SquaresChnFtrs의 성능을 보여줌. 이 실험은 Caltech 또는 KITTI 상에서 훈련된 결과는 INRIA 상에서 훈련된 결과 보다 적은 일반화 능력을 보여주는 반면에 반대는 사실이 아님. 놀랍게도, KITTI와 Caltech 사이의 시각적인 유사함에도 불구하고, KITTI와 Caltech을 위한 선택에 있어서 INRIA가 두번째로 우수한 훈련 set이라는 것임. 이는 Caltech-USA 보행자는 “their own kind(그들 자신만의 종류)”이며, INRIA dataset은 다양하기 때문에 효율성이 있다는 것임. 즉, 많지 않지만 다양한 종류를 가진 보행자(INRIA)가, 많고 유사한 종류를 가진 보행자(Caltech/KITTI) 보다 낫다는 것임.
- 좋은 소식은 각자의 훈련 데이터를 사용하여 훈련하고 테스트를 수행 했을 때가 가장 우수한 방법이라는 것임. 그림 8은 KITTI를 이용하여 훈련되고 테스트된 다양한 방법들을 보여주며, SquaresChnFtrs(SquaresICF 라고 표현)가 vanilla DPM 보다는 우수하고 가장 우수하다고 알려진 DPM variant와는 같은 수준임을 보여주고 있음. 현재 KITTI을 이용한 경우의 가장 우수한 방법인 pAUC [59]의 경우 ChnFtrs의 변종으로서 250개의 특징 채널을 사용함(상세한 내용은 KITTI의 웹사이트를 참고할 것). 이러한 2가지의 관측은 section 3.9와 4.1에서 논의한 내용과 일관성이 있는 결과를 보여줌.
Conclusion: 하나의 dataset에 대해서 학습된 detectors들은 반드시 다른 detectors들에게 잘 전이 될 수 없지만, 이들의 순위는 dataset 모두에서 안정적이며 그 결과 벤치마크에 상관없이 잘 수행되는 방법으로부터 통찰력을 얻는 것이 가능할 수 있음.
● 새롭게 발견한 놀라운 3가지 사실들
- 1) solution family나 분류기의 종류와 관련하여 명백하게 우월한 기법들은 없음.
- 2) 강력한 Features들과 Flow와 Context를 결합하여 상호 보완을 통한 성능 개선이 이루어졌지만, 더 이상의 개선은 아직까진 이루어지지 않음.
- 3) 훈련 set과 테스트 set을 교체하면서 실험을 하더라도 과다적합(over-fitting) 현상은 발견하지 못함.
5 Conclusion
- 본 논문의 실험들을 통해서, 지난 10년간의 보행자 검출에 있어서의 대부분의 발전은 단일 특징의 사용을 개선시키고자 한 노력에 의해서 이루어졌다는 것을 알 수 있으며, 이러한 추세는 계속적으로 이어질 것임. 이러한 특징들의 일부는 학습에 의해서 이끌어 낼 수 있지만, 이들은 주로시행 착오를 통해 얻어진 힘들게 만들어진 것들임.
- 회고에 의한 분석에 따라 detector의 구성 요소들을 결합하는 본 논문의 실험은 잘 동작을 하며, 더 나은 features들과 optical flow와 context는 대부분 서로 보완이 가능하다는 것을 보여줌. 이러한 조합은 Caltech-USA에 대해 보고된 결과 중 가장 우수한 검출 성능을 보이고 있음.
- 보행자 detectors들과 관련된 3가지의 큰 family(deformable part models, decision forests, deep networks)는 서로 다른 학습 기법에 기반을 하고 있음에도 불구하고, 이들의 최신 기법들에 있어서의 결과는 놀랍게도 유사함.
- 향 후 주요 과제는 좀 더 우수한 detector를 고안하기 위해서, 어떻게 하면 우수한 특징을 잘 만들 것인가에 대한 사고를 깊게 발전시키는 것이라고 할 수 있음.
● 어떻게 향후에 좀 더 성능을 개선시킬 수 있을까?
: 좀 더 강력한 additional data의 사용(KITTI의 scene flow는 어떨까?)
: 더 나은 context의 활용(scene geometry는 어떨까?)
: 더 개선된 deep architecture의 개발(완벽하게 정교한 Tuning)
: 가장 중요한 것: 잘 동작하는 우수한 특징이 무엇일지에 대해 심사숙고 하는 것임!