본문 바로가기

Computer Vision/Pedestrian Detection

[논문 읽기/2010] Survey of Pedestrian Detection for Advanced Driver Assistance Systems

link: https://ieeexplore.ieee.org/document/5010438

Abstract

Advanced driver assistance systems (ADASs)를 위한 pedestrian protection systems (PPSs)는 안전을 위해 활발하게 연구되고 있는 영역임. PPSs의 주된 challenge는 보드 상에서 신뢰성 있게 동작하는 보행자 검출 시스템을 개발하는 것임. 보행자 형상(appearance)의 변화(: 서로 다른 옷, 크기 변화, 종횡비, 동적인 shape)와 비구조적인 환경으로 인해, 시스템에서 요구되는 강건함을 만족시키는 것은 상당히 어려운 일임.

  • 보행자 검출 연구 분야에서 다양한 접근들의 비교를 어렵게 만드는 2가지 문제는 공용 벤치마크의 부족과 다양한 종류의 제안된 방법들의 재현이 어렵다는 것임.
  • 연대순으로 제안된 방법들을 나열함으로써 점검을 하는 것은 비교적인 관점을 제공하기 위한 현명한 방법이 아님. 따라서, 본 논문에서는 서로 다른 접근들을 점검할 수 있는 보다 편리한 전략을 제시함. 각각에 부여된 책임에 따라, 보행자 검출 문제를 영상에서부터 서로 다른 처리 단계까지 나눔. 그리고 상대적인 관점을 도모하도록, 제안된 다양한 방법들을 분석하고 각 처리 단계를 고려하여 분류함. 최종적으로 미래의 요구와 challenge에 중점을 두는 중요한 주제에 대해 논의를 제시함.

1 INTRODUCTION

ADASs PPSs 개발의 중요성과 필요성에 대한 이야기를 하고 있음.

보행자 추돌 사고의 70%는 전방에서 발생하며, 90%는 이동할 때 발생을 함[6]. 따라서 전방향(forward-facing) 센서를 사용하게 됨. PPs의 주요 challenge는 정지 및 이동 상황의 보행자 검출을 포함하며, 이러한 challenge는 아래와 같은 관점에서 요약될 수 있음.

  • 보행자의 형상(appearance)은 매우 다양하게 보일 수 있음. 자세가 변할 수 있으며, 서로 다른 종류의 옷을 입고 있을 수 있으며, 서로 다른 종류의 물건을 가지고 있을 수 있으며, 특히 높이 측면에서 상당한 크기의 변화를 보임.
  • 보행자는 실외의 도심 환경에서 식별 되어야 하며, 이는 취득한 정보의 품질(: 가시 광선 스펙트럼 상에서 그림자와 저조한 명암 대비)이 날씨 상태나 조명 등에 의해 변하는 복잡한 배경에서도 강건하게 검출이 되어야 한다는 것을 말함. 또한, 보행자는 주차된 차량 또는 도로 구조물들과 같은 도심지물에 의해서 부분적으로 가려질 수 있음.
  • 보행자와 카메라가 동적으로 움직이는 경우 추적 및 움직임 분석을 복잡하게 만들게 되며, 이러한 장면에서도 보행자가 검출되어야 함. 또한, 보행자는 보여지는 각도에 따라서 서로 다르게 보이며(: 측면 및 전면/후면), 시스템은 상당한 범위의 거리에서도 동작을 해야 함(적어도 25m 내에 동작을 해야 하며 이는 6mm의 초점 거리를 가지는 640 x 480 픽셀 카메라에서 대략 30 x 60 픽셀에 해당 함).
  • 시스템의 반응 시간과 강건함에 있어서 상당히 높은 성능을 요구함(: false alarms 대비 misdetections).   

알고리즘의 단순화(: 고정된 카메라에서는 배경 차이 기법을 적용 가능)를 적용할 수 있는 감시 또는 HMI(human-machine interfaces)와 같은 일반적인 사람 검출 시스템과 보행자 검출이 다르다는 것은 분명한 사실임(PPSs가 아닌 사람 검출과 관련된 분야의 상세 내용을 보려면 [7, 8]을 추천함).

 

1990년대 후반에 보행자 검출과 관련된 초기 연구가 이루어졌으며, 이후로 자동차 회사 및 대학, 관련 연구소들 등에서 활발한 연구가 이루어짐. 그 결과 많은 논문들이 출간되었으며, 이들 중 몇몇은 최신 연구들에 대한 survey 논문들을 출간함. 2001년도에 Gavrila [9]는 적용되는 센서에 초점을 두고 존재하는 시스템들의 현황을 살펴봤으며, 2006년도에는 GandhiTrivedi [10]가 충돌 보호의 양상과 보행자 행동 분석에 초점을 맞춰서 유사한 방식으로 연구를 수행함. 동일 저자는 최근에 보드 상에서 검출[11]에 초점을 두기 보단, 일반적인 운송 안전 관점에 초점을 둔 기반 시설 개발, 센서, 보행자 검출 방법에 대한 검토(review)를 수행함. 얼굴 및 차량 검출 분야([12], [13])에서는 알고리즘과 성공적인 시스템에 대한 깊이 있는 검토가 수행되었지만, ADAS와 관련된 보행자 검출에 대한 검토는 상당히 적음.

 

논문의 기여

  • 1) 구체적인 검출 task에 대한 비교를 단순화 하기 위해 일반적인 모듈 기반 아키텍처를 나타냄.
  • 2) 최신식 센서들과 벤치마킹에 대한 최신의 포괄적인 검토를 제공함. 본 논문에서는 [11]과 달리, 일반적인 보행자 안전에 초점을 두기 보단 PPSs에서 사용된 기술들에 대해 초점을 둠. 또한, 이전에 언급한 아키텍처에서 정의된 구체적인 task에 따라 서로 다른 접근들에 대해 검토를 하고, 보다 상세한 설명과 비교를 제공함.
  • 3) 분석 및 논의를 제공함. 검증을 위한 공용 벤치마크의 부족과 여러 접근들의 재현의 복합함으로 인해, 정량적인 비교는 어려우며, 각 모듈 상에서 가장 중요한 제안에 대해 분석 후 가능한 정성적인 평가를 제공함. 추가로, 전체적인 시스템에 대해 일반적인 논의를 하였으며, 더욱 일반적인 관점에서 시스템의 현재 한계와 향 후 전망에 대해 기술함.

논문의 구성

  • Section 2에서는 서로 다른 처리 단계에 따라 PPSs를 분해하는 방법을 제안함. 이러한 아키텍처는 요구 사항, 책임, 각 모듈 상의 기법에 대한 이점 등에 대해 쉬운 이해를 목적으로, 관련 연구들에서 제안한 서로 다른 방법들의 검토를 위한 일반적인 프레임워크로서 사용이 됨. 다수의 접근들은 단일 형태의 센서(카메라)를 사용하는 반면에, 어떤 연구들은 센서들의 상호 보완을 통한 융합 기법을 제안함. Section의 마지막 부분에서는 이러한 대안 센서들에 대해 검토를 함. 관련 시스템에서 사용한 다른 기술들은 표 2, 3, 4, 6에서 간략하게 설명함.
  • 지능형 시스템에서 중요한 주제인 벤치마킹에 대한 내용은 section 3에서 설명함.
  • 향 후 연구를 위한 가장 중요한 주제에 대한 논의는 section 4에서 설명을 할 예정이며, challenge와 필요성에 대해 구체적인 강조를 함.
  • 최종적으로 section 5에서는 본 논문의 목적, 내용, 결론에 대해서 요약을 함.

2 LITERATURE REVIEW

하기의 모듈들은 PPSs를 위한 보행자 검출기의 아키텍처를 분할하기 위해 제안 되었으며, 처리파이프라인 순서에 따라서 목록화함: 전처리(preprocessing), 전경 분할(foreground segmentation), 객체 분류(object classification), 검증(verification)/개선(refinement), 추적(tracking), 적용(application)

그림 1은 모듈의 도식화된 개요를 보여줌.

제안된 모듈 중 일부는 조사된 연구들에서는 존재하지 않았으며, 단지 하나의 알고리즘으로 그룹화되었지만, 대부분의 시스템은 개념적 비교를 위한 목적에 따라 아키텍처에 적합하도록 나눠질 수 있다고 판단이 됨.

  • 서로 다른 성격을 가지는 방법들의 순서화된 분석을 제공하기 위해, 어떠한 복잡한 시스템이라도 이러한 분할이 필요함. 예를 들어, Sun은 차량 검출과 관련된 검토[13]에서, 문제를 전체적으로 접근하기 보다는, 독자들이 더욱 더 단순한 문제 해결 방법에 집중하도록 해당 기술들을 가설(hypothesis) 생성과 가설 검증을 하는 단계로 나눔.

Section(2.1~2.6)에서는 언급된 모듈들에 대한 설명과 존재하는 기법들에 대한 검토와 분석 및 비교 등을 제공할 예정임. 분석된 접근들에 대해 합리적인 비교를 위해, 이번 section에서 다루는 모든 연구들은 passive 센서들을 사용함.

  • 예를 들면, 가시 광선(보통 낮) 또는 적외선(보통 밤) 센서 등을 이용하며, 이런 센서들은 PPSs를 위해 가장 범용적으로 사용되는 센서들임. 이후부터는 가시 광선 스펙트럼을 VS(: 0.4-0.75 μm 범위), 적외선을 NIR(근적외선, 0.75-1.4 μm 범위) 또는 TIR(열 적외선, 6-15 μm 범위)로 표기함. NIR 센서의 sensibility 범위는 0.4-1.4 μm 이며, 이는 VS+NIR 스펙트럼 내에서 동작한다고 할 수 있음. TIR 센서는 상대적인 온도를 취득하기 때문에, 아스팔트나 나무와 같이 열이 없는 대상으로부터 보행자나 차량과 같이 열이 있는 객체를 구별하는데 유용함. 완성도를 목적으로, section 2.7에서는 여러 센서들에 대한 설명과 센서 융합을 사용하는 여러 시스템들에 대해 검토를 할 예정임. 최종적으로 표 2, 3, 4, 5, 6에서는 본문에서 생략된 상세한 시각적인 비교를 제공함(참고 사항: 본 논문에서 TIR로 표기하는 센서들은 때론 night vision, 열 적외선, 단일 적외선, 원적위선(FIR) 등으로도 불림). 

2.1 Preprocessing

전처리 모듈은 노출 시간, gain 조절, 카메라 켈리브레이션 등의 task를 포함함.

 

2.1.1 Review

  • 노출 시간, gain 조절: 노출이나 dynamic range와 같은 저수준(low-level)의 조절은 ADAS와 관련된 문헌들에서 기술되지 않았으며, 최근에 출판된 논문들에서는 이러한 시스템을 통한 영상 향상에 목표를 두고 있음. 도심지 환경과 같은 영역에서 실시간 조정은 반복되는 어려움을 보임. 예를 들어, 짧은 터널, 좁은 도로, 빠른 장면 움직임 등은 영상에서 과포화 또는 저포화 되는 영역이나 저조하게 조절된 dynamic range를 만들게 되며, 이는 시스템 내 알고리즘 처리 시 부가적인 어려움을 만들게 됨. 특별히 ADAS에 치우쳐 있지 않지만, Nayar Branzoi [15]는 국소 영역에 대해 적응적인 dynamic range를 적용하는 방법을 제시함: 서로 다른 노출, 공간 필터의 mosaicing 및 픽셀 노출, 다중 영상/픽셀 센서 등을 융합 시킴. 최근 몇 년 동안, 높은 contrast를 제공한다는 이점으로 인해 DAS 분야에서 High Dynamic Range (HDR) 영상을 활용하는 방법들이 관심을 얻기 시작함. HDR 카메라는 VS+NIR 스펙트럼을 cover하며, 야간 비전에 유용하다고 할 수 있음.
  • 카메라 켈리브레이션: 처리 모듈에 있어서 카메라 켈리브레이션은 중요한 주제임. 몇몇 연구[18, 19]들은 보드 상에서 self-켈리브레이션을 통해 카메라의 내부(intrinsic) 및 외부(extrinsic) 파라미터를 추정하는데 집중을 함. 가장 일반적인 접근은 초기에 내부 파라미터를 계산하고, 외부 파라미터가 연속적으로 갱신되는 동안에는 내부 파라미터는 일정하다고 가정을 하는 것임. 카메라 자세 추정이라고 불리는 이러한 절차를 통해 도로 경사가 일정하다는 가정을 피할 수 있음. 이러한 가정은 도심지 환경에서 도로 경사의 변동성과 차량 동역학의 변화를 고려하지 않은 단순화를 만들기 때문에 실제 PPSs에서는 적용하기 어려움.     
  • 단안 및 스테레오 카메라: 존재하는 접근들은 단안 카메라 및 스테레오 카메라 기반 접근의 2가지로 나눌 수 있음.
    • 1) 단안 카메라의 경우 시각적 특징들에 대한 연구에 기반한 알고리즘들이 주를 이룸. [20, 21]에서 Broggi는 수평 에지의 움직임 검출을 이용하여 영상의 수직 위치를 교정함: 이전 프레임에 따라서 수평선이 계산되어짐. 서로 다른 단안 카메라 자세 추정을 이용한 접근에 대한 포괄적인 연구는 [22]에서 살펴볼 수 있음. 해당 연구는 수평 에지, 특징 기반, 프레임 차분 알고리즘 등을 포함하고 있음. 최근에 Hoiem [23]은 단안 카메라 기반의 3차원 기하학 추정을 위한 확률적인 프레임워크를 제안함. 수평 위치 및 카메라 높이(예: 카메라 자세 값)의 추정치에 대한 prior를 얻기 위해 60개의 수동으로 labeled된 영상 set에 기반한 훈련 과정이 적용됨.   
    • 2) 스테레오 카메라 자세 추정에 있어서, Labayrade는 v-disparity 공간[24]을 도입하였으며, 이는 1. 도로의 경사를 계산하고(수평선과 연관), 2. 영상의 열에 대해 축적된 변이(disparity)가 이들의 이웃들과 상당히 다를 때 수직 방향의 객체가 존재함을 나타내기 위해, 영상의 y축을 따라 스테레오 변이를 축적하는 방식을 이용함(그림 2의 d). 이러한 표현의 확장은 [25]에서 찾을 수 있음. 다른 접근으로는 유클리디안 공간 상에서 동작하는 방법이 있음. 예를 들어, Sappa [26]는 3차원 도로 데이터 점들을 평면으로 fitting시키는 방법을 제안하였으며, Nedevschi [27]는 clothoid를 이용함. 유클리디안 공간 상에서, 고전적인 least square fitting 접근이 수행되는 반면에, v-disparity 공간 상에서는 허프 변환과 같은 voting 전략이 선호됨. 최근 Ess는 [28, 29]에서 새로운 detection track을 강화하는데 사용되는 기면(ground plane)을 추정하기 위해, depth cue와 함께 보행자 위치 가설(hypotheses)을 사용하는 법을 제안함. 분류 및 추적 모듈과 기면 추정 사이의 연결 고리가 생겼다는 관점에서 저자는 이러한 접근을 cognitive feedback라고 칭함.

2.1.2 Analysis

HDR 센서는 실외 환경에서 대비가 좋은 영상을 취득할 수 있는 이점을 제공함.

  • 이러한 기술은 전형적으로 ADAS 영상에서 나타날 수 있는 과포화 및 저포화 영역을 피할 수 있는 결정적인 중요한 역할을 하게 됨. 현재 검출 알고리즘의 대다수의 실패는 저조한 대비를 가지는 영상들에 있으며(section 3의 데이터베이스 참고), 이러한 기술은 시스템 성능에 있어서 확실한 이점을 가져다 줌.

카메라 자세 추정에 있어서, 스테레오 카메라 기반 접근은 단안 카메라 기반 접근보다 강건한 결과를 제공함.

  • Horizon-like stabilizers는 장면의 변화가 부드럽다는 가정에 기반하고 있으며, 도심지 환경에서는 항상 유효한 가정은 아님. 게다가 단안 카메라 기반 접근에서는 이전 프레임에 의존된 추정을 하는 한, 시간이 지남에 따라 global error가 증가하게 됨(drift 문제). 이와 반대로, 스테레오 카메라 기반 접근(변이 및 3차원 데이터 모두)error를 축적하지 않으며, 차량으로부터 객체까지의 거리에 대한 정보를 제공할 수 있음.
  • 변이 기반 접근이 3차원 데이터 기반 접근보다 우수한지는 명확하지 않으며, 각 접근법들은 장점 및 단점, 한계를 가짐. 예를 들어, 변이 기반 접근은 3차원 데이터 점 기반 접근보다 빠르지만, 평면 도로 근사화에 제한적이며, 반면 3차원 기반 접근은 평면, clothoid, 임의의 자유 형태를 가지는 표면 근사화 등에도 적용이 가능함. 최근 검토된 많은 연구들에서는 변이 및 깊이 추정을 위해 요구되는 CPU 시간의 추가적인 증가에도 불구하고, 정확한 카메라 자세를 획득하기 위해 스테레오 기반 접근을 이용하는 명확한 경향을 보임.

2.2 Foreground Segmentation

후보 생성과 관련된 전경 분할은 가능한 많이 배경 영역을 제외시키기 위해, 영상에서 분류 모듈에 전달할 ROI(관심 영역)를 추출하는 단계를 말함.

  • 비록 몇몇 연구들에서는 특정한 분할 모듈(낱낱 탐색(exhaustive scanning))을 포함하고 있지 않지만, 후보의 개수를 줄이고 하늘과 같은 탐색 영역을 피할 수 있기 때문에 이러한 기법은 분명한 중요성을 가지고 있음. 이 단계의 핵심은 보행자를 놓치지 않는 것임; 그렇지 않으면 이후의 모듈들은 error를 교정할 수 없게 됨. 이 모듈에 대해 설명을 할 때 본 논문에서는 종종 pedestrian size constraints(PSCs)이라는 용어를 사용하게 되는데, 이는 종횡비, 크기, 보행자를 포함하고 있는 후보 관심 영역의 위치 등과 관련이 있음.

2.2.1 Review

가장 단순한 후보 생성 절차는 낱낱 탐색 접근[31, 32]을 하는 것이며, 이는 확실한(explicit) 영상 분할 없이 영상 내에서 PSC에 해당하는 모든 가능한 후보를 선택하는 것임. 예를 들면 [31]에서, 저자는 64 x 128 픽셀 크기의 ROI를 이용하여 영상 스캐닝을 시작하여, 해당 window 8 픽셀씩 증가시키면서 이동시킴. 다음에 영상 크기를 1.2배 축소한 후 다시 동일한 영상 스캐닝을 수행함.

이러한 절차는 2가지의 결점을 가짐:

  • 1) 비록 최근에 제안된 방법들은 이러한 문제를 연구하긴 했지만, 그림 2 b에서 보는 바와 같이 상당히 많은 개수의 후보를 생성하며, 이는 실시간 처리를 어렵게 함.
  • 2) 많은 무관한 영역들이 다음 모듈로 전달이 되며(: 하늘 영역 또는 원근(perspective)과 상반되는 ROI), 이는 잠재적인 false positive의 개수를 증가시킴. 이러한 이유로, 다른 접근들에서는 확실한 영상 분할을 사용하게 됨.

2D-based:

  • Miau [36, 37]에서 생물학적으로 영감을 얻어 컬러, 밝기, 픽셀 그레디언트의 방향 등에 따라 ROI를 선택하는 집중적(attentional) 알고리즘을 사용함. 파르마 대학(Parma University)에서 수행한 연구에서는 가시 광선[38], [39], [40], [41] TIR 스펙트럼 내 수직 symmetry를 단독으로 이용([42], [20])하거나 스테레오 이미지의 보완을 위해 사용함[39]. 이러한 경우에 ROI PSC를 유지하는 각각의 대칭축 주변으로 조절이 되며, 다수의 수평 에지의 출현은 종종 비보행자 특성으로서 고려됨.
  • TIR 영상을 다룰 때 밝기 기반 임계치 적용은 가장 직관적인 영상 분할 기법임. 단일 임계값 적용[44], 이중상(double image) 및 hot-spots 기반 임계치 적용[44], 적응적 밝기 기반 임계치 적용[45, 46] 등이 수행되어짐. 다른 단순한 기법으로는 임계치 적용과 함께 수직 및 수평 히스토그램 투영을 이용하는 것임[47, 48]. 전경 및 배경에 해당하는 픽셀을 분류하기 위해, [50, 51]과 같이 다단계 이웃 픽셀 분류를 사용하는 Hypermutation networks[49]와 같은 보다 정교한 접근법이 고려됨. [50]에서는 network의 결과인 출력 픽셀이 연결 성분 분석에 의해 그룹화 되었기 때문에 해당 알고리즘은 분할/분류 처리로서 이해될 수 있음.

Stereo:

  • FrankeKutzbach [52]에서 ADAS를 위해 특별하게 개발된 첫번째 스테레오 알고리즘 중 하나를 제안함. 이 방법에서는 스테레오 동일점을 찾기 위해, 변이 히스토그램을 이용하여 모호함을 해결하는 국소 구조 분류(Local structure classification)를 이용함. 이들은 [53]에서 subpixel accuracy를 이용하여 다중 해상도를 적용하는 알고리즘으로 확장시킴. 이 방법은 잘 알려진 PROTECTOR system [55]에 사용되어 연관성을 가지게 됨. 이 시스템에서 반환된 맵(map)은 서로 다른 별개의 깊이 범위를 가지도록 다중화되어(multiplexed) 있으며, 기면(ground plane) 위치를 고려해 PSC-window를 이용하여 스캐닝을 수행함. 만약 window depth feature가 주어진 비율을 초과하는 경우, 해당 window는 분류기에 전달되는 ROI 목록에 추가가 됨.
  • 많은 저자들[38], [56], [57]은 지면과 수직 객체를 식별하기 위해 이전에 언급한 v-disparity[24]를 활용함. 도로 표면점들을 제거한 후부터는 수직 객체를 감싸고 있는 후보 영역의 추출은 복잡하지 않음. 이러한 접근은 유클리디안 공간상의 도로 표면과 같은 면은 그림 2 d와 같이 v-disparity 공간 상에서 직선이 된다는 사실에 기반으로 하고 있음. [30]에서 Gero´nimo는 평면 도로 가정(그림 2 c)을 회피 하면서 PSC를 충족하고, 지면에 놓여 있는 ROI set을 동적으로 선택하기 위해서 스테레오를 기반으로 한 도로면 fitting[26]을 사용함. PSC와 함께 변이 맵 분석은 후보를 추출하는데 사용이 됨[58, 39, 59].
  • 최근 Krotosky Trivedi는 후보 생성을 위해 다중모드(multimodal) 스테레오 분석을 이용하는 법을 제안함. 이는 스테레오 정합을 수행[60]하거나 TIR 영상을 이용하여 정합된 VS 스테레오 쌍(pair)[57]을 만들기 위해, VS TIR과 같은 서로 다른 종류의 센서들을 결합하는 방식을 취함. 이러한 접근은 section 2.7에서 다루게 될 센서 융합과 일치하는 접근이지만, 이는 넓은 범위의 동작 조건에 대한 이점이 있기 때문에 여기에서 언급함. 예를 들어 tetra-camera의 설정은 낮에는 VS (pair)으로 밤에는 TIR (pair)으로 구성이 되어 있음.

 

Motion-based:

  • 서로 다른 프레임 내 움직임과 optical flow[61] 등은 주로 움직이는 장애물 검출과 같은 일반적인 맥락에서 전경 분할을 위해 사용됨.
  • FrankeHeinrich [62]에서 스테레오 처리(time correlation이 없는 깊이 정보 추출)와 움직임 분석(초기에 움직이는 객체의 검출을 허용하도록 작은 그레이 값의 변화를 검출함)을 합치는 방법을 제안함.
  • [63]에서 Leibeet은 기면 추정을 위해 실시간의 Structure-from-Motion을 기반으로 하는 방법을 제시함. 이렇게 온라인 상에서 추정된 면은 카메라 켈리브레이션을 갱신하는데 사용이 되기 때문에, 지표면으로부터 객체를 분할할 수 있게 됨.

2.2.2 Analysis

  • 낱낱 탐색은 영상 검색과 같은 사람 검출 시스템에서 전형적으로 사용되는 반면에, PPSs는 표 2와 같이 몇몇 종류의 분할 기법을 사용하는 경향이 있음. 사실 PPSs의 경우 사전 지식을 활용하여, 처리되어야 할 ROI의 개수를 상당히 줄임(영상의 상단 영역은 탐색할 필요가 없음). 예를 들면, 640 x 480 크기의 영상에 대해 전형적으로 낱낱 탐색을 할 경우에 샘플링 단계와 최소 ROI의 크기에 따라 200,000~1,000,000개의 ROI를 추출하게 됨. 대조적으로 추정된 도로에 대해서만 샘플링 단계를 적용할 경우 탐색 밀도에 따라, ROI의 개수를 20,000~40,000개로 줄일 수 있음. 게다가 스테레오 기반 분할은 장면의 내용에 따라, ROI의 개수를 적어도 10배 이상 줄일 수 있음.
  • 관련 연구들에 따르면, 스테레오 기반 접근이 가장 성공적인 선택임. 이 단계(전경 분할)에서 2차원 기반 접근은 설득력이 있는 결과를 제공하지 못함. 일례로, symmetry는 상당히 신뢰성이 없으므로 깊이와 같은 추가의 cue가 필요하며, hot spot 분석은 실험에 의존적이고, [36]과 같은 집중 상향식(attentional bottom-up) 픽셀 기반 알고리즘들은 정확한 ROI 위치를 제공하지 못하기 때문에 예상한 만큼 후보 개수를 많이 줄일 수 없음. 더욱 정교한 형상(appearance) 기반 방법들은 분류 단계에서 사용되며, 후보 생성 단계에서는 사용되지 않음. 추가로, 움직임 기반 접근의 정확도는 차량 속도에 의존적이며, 이러한 접근들의 신뢰성은 넓은 범위의 ADAS 환경에서는 보여주지 못함.

스테레오 기반 접근의 이점:

  • 1) 보행자 검출을 위한 작동 범위 내에서 우수한 정확도를 보임.
  • 2) VS 상의 조명 변화나 TIR 상의 온도 변화 등과 같은 상황 변화에 강건함.
  • 3) 다른 모듈(추적을 위한 거리 추정) 및 다른 ADAS 응용 분야(자유 공간 분석[55], [64])를 위한 유용한 정보를 제공함.

스테레오 기반 접근의 단점:

  • 1) texture가 없는 영역은 보이지 않는 영역이 됨.
  • 2) 느린 속도([65]에서 병렬 데이터 처리에 대한 연구가 수행되긴 함)
  • 3) 유사한 변이를 가지는 영역을 분할하며 보행자 크기 및 종횡비를 fitting하기 위해 후처리 단계가 요구됨[58].

결론적으로, 스테레오 기반 접근은 미래 시스템을 위한 주요한 선택임.

  • 이전에 언급한대로, 스테레오 쌍은 새로운 시스템의 개발을 도모하도록 정확도, 계산 시간, 해상도를 개선시킬 수 있음. 보행자 검출의 정확도를 위해서는 스테레오 쌍의 baseline이 주는 영향에 대해 철저한 연구가 필요하다는 것을 검토를 통해 알 수 있음. 아직까지는 단지 [26] [56]에서만 baseline 정보에 대해 명시를 함: 각각 12cm 30cm. baseline과 깊이 정확도 파라미터가 어떻게 PPSs에 영향을 주는가에 대한 연구는 절대적으로 차량의 최대 속도와 보행자의 거리와 연관되어 있다고 할 수 있음.

이러한 문제 지향적 응용 분야에서는 장면에 대한 사전 지식을 활용하는 것이 중요한 역할을 함.

  • 몇몇의 최근 연구들에서는 전주의적(preattentive) cue context를 기반으로 한 더욱 더 정교한 알고리즘들이 제시됨: Torralbacoauthors [66, 67]에서, Hoiem[23] [68]에서 관련 알고리즘들을 제시함. 본 논문에서는 객체 검출에 있어서 perspective, scene object dependencies, surfaces, occlusions 등의 중요한 역할에 대해서 설명함. 추가로, 긴 계산 시간 없이 거리를 추정(section 2.7)할 수 있는 레이저 스캐너와 같은 active 센서가 특정한 PPs task(: short-time 추돌 검출)에 활용되는 것을 설명을 함.

2.3 Object Classification

객체 분류 모듈은 보행자를 포함하고 있는 ROI 목록을 받아들이며, 이 단계에서는 false positive false negative의 개수를 최소화 하는 것을 목표로 보행자와 비보행자를 분류함.

 

2.3.1 Review

객체 분류를 위한 접근은 순수하게 2차원적이며, 크게 윤곽 정합(silhouette matching) 및 형상 (appearance)기반 접근으로 나눌 수 있음.

 

Silhouette matching:

  • 가장 단순한 접근은 Broggi [39]에서 제안한 이진 모양(binary shape) 모델을 이용한 것이며, 몸 상단 shape은 대칭 기반 분할 후 단순한 correlation에 의해 edge modulus 영상과 정합됨. 좀 더 정교한 접근은 Chafer System을 이용한 것으로서, Gavrila [55], [69], [70]에서 silhouette-matching 기반 알고리즘을 제안함. 이 시스템은 그림 3과 같이 계층적인 템플릿 기반 분류기로 구성이 되어 있으며, 거리 변환이 적용된 ROI coarse-to-fine 기법을 이용하여 템플릿 shape과 정합시킴. Shape 계층은 군집화 알고리즘에 의해 오프라인 상에서 생성됨. [51]에서는 TIR 영상을 이용하여 이러한 기법을 적용시킴. TIR 스펙트럼 내에서, NandaDavis [71]는 단지 3개의 템플릿만을 이용(정의된 scale마다 각각)하여 multiscale basis 상에서 확률적인 템플릿 정합을 수행함. [44]에서 Broggi는 템플릿에 기반한 2개의 방법을 제시했는데 이중 하나는 단순한 정합에 기반 하고 있으며, 다른 하나는 다리 위치에 기반 하고 있음.

Appearance:

  • group의 방법들은 영상 특징(descriptor라고 알려져 있음) 공간을 정의하고 보행자 example과 비보행자 example을 포함하고 있는 ROI를 이용하여 분류기를 훈련하는 것을 포함함. 1은 관련 문헌들에서 사용된 전형적인 학습 알고리즘(분류기)를 나타내고 있음.

  • 전체적으로 타겟이 검출되는 holistic 접근법들[55], [70] 이후로, Gavrila는 영상 내 gray-scale 픽셀을 특징으로 사용하고, Chamfer System에 의해 생성된 후보 ROI를 분류하도록 local receptive fields를 이용한 neural network(NN-LRFs [87])를 기계 학습으로 사용하는 분류기를 제안함. [58]에서 ZhaoThorpe는 영상 내 그레디언트 크기와 feedforward neural network을 사용함.
  • Papageorgiou와 Poggio는 [32]에서 전면 및 후면 시점을 가지는 보행자 example을 이용하여 Haar wavelets(HWs)를 특징으로 사용하고 quadratic support vector machines(SVMs)으로 훈련하는 법을 제안함. HWs는 그림 4의 a~c와 같이 서로 다른 구성을 가지는 2개의 사각형 영역 사이의 픽셀 차이를 계산하며, 이는 큰 scale에 대한 미분으로 표현될 수 있음. Viola와 Jones는 [79]와 [88]에서 감시 분야의 보행자 검출을 목적으로, Haar-like features(원래 HWs에 그림 4의 d~e가 추가됨)을 이용하여 AdaBoost cascades를 학습 알고리즘으로 적용하는 방식을 제안하였음. 여기서 HWs는 또한, 움직임 정보를 모델링하기 위한 목적으로도 사용됨. 이러한 특징들은 객체 인식에 있어서 상당히 성공적이었음. Ma¨hlisch는 [51]에서 TIR 영상을 이용하여 Haar-like feature와 Chafer System을 결합하는 시스템을 제안함. 최근 Gero´nimo는 [30]에서 Haar-like set에서 가장 우수한 특징을 선별하기 위해 Real AdaBoost를 이용하고 VS 내 ROI를 분류하기 위해 edge orientation histograms(EOHs; [89])를 이용하는 법을 제안함. EOHs은 먼저 영상 내 그레디언트 크기를 계산한 후 그레디언트의 방향에 따라 픽셀들을 k개의 다른 bin(이 경우 k=4)으로 분할함. 특징은 주어진 영역에 대해 2개 bins의 그레디언트 크기를 합한 값 사이의 비율로 정의가 됨. 예를 들면, 특징 Ψ(0, π/4)/Ψ(π, 3π/4)는 임의의 실수값을 제공하며, 이는 분류기의 임계 규칙을 위한 특징으로서 사용이 됨(여기서 Ψa,b는 특정한(a, b) 각도 구간 내 놓여 있는 픽셀들의 그레디언트 크기의 합을 뜻함). Haar-like features와 EOH 모두 4번의 메모리 참조로 영역 내 픽셀의 합을 계산하는 integral image[79]로 표현 할 수 있음.
  • Dalal와 Triggs는 [31]에서 SIFT[90]에서 영감을 얻은 특징인 histograms of oriented gradients (HOGs)와 선형 SVM을 학습 방법으로 이용하여 사람 분류를 위한 전략을 제시함. 하나의 HOG 특징은 영역을 k개의 orientation bins(이 경우 k=9)으로 분할하고, 2개 bin 사이의 비율을 계산하는 대신에, 그림 7과 같이 사각형 특징을 나눠서 4개의 서로 다른 cell을 정의함. 추가로, 중심 픽셀에 대해 더 많은 가중치를 적용하기 위해 크기 값에 대해 가우시안 마스크가 적용이 되며, 픽셀들은 block 내 픽셀 위치를 고려하여 보간이 되어짐. 얻어진 특징은 각 픽셀 cell의 크기의 합을 보유하고 있는 36차원의 벡터가 되며, 9개의 bin으로 나눠짐. 이러한 특징들은 관련 연구들에서 광범위하게 사용이 됨. [43]에서는 TIR 영상을 이용하여 ADAS용 보행자 검출을 위해 사용을 하였으며, Dalal은 [91]에서 optical flow 영상에 대해 사용을 함. 다른 논문들에서는 동일한 특징들을 사용하면서 새로운 학습 접근을 제시함. [33]에서 Zhu는 적은 계산 시간을 보이면서 동일한 검출 성능을 달성하기 위해 HOG를 AdaBoost의 weak rule로 사용하였으며, [92]에서 Pang은 Multiple Instance Learning(Logistic Multiple Instance Boost[83])과 보행자의 자세 및 시점의 변화 모델을 반영한 graph를 기반으로 한 weak classifier를 함께 사용함. 최근 Maji는 [93]에서 multi level 에지 에너지 특징(HOG와 유사하지만 좀 더 단순함)과 Intersection Kernel SVM을 이용하여 우수한 성능을 보이는 최신의 detector를 제안함. 먼저, 각 그레디언트 방향 bin에 대해 비최대치억제(nonmaximum suppression)을 적용한 후 서로 다른 스케일(64x64, 32x32, 16x16, 8x8)의 히스토그램 특징 피라미드를 구성함. Intersection kernel은 이러한 특징을 SVM으로 훈련시키는데 사용이 됨.
  • Wu와 Nevatia는 [94]에서 VS 영상을 이용하여 AdaBoost 적용 시 사용되는 특징으로 edgelets과 연관된 선 또는 커브의 short segment(최대로 긴 픽셀은 12임)의 적합성에 대한 성능을 연구함. 이 경우 pixelwise segmentation을 제공하기 위해 그림 6과 같이 각 특징에 마스크가 첨부되어짐(attached). 동일 저자는 [76]에서 VS와 TIR 영상을 이용하여 AdaBoost 및 SVM과 edgelets 및 HOG를 함께 사용하는 법을 연구함. 또한 Sabzmeydani와 Mori는 [95]에서 국부 그레디언트 방향 특징을 최대한 잘 활용하기 위해 그레디언트 방향에 대해 각 n x n 크기의 cell(서로 다른 cell 크기에 대해서 테스트를 함, n=5, 10, 15)을 모델링하여 AdaBoost를 사용하는 방법을 제안함. 각각의 선택된 cell은 shapelet 특징을 나타냄.
  • Tuzel은 [96]에서 subwindow 내 서로 다른 공분산(covariance) 측정(위치, 1차 및 2차 미분, 그레디언트 모듈, 그레디언트 방향)을 특징으로 이용하고 Riemannian manifolds를 이용한 LogitBoost [81]를 함께 활용하는 방법을 제안함. 결과의 성능은 최신의 detector와 비교할만한 수준이며, 계산 시간은 [31]과 비교할만한 수준임.
  • 관련 연구들에서 사용한 특징 및 학습 알고리즘의 조합은 다음과 같음: 그레디언트 크기 + quadratic SVM [56], Four Directional Features + Gaussian kernel SVM [59], 밝기 영상 + Convolutional Neural Networks [85], 밝기 영상 + SVM [46], [73].

  • 이전의 holistic 기법은 전체 후보를 단일 entry로 분류하는 반면에, 부분(Part) 기반 접근은 보행자 몸의 서로 다른 부분(: 머리 및 다리)의 분류를 결합하는 방식을 취함.     
  • Mohan은 [74]에서 몸의 네 부분(머리, 다리, 오른쪽 팔, 왼쪽 팔)을 독립적으로 분류하기 위해 HWs와 quadratic SVM을 사용함. 이러한 부분 분류는 선형 SVM과 함께 결합되어짐. [97](모빌아이의 연구임)에서 Shashua는 그림 5와 같이 13개의 중복으로 겹쳐진 부분(SIFT[90] 특징에서 영감을 얻음)과 각 부분의 분류기를 학습시키기 위해 ridge regression을 이용함. Training set은 내부 클래스의 높은 변화를 다루기 위해, 자세 및 조명 상태에 따라서 9개의 cluster로 나눔(9 x 13 = 117개의 분류기를 가짐). 분류기의 출력은 최종적인 분류 rule을 설정하는 AdaBoost에게 weak rule로서 전해짐. Wu와 Nevatia는 [84]에서 nested-weak-classifier AdaBoost [82]를 훈련시키기 위해 몸의 네 부분(몸 전체, 머리-어깨, 몸통, 다리)과 세가지 시점(전면/후면, 좌측, 우측)을 사용하는 법을 제안함. 여기서 특징은 edgelets을 이용함. 이 경우 몸의 부분을 결합하기 위해서 감시 분야에서의 전형적인 가정(카메라는 지면을 바라보고 있음)이 적용된 Bayesian reasoning이 사용됨. [98]의 경우, Parra는 캐니 에지와 정규화된 gray scale 영상 사이의 cooccurrence matrix, 방향 히스토그램, 영상 그레디언트의 크기 및 방향, texture unit number 등을 특징으로 정의하고, SVM 분류기로 훈련을 시킴. Tran과 Forsyth [99]는 tree part configuration을 제공하는 structure learning의 적용 결과 생성된 ROI 영역 내에서 보행자의 자세를 추정하는 법을 제안함. 추정 후에, 이러한 configuration에 의해 조정된 ROI가 분류됨.
  • Felzenszwalb는 [100]에서, ROI 내 분류 score와 6개의 서로 다른 동적 part를 합하는 법을 제안함. 이 경우, 저자는 latent SVM과 HOG를 이용함. Dollar는 [101]에서, Haar feature를 이용하여 이전에 언급한 Multiple Instance Learning을 Multiple Component Learning이라고 불리는 part 기반 전략으로 확장시킴. 여기에서는 그레디언트의 크기 및 방향 특징이 사용됨. 특히, [100, 101]의 접근 모두에서는 자동적인 방법을 적용하여 결정하기 때문에, part에 대해 annotation을 수동적으로 하는 일은 피할 수 있음.   
  • Lin과 Davis는 [102]에서 silhouette, appearance, holistic, parts-based 등과 같은 이전에 언급한 패러다임들을 결합하는 방법을 제안함(그림 8). 먼저 Dalal의 방법에 따라서 전체 영상에 대해 HOG descriptors가 계산되고, 해당 descriptors는 probabilistic hierarchical part-matching 알고리즘에 전달되는 silhouette을 추출하기 위해 사용됨. 최종적으로, 정합된 silhouette의 가장 가까운 영역에 대해 HOG가 다시 계산이 되며, radial basis function(RBF) kernel SVM 적용을 위한 특징으로서의 역할을 하게 됨.        

Other approaches:

  • 객체 검출을 위한 최신 연구들을 반영하여, Leibe [103]에서 ROI의 생성단계를 피하는 implicit shape model이라 불리는 기법을 제안함. Hessian-Laplace[104]를 이용하여 keypoint를 검출하고, 각각의 keypoint들에 대해 shape context descriptor[105]를 계산한 후, codebook를 구성하기 위해 descriptor clustering하는 방식의 아이디어를 적용함. 인식 과정에 있어서, keypoint cluster에 정합이 되며, Hough voting을 이용하여 object hypothesis에 대한 voting이 수행됨. 따라서, 후보 생성 단계를 피할 수 있게 됨. 보행자에 대해 정교한 silhouette segmentation을 수행하기 위해 Chamfer distance가 적용이 되어짐. [106, 107]에서 Seeman hypothesis voting을 단지 객체가 아닌 객체의 모양으로 확장시킴으로써, multiaspect detection(시점 및 관절(articulation))을 이용하여 해당 기법을 개선시킴.

2.3.2 Analysis

Silhouette 정합 기법은 표준 기법들에 대해서는 적용 할 수 없음. 심지어 정교한 Chamfer System도 추가로 형상 기반 단계를 필요로 함. 이와 대조적으로, 형상을 활용하는 방법들은 현재 연구의 방향을 가리킨다고 볼 수 있음. 특히 단지 보행자 검출뿐만 아니라 일반적인 객체 분류를 위한 알고리즘 사용에 있어서도 새로운 학습 알고리즘과 특징의 지속적인 개발을 위한 연구를 하고 있음.

  • 수많은 논문이 나왔음에도 불구하고, PPSs 연구에 있어서 각 접근들에 대한 비교 연구는 저조한 편임. Wojek [34]에서 몇 가지 인기 있는 특징과 학습 기법들에 대한 연구를 수행함으로써 분류기의 비교에 대해 조명을 해봄. 2가지 결론이 강조 되었는데, 학습 알고리즘과는 독립적으로, HOG shape context feature는 가장 우수한 선택이며, 특징 조합은 detector의 성능을 상당히 향상시킬 수 있다는 것임. 하지만 최근 몇 년 동안에, 사실상의 기준인 Dalal이 제안한 방법(detector[31] database[31] 모두)은 비교가 부족하였기 때문에 개정이 됨. 지난 2년 동안 이러한 기법을 벤치마킹하여 많은 기법들이 제안되었으며([96], [99], [95], [93], [100], [101], [102]), 제안된 모듈에 대한 통찰력을 얻도록 해줌.
  • 최근에 제안된 수많은 논문들을 고려해봤을 때, 최고의 선택이 되는 하나의 방법을 선택하는 것은 불가능함. 하지만 명백하게 타당한 연구 방향이 있음. Holistic classifiers는 적어도 현재 database에 대해서는 성능의 한계에 도달한 것처럼 보이며, 높은 변동성(Variability)을 다루기 어려움. 실험에 따르면, 비정형화된 자세는 성능에 상당히 많은 영향을 주게 됨: 다리가 교차하거나 서있는 것을 넘어서, 자세의 변동성은 훈련 샘플의 머리 및 몸통 정렬에 있어서도 많은 영향을 주게 됨. 추가로 훈련 과정에 있어서, 자세의 다양성은 많은 보행자들이 저조한 표현력을 갖게 함(예: 달리는 사람들, 아이들 등). dynamic part detection([100], [99], [107])에 의존하는 part 기반 알고리즘들은 holistic 접근보다 자세 변화를 좀 더 잘 다룰 수 있음. 이러한 정보들은 분류에 있어서 이점을 제공하게 됨. 또한 이러한 변동성을 극복하기 위한 다른 흥미로운 방법들이 연구되었는데(예: multiple instance learning), 이는 annotation 과정을 완화시키는 추가적인 이점을 제공하게 됨. 물론, 기존 알고리즘의 개선 방법들([93], [107], 새로운 방식을 적용하되 밝기, 그레디언트 등의 일반적인 측정치를 기반으로 한 새로운 특징들, shape context[105], HOG[31]) 등도 시스템 성능 향상에 기여를 할 수 있음.
  • PPSs의 실시간성 요구는 특징 및 알고리즘의 활용을 제한시키는 주요한 이유이지만, 높은 계산 비용이 반드시 결점은 아님. 예를 들어, [35]와 같이 알고리즘 최적화에 초점을 두고, 원래 HOG의 방법보다 7배나 빠르게 rough한 방법으로 HOG를 계산할 수도 있음. 이 경우 multiresolution rejection 전략이 적용되었음. 게다가 계산 성능은 해마다 증가하고 있으며, 존재하는 알고리즘의 하드웨어 구현도 제안이 됨. 예를 들면, HOG의 서로 다른 2개의 GPU 버전은 원래 방법보다 각각 10배[108] 및 34배[34]나 빠르게 구현이 됨.

2.4 Verification/Refinement

많은 시스템들은 보행자로 분류된 ROI을 검증(verification)하고 개선(refinement)하는 단계를 포함하고 있음. 검증 단계는 분류기와는 중첩되지 않는 기준을 이용하여 false positives를 제거하며, 개선 단계에서는 정확한 거리 추정을 제공하거나 이후의 추적 모듈을 지원하기 위해 정교한 보행자 분할(반드시 silhouette을 지향하는 것은 아님)을 수행함.

 

2.4.1 Review

  • Gavrila [55], [70]에서 스테레오 쌍의 좌측 영상과 우측 영상 내 Chamfer system에 의해 계산된 고립된 silhouette 사이의 cross correlation을 수행하여 detection에 대한 검증을 수행함. [53]에서 FrankeGavrila는 카메라에 수직인 횡단하는 보행자의 걸음걸이 패턴을 분석하는 법을 제안함. 이 방법을 적용하기 전에 타겟은 추적이 되어야 함; 그러므로 검증 및 개선의 순서와 추적 모듈의 순서는 교환될 수 있음. [109]에서 Chamfer 정합은 발견된 보행자 모양을 검증하고 개선하는데 모두 사용됨.
  • [97](모빌아이의 연구임)에서 Shashua는 여러 프레임으로부터 수집된 정보를 통해 생성된 보행자로 분류된 ROI에 대해 입증을 하기 위해, 다중 프레임 승인(multiframe approval) 처리 기법을 제안함: 걸음걸이 패턴, 안쪽으로 향하는 움직임, 단일 프레임 상의 분류 신뢰도 등을 이용함. 이 경우 추적을 따라서 검증이 됨.
  • 개선을 위해서 타겟 마다 개별적인 검출을 제공하는 비최대치 억제(nonmaximum suppression) 알고리즘이 필수적으로 사용되어야 함. 분류기가 타겟의 정확한 위치 및 scale에서 peak를 제공하며, 그 주변에서는 보다 약한 응답을 제공한다고 가정한 후, Dalal은 [110]에서 영상 내 보행자에게 가장 잘 조정된 최소한의 ROI set을 찾기 위해 mean shift[111]를 적용함. 완성도를 위해 [112]에서 Agarwal가 제안한 방법을 언급하는 것은 의미가 있음. 이들의 접근은 2개의 알고리즘으로 구성이 되며, 보행자 검출 대신에 차량 검출을 위해 실험됨. 먼저 activation map이 생성되며, 높은 신뢰성을 가지는 검출의 이웃들은 새로운 검출을 위해서는 의미가 없다고 표시를 하게 됨. 이러한 시스템이 part-based 분류기에 기반했다는 것을 고려해봤을 때, 두번째 알고리즘에서는 part에게는 단 하나의 검출만 할당하도록 제약을 줌. 그러므로, 비최대치 검출은 신뢰도를 반복적으로 감소시키면서 버려지게 됨.
  • [39]에서 Broggi는 분류 과정에서 정합된 머리와 어깨의 silhouette을 대칭 검출을 위해 계산된 수직 에지를 이용하여, 발쪽으로 향하는 검출을 개선하기 위한 기준으로 여김. 평면 도로를 가정함으로써, 발의 정확한 위치는 보행자로부터의 거리를 계산하는데 사용됨. 그 다음에 좌측 영상의 bounding box를 우측 영상의 특정한 위치에 correlation시킴으로써, 스테레오처리를 통해 개선이 완료됨.
  • TIR 영상을 활용하는 몇몇 기법들은 2차원 모델 정합[20], 3차원 모델 정합[42], [113], 대칭[114], 다중 필터 등의 접근법이 있으며, 여기서 다중 필터 접근[51]은 올바르게 분류된 ROIs와 단일 window 내 여러 검출 결과를 가지고 있는 그룹 사이의 중복된 영역을 기반으로 접근하고 있음.

2.4.2 Analysis

- 검증 모듈은 분류 모듈과 상호 보완성이 있어야 함. 사실 어떤 저자들은, 검증 알고리즘이 분류의 출력 결과에 묶여 있다는 관점에서 언급한 기술들을 2개의 검출 과정으로 여기는 경우가 있음. , 검증 알고리즘도 false positive의 특성을 가짐. 예를 들어, tree를 버리는데 실패한 분류기는 단지 3차원 내에서 수직 영역을 구분하는 검증부로부터 많은 이점을 얻을 수 없음. 2차원 영상을 기반으로 분류가 이루어지는 한 스테레오 정보가 사용되는 경향은 분명히 뚜렷함. 또한 검증 과정에 있어서 더 많은 cue가 사용될수록(: 스테레오 영상과 분류 신뢰도, 대칭성, 걸음 걸이 등의 정보를 결합) 결과는 유익할 것이라는 것은 충분히 합리적으로 예상할 수 있음. 감시 분야에서 일반적인 움직임 기반 기술(: 보행 패턴 분석)들이 적용될 수 있다는 것을 생각해보면, 추적 후에 검증 기법을 적용하는 것은 흥미로운 접근이 될 수 있음. 이러한 접근의 단점은 해당 절차는 다리가 명확하게 보이는 걷고 있는 보행자에게만 적용할 수 있다는 제약을 가지고 있다는 것임. 이러한 제약은 보통 보행자는 카메라에 가깝게 있으며, 분석의 latency가 상당히 중요한 의미를 갖는다는 것을 함축하고 있음.

- 적용된 개선 모듈들은 활용된 전경 분할 기술과 이용 가능한 정보에 따라서 선택이 됨. 각각의 방법은 장단점을 가지고 있음. 예를 들어, mean shift 알고리즘의 경우 full-scan 처리를 위한 기술로는 신뢰성이 입증되었지만, ROI scan이 매우 dense하지 않은(: 도로 샘플링 또는 스테레오) 전경 분할과 같은 알고리즘들에 대해서는 평가되지 않음. 스테레오 영상으로부터 거리 추정은 최종적인 ROI 크기를 조절할 때 좋은 cue가 되지만 타겟의 거리에 따라서 에러가 증가하게 됨. 다수의 서로 다른 후보 생성 전략, 개선 알고리즘, cue(: 변이, 도로면 조정, TIR 대칭성) 등을 고려하여, 도로 면 조정(: 보행자 거리), bounding box의 정확성 등의 관점에서 최종 검출 quality를 향상시키는 연구들이 앞으로 큰 관심을 받게 될 것임.

 

2.5 Tracking

가장 진화된 시스템은 시간의 흐름에 따라 검출된 보행자를 따라 추적 모듈을 사용하는 시스템임. 이 단계는 몇 가지 목적을 가지고 있음: 이후의 보행자의 위치를 예측함으로써, 시간의 흐름에 따라 오검출을 피하게 됨. 또한 사전 후보영역을 전경 분할 알고리즘에게 제공하며, 좀 더 높은 수준의 보행자 행동(: 걸음 방향)에 대한 추론을 할 수 있게 됨.

 

2.5.1 Review

  • Franke [54]에서 검출된 객체의 속도와 가속을 결정하기 위해, 2가지 종류의 칼만 필터[115]를 사용하는 법을 제안하였음. 첫번째는 측면 움직임(자가 차량의 yaw rate를 사용)을 조절하기 위해 사용하였으며, 두번째는 세로방향의 움직임을 조절하기 위해 사용함. 이후에 같은 연구진 출신의 저자들은 [55], [70]에서 스테레오 검증 단계의 결과인 bounding box 표현을 기반으로 α-β tracker(미리 추정된 정상 상태의 gain과 등속 모델을 이용한 단순화된 칼만 필터)를 사용하는 법을 제안하였으며 3가지 cue가 사용이 됨: 1) bounding box 중심 사이의 유클리디안 거리, 2) 모양의 비유사도(단일 객체에 대해 다중 추적을 피하기 위함), 3) chamfer distance(단일 추적에 여러 객체가 할당되는 것을 피하기 위함). 또한 칼만 필터를 추적 필터로 활용하여, Bertozzi [41]에서 추적 결과의 병합을 위한 ROI overlapping를 이용하였으며, Binelli [116]에서 속도 및 yaw 센서로부터 계산된 egomotion을 이용하여 예측을 강화하였고, Grubb [56]에서 칼만 필터에 추가로, 시간의 흐름에 따른 보행자의 확실성(certainty), 궤적, 속도 등을 제공하기 위해 베이지안 확률을 이용함.
  • 파티클 필터 또한 추적에서 널리 사용되고 있음. Giebel은 [117]에서 3차원 내 다중 객체를 추적하는데 파티클 필터를 사용함(이 경우 cue로는 silhouette, 텍스처, 스테레오 등을 이용). Philomin는 [118]에서 B-Spline에 의해 근사화된 silhouettes을 추적하기 위해 파티클 필터의 변종인 Condensation 기법[119]을 사용함. Arndt는 [120]에서 추적 알고리즘과 cascade classifier[121]를 연결함으로써 track-before-detect 패러다임에 파티클 필터를 적용하는 법을 제안함. 또한, Mateo와 Otsuka가 파티클 필터를 실시간의 GPU로 구현한 것은 충분히 가치가 있음[122].
  • 최근에 Leibe [63]에서 컬러 모델과 이들이 event cone으로 참조하는 것을 활용하는 방법을 제안함. , 추적된 객체의 궤적을 가지는 시공간 볼륨을 찾음. 저자는 비록 이러한 접근이 칼만 필터와 동일한 방정식에 의존하지만, 객체 상태 추정이 몇몇의 이전 단계에 기반하여 이루어지며, 관측된 데이터에 대해 다중 궤적이 평가될 수 있다는 관점에서 칼만 필터보다 우수하다고 주장함.
  • Zhang은 [123]에서 검출 association을 추적에 최적화 하기 위해 network flow를 사용하는 법을 제안함. Min-cost flow 알고리즘은 detection-track association을 수행하는데 활용이 되며, explicit occlusion 모델이 long-term occlusion을 다루는데 활용이 됨.
  • 붐비는 환경에서의 검출을 위한 연구들은 최근에, 연결된 detection-tracking 프레임워크를 활용하는 추세로 이어졌으며, 이들은 각 모듈을 독립적인 단계로 취급하기 보다는 양쪽 모듈 사이의 정보를 공유하는 방식을 취함. Gammeter는 [124]에서, implicit shape model detector[103]과 [29]의 stereo-odometry-based tracker를 결합하여 multibody를 추적하는 방법을 제안함. 각각의 궤적은 single-person articulated tracker에 전달되며, 3차원 자세와 개별 객체의 동역학(dynamics)을 추정할 수 있게 됨. Adnriluka는 [125]에서 part 기반 detector를 이용하여 타겟을 검출한 후 시간의 흐름에 따른 검출의 시간적 일치성을 계산하기 위해 Gaussian process latent variable model을 이용함. Singh는 [126]에서 tracklets과 residuals의 초기화를 위해 [84]의 part 기반 detector의 출력을 이용함. tracklet descriptors(컬러, 움직임, 3차원의 높이 등에 기반)와 tracklet 경로(여러 개의 가설을 이용)는 전역 최적화 프레임워크로 연결되어짐.

2.5.2 Analysis

Tracking은 보행자 검출 알고리즘이 PPS로 변환됨에 있어서 중요한 양상을 보여주고 있음. 하지만 추적 모듈은 다른 모듈들에 비해서 가능한 많은 관심을 받지는 않음: 

  • 각각의 논문들은 자신들만의 고유한 방법을 제안하였기 때문에 비교를 할 수 없음. 그러므로 결론을 내리는 것은 어렵지만, 칼만 필터가 가장 많이 사용되는 알고리즘이라고 말할 수 있음. 하지만, tracking cue는 단순한2차원 ROI localization부터 컬러, silhouette, 텍스처, 3차원 정보까지 다양한 범위를 가지고 있음. 최근에, 연결된 detection-tracking 알고리즘은 좀 더 많은 tracking cue를 활용하기 위한 희망적인 방식으로 제안되고 있음. 예를 들어, rigid한 보행자 silhouette models 전체를 이용하는 것 대신에 독립적으로 검출된 몸의 부분을 추적하는 방식들이 활용되고 있음.

본 논문의 견해를 밝히자면, 비록 그 동안 흥미로운 많은 방법들이 제안되었지만 구체적인 결론에 도달하기 전에, Section 3에서와 같이 Tracking 벤치마킹을 위해 수행되어야 할 많은 연구들이 남아 있다고 할 수 있음.

 

2.6 Application

PPS의 마지막 모듈은 이전의 모듈들에서 취득한 정보에 기반하여 고수준의 결정을 내리는 단계임. 이러한 모듈은 완벽한 연구 영역을 제시하며, 심리학적인 이슈와 인간-기계 상호 작용과 같은 많은 이슈들이 있기 때문에 본 논문의 범위를 벗어나게 됨. 관심이 있는 독자들은 [129], [45], [13]을 통해서 PPSs에서 사용되는 application 모듈에 대한 내용을 볼 수 있음.

 

2.7 Sensor and Fusion

  • 이전에 언급했듯이, 대부분의 검토된 기술들은 카메라의 출력을 기반으로 하고 있음. 카메라는 시각적인 특징들의 높은 잠재성, 높은 공간 해상도, 텍스처 정보의 풍부함, 컬러 cue 등의 장점을 가지고 있기 때문에 가장 많이 사용되는 센서임. 하지만 검토를 통해서 영상 분석이 그리 단순한 문제가 아니라는 것은 명백히 알 수 있었음: cluttering, 조명, 여러 다른 요소들은 성능에 영향을 주게 됨. 또한, VS는 광원의 이글거림(glaring)에 영향을 받는 반면에 TIR은 다른 hot한 객체(: 차량의 엔진, 등주(light poles)), 날씨 환경의 변화(상대적인 온도 변화), 계절 등에 영향을 받게 됨[131]. 사실 이러한 요인들로 인해 보행자는 배경보다 따뜻할 수도 있고, 차가울 수도 있음[132].
  • 상호 보완을 통한 정보 취득에 사용되는 VS/TIR 센서 및 active 센서의 융합은 보드 상에서의 보행자 검출 관점에 특화 시켜 연구되고 있음. 서로 다른 센서들이 가지고 있는 강점 및 약점은 전체적인 성능 개선을 위해 상호 보완되고 있음. active 센서들은 신호를 방출하고 특정 환경에 있는 객체로부터 반사된 정보를 관측하는 기술을 기반으로 하고 있으며, radar의 경우 전파(radio wave)를 방출하며, laser scanner의 경우 적외선을 방출함. 일반적으로 active 센서들은 passive 센서 대비 좀 더 큰 거리를 추정할 수 있는 우수한 범위를 제공함.

앞으로 센서 융합이 구현된 시스템들을 살펴볼 예정이며, 4는 가장 연관된 시스템에 대한 요약을 제공하고 있음.

2.7.1 Review

  • Fardi [133]에서, 칼만 필터를 데이터 융합 알고리즘으로 사용하여, ROI 선택을 위해 레이저 스캐너와 TIR shape 추출 기법을 결합하는 방식을 제안함. Premebida [134]에서, 1차원 레이저 스캐너를 따르는 점들의 군집을 분할하고 추적하는 방식을 제안하였으며, 레이저 스캐너(가우시안 혼합을 이용하여 군집의 중심, 표준 편차, 반경 등을 모델링 함) VS(Haar wavelets AdaBoost를 이용함)로부터 취득한 데이터를 활용하여 분류를 함. Milch Behrens [135]에서 가설hypotheses) 생성을 위해 radar와 속도, 조향(steering) 센서 등을 이용함. 이들은 VS 또는 TIR 스펙트럼 영상에서 shape model을 이용하여 분류를 수행함. Linzmeier [136]에서, radar를 이용했지만, thermopile 센서, 조향 각(steering angle) 센서, 외기 온도(ambient temperature) 센서 등을 함께 결합시킴. 이 경우, 융합은 저수준(radarthermopile를 결합하여 ROI 생성)과 고수준(모든 센서들에서 ROI는 독립적으로 생성)에서 모두 이루어짐.
  • 2개의 카메라로부터 VS와 TIR 스펙트럼을 결합하는 방식이 제안이 됨. [137]에서, Bertozzi는 VS를 이용하여 v-disparity를 계산하고, VS와 TIR(2차원 영역 중첩과 3차원 정보가 융합 cue로 사용됨) 영상을 모두 이용하여 전경 분할을 수행함. 최종적으로 TIR 내 최종 검출을 분류하고 검증하고 개선하기 위해 대칭 및 템플릿 정합이 사용됨. Krotosky와 Trivedi는 [57]에서, VS와 TIR 영상 모두를 활용하여 tetra 및 tri-sensor 시스템을 평가함. 일례로, tri-sensor를 이용한 접근에서는 ROI 생성을 위해 VS스테레오 쌍을 찾았으며, VS, TIR, 변이 기반 HOG-like 특징은 분류를 위해 SVM에 전달되어짐.
  • SAVE-U project [129] 시스템 중에 하나는 VS 및 TIR 카메라에 radar 센서를 부착시킴. 이들은 3가지 서로 다른 수준(level)의 융합을 수행함: 센서, 저수준, 고수준. 1) 첫번째 level은 서로 다른 radar 검출(각 센서로부터 독립적임) 결과를 유일한 실제 객체로 연관 짓고, VS와 TIR 영상 사이의 대응 관계를 설립하는 것을 목적으로 함. 2) 저수준 융합을 위해, 히스토그램 에지 방향에 기반한 알고리즘을 적용하여, VS 영상에서 먼저 ROI가 검출이 되고, 그 후에 radar 데이터에 의해서 resizing이 됨(예: 정확한 radar 거리 추정을 이용하여 지면을 조절함). 최종적으로 section 2.3의 NN-LRF를 이용하여 분류를 수행함. 3) 고수준 융합에서는 각 객체의 radar 및 VS 영상 정보(거리 및 방위각)를 연관 지은 후 이들의 궤적을 추적함.

2.7.2 Analysis

ADAS를 위한 센서 융합은 열려있는 연구 영역이며, 실제 환경에서 설득력 있는 결과를 보이기 위해서는 아직 훨씬 더 많은 연구들이 필요함.

  • 각 센서들이 각자 실패하는 경우가 있다는 것을 고려해보면, 이상적인 센서 조합은 확실하게 이루어져야 함. 일례로, SAVE-U project [129]의 결론은 비록 radar camera의 조합이 단순한 테스트 트랙에서는 잘 동작하지만, 실제 환경에서는 다른 객체로부터의 반사로 인해(사람은 낮은 반사율을 가지고 있음), 10~15m 거리에서는 radar의 신뢰성이 떨어지게 됨. 적외선을 이용하여 동작하는 레이저 스캐너의 경우 정확한 거리 추정을 제공하면서 보행자 검출을 할 수 있기 때문에 많은 연구자들로부터 점점 더 관심을 받고 있지만, radar와 달리 불리한 날씨 조건에서는 카메라와 비슷하게 좋지 않은 영향을 받게 됨.

3 BENCHMARKING

얼굴 검출이나 문서 분석과 같은 영역과는 대조적으로 ADAS를 위한 보행자 검출 영역은 잘 확립된 데이터베이스와 벤치마킹 프로토콜이 부족함. 실용적인 공용 데이터베이스의 부족과 출판된 기술들의 구현에 대한 어려움 등은 연구자들이 본인이 제안한 새로운 방법들을 개인적인 데이터베이스만을 이용하여 평가 하도록 만들었으며, 최신 방법들과의 어떠한 비교도 하지 못하게 됨.

공용 데이터베이스는 2가지 이유에서 반드시 필요함:

  • 1) 서로 다른 연구그룹들이 다른 조건과 장소에서 취득한 여러 example set을 이용하여 알고리즘을 평가하기 위함.
  • 2) 새로운 알고리즘을 기존 알고리즘과 비교하기 위함. , 기존 알고리즘을 다시 구현하는 것이 어렵기 때문에 가장 쉽게 비교를 하는 방법은 동일한 기준에 따라 동일한 데이터베이스를 사용하여 나온 결과를 비교하는 것이라고 할 수 있음.

3.1 Classification Benchmarking

ADAS 용 보행자 데이터베이스: 현재 ADAS용으로 만들어진 공용 보행자 데이터베이스는 2가지가 있음. 이들은 일반적인 ADAS 상황에서, 도심지 내 동일한 도로 면을 바라보면서(감시 분야에서 처럼 카메라 tilt가 큰 경우는 없음) 움직이는 차량으로부터 취득한 샘플들을 포함하고 있음.  

  • 1) Daimler Chrysler (DC) Pedestrian Classification Benchmark [87]: 매우 낮은 해상도를 가진 샘플이 포함됨(18 x 36 픽셀)
  • 2) Computer Vision Center (CVC) Pedestrian Database [30]: 영상 취득 시 원래 크기를 유지하고 있음(140 x 280 ~ 12 x 24 픽셀)

ADAS 용 사람 데이터베이스: 사람들의 형상이 ADAS와 연관이 있는 한(같은 면을 바라보면서 서 있는 경우) 사용을 할 수 있음.   

  • 1) MIT Pedestrian Data set [32]: [31]에서 거의 완벽하게 분류를 했으므로 구식의 데이터베이스임.
  • 2) INRIA Person Data set [31]: 일반적인 사람 분류 평가 시스템에서 가장 많이 사용되고 있음. 하지만 고해상도 사진으로부터 취득한 상당한 양의 샘플들을 포함하고 있음.   
  • 3) USC Pedestrian Detection Test Set [84]: ADAS와 유사한 보행자 샘플을 포함하고 있으며, 샘플들은 전면 view/후면 전체 view”, “전면 view/부분적으로 사람간의 가려짐이 있는 후면 view”, “전면 view/후면 view/측면 view” 등으로 구성이 되어 있음.

5는 이러한 데이터베이스에 대한 요약을 나타내며, 그림 9는 약간의 positive sample들을 보여주고 있음. 여기서 샘플들의 수는 주석이 있는(annotated) 실제 보행자 샘플들의 개수를 뜻함; 이 개수는 종종 mirroring 또는 윈도우 픽셀 이동에 의해서 증가하게 됨(: DC 데이터베이스는 최종적으로 24,000개의 샘플을 포함함).

3.2 Evaluation Protocols

분류기의 성능을 평가하기 위한 가장 단순한 프로토콜은

  • 1) 훈련 set보다는 테스트 set의 샘플 set을 이용하여 분류를 하고 performance curves plot하는 것임. 예를 들면 receiver operating characteristic (ROC), detection-error trade-off (DET) 등을 이용하는 것임. 본 논문에서는 이러한 프로토콜을 database-based test라고 칭하며 이는 [31], [87], [30] 등에서 사용됨.
  • 다른 접근으로는 2) 모든 가능한 ROIs를 분류하고 positive detection이 올바른지의 여부를 결정하기 위한 몇몇의 기준(: 주석이 달린 보행자와의 겹침 비율이 50% 이상인가?)에 따라 동일한 curve plotting(: precision-recall)함으로써 전체 영상에 대해 분류기를 테스트 하는 방법이 있음. 이러한 접근은 [110]과 잘 알려진 PASCAL Challenge( http://pascallin.ecs.soton.ac.uk/challenges/VOC/ )에서도 사용이 됨
  • 본 논문에서는 이러한 접근을 full-image-based test라고 칭함. 첫번째 프로토콜은 분류기 모듈을 평가하는데 사용이 되었으며, 두번째 프로토콜은 전체적인 시스템 결과에 대한 평가를 하는데 보다 편리하게 사용이 됨. 다른 성능 측정은 분할 측의 정확성 및 효율성과 궤적/경보 등으로 구성이 되어 있음. 여기서 분할 측의 정확성 및 효율성은 full-image 기반 접근[47]을 이용하여 TIR 영상 내에서 검출을 평가하기 위해 사용되며, 궤적/경보는 추적 및 적용 모듈을 고려한 평가를 위해 사용됨[70].

6은 몇몇 시스템들의 성능에 대한 데이터를 요약하여 보여주고 있음. 2~5까지의 열은 파라미터 및 사용된 분류기의 성능을 나타내고 있으며, 6~8까지의 열은 사용 가능한 전체 시스템의 결과를 나타내고 있음. 여기서 negative sample의 개수는 매 분류기마다 변화하기 때문에 false positive 비율은 직접적인 비교가 불가능함.

3.3 Future Needs

비록 이러한 2가지 프로토콜이 표준 벤치마킹 tool로서 도움이 되긴 하지만, 여전히 정의를 필요로 하는 측정 기법들이 있음. 예를 들면, 검출 결과가 중첩되는 경우나 비논리적인 오검출이 발생하는 경우, 분류기 ROI 선택에 사용되는 다른 기법들(: 전체 scan[31], PSC-기반 또는 좀 더 복잡한 기법들[97])에 대해 측정하기 위한 표준적인 방법이 없음.

특히 아래와 같은 양상에 대해서, 데이터베이스도 여전히 개선을 위한 여지가 있음.

  • 수량(Quantity): 새로운 개선을 목적으로, 얼굴 검출에서 평가를 위해 사용된 데이터베이스의 개수는 20개 이상이지만, PPS에서는 단지 5개에 대해서만 테스트가 됨.
  • 대표성(Representivity): 예를 들어, 보통의 데이터베이스들은 아이들 또는 키가 큰 사람들의 영상을 포함하고 있지 않기 때문에 이들은 전형적인 PSC에서 제외가 됨. 하지만 아이들이 도로를 횡단하는 경우는 충분이 있을 수 있는 상황임.
  • 변동성(Variability): 옷, 자세, 조명 이외에도, 높이, 거리, 가려짐의 정도, 배경의 복잡함 등의 요소는 보행자의 변동성을 증가시키게 됨(여기서, 가상으로 보행자를 합성하는 것은 많은 도움이 될 수 있음).
  • 해상도(Resolution): 몇몇 데이터베이스들은[31]은 사진기로부터 취득되었기 때문에 보행자 영상의 초점이 잘 맞춰져 있으며, 이는 PPS에서 타겟이 차량에 가깝다는 것을 말함. 따라서, 주어진 분류기의 동작 가능한 거리와 먼 거리의 타겟(흐려지고 적은 픽셀 개수를 포함하고 있는)의 검출 결과에 대한 추론이 가능한지를 결정하는 것은 어려운 일임.
  • 센서(Sensors): 지금까지는 가시 광선 스펙트럼 내 데이터 set을 살펴보았지만, ADAS에 특화된 TIR 영상 기반의 공용 데이터베이스를 살펴볼 경우, 어떤 것도 찾을 수 없음. 공용 TIR 데이터베이스로 OTCBVS[141]( http://www.cse.ohio-state.edu/otcbvs-bench )이 있긴 하지만, 이는 ADAS용 벤치마킹을 위해서는 부적합함. 동일한 이슈는 레이저 스캐너나 radar와 같은 active 센서들에서도 나타남.          

PPS의 향후 challenge는 새로운 공용 데이터베이스와 완벽하게 주석이 달린(annotated) 시퀀스 등을 필요로 한다는 것임. 일반적인 벤치마킹 프로토콜과 데이터베이스는 분류에 제약을 받으면 안되며, 다른 모듈과 전체 시스템으로 확장 되어야 함. 이런 의미로, 관련 커뮤니티에서 많은 관심을 받을 수 있는 향 후 데이터베이스 개발을 위한 지침에 대해서 다음과 같이 목록화 함:

  • 1) 전체 시스템의 평가를 위한 full train test 시퀀스(단지 스틸 영상이 아닌)가 필요함.
  • 2) 전경 분할 모듈에 대해 구체적인 연구를 할 수 있도록 foreground segmentation ground truth가 필요함.
  • 3) 추적을 위해 제안된 알고리즘과 특징의 평가를 위한 tracking ground truth가 필요함. 4) multiclass 알고리즘들과 같은 새로운 객체 분류 패러다임을 훈련하고 평가하기 위해, 시야 및 거리의 관점에서 좀 더 풍부한 보행자 주석(annotation)이 필요함.

저자[142], [143]들과의 개인적인 교류에 따르면, 이러한 challenge들을 다루는 새로운 데이터베이스가 곧 나올 것으로 예상이 됨.

4 DISCUSSION

보드상에서 동작하는 완벽한 PPS는 위험이 없는 경우에는 운전자에게 방해가 되지 않아야 하며, 차량이 보행자를 향하는 위험에 반응하도록(운전자에게 경고, 차량 제동, 외부 에어백 작동, 회피기동(evasive maneuver)을 수행) 차량 내에서 보행자의 출현을 검출할 수 있어야 함. 또한 이러한 시스템은 시간, 도로, 날씨 조건에 독립적으로 우수하게 동작을 해야 함. 추가적으로, 보행자 검출 모듈의 비용은 차량의 전체 비용보다 상대적으로 낮아야 함.

  • 자동적으로 사람을 검출하기 위해 지난 10년 동안 상당한 노력의 연구들이 진행되었다는 것은 분명함. 과학계는 상당한 진보를 가져왔지만, 동시에 이상적인 PPS의 완성을 위해 아직 중간 단계에도 오지 못했음.
  • 이러한 상황을 설명하기 위해, [9]에서 영감을 얻은 추리의 방향을 따라서 살펴봄. 실제 PPS 상황에서, 10 퍼센트의 false positive (FP) 비율로 95 퍼센트의 검출율을 보이는 Shashua[97](모빌아이의 연구임)가 제안한 분류기를 사용한다고 가정을 해봄. 만약 낱낱 탐색에 의해서 생성된 200,000개의 ROIs를 가지고 있을 경우, 해당 분류기는 20,000 FP/frame을 제공하게 됨. 만약 후보의 개수가 전경 배경 기술을 적용하여 영상 당 1,000개씩 줄어들게 되면, FP의 개수는 100으로 줄어들게 됨. 또한, 저자는 이 개수를 점검을 위해 필요한 단지 75개의 ROIs로 줄이도록 주장함. 이 숫자는 영상 당 7.5 FP을 나타내며, 이는 25 fps 상에서 초당 187.5 FP에 해당함. 추적 모듈을 적용하여 검출 결과를 필터링 하고 최종 숫자를 약 1 FP/s로 줄일 수 있지만, 1 FP/s(예: 60 FP/minute) 조차도 PPS를 위해서는 충분하지 못함.

보행자 검출을 위해 현재까지 수행된 연구들은 가능한 challenge의 일부분만을 다루고 있으며, 다뤄야 할 몇 가지 중요한 질문들은 아래와 같음.

  • Part에 대해 신뢰할만한 분류가 필요하다는 것을 감안했을 때, part 기반 방법들 조차도 보행자의 몸 전체가 보여진다는 가정을 하고 있음. 가려짐(occlusion)을 다루는 것은 중요한 이슈(: 보행자는 주차된 차량 뒤에서 갑자기 나타날 수 있음)이며, 보행자가 부분적으로 보여질 경우 이러한 방법들이 어떻게 작동하는지는 불분명함.
  • 야간 보행자 검출과 관련된 연구들은 거의 수행되지 않음. 제한된 연구들이 수행되긴 했으나, TIR 스펙트럼 상황에서 수행되었으며, 중요한 것은 운전자는 야간에 보다 많은 도움을 필요로 한다는 것임(저조한 조명, 컨트라스트, 컬러 등으로 인함).

4.1 First Intermediate Useful Challenge

완벽한 PPS를 만들기 위해서는 장기간의 목표를 가지고 접근해야 함. 제한된 상황에서 동작하는 PPS의 개발만으로도 이미 유용할 수 있음.

  • 예를 들어, 50m까지의 거리 범위 내에서 좋은 날씨 환경(폭우//안개는 제외)의 낮에만 동작하는 시스템을 개발하는 것은 연구기관들이 수행해야 할 가장 우선적인 중간 challenge라고 할 수 있음. [114]에서는, 이러한 조건은 실제 사고와 상당히 연관된 상황임을 제시하고 있음.  

4.2 Imaging Technology

검토된 문헌들에 따르면, 최신 스테레오 기술들은 약 50m 이상의 유용한 3차원 정보를 제공할 수 있으며, HDR은 우수한 대비를 가진 NIR 영상을 제공할 수 있기 때문에 가장 희망적인 선택은 HDR 카메라를 장착한 스테레오 기반의 보행자 검출을 수행하는 것임.  

  • 야간 환경 때문에 TIR 영상이 최근 몇 년 동안 상당히 많이 사용되었지만, 이러한 기술이 궁극적으로 양산 제품으로 선택될지는 미지수임. 불행하게도, 이러한 카메라는 상당히 값이 비싸며, 낮은 해상도를 가지고 있고, 차량의 앞창을 투과할 수 없기 때문에 타당한 결과를 제공하지 못함.
  • 본 논문의 견해로는 비록 TIR을 기반으로 한 연구들이 흥미롭긴 하지만, 다음과 같은 관점을 고려해봤을 때 NIR 센서가 더 많은 관심을 받아야 된다고 판단됨.
    • 1) 최신의 전조등 시스템들은 가시광선과 근적외선 범위를 포함하며, 새로운 움직임 기능을 가지고 있기 때문에 표준적인 low beam[145]보다 우수한 가시성을 제공함.
    • 2) NIR 영상은 VS 영상과 상당히 유사하기 때문에 낮에 동작하는 시스템에서도 TIR 영상보다 쉽게 적용할 수 있음. 3) 차선 이탈 경고 또는 교통 표지판 인식과 같은 다른 종류의 ADAS 응용 분야에서 NIR에 비해 TIR은 부적합하다고 판단이 됨.

4.3 Improving Overall System Performance

실시간 반응과 검출율 대비 오경보에 대해서 언급을 하고자 함. 개별적인 모듈을 개선하는 것은 좀 더 우수한 시스템의 성능을 보일 수 있지만, 대부분의 연구들은 검출 성능에 구체적인 초점을 두고 객체 분류 task를 중점적으로 연구함. 연구자들은 변별력(discrimination power)을 높이거나 계산 시간을 빠르게 하기 위해 특징과 learning machine을 개선하고자 노력함. 이러한 연구 흐름은 바른 방향이며, 아래와 같이 몇 가지 제안을 하고자 함.

  • 서로 다른 보행자 모듈을 고려하여 다른 종류의 타겟(: 차량)을 점검하며, 시스템의 강건함을 증가시키기 위해서는 Multiclass 접근을 포함시켜야 함.
  • 분류기의 성능을 개선시키기 위해 3차원 측정이 2차원 정보와 함께 사용 가능한지 살펴보는 것은 관심사가 될 수 있음.
  • 카메라로부터 더 가깝게 위치한 보행자가 멀리 위치한 보행자보다 더 많은 세부 정보를 볼 수 있다는 것을 감안해보면, 타겟의 거리에 따라 서로 다른 분류기 모델을 훈련시킬 때 취할 수 있는 이점과 관련된 연구를 하는 것은 관심사가 될 수 있음.
  • Part 기반 방법들과 관련된 연구는 자세의 변동성을 다루는 이점을 가지며, 부분적으로 가려진 보행자들에 초점을 맞춰서 수행되어야 함. 이러한 수정 사항들은 몇몇 경우에 있어서, PPS의 결과가 좀 더 낮은 검출 반응 시간을 갖도록 해줄 것임.  

검출에 있어서 잠재적인 개선에도 불구하고, 완벽한 분류 모듈을 생각하는 것은 비현실적인 일임. 결국 목표는 시스템 레벨에서 misdetectionsfalse alarms도 모두 없도록 하는 것임. 따라서 모든 모듈들이 이러한 목표를 위해 어떻게 기여를 할 수 있는가에 대해서 생각을 해야 함.

전경 분할의 높은 연관성은 고립된 모듈 또는 분류 모델과의 통합 중 하나로 중점을 두어야 하며, 2가지의 이점이 있음:

  • 1) 분류가 가장 많은 시간을 소비하는 task임을 고려해봤을 때, 처리되어야 할 영상 영역을 줄이는 것은 시스템의 전체적인 시간을 줄일 수 있음.
  • 2) 분류에 보다 적은 배경 영역을 전달함으로써, 동일한 검출율을 유지하면서 오경보율을 줄일 수 있음. 게다가 이 모듈은 또한 전형적인 임의의 example을 선택하는 것 대신에, 복잡한 negative example을 선택하는데도 유용함. 따라서 learning machine은 배경을 제외하면서 보행자로부터 복잡한 전경을 구별하는데 집중할 수 있게 되고, 연관된 performance curve는 훨씬 더 의미 있고 현실적이게 됨. 마지막으로 본 논문에서 3차원 정보를 이용한 접근을 우선으로 여기지만, 2차원의 전주의적(preattentive) cue와 context의 융합은 강건함을 위해 적절한 이점을 얻을 수 있다고 말 할 수 있음.

변화하는 배경을 가진 실외 상황에서 egomotion을 다뤄야 한다는 이유로, PPS를 위한 Tracking은 감시 분야와 같은 다른 응용 분야처럼 많은 주목을 받지 못함.

  • 하지만 이러한 모듈은 시스템의 전체적인 성능을 향상 시키기 위한 상당한 잠재력을 가지고 있음. 여러 프레임에 기반한 최종적이 분류는 단일 프레임에 기반한 분류보다 훨씬 더 강건함. 이는 시간 축을 따라서 추가적인 특징을 수집할 수 있으며[79], 시간적인 일관성 분석을 할 수 때문임. 일례로, 먼 거리의 보행자는 영상 내에서 보다 작게 보이기 때문에 분류하는데 좀 더 어려움이 있음; 그러므로, track-before-detect 전략을 신뢰할 수 있음. 좀 더 가까운 타겟에 대해서는 시스템의 latency가 낮아야 하기 때문에 detect-before-track 전략을 예상될 수 있음. 다행히도 좀 더 가까운 타겟은 더 많은 세부 정보를 가지고 있기 때문에 좀 더 쉽게 분류를 할 수 있음. 추가로, 향 후 연구들은 이전에 언급한 차량으로부터 취득된 정보들(속도, yaw rate )과 몇몇 기법들을 적용한 영상 안정화[24], [26]를 활용하는 방향으로 진행되어야 함.

검토를 통해 active 센서(: radar, 레이저 스캐너)는 실시간으로 3차원 정보를 취득할 수 있는 좋은 솔루션이라는 것을 확인했음(: 전경 분할에 적용).

  • 일례로, HDR 카메라를 장착한 레이저 스캐너는 ROI의 생성 및 분류를 하기 위한 간단한 선택이 될 수 있음. 컴퓨터 비젼 기술들이 active 센서를 유지하는데 드는 비용보다 저렴하므로, 컴퓨터 비젼 연구단체들의 challenge active 센서 기반 구성을 능가하는 시스템을 개발하는 것임. 예를 들어, HDR 카메라를 기반으로 한 스테레오 장비를 사용하는 구성은 낮과 밤 모두에서 신뢰할만한 전경 분할과 분류를 제공할 수 있을 것임.

PPS 개선을 위해 이전에 언급한 방법들에 추가로, 실제로 상호 보완 전략이 연구중이며[146], 이 연구의 핵심은 driver in the loop(운전자가 중심이 되는)이라고 할 수 있음.

  • , 운전자의 상태를 고려하는 것을 말함. PPS의 목적은 운전자의 대체가 아닌 운전자를 돕는 것이기 때문에, 운전자가 도로에 집중을 하고 있다면 관련 정보로 인해 운전이 방해되는 일은 없어야 함. 반대로, PPS는 운전자가 보행자를 보지 못해도, 도로 영역에 있는 위험한 보행자들을 운전자에게 경고 해줄 수 있어야 함(: 보행자는 갑자기 측면 방향에서 나타날 수 있음). 이러한 연구들보다는 운전자 관찰(: 운전자와 실외 영상간의 동기화된 데이터베이스의 개발)과 심리적인 측면(, PPS로 인해 운전자는 의도적으로 덜 집중하게 되며, 이로 인해 위험이 발생할 수 있음)에 대해 더 많은 연구들이 요구됨.

5 CONCLUSION

  • 지능형 차량은 보행자 및 차량 사이에서 발생할 수 있는 다수의 사고를 줄일 수 있는 핵심 기술임. 규제가 없는 실외 상황에서 실시간으로 변화하는 타겟을 검출하는 시스템적 어려움을 고려해봤을 때, 보행자 보호는 결코 쉬운 task가 아님. 따라서 지난 10년간 수많은 논문들이 이러한 문제점을 해결하기 위해 출판됨. 본 논문에서는 현시점까지 수행된 모든 연구들을 요약하는데 도움이 되는 것을 목표로 최신의 검토를 수행하였음.
  • 본 논문에서는 일반적인 차례 차례의 논문 검토가 아닌 방법으로 survey를 수행함. 차례 차례 검토를 하는 전략은 해결해야 할 문제의 구체적인 양상을 살펴봄에 있어서, 제안된 방법들 사이의 유사성과 차이점을 모호하게 만들 수 있음. 대신에, 본 논문에서는 보행자 검출 문제를 하위의 task를 가진 하나의 task로 여기고, 각각의 모듈에 책임이 부여된 논리적 모듈의 아키텍처를 제안함. 이러한 검토 전략을 통해 해당 영역의 뛰어난 연구자들이 수행한 연구들의 관점이 반영된 최신 기술의 수준을 볼 수 있음. 이에 따라, 본 논문에서는 각 연구들에서 수행된 서로 다른 하위 task들이 어떻게 명확하게 규명될 수 있는지 살펴보면서, 관련 문헌들의 검토 및 분석을 수행함. 특히 1996년부터 2008년까지 출판된 108개의 논문들에 대해 검토함. 또한 검토된 논문들뿐만 아니라 본 논문의 실험을 감안하여, 보행자 검출 분야와 관련된 관점을 논의한 section(DISCUSSION)을 포함시키고, 현재 수행된 연구들의 약점과 향 후 연구 방향을 제시함.
  • 주요 결론:
    • 지난 10년간 자동적인 사람 검출과 관련하여 상당한 노력의 연구들이 수행되었지만, 이상적인 시스템의 개발은 여전히 아직 멀었다고 판단됨.
    • 보행자 분류에 있어서 상당한 발전이 있었다는 것은 분명하며, 이는 주로 일반적 객체 검출과 얼굴 검출 및 감시 등의 적용 분야와의 시너지(synergy)에 의해 이루어짐.
    • 하지만, 유용한 수준의 성능을 보이는 보호 시스템이 양산 차량에 설치되기 전에 수행되어야 할 연구들은 여전히 많이 남아 있음.
    • 전경 분할과 추적과 같은 task 사이에 책임들은 공유되어야 하며, 단기간에 성능 평가에 대한 표준화를 위해서는 현실적인 공용 데이터베이스가 필요하다고 판단됨.
    • 이 분야의 미래 성과는 긍정적일 것이라고 판단됨.