[논문 읽기/2004] Pedestrian Detection for Driving Assistance Systems: Single-frame Classification and System Level Performance
Link: https://ieeexplore.ieee.org/document/1336346
Abstract
본 논문에서는
1) 단일 카메라 기반 보행자 검출 시스템의 기능적 구조적 분류에 대해서 설명함.
2) 비교적 단순한 분류기의 set을 이용하여 훈련 set의 cluster 상에서 반복적으로 훈련시킴으로써, 클래스(class)의 변동성(variability)을 분리하는 새로운 전략에 기반한 단일-프레임 분류에 대해 설명함.
3) 낮 시간의 정상적인 기상 조건 상태에서 보호 시스템이 충족해야 할 격차에 대한 논의를 통해, 낮 환경에서 단일-프레임 분류의 성능 결과와 시스템 레벨의 성능 수치에 대해서 설명함.
I. INTRODUCTION
본 논문에서는 차량에 장착된 주행 보조 제품의 시장을 목표로, 보행자 검출을 위한 단안 카메라 기반 시각 처리 시스템에 대해서 설명함.
일반적으로 시각 처리 시스템은 구름 낀 하늘, 강한 빛, 악천후로 인한 낮은 가시도, 영상 조건에 따른 넓은 dynamic range, 상황 변화, 낮/밤 주행 상황 등에서 발생할 수 있는 넓은 범위의 가시 조건에서도 잘 동작해야 함. 또한, 보행자 클래스는 아래와 같은 많은 이유에서 challenge함.
- 보행자는 다양한 자세를 취하고 있으며, 다양한 종류의 옷을 입고 있으며, 몸의 관절부분이 다양하기 때문에 클래스 내 영상 공간의 변동성이 상당히 크게 됨. 또한, 몸의 관절 부분은 영상 시퀀스를 이용한 보행자 추적 처리를 어렵게 함.
- 보행자는 대부분 상당히 복잡한 환경에 의해서 만들어진 배경 텍스처(인공 지물, 기타 차량 및 기둥, 나무 등으로 둘러 쌓여있는)를 가지고 있는 도심지 교통 환경에서 발견이 됨.
- 배경의 복잡함에는 모양(텍스처)과 깊이(depth)가 모두 포함됨. 열려 있는 도로의 경우 보행자는 깊이 변이 cue(스테레오 시야 등을 이용)를 이용하여 두드러질 수 있지만, 도심 도로 환경에서는 변이 복잡도가 심하기 때문에, 깊이 cue는 보행자를 분할하는데 유용하지 못함.
- 보행자는 좁은 영상 스트립을 차지하고 있으며, 나무, 기둥, 주차된 차량의 부분, 좁은 창문 등과 같은 다수의 배경 객체와 유사한 거리로 보일 수 있음.
- 측면 방향으로 움직이는 보행자는 강력한 cue를 형성하는 움직임 측정을 제공하는 중요한 서브 클래스를 형성함. 하지만 느리게 움직이는 차량들의 경우에는 안쪽으로 향하는 움직임 신호를 보이며, 여러 종류의 움직이는 구조물이 많은 환경에서, 움직이는 platform 상에서의 움직임 기반 분할은 여전히 어려운 문제임.
본 논문에서는 보행자 검출 시스템의 기능적 구조적 분류 하에, 새로운 단일-프레임 분류 알고리즘에 대해 상세한 제시를 함.
- 본 논문의 분석을 통해 단일 프레임 분류만을 사용하는 단일-프레임 검출 전략은 합당한 시스템 레벨의 성능을 보이기엔 부적합하다는 것이 중요한 양상으로 드러남. 다수의 지각적 결정(perceptual decisions)을 통합하는 것만이, 시스템이 충분히 신뢰할만한 수준을 보이면서 보행자를 분할 할 수 있도록 해줌. 따라서, 핵심은 시간(동적인 걸음걸이, 움직임 시차(parallax), 재검출 측정의 안정성), 상황에 특화된 특징(특정한 자세에서 다리의 위치), 차량(움직임 및 고정 모두)과 배경 내 정적 구조물들(기둥, 나무, 가드레일, 차선)로 구성되는 추가적인 객체의 카테고리 구축을 통해 생성된 것들 등에서 측정된 추가적인 cue들의 통합에 놓여 있음.
- 공간적 제약으로 인해, 본 논문에서는 단일 프레임 검출에 대한 상세한 내용에 대해 초점을 두고 다중-프레임 결정의 원리에 대해서는 단지 일반적인 관점으로 설명을 할 예정임. 마지막 부분에서는 본 논문에서 제안한 분류기의 상세한 비교 분석을 하고, 시스템 레벨 성능의 결과와 통계에 대해서 설명할 예정임.
II. FUNCTIONAL BREAKDOWN OF THE SYSTEM
장면 내 보행자의 형상(appearance)은 다수의 카테고리로 나뉠 수 있음.
- Pedestrians moving laterally(측면으로 움직이는 보행자): 시각적 움직임 분석은 자가(host) 차량의 움직임이 제거될 때 제공 가능한 검출을 위한 강력한 cue가 됨. 즉, 카메라가 움직이는 플랫폼 상에 장착되어 있기 때문에, 단순한 영상 차분은 적용할 수 없음. 다른 중요한 cue로는 동적(시간의 흐름에 따른 다리 위치의 변화[3], [17], [4]) 및 정적(단일 프레임 내 다리의 위치) 상황을 모두 포함한 보행 패턴 등이 있음.
- Stationary pedestrians in primary host vehicle path (”inpath”)(주로 자가 차량 경로 내에 있는정지된 보행자): 텍스처와 모양에 기반한 패턴 인식은 기본적인 정보임. 몇몇 경우에 있어서, 정적인 보행 위치는 유용할 수 있음. 기면(ground plane)[13], [11]으로부터 형성된 움직임 시차는 충분히 가까운 보행자들에 대해서 약한 cue를 생성하지만, 도심지 교통 환경의 복잡함과 가려짐으로 인한 도로 가시성의 저하로 인해 신뢰성 있는 추출이 어렵게 됨.
- Pedestrians moving longitudinally(세로 방향으로 움직이는 보행자): 정지된 보행자와 유사하게 세로 방향의 움직임을 이용하여 영상 처리를 통해 신뢰할만한 정보를 추출하기엔 많이 부족함.
- Stationary pedestrians out-of-path(경로에서 벗어나 있는 정지된 보행자): 자가 차량의 경로에서 벗어나 있는 정적인 보행자들이 안쪽으로 움직이는 것을 결정 했을 때, 검출 지연을 최소화하기 위해서 해당 보행자들의 검출이 이루어져야 함 – 경로에서 벗어나 있는 정적인 보행자들의 검출에 있어서 시스템은 이들의 외부 행동을 예상할 수 없기 때문에, 특정한 수준의 false positive가 발생할 수 있음.
보행자 시스템 아키텍처는 아래의 모듈을 통해 반복적으로 수행됨:
- (1) 후보 관심 영역의 생성: 모든 위치 및 모든 크기에 대해 사각형 모양의 영역을 이용하여 영상을 체계적으로 탐색하는 것은 계산량이 너무 많기 때문에 다루기 어려움. 주의적 메커니즘(attention mechanism)은 후보 보행자의 범위 및 크기에 대한 원근 제약을 함께 이용하여 특유의 텍스처 속성이 부족한 윈도우를 필터링 함. 대체로, 주의적 메커니즘은 프레임 당 75개의 윈도우(주의적 메커니즘이 없으면 수천개의 윈도우가 생성됨)를 생성하며 이는 분류기에 전달됨.
- (2) 단일 프레임 분류: 검출 과정의 핵심이며, 상세한 내용은 section III에서 논의할 예정임.
- (3) 다중-프레임 승인(Approval) 과정: 임계치 적용 후 단일 프레임 분류 결과에서 남게 된 후보들은 보행자에 해당할 수 있음. 하지만, 객체 클래스의 높은 변동성과 높은 수준의 배경의 복잡함 등으로 인해, 영상 텍스처가 우연히 일치하는 경우에도 높은 검출 스코어를 보일 수 있음 – 모호한 상황이 불가피하게 발생함. 더 많은 보강을 위해 여러 프레임에서 수집된 추가적인 정보가 사용이 됨. 다중 프레임 상에서 수집된 측정치는 다음을 포함함: (i): 주기성(periodicity)에 기반한 동적 보행 패턴, (ii): 안으로 향하는 움직임 분석에 대한 스코어(ego-motion과 결부된[14]), (iii): 움직임에 대한 시차(이용 가능할 때), (iv): 시간의 흐름에 따른 단일 프레임 분류기의 지속성(consistency) 측정, (v): 추적 품질(quality) 측정. 승인 과정은 훈련 set에 의해 훈련된 분류기의 결정-트리(decision-tree)를 기반으로 하고 있음. 승인 과정에 사용되는 프레임의 길이(개수)는 수집된 정보의 형태와 품질에 의존적임. 예를 들어 강하게 안으로 향하는 움직임이 있는 경우 결정 과정에 있어서 높은 순위를 가지게 되며, 즉각적인 승인을 유도하도록 함.
- (4) 범위(Range) 측정: 후보 영역은 사각형 영역의 낮은 부분이 발에 정렬되는 방식을 이용하여 보행자에 적합하도록 fitting됨. 걸음 걸이(gait) 인식 처리는 단일-프레임 분류 및 다중 프레임 승인에 있어서 판별식(discriminant)으로 사용이 되며, 범위 측정을 위한 cue로써 사용이 됨. 도로 평면 가정을 이용한 범위 측정 처리에 관한 상세한 내용은 [15]에서 찾을 수 있음.
상기의 4가지 기본 단계는 자가 차량의 ego-motion(Yaw와 Pitch)[14], 근접 범위의 움직임 분할(모양 분류와 상관 없이 안쪽으로 향하는 강한 움직임 추출을 위함), 강건한 추적(비정형 움직임과 보행자들이 서로 교차하면서 발생하는 가려짐을 다룰 수 있음)과 함께 (인가된 차량, 기둥, 가드레일, 반복적인 텍스처, 차선 표식 설명, 다리, 수평의 인공지물, 보행자 보행 지역 등을 포함하는)배경 영역 내 하위-클래스(sub-class)에 대한 분류 스코어의 중요성 등의 지원 기능과 결부되어 생각될 수 있음. 하위-클래스의 스코어는 다중-프레임 승인 처리를 위한 최종적인 결정-트리(decision-tree)에 있어서, 중요한 역할을 하게 됨.
이후 section부터는 단일-프레임 분류를 위한 본 논문의 접근법과 비교적 단순한 분류기의 set을 이용하여 훈련 set의 cluster 상에서 반복적으로 훈련함으로써, 클래스(class)의 변동성(variability)을 더 작은 부분으로 줄이기 위해 고안된 새로운 전략을 제시함.
III. SINGLE FRAME CLASSIFICATION ALGORITHM
팔/다리(limb)의 관절과 자세의 변화는 지역 영상(local image)의 통합을 이용한 표현(representation)을 기반으로 한 분류기의 필요성을 나타내며, 이는 전역(holistic=global) 표현과는 반대되는 개념임.
- 지역 영상 표현은 클래스의 변동성을 고유의 변동성을 가진 각각의 국소 부분(local part)으로 분해하며, 전체 모양보다는 훨씬 더 작은 변동성을 가지게 됨. 추가로, component 에 의한 표현은 분류 과정에서 component간의 유연한 기하학적 관계를 허용함으로써, 자세 및 관절 변화에 대한 보상을 할 수 있음.
- 분류 단계에 있어서 지역 표현의 통합은, [9]에서 사용한 특징처럼 비교적 정교한 지역 특징을 이용하는 최근접 이웃(nearest neighbor) 접근이나 [8]에서 사용한 계층적 SVM 접근과 같이 cascaded classifier의 통합을 이용한 접근처럼 오히려 성능이 악화될 수 있음.
위의 두 가지 지역 특징 통합을 이용한 접근법들은 보행자 검출 분야에 있어서 문제를 가지고 있음.
- 최근접 이웃 접근은 지역 기술자(descriptor)의 개수가 수천 개 이상으로 비교적 크며, 텍스처 정보가 풍부한 영역 상에 위치할 경우[9], 단일 표본(exemplar)(객체 클래스와는 반대되는 개념)을 정합할 때 매우 효과적인 방법이라는 것이 증명되었음. 보행자 검출 분야에 있어서, 보행자를 둘러싸고 있는 영상 영역들은 때론 저조한 텍스처 정보를 보이며, 작은 영역 크기로 인해, 많은 양의 뚜렷한 기술자를 생성하는 것은 어려움.
- 계층적 SVM은 각각의 지역 영역에 대해 별도로 SVM 분류기를 적용하므로 각각의 하위 영역은 실수로 사상(mapping) 되며(지역 결정 표면까지의 거리), 이는 하나의 지역 판별 함수(local discriminant function)로써 고려될 수 있음. 지역 판별의 결과는 해당 결과로 구성되는 특징 벡터에 대해 SVM 분류기를 적용함으로써 통합되어짐. 비교적 적은 지역 영역의 개수로 인해서, 각각의 하위 영역은 잘 구별되어야 하며, 변별력을 최대화 하기 위해 지역화되어야 하며, SVM의 context가 고차의 특징 맵(high order feature map)으로 변환될 수 있도록 상대적으로 정교한 component를 가진 분류기의 대상이 되어야 함(방사 기저 함수의 다항식(polynomial of Radial Basis Function)). 고차의 특징 맵을 위한 Support vector의 개수(분류 단계에서 사용되는 템플릿)는 비교적 크기 때문에(training set의 약 10% 정도) 분류 단계에 있어서 계산 비용이 많이 들게 됨. [8]에서는 2차 다항식 component 분류기(quadratic polynomial component classifier)가 사용되며, 여기서 지역 판별의 통합은 선형 분류기에 의해 이루어짐.
- 보행자 검출 분야에 있어서, 관심 영역의 작은 크기(분류기에 전달되는 후보 영역은 12X36 크기의 윈도우로 warped됨)와 정확한 위치 찾기를 매우 어렵게 만드는 저조하게 정의된 하위 영역 등으로 인해, 이러한 접근은 효율적인 단일-프레임 분류기를 만들기엔 충분히 강건하지 못함(section IV에서 비교 결과를 볼 수 있음).
A. Multi-training Classification by Components: Our Approach
본 논문에서의 단일-프레임 분류 단계를 위한 접근은 2 단계로 구성되는 분류기 알고리즘을 사용하는 recognition-by-components(컴포넌트에 의한 인식)의 아이디어로부터 도출되어짐.
- 즉, 관심 영역을 하위 영역(sub-region)으로 나누고, 각 하위 영역을 나타내는 지역 벡터(local vector)를 생성한 후, 각각의 지역 특징 벡터를 판별 함수에 전달하며, 두 번째 단계의 분류기를 이용하여 지역 판별 결과를 통합함.
- 인습적인 패러다임과의 결정적인 차이는 훈련 set을 취급하는 방식에 있음. 지역 하위 영역의 개수가 작기 때문에, 훈련 set을 상호 배타적인(mutually exclusive) 훈련 clusters들로 분할 함으로써 여러 개의 지역 판별(지역 하위 영역 당 1개씩)을 생성함. 여기서 각각의 cluster는 특별한 자세, 특별한 관절, 특별한 조명 상태 등을 고려하여 수집한 훈련 모음(collection)을 나타냄 – 훈련 dataset은 총 9계의 서로 다른 subset으로 구성이 되어 있음. 훈련 set을 subset으로 분할하는 것 뒤에 숨겨진 아이디어는 클래스의 전체적인 변동성을 관리가 가능한 부분으로 나눔으로써 비교적 단순한 component 분류기에 의해 정보량이 capture될 수 있다는 것임.
- 즉, 전체 변동성 공간을 커버하는 정교한 component 분류기를 찾는 것이 대신에, 훈련 set의 군집화 형식을 가지는 사전 지식을 적용함. 각각의 component 분류기는 여러 번 훈련되며(훈련 cluster 당 한번씩), 하위 영역 및 이들을 걸치는 다수의 판별 값들은 Adaboost[5]를 이용하여 함께 결합되어짐.
구체적 방법
- 먼저, 후보 영역을 그림 1과 같은 위치를 가진 고정된 구성으로 이루어진 9개의 중첩된 하위 영역으로 나눔.
- 그 다음에, 각 하위 영역에 대해 보행자의 팔과 사지의 관절 변화와 자세의 변화로 인해 야기되는 영상 구조의 지역적인 이동에 둔감하도록 고안된 지역 영상 기술자를 계산함.
- 특별히 고안된 기술자 벡터는 [9]에 의해 생물학적으로 영감을 얻은 모델로부터 도출되었으며, 본 논문의 비교적 작은 크기의 하위 영역에서 발생하는 필요한 변화를 따르게 됨.
- 특히 영상 그레디언트의 크기와 방향이 샘플링되고, 지역적인 이동에 대한 강건함은 2x2 샘플 영역에 대한 방향 히스토그램을 생성함으로써 얻을 수 있게 됨(예: 하위 영역은 2x2 크기로 구성되는 영역으로 세분화됨). 각각의 방향 히스토그램은 8개의 방향 bin을 가지고 있으며, 이들의 level은 그레디언트 크기의 smoothed version에 의해 가중치를 부여 받게 됨. 즉, 지역 기술은 총 2x2x8=32개 원소(element)의 특징 벡터로 구성되며 이들은 단위 길이(unit length)로 정규화가 됨(정규화는 조명 변화의 영향을 줄일 수 있음).
32 개 원소의 특징 벡터는 Ridge Regression[7]을 이용하여 선형 가중치를 적용 받게 됨.
- w∈R^32 : cluster의 positive 및 negative example을 이상적으로 분리하도록 형성된 원하는 가중치 벡터(아래 처리는 각 훈련 cluster에 대해 개별적으로 적용됨).
- x_i : i번째 훈련 영상에 상응하는 입력 지역 기술자(하위 영역의 특정한 위치)
- y_i= ±1 : 클래스 라벨
Ridge Regression 절차는 아래 목적 함수를 최소화하는 w를 찾도록 수행됨.
- α||w||^2+ sigma(y_i- w^T x_i)^2
여기서, α 는 미리 고정된 양의 상수 값임. 최적화 문제의 해는 closed form solution으로 설명될 수 있음.
- M : Gram matrix, M_ij= x_i^Tx_j
- A= [x_1, x_2, …] : column에 따른 입력 벡터를 가지고 있음, y=(y_1, y_2, …)
- 가중치 벡터 w는 w = A(K+αI)^-1y 와 같음.
- X의 판별식은 내적 w^Tx 와 같음.
특정한 훈련 cluster가 주어졌을 경우, 9개의 가중치 벡터(하위 영역 당 하나씩)와 이에 상응하는 하위 영역의 지역 기술자 사이의 내적은 9개 원소를 가지는 하나의 특징 벡터를 형성함.
- 4개의 추가적인 원소는 그림 1에서 설명하는 것과 같이 선택된 pairs들을 64개의 원소를 가진 지역 기술자와 연관지음으로서 추가되며, 이들 각각은 위의 Ridge Regression 절차에 의해서 4개의 원소로 변환이 됨. 훈련 cluster마다 13개의 원소를 얻게 되며, 후보 영역을 나타내는 117(=9x13)개의 원소를 가진 하나의 특징 벡터를 생성하게 됨.
훈련 set을 clusters로 분리하는 것은 해당 절차에서 결정적인 요소이며, 이렇게 하지 않을 경우에는 선형 판별식(하위 영역 마다)은 실제적인 사용에 있어서 너무 약한 분류기가 될 수 있음.
- 본 논문에서는 변동 공간(variability space)을 단순화(훈련 cluster로부터 유도된)하는 것은 보다 강한 지역 판별식을 찾는 것보다 훨씬 더 우수하다는 것을 발견하였으며, 이는 대부분의 지역 영상 구조는 이렇게 넓은 변동 공간을 구별하기 위한 충분한 변별력이 없기 때문임. 또한 지역 기술자의 선택은 팔, 다리, 머리 등의 구별 가능한 부분들을 위한 탐색과 같은 지역화된 특징(localized features)의 필요성을 무시할 수 있도록 해줌.
117개의 원소는 전체 훈련 set을 이용하여 Adaboost와 결합되며, 이들 각각은 클래스 판별을 형성한다는 관점에서 하나의 “weak learner”로써 고려될 수 있음.
- Adaboost의 주요 아이디어는 훈련 set의 각 example에게 하나의 가중치를 할당하는 것임. 초기에는 모든 가중치가 동등하지만, 매 회마다 weak learner는 하나의 hypothesis를 반환하며, 모든 example의 가중치는 hypothesis가 증가됨으로써 다르게 분류가 됨. 이런 식으로 weak leaner는 훈련 set 내 분류하기 어려운 example에 대해 초점을 두도록 강요되어짐. 최종적인 hypothesis는 모든 round의 hypothesis의 조합이 되며, 낮은 분류 에러를 갖는 hypothesis가 높은 가중치를 갖게 됨.
2-단계 분류 알고리즘의 설명은 위와 같으며, 다음 section에서는 본 논문의 접근을 holistic SVM과 2-단계 SVM과 비교하고, ROC 커브 내 상당한 개선이 있었다는 것을 설명할 예정임.
IV. EXPERIMENTAL RESULTS
성능에 대한 수치를 보여준 과거 연구들은 단일 프레임 보행자 분류를 주제로 하고 있음(참고: [2], [6], [8], [12).
- 일반적으로 어떠한 분류 시스템의 성능일지라도 miss-detection(false negatives)과 false detection(false positives) 비율 사이의 trade-off 관계에 놓이기 마련임. 예를 들어, false positive 비율을 위해 더욱 더 엄격한 제약을 부과하면 검출 성능은 하락하게 됨. 이러한 trade-off는 miss-detection 대비 false alarm 비율의 error를 plot해서 보여주는 ROC 커브를 이용하여 capture할 수 있음.
영상은 640 x 480 해상도를 가지며, 수평 FOV(field of view)는 47도임.
- 관심 영역은 12 x 36 크기의 픽셀을 채우기 위해 스케일링(up 또는 down)되었으며, 해당 관심 영역은 단일 프레임 분류기에 전달됨.
- 훈련 set은 54,282개의 instance로 구성이 되며, positive(보행자)와 negative의 example 개수는 동일하게 나눠서 이용함. negative example은 시스템의 주의적 메커니즘(attention mechanism)에 의해 생성된 window를 샘플링하여 자동적으로 생성되었으며, 주의적 메커니즘은 후보 보행자의 범위 및 크기에 대한 원근 제약을 함께 이용하여 특유의 텍스처 속성이 부족한 윈도우를 필터링하게 된다는 것을 인지하는 것은 중요함. 즉, negative example은 random image 조각(fragment)이 아님.
- 주의적 메커니즘에 의해 분류기에 전달되는 window는 평균적으로 프레임 마다 75개가 생성이 됨.
- 테스트 dataset은 15,244개의 instance로 구성되어 있으며, 훈련 및 테스트 set 모두는 넓은 범위의 낮 조건들을 포함함(스케일(3m~25m 범위), 자세, 관절, 조명, 배경 텍스처, 날씨 상태, 가시 조건의 스펙트럼(대부분 좋지 않은 날씨로 인한)). 훈련 및 테스트 set은 일본, 뮌헨, 디트로이트, 이스라엘 등의 전세계 도시의 교통 조건을 커버할 수 있도록 50시간 동안 운전하여 추출됨.
그림 2는 테스트 set에 대한 ROC 커브(가장 위의 커브)를 나타냄.
- 본 논문에서 제안한 분류기를 이용한 결과 false positive 비율이 5.5% 일 때 detection 비율이 90%인 결과의 커브를 볼 수 있음(매 18개의 검사된 window에 대해 1개의 false positive를 의미함).
- 본 논문에서는 93.5%의 detection 비율을 trade-off로 선택함. 이는 8%의 false positive 비율을 보이며, 이는 대략적으로 매 12개의 검사된 window에 대해 1개의 false positive를 보여줌.
그림 3은 false positive의 샘플과 단일 프레임 분류 단계에서의 false negative를 보여주고 있음.
- 잘못된 스케일에서 보행자를 포함하고 있는 window는 시스템이 해당 영역을 시간에 흐름에 따라 신뢰성 있게 추적할 수 없기 때문에 false positive로 고려되며, 해당 영역은 다중-프레임 분류 단계를 통해 최종적으로 제거가 될 것임.
독자들은 위의 수치가 이전에 출판된 논문들의 결과보다 현저하게 저조하다는 것을 알 수 있을 것임.
- 예를 들어, [12]에서는 Global SVM을 64 x 128 크기의 window에 적용하여 15,000개의 검사된 window 마다 1개의 false positive를 보이는 81.6%의 detection 결과를 보고함.
보고된 결과와 본 논문의 결과의 차이는 다양한 이유가 있음
- (i) [12]에서 사용한 테스트 set은 단지 165개의 positive example로 구성이 되어 있으며,
- (ii) 체계적으로 영상을 스캐닝하면서 생성된 negative example들이기 때문에 본 논문의 주의적 메커니즘에 의해 생성된 example과는 반대로 “상당히 쉬운” negative example이며,
- (iii) 본 논문의 시스템에서 종종 다뤄야 할 열화된 영상과 반대되는 보다 상세한 정보를 가진 다른 window 크기(64 x 128)를 사용하였으며,
- (iv) 본 논문의 훈련 및 테스트 set은 모든 자세를 커버하는 반면에, [12]의 경우에는 단지 후면과 정면의 자세만을 커버하며,
- (v) 특정한 dataset을 통해 커버되는 변동성의 수준(예: challenging한 상황의 정도)이 어느 정도인지 불분명하기 때문에, 비교를 하기가 어려움.
- component 기반 2-단계 SVM에 대한 유사한 성능 수치가 [8]에서 보고 되었으며, 여기서, ROC 커브는 10,000개의 검사된 window에 대해 1개의 false positive를 보이는 90%의 detection 결과를 가짐.
논문에 나와 있는 성능 수치만을 이용하여, 다양한 접근들의 비교를 위한 기준치를 마련하는 것은 어렵기 때문에 본 논문의 훈련 및 테스트 set을 이용하여 global SVM과 2-단계 SVM에 대한 성능 평가를 수행함. 이를 통해 단일 프레임 분류 단계에서의 성능 평가의 비교를 위한 일반적인 기준치를 마련할 수 있음.
- 그림 2의 가운데 ROC 커브는 [12]에 있는 절차에 따라서 SVM(quadratic kernel function을 적용)을 이용하여 훈련된 2차 다항식 분류기(quadratic polynomial classifier)를 보여줌.
- 그림 2의 맨 아래쪽 ROC 커브는 [8]에 있는 절차를 적용한 2-단계 SVM을 나타내며, 여기서 9개의 하위 영역과 하위 영역을 묶은 4개의 pair는 2차 다항식 SVM(quadratic polynomial SVM)을 이용하여 분류가 되었고, component 조합은 선형 SVM을 이용하여 수행되어짐.
- 독자들은 원 저자의 결과와는 반대로 왜 component 2-단계 SVM이 global SVM보다 저조한 성능을 보이는지 궁금할 수 있음. 본 논문의 의견으로는 작은 하위 영역 내 저조하게 텍스처 정보가 있는 경우 이들 각각은 전체 변동성 공간에 대한 충분한 변별력을 갖지 못하도록 만들게 됨. 이는 변동성을 좀 더 작은 부분으로 분류하는 본 논문의 접근의 중요성을 말하며, 이를 통해 작은 하위 영역은 충분한 변별력을 갖게 됨.
- 비교하자면, [8]에서 사용된 하위 영역의 크기(범위: 28x28~69x46)는 비교적 크기 때문에 근본적인 영상 텍스처는 보다 변별력을 가질 수 있음. 어떠한 경우에 있어서도, 양쪽 ROC 커브는 본 논문의 분류기에 대한 ROC 커브보다 상당한 양만큼 균등하게 저조함.
본 논문의 분류기의 ROC 커브로 돌아가서, 단순한 계산은 단일-프레임 분류만을 이용한 경우에 신뢰할만한 시스템 레벨 성능을 예상하는 것이 비현실적이라는 것을 보여줌.
- 이전에 언급했듯이, 프레임 마다 75개의 window가 검사되며, 주어진 10HZ의 처리율을 고려했을 경우 한 시간 주행 시 2천 7백만개의 분류 쿼리에 도달하게 됨.
- 3시간 주행 시 마다 1개의 오검출을 허락할 경우, 10-8의 false alarm rate가 요구되며, 이는 대략 그림 2의 ROC 커브 내 표시한 것 보다 6 자리수가 더 우수한 수치임. 이러한 개선은 더 우수한 분류기를 찾거나, descriptor(local 또는 global)을 표현하기 위한 좀 더 우수한 전략을 찾음으로써 이뤄질 수 있는 것이 아님.
- 따라서 핵심은 시간에 흐름에 따라서 측정된 추가적인 cue들(동적 걸음 걸이, 움직임 시차, 재검출 측정의 안정성), 특정한 특징 상황(특정한 자세에서 다리의 위치), 차량(움직임이 있는 차량과 서 있는 차량 모두)과 정적 배경 구조물(기둥, 나무, 가드레일, 차선 등)로 구성되는 추가적인 객체 카테고리 구축 등을 통합하는 것에 놓여 있음.
시스템 레벨 통합과 추가적인 cue들의 추출에 대한 상세 내용은 논문의 공간이 부족하기 때문에 설명하지 못하지만, 완벽한 시스템의 전체 성능 결과를 아래에 요약하여 나타낼 것임.
A. The Complete System Performance
section II에서 언급했듯이, 단일-프레임 분류 단계를 통과한 검사된 window들은 다중-프레임 승인 과정을 수행하게 됨.
- 최종 결정의 정확도 요건은 보행자의 위치, 보행자의 정지 또는 측면 방향 이동 여부(자가 차량의 경로에 대해 안쪽 방향) 등에 의존적임. 가장 엄격한 요건은 안쪽으로 움직이는 보행자와 경로 내 정적인 보행자들이 있는 환경임.
- 이러한 상황에서 false alarm rate는 95% 이상의 detection rate를 보이며, 3시간 주행당 1보다 적어야 함. 경로 밖의 정적인 보행자들에 대한 정확도 요건은 95%의 detection rate에서 시간 주행당 360개(대략 10초 주행당 1개씩)의 false positive를 가지는 false alarm rate를 보이는 환경임. 초기에 언급했듯이, 경로에 밖의 정적인 보행자들은 이들이 안쪽 움직임을 보일 경우에 검출 지연을 최소화 하기 위한 advanced lock-in의 목적을 가지고 검출이 됨.
밝은 조명과 일반적인 날씨의 밀집된 도심 교통 환경(대부분 도쿄 및 예루살렘의 도심지)에서 5시간 동안 성능 통계를 수집함.
- 비록 날씨 조건이 일반적이긴 했지만, 밝은 조명으로 인해 생긴 그림자는 검출 처리를 더욱 어렵게 하며, 장면에서 강조된 highlight와 영상의 불안정한 컨트라스트의 변화 등은 장면에 대한 높은 dynamic range로 인해 노출 조절을 상당히 어렵게 만듬.
검출은 다음과 같은 카테고리로 나뉨
- (i) 안쪽으로 움직이는 보행자, (ii) 경로 내 정적인 보행자, (iii) 경로 밖의 정적인 보행자
- 수직 방향으로 움직이는 보행자들의 경우 정적으로 카운팅함. 주차된 차량 또는 다른 장애물로 인해 가려짐이 있는 경로 밖의 정적인 보행자는 고려되지 않음.
- 안쪽으로 이동하는 보행자의 detection rate는 1개의 false positive를 가진 96%를 보였으며, 여기서 false positive는 자가 차량의 선회 기동(turn maneuver)에 의해 발생함.
- 15m까지 범위의 안쪽으로 움직이는 보행자의 평균 지연은 4.6 프레임이었으며, 15~25m까지 범위에 대한 평균 지연은 11.2 프레임이었으며, 25m~30m에 있는 보행자의 평균 지연은 21.7 프레임이었음.
- 경로 내 정적인 보행자들의 detection rate는 상당히 번잡한 도쿄 시내(그림 4의 a, b)에서 1시간 주행을 통해 계산되었으며, 3개의 false positive를 가진 93%를 보임.
- 경로 밖의 정적인 보행자들의 detection rate는 102개의 false positive를 가진 85%를 보였으며, 동일하게 1시간 동안 계산이 되어짐.
V. SUMMARY
본 논문에서는 보드 상에서 동작하는 보행자 검출 시스템의 기능적 요건과 아키텍처에 대해서 설명함.
- 비교적 단순한 분류기의 set을 이용하여 훈련 set의 cluster 상에서 반복적으로 훈련시킴으로써, 클래스의 변동성을 분리하는 새로운 전략에 기반한 단일-프레임 분류를 위한 접근을 제시함.
- 영상 하위 영역의 이동 불변 지역 표현(shift-invariant local description)과 AdaBoost를 이용한 판별식 통합을 함께 이용하여 존재하는 우수한 접근들을 능가하는 강력한 분류기를 얻을 수 있었음.
- 본 연구를 통해서 알게 된 중요한 점은 단일-프레임 분류만을 이용할 경우에는 합리적인 수준의 시스템 레벨 성능을 예상하기는 어렵다는 것임.
- 단일-프레임 분류부터 시스템 레벨 성능까지의 경로에는 시간에 흐름에 따라서 측정된 추가적인 cue들(동적 걸음 걸이, 움직임 시차, 재검출 측정의 안정성), 특정한 특징 상황(특정한 자세에서 다리의 위치), 차량(움직임이 있는 차량과 서 있는 차량 모두)과 정적 배경 구조물(기둥, 나무, 가드레일, 차선 등)로 구성되는 추가적인 객체 카테고리 구축 등의 통합을 포함시켜야 함.
- 본 논문의 실험 결과를 통해 제안한 시스템이 낮의 일반적인 날씨 상태에서 만족스러운 성능을 보인다는 것을 알 수 있음.