ML/머신러닝

Stereo R-CNN based 3D Object Detection for Autonomous Driving 논문 리뷰

KAU 2020. 4. 18. 15:45

스테레오(stereo)란 입체(立體)란 뜻이다. Stereophonic Sound라면 입체 음향이라고 할 수 있다. 사람은 귀가 두개이기 때문에 양쪽 귀에 들리는 소리의 미묘한 차이를 이용해서 소리의 입체감을 느낀다. 따라서 양쪽 귀에 들려주는 소리를 서로 다르게 해서 들려주면 실제 상황과 비슷한 효과를 얻을 수 있다.

1.Introduction
3D object detection은 LiDAR에 의존하는데 코스트가 높고 낮은 지각 범위를 갖는다 그리고 
밀도가 낮은 정보를 갖는다

Monocular cameras는 낮은 코스트의 솔루션을 갖는다. 하지만 참조된 깊이는 정확도를 보장할 수 없다.

그래서 stereo-vision based 3d object를 추천한다.
이것은 left-right 광도 측정 정열에 의한 것이다.
LiDAR와 비등한 수준의 non-trivial disparities에 대한depth Accuracy를 제공한다.
인식의 범위는 focal length 와 baseline에 따라 달라진다.

우리는 추천된 R-CNN을 사용하여 이미지의 detect와 동시에 물체를 관련시키는 일을 할것이다.

Network Architecture는 크게 세 분류로 나뉜다. 
첫번 째는 Stereo RPN 모듈이다. 
이 모듈은 left 와 light RoL proposal을 관련시켜 결과를 준다.

RoIAlign이 끝나면 left-right feature를 관련시킨다.
object categories and regress accurate 2D stereo boxes, viewpoint, and dimensions in the stereo regression

우리는 3D 객체 지역화를 학습 보조 기하학 문제로 간주합니다
우리는 객체 RoI를 전체 픽셀로 취급합니다.
3D 물체 중심과의 깊이 관계에 따라 왼쪽 RoI의 고밀도 픽셀을 오른쪽 이미지로 왜곡하여 전체 광도 오류를 최소화하는 최상의 중심 깊이를 찾습니다.

 

Figure 1. Network architecture of the proposed Stereo R-CNN (Sect. 3) which outputs stereo boxes, keypoints, dimensions, and the viewpoint angle, followed by the 3D box estimation (Sect. 4) and the dense 3D box alignment module (Sect. 5).

• A Stereo R-CNN approach which simultaneously detects and associates object in stereo images. 

• A 3D box estimator which exploits the keypoint and stereo boxes constraints. 

• A dense region-based photometric alignment method that ensures our 3D object localization accuracy. 

• EvaluationontheKITTIdatasetshowsweoutperform all state-of-the-art image-based methods and are even comparable with a LiDAR-based method [16]. 

 

2.Stereo-based 3D Object Detection

2.Related Work

3DOP [4]는 물체 크기 사전,지면-평면 사전 및 깊이 정보 (예 : 자유 공간, 점 구름 밀도)를 에너지 함수로 인코딩하여 3D 제안을 생성하는 데 중점을 둡니다. 그런 다음 3D 제안을 사용하여 R-CNN 방식을 사용하여 객체 포즈와 2D 상자를 회귀합니다.

 

3.Stereo R-CNN Network 

Stereo R-CNN can simultaneously detect and associate 2D bounding boxes for left and right images with minor modifications. We use weight-share ResNet-101 [9] and FPN [19] as our backbone network to extract consistent features on left and right images.

3.1.StereoRPN 

Region Proposal Network (RPN) [25] is a slidingwindow based foreground detector. 

we concatenate left and right feature maps at each scale, then we feed the concatenated features into the stereo RPN network.

 

지역 제안 네트워크 (RPN) [25]는 슬라이딩 윈도우 기반 전경 탐지기입니다. 특징 추출 후, 3 × 3 컨볼 루션 레이어 (convolutionlayer)가 채널을 줄이기 위해 사용되며,

2 개의 형제 완전 연결 레이어가 사전 정의 된 다중 스케일 박스로 고정 된 각 입력 위치에 대해 객관성회귀 상자 오프셋을 분류합니다.

Benefit from this design, the positive anchors tend to contain both left and right object regions.

 

Relations between object orientation θ, azimuth β and viewpoint θ + β. Only same viewpoints lead to same projections. We have six output channels for stereo RPN regressor instead of four in the origin RPN implementation

There are six regressing terms for the stereo regressor: [∆u,∆w,∆u0,∆w0,∆v,∆h], where weuseu,v todenotethehorizontalandverticalcoordinates of the 2D box center in image space, w,h for width and height of the box, and the superscript (·)0 for corresponding terms in the right image

 

위와 같은 RPN을 거친뒤  left-right proposal pairs 를 결과로 얻게 된다.

 

3.2 StereoR-CNN

Figure4.Illustrationof3Dsemantickeypoints,the2Dperspective keypoint, and boundary keypoints.

We apply RoI Align [8] on the left and right feature maps respectively at appropriate pyramid level. 

물체 탐지를 위해서 class, stereo bounding boxes, dimension, and viewpoint angle을 사용할 것이다.

where we use θ to denote the vehicle orientation respecting to the camera frame, and β

 Wethereforeregresstheviewpoint angle α defined as: α = θ + β.

 

4. 3D Box Estimation 

 

In this section, we solve a coarse 3D bounding box by utilizing the sparse keypoint and 2D box information.

left-right 2D 상자, perspective keypoints 및 회귀 dimention을 고려하면 2D 상자와 키포인트의 재 투사 오류를 최소화하여 3D 상자를 해결할 수 있습니다.

 

Figure 5. Sparse constraints for the 3D box estimation (Sect. 4).
We use the viewpoint angle α to compensate the unobservable states (See Fig. 3 for the illustration):

perspective keypoints:

 z = {ul,vt,ur,vb,u0 l,u0 r,up}, which represent left, top, right, bottom edges of the left 2D box, left, right edges of the right 2D box, and the u coordinate of the perspective keypoint.

vt = (y− h 2)/(z− w 2 sinθ− l 2cosθ)

ul = (x− w 2 cosθ− l 2sinθ)/(z + w 2 sinθ− l 2cosθ)

up = (x + w 2 cosθ− l 2sinθ)/(z− w 2 sinθ− l 2cosθ),

...

ur' = (x−b + w 2 cosθ + l 2sinθ)/(z− w 2 sinθ + l 2cosθ). 

 

We use b to denote the baseline length of the stereo camera, and w,h,l for regressed dimensions

 

Solved from 2D boxes and the perspective keypoint, the coarse 3D box has accurate projection and is well aligned with the image, which enables our further dense alignment.

 

5.Dense 3D Box Alignment

We only solve the disparity of the 3Dboundingboxcenterwhileusingthedenseobjectpatch, i.e.,weuseplentyofpixelmeasurementstosolveonesingle variable.

 

we define a valid RoI as the region is between the left-right boundary keypoints and lies in the bottom halves of the 3D box since the bottom halves of vehicles fits the 3D box more tightly (See Fig. 1). 

 

우리는 하나의 변수를 해결하기 위해 많은 픽셀 측정 값을 사용하는 고밀도 객체 패치를 사용하면서 3D 경계 상자 센터의 불일치를 해결합니다. 물체를 규칙적인 모양의 큐브로 취급하면 3D의 중심과 각 픽셀 사이의 깊이 관계를 알 수 있습니다

 

 photometric error can be defined as: 

 

 

The total matching cost is defined as the Sum ofSquaredDifference(SSD)overallpixelsinthevalidRoI: 

 

논문 요약

우리는 스테레오 이미지에서 희소성(Sparse), 밀도(Dense), 기하학적 정보(Geometry Information)를 완전히 활용한 자율주행을 위한 3D 객체 검출(3D Object Detection) 방법을 제안합니다. Stereo R-CNN이라고 하는 이 방법은 Faster R-CNN을 확장하여 왼쪽, 오른쪽 이미지에서 객체를 동시에 검출합니다. 스테레오 Region Proposal Network(RPN)을 추가하여 희소한 특징(Sparse Keypoint)과, 시점(View Point) 및 객체 차원(Object Dimensions)을 예측하고, 왼쪽-오른쪽 이미지의 박스를 결합하여 한 개의 3D 객체 바운딩 박스(3D Object Bounding Box)를 계산합니다. 그런 다음 왼쪽-오른쪽 관심 영역(ROI)을 사용하여 영역 기반 Photometric Alignment로 3D 바운딩 박스(3D Bounding Box)를 보정(정확하게)합니다. 우리의 방법은 깊이 정보나 3D 위치 정보(Supervision을 의역함)가 필요하지 않지만, 기존의 모든 Supervised 이미지 기반 방법의 성능을 능가합니다. 우리의 실험 결과는 KITTI 데이터셋을 이용했으며, 3D 객체 검출, 3D Localization 작업에서 기존의 방법보다 약 30% AP 우수한 것으로 나타납니다.