1 INTRODUCTION
Convolutional Networks (ConvNets)는 최근에 대규모 이미지 및 비디오 인식 (Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014; Simonyan & Zisserman, 2014)에서 큰 성공을 거두었으며 ImageNet (Deng et al., 2009)과 같은 대규모 공공 이미지 저장소로 인해 가능 해졌습니다.
GPU 또는 대규모 분산 클러스터와 같은 성능 컴퓨팅 시스템(Dean et al., 2012). 특히, 심도 있는 시각 인식 아키텍처의 발전에 중요한 역할을 하는 것은 고차원 얕은 특징 인코딩(Perronnin et al., 2010)으로부터 몇 세대에 걸친 대규모 이미지 분류 시스템의 테스트베드 역할을 해온 IMSVRC(ImageNet Large-Scale Visual Recognition Challenge, ILSVRC)(Russakovsky et al., 2014)에 의해 수행되었다. 11) to deep ConvNets (Krizhevsky et al., 2012) (ILSVRC-2012의 우승자).
ConvNets가 컴퓨터 비전 분야에서 더 많은 상품이 되면서 Krizhevsky 외의 원래 아키텍처를 개선하려는 여러 시도가 있었습니다. 더 나은 정확도를 얻기 위한 시도(2012). 예를 들어, ILSVRC2013 (Zeiler & Fergus, 2013, Sermanet et al., 2014)에 대한 가장 좋은 성능의 제출은 작은 수용 창 크기와 첫 번째 컨볼루션 층의 작은 보폭을 활용했습니다.
또 다른 개선책은 전체 이미지와 여러 척도에 걸쳐 네트워크를 집중적으로 훈련하고 테스트하는 것을 다루었다(Sermanet et al., 2014; Howard, 2014). 본 논문에서는 ConvNet 아키텍처 설계의 또 다른 중요한 측면인 깊이에 대해 다루고 있다. 이를 위해, 우리는 아키텍처의 다른 파라미터들을 고정하고, 모든 층에서 매우 작은 (3 3) 콘볼루션 필터를 사용함으로써 실현 가능한 더 많은 콘볼루션 층을 추가함으로써 네트워크의 깊이를 꾸준히 증가시킨다.
그 결과, 우리는 ILSVRC 분류 및 현지화 작업에 대한 최첨단 정확도를 달성할 뿐만 아니라 다른 이미지 인식 데이터 세트에도 적용 가능한 훨씬 더 정확한 ConvNet 아키텍처를 고안하게 되는데, 이 아키텍처는 비교적 간단한 파이프라인(예:)의 일부로 사용되어도 우수한 성능을 달성한다.
미세 조정 없이 선형 SVM으로 분류된 딥 피쳐). 우리는 추가 연구를 용이하게 하기 위해 가장 잘 수행되는 두 가지 모델 1을 출시했다. 나머지는 다음과 같이 정리된다. 2절에서는 우리의 ConvNet 구성을 설명한다.
이미지 분류 훈련 및 평가의 세부 사항은 Sect에서 제시됩니다. 3, 의 ILSVRC 분류 과제를 비교하였다.
5는 논문을 마무리한다. 또한, 본 논문에서는 부록 A에서 ILSVRC-2014 객체 위치추정 시스템을 설명하고 평가하며, 부록 B의 다른 데이터 집합에 대한 매우 깊은 특징의 일반화에 대해 논의한다.
마지막으로 부록 C에는 주요 논문 수정사항 목록이 포함되어 있다.
2 CONVNET CONFIGURATIONS
공정한 환경에서 증가된 ConvNet 깊이에 의해 야기된 개선을 측정하기 위해, 우리의 모든 ConvNet 계층 구성은 Ciresan et al.에서 영감을 얻은 동일한 원칙을 사용하여 설계된다. (2011); Krizhevsky et al. (2012). 이 절에서는 먼저 ConvNet 구성(Sect)의 일반적인 레이아웃을 설명한다. 2.1) 그리고 평가에 사용된 특정 구성을 상세히 기술한다(제2.2). 그리고 나서 우리의 디자인 선택은 Sect. 2.3의 이전 기술과 비교되고 논의된다.
2.1 ARCHITECTURE
훈련 중에 ConvNet에 대한 입력은 고정 크기 224 × 224 RGB 이미지입니다. 우리가하는 유일한 전처리는 각 픽셀에서 훈련 세트에서 계산 된 평균 RGB 값을 빼는 것입니다. 이미지는 컨볼 루션 (conv.) 레이어 스택을 통과하며, 여기에서 매우 작은 수용 필드가있는 필터를 사용합니다 : 3 × 3 (왼쪽 / 오른쪽, 위 / 아래, 가운데의 개념을 캡처하는 데 가장 작은 크기) . 구성 중 하나에서 입력 채널의 선형 변환 (비선형 성이 뒤 따르는)으로 볼 수있는 1 × 1 컨볼 루션 필터도 사용합니다. 컨볼 루션 보폭은 1 픽셀로 고정됩니다.
conv의 공간 패딩 레이어 입력은 컨볼 루션 후 공간 해상도가 유지되도록합니다.
즉, 패딩은 3 × 3 컨버팅에 대해 1 픽셀입니다. 레이어. 공간 풀링은 전환의 일부를 따르는 5 개의 최대 풀링 레이어에 의해 수행됩니다. 레이어 (모든 전환 레이어 뒤에 최대 풀링이 오는 것은 아닙니다).
최대 풀링은 스트라이드 2로 2 × 2 픽셀 창에서 수행됩니다. 컨볼 루션 레이어 스택 (다른 아키텍처에서 다른 깊이를 가짐) 뒤에는 3 개의 완전 연결 (FC) 레이어가 있습니다. 처음 두 개는 4096 개의 채널을가집니다.
각각, 세 번째는 1000way ILSVRC 분류를 수행하므로 1000 개의 채널을 포함합니다 (각 클래스에 대해 하나씩).
마지막 레이어는 소프트 맥스 레이어입니다. 완전히 연결된 계층의 구성은 모든 네트워크에서 동일합니다.
모든 숨겨진 레이어에는 정류 (ReLU (Krizhevsky et al., 2012)) 비선형 성이 장착되어 있습니다.
우리의 네트워크 (하나를 제외하고)에는 로컬 응답 정규화 (LRN) 정규화 (Krizhevsky et al., 2012)가 포함되어 있지 않습니다. 4, 이러한 정규화는 ILSVRC 데이터 세트의 성능을 향상시키지 않지만 메모리 소비 및 계산 시간을 증가시킵니다. 해당되는 경우 LRN 계층의 매개 변수는 (Krizhevsky et al., 2012)의 매개 변수입니다.
2.2 CONFIGURATIONS
이 백서에서 평가 한 ConvNet 구성은 열당 하나씩 표 1에 요약되어 있습니다. 다음에서 우리는 이름 (A–E)으로 네트를 참조합니다. 모든 구성은 Sect에 제시된 일반적인 디자인을 따릅니다. 2.1이며 깊이 만 다릅니다 : 네트워크 A의 11 개의 가중치 레이어 (8 개 전환 및 3 개의 FC 레이어)에서 네트워크 E의 19 개 가중치 레이어 (16 개 전환 및 3 개의 FC 레이어). 전환 폭입니다. 레이어 (채널 수)는 첫 번째 레이어의 64 개에서 시작하여 512 개에 도달 할 때까지 각 최대 풀링 레이어 이후 2 배씩 증가하여 다소 적습니다. 표 2에서는 각 구성에 대한 매개 변수 수를보고합니다. . 큰 깊이에도 불구하고 우리의 네트에있는 가중치의 수는 더 큰 전환율을 가진 더 얕은 네트에있는 가중치의 수보다 크지 않습니다. 레이어 너비 및 수용 필드 ((Sermanet et al., 2014)의 1 억 4400 만 가중치).
2.3 DISCUSSION
우리의 ConvNet 구성은 ILSVRC-2012 (Krizhevsky et al., 2012) 및 ILSVRC-2013 대회 (Zeiler & Fergus, 2013; Sermanet et al., 2014)의 최고 성능 항목에서 사용되는 것과는 상당히 다릅니다. 제1 콘브 레이어(예:)에서 비교적 큰 수용 필드를 사용하는 것보다. 1111 (Krizhevsky et al., 2012), 77 (Zeiler & Fergus, 2013, Sermanet et al., 2014)에서 보폭 2를 가지고, 우리는 모든 픽셀 (보폭 1)에서 입력과 컨벌브된 전체 그물 전체에 걸쳐 매우 작은 3 -3 수용 필드를 사용한다. 33 콘브 2개를 쌓아 놓은 것을 쉽게 볼 수 있다.층 (공간 풀링이 없는)은 55의 효과적인 수용 필드를 가지고 있습니다. 3
이러한 층은 7 × 7 유효 수용 장을 갖는다. 예를 들어 3x3 conv의 스택을 사용하여 얻은 결과입니다. 단일 7x7 레이어 대신 레이어? 첫째, 우리는 결정 함수를 더 차별적으로 만드는 단일 대신 3 개의 비선형 정류 레이어를 통합합니다. 둘째, 매개 변수 수를 줄입니다. 3 층 3 × 3 컨볼 루션 스택의 입력과 출력 모두에 C 채널이 있다고 가정하면 스택은 3 3 2C 2 = 27C 2 가중치로 매개 변수화됩니다. 동시에 단일 7 × 7 전환 레이어는 7 2C 2 = 49C 2 매개 변수, 즉 81 % 더 필요합니다. 이것은 7 × 7 전환에 정규화를 부과하는 것으로 볼 수 있습니다. 필터는 3 × 3 필터를 통해 분해되도록합니다 (비선형 성이 그 사이에 삽입 됨). 1 × 1 전환의 통합. 레이어 (구성 C, 표 1)는 conv의 수용 필드에 영향을주지 않고 결정 함수의 비선형 성을 증가시키는 방법입니다. 레이어. 우리의 경우 1 × 1 컨볼 루션은 본질적으로 동일한 차원의 공간에 대한 선형 투영이지만 (입력 및 출력 채널 수가 동일 함) 정류 기능에 의해 추가적인 비선형 성이 도입됩니다. 1x1 conv. 최근 Lin et al.의 "Network in Network"아키텍처에서 계층이 활용되었습니다. (2014). 소형 컨볼 루션 필터는 이전에 Ciresan 등이 사용했습니다. (2011), 그러나 그들의 그물은 우리보다 훨씬 깊지 않으며 대규모 ILSVRC 데이터 세트에서 평가하지 않았습니다. Goodfellow et al. (2014)는 거리 번호 인식 작업에 깊은 ConvNets (11 개의 가중치 레이어)를 적용했으며, 깊이가 증가하면 성능이 향상됨을 보여주었습니다. ILSVRC-2014 분류 작업의 최고 성능 항목 인 GoogLeNet (Szegedy et al., 2014)은 우리 작업과 독립적으로 개발되었지만 매우 깊은 ConvNet을 기반으로한다는 점에서 유사합니다.
3 CLASSIFICATION FRAMEWORK
이전 섹션에서는 네트워크 구성에 대한 세부 정보를 제공했습니다. 이 섹션에서는 분류 ConvNet 교육 및 평가에 대해 자세히 설명합니다.
3.1 TRAINING
ConvNet 교육 절차는 일반적으로 Krizhevsky et al. (2012) (나중에 설명되는 다중 스케일 훈련 이미지에서 입력 작물 샘플링 제외). 즉, 훈련은 모멘텀이있는 미니 배치 경사 하강 법 (역 전파 (LeCun et al., 1989) 기반)을 사용하여 다항 로지스틱 회귀 목표를 최적화하여 수행됩니다. 배치 크기는 256으로, 모멘텀은 0.9로 설정되었습니다. 훈련은 가중치 감쇄 (L2 패널티 승수를 5 · 10−4로 설정)와 처음 두 개의 완전 연결 계층에 대한 드롭 아웃 정규화 (탈락 비율 0.5로 설정)로 정규화했습니다. 학습률은 처음에는 10−2로 설정되었으며 유효성 검사 세트 정확도가 개선을 멈 추면 10 배 감소했습니다. 전체적으로 학습률은 3 배 감소했으며 37 만 회 (74 에포크) 후에 학습이 중단되었습니다. 우리는 (Krizhevsky et al., 2012)에 비해 더 많은 매개 변수와 네트의 깊이에도 불구하고 (a) 더 큰 깊이와 더 작은 conv에 의해 부과 된 암시 적 정규화로 인해 더 적은 epoch가 수렴해야한다고 추측합니다. . 필터 크기; (b) 특정 레이어의 사전 초기화. 네트워크 가중치의 초기화는 중요합니다. 잘못된 초기화는 깊은 그물의 기울기 불안정으로 인해 학습을 지연시킬 수 있기 때문입니다. 이 문제를 피하기 위해 무작위 초기화로 훈련 할 수있을만큼 얕은 구성 A (표 1) 훈련부터 시작했습니다. 그런 다음 더 깊은 아키텍처를 훈련 할 때 처음 4 개의 컨벌루션 레이어와 마지막 3 개의 완전 연결 레이어를 net A 레이어로 초기화했습니다 (중간 레이어는 무작위로 초기화 됨). 사전 초기화 된 레이어의 학습률을 낮추지 않았으므로 학습 중에 변경 될 수 있습니다. 무작위 초기화 (해당되는 경우)의 경우 평균이 0이고 분산이 10-2 인 정규 분포에서 가중치를 샘플링했습니다. 편향은 0으로 초기화되었습니다. 논문 제출 후 Glorot & Bengio (2010)의 무작위 초기화 절차를 사용하여 사전 훈련없이 가중치를 초기화 할 수 있음을 발견했습니다. 고정 된 크기의 224x224 ConvNet 입력 이미지를 얻기 위해 크기가 조정 된 교육 이미지에서 무작위로 잘라 냈습니다 (SGD 반복 당 이미지 당 하나의 자르기). 훈련 세트를 추가로 늘리기 위해 작물은 임의의 수평 뒤집기와 임의의 RGB 색상 이동을 거쳤습니다 (Krizhevsky et al., 2012). 훈련 이미지 크기 조정은 아래에 설명되어 있습니다. 훈련 이미지 크기. ConvNet 입력이 잘리는 등방성 재조정 된 훈련 이미지의 가장 작은면을 S라고합시다 (S를 훈련 척도라고도 함). 자르기 크기는 224 × 224로 고정되어 있지만 원칙적으로 S는 224 이상의 값을 취할 수 있습니다. S = 224의 경우 자르기는 훈련 이미지의 가장 작은면에 걸쳐 전체 이미지 통계를 캡처합니다. S ≫ 224의 경우 자르기는 작은 물체 또는 물체 부분을 포함하는 이미지의 작은 부분에 해당합니다. 훈련 척도 S를 설정하는 두 가지 접근 방식을 고려합니다. 첫 번째는 단일 척도 훈련에 해당하는 S를 수정하는 것입니다 (샘플 된 작물 내의 이미지 콘텐츠는 여전히 다중 척도 이미지 통계를 나타낼 수 있음). 우리의 실험에서 우리는 두 가지 고정 척도로 훈련 된 모델을 평가했습니다 : S = 256 (종래 기술 (Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014)에서 널리 사용됨) 및 S = 384. ConvNet 구성이 주어지면 먼저 S = 256을 사용하여 네트워크를 훈련 시켰습니다. S = 384 네트워크의 훈련 속도를 높이기 위해 S = 256으로 사전 훈련 된 가중치로 초기화되었고 더 작은 초기 값을 사용했습니다. 학습률 10−3. S 설정에 대한 두 번째 접근 방식은 다중 스케일 훈련입니다. 여기서 각 훈련 이미지는 특정 범위 [Smin, Smax]에서 S를 무작위로 샘플링하여 개별적으로 재조정됩니다 (Smin = 256 및 Smax = 512 사용). 이미지의 개체는 크기가 다를 수 있으므로 훈련 중에이를 고려하는 것이 좋습니다. 이것은 또한 스케일 지 터링에 의한 훈련 세트 증강으로 볼 수 있습니다. 여기서 단일 모델은 광범위한 스케일에서 객체를 인식하도록 훈련됩니다. 속도상의 이유로 우리는 고정 S = 384로 사전 훈련 된 동일한 구성으로 단일 스케일 모델의 모든 레이어를 미세 조정하여 다중 스케일 모델을 훈련했습니다.
3.2 TESTING
테스트 시간에 훈련 된 ConvNet과 입력 이미지가 주어지면 다음과 같은 방식으로 분류됩니다. 첫째, Q로 표시되는 미리 정의 된 가장 작은 이미지면으로 등방성 크기가 다시 조정됩니다 (테스트 배율이라고도 함). 우리는 Q가 훈련 척도 S와 반드시 같지는 않다는 점에 주목합니다 (섹션 4에서 보여 주듯이 각 S에 대해 여러 Q 값을 사용하면 성능이 향상됨). 그런 다음 네트워크는 (Sermanet et al., 2014)와 유사한 방식으로 재조정 된 테스트 이미지 위에 조밀하게 적용됩니다. 즉, 완전히 연결된 레이어는 먼저 컨볼 루션 레이어로 변환됩니다 (첫 번째 FC 레이어는 7 × 7 변환 레이어로, 마지막 두 FC 레이어는 1 × 1 변환 레이어로). 그 결과 생성 된 완전 컨벌루션 네트는 전체 (잘리지 않은) 이미지에 적용됩니다. 결과는 클래스 수와 동일한 채널 수와 입력 이미지 크기에 따라 가변 공간 해상도를 갖는 클래스 점수 맵입니다. 마지막으로 이미지에 대한 클래스 점수의 고정 크기 벡터를 얻기 위해 클래스 점수 맵이 공간적으로 평균화됩니다 (합계 풀링). 또한 이미지를 수평으로 뒤집어 테스트 세트를 확장합니다. 원본 이미지와 뒤집힌 이미지의 소프트 맥스 클래스 사후는 평균화되어 이미지의 최종 점수를 얻습니다. 완전 합성 곱 네트워크가 전체 이미지에 적용되기 때문에 테스트 시간에 여러 작물을 샘플링 할 필요가 없습니다 (Krizhevsky et al., 2012). 각 작물에 대한 네트워크 재 계산이 필요하므로 효율성이 떨어집니다. 동시에, Szegedy et al.에 의해 수행 된 것처럼 많은 작물을 사용합니다. (2014)는 완전 컨볼 루션 네트에 비해 입력 이미지의 더 미세한 샘플링을 제공하므로 정확도가 향상 될 수 있습니다. 또한 다중 자르기 평가는 컨볼 루션 경계 조건이 다르기 때문에 조밀 한 평가를 보완합니다. ConvNet을 작물에 적용하면 콘볼 루션 된 기능 맵이 0으로 채워지고 조밀 한 평가의 경우 동일한 작물에 대한 패딩이 자연스럽게 발생합니다. (컨볼 루션 및 공간 풀링으로 인해) 이미지의 인접한 부분에서 전체 네트워크 수용 필드를 크게 증가시켜 더 많은 컨텍스트를 캡처합니다. 실제로 여러 작물의 계산 시간 증가가 정확도의 잠재적 이득을 정당화하지 않는다고 생각하지만, 참고로 척도 당 50 작물 (2 번 뒤집기가있는 5 × 5 정규 그리드)을 사용하여 총 150 번의 네트워크를 평가합니다. Szegedy 등이 사용하는 4 가지 규모의 144 가지 작물에 필적하는 3 가지 규모 이상의 작물. (2014).
3.3 IMPLEMENTATION DETAILS
우리의 구현은 공개적으로 사용 가능한 C ++ Caffe 도구 상자 (Jia, 2013) (2013 년 12 월에 분기 됨)에서 파생되었지만 여러 가지 중요한 수정 사항이 포함되어있어 단일 시스템에 설치된 여러 GPU에서도 교육 및 평가를 수행 할 수 있습니다. (위에 설명 된대로) 여러 배율로 전체 크기 (자르지 않은) 이미지를 학습하고 평가합니다. 다중 GPU 훈련은 데이터 병렬성을 활용하며 각 훈련 이미지 배치를 여러 GPU 배치로 분할하여 각 GPU에서 병렬로 처리하여 수행합니다. GPU 배치 그라디언트를 계산 한 후 평균을 구하여 전체 배치의 그라디언트를 얻습니다. 그라디언트 계산은 GPU에서 동기식이므로 결과는 단일 GPU에서 훈련 할 때와 정확히 동일합니다. ConvNet 학습 속도를 높이는보다 정교한 방법이 최근 제안되었지만 (Krizhevsky, 2014), 네트워크의 여러 계층에 대해 모델 및 데이터 병렬 처리를 사용하지만, 우리는 개념적으로 훨씬 단순한 체계가 이미 3.75 배의 속도 향상을 제공한다는 것을 발견했습니다. 단일 GPU를 사용하는 것과 비교하여 기성품 4-GPU 시스템. 4 개의 NVIDIA Titan Black GPU가 장착 된 시스템에서 단일 네트워크를 훈련하는 데는 아키텍처에 따라 2 ~ 3 주가 걸렸습니다.
4 CLASSIFICATION EXPERIMENTS
데이터 세트. 이 섹션에서는 ILSVRC-2012 데이터 세트 (ILSVRC 2012–2014 과제에 사용됨)에서 설명 된 ConvNet 아키텍처에 의해 달성 된 이미지 분류 결과를 제시합니다. 데이터 세트에는 1,000 개의 클래스 이미지가 포함되며 학습 (130 만 이미지), 유효성 검사 (50K 이미지), 테스트 (홀드 아웃 클래스 레이블이있는 10 만 이미지)의 세 세트로 나뉩니다. 분류 성능은 top-1 및 top-5 오류라는 두 가지 측정 값을 사용하여 평가됩니다. 전자는 다중 클래스 분류 오류, 즉 잘못 분류 된 이미지의 비율입니다. 후자는 ILSVRC에서 사용되는 주요 평가 기준이며 지상 진실 범주가 상위 5 개 예측 범주를 벗어나도록 이미지의 비율로 계산됩니다. 대부분의 실험에서 검증 세트를 테스트 세트로 사용했습니다. 특정 실험도 테스트 세트에서 수행되었으며 ILSVRC-2014 대회에 대한 "VGG"팀 항목으로 공식 ILSVRC 서버에 제출되었습니다 (Russakovsky et al., 2014).
4.1 SINGLE SCALE EVALUATION
Sect에 설명 된 계층 구성을 사용하여 단일 규모에서 개별 ConvNet 모델의 성능을 평가하는 것으로 시작합니다. 2.2. 테스트 이미지 크기는 고정 S의 경우 Q = S, 지터가있는 S ∈ [Smin, Smax]의 경우 Q = 0.5 (Smin + Smax)로 설정되었습니다. 그 결과는 표 3에 나와 있습니다. 첫째, 로컬 응답 정규화 (A-LRN 네트워크)를 사용하면 정규화 계층이없는 모델 A에서는 개선되지 않습니다. 따라서 심층 아키텍처 (B–E)에서는 정규화를 사용하지 않습니다. 둘째, ConvNet 깊이가 증가함에 따라 분류 오류가 감소하는 것을 관찰합니다. A의 11 개 레이어에서 E의 19 개 레이어로. 특히 동일한 깊이에도 불구하고 구성 C (1 × 1 전환 레이어 3 개 포함), 3 × 3 전환을 사용하는 구성 D보다 성능이 떨어집니다. 네트워크 전체의 레이어. 이는 추가적인 비선형 성이 도움이되지만 (C가 B보다 낫다) conv를 사용하여 공간 컨텍스트를 캡처하는 것도 중요 함을 나타냅니다. 중요하지 않은 수용 필드가있는 필터 (D가 C보다 낫다). 아키텍처의 오류율은 깊이가 19 개 계층에 도달하면 포화 상태가되지만 더 깊은 모델은 더 큰 데이터 세트에 유용 할 수 있습니다. 또한 순 B를 5 x 5 전환이 5 개인 얕은 순과 비교했습니다. 3 × 3 conv의 각 쌍을 대체하여 B에서 파생 된 레이어입니다. 단일 5 × 5 전환이있는 레이어 층 (2.3 절에서 설명한 것과 동일한 수용 장을 가짐). 얕은 네트의 top-1 오차는 B (중앙 작물)보다 7 % 더 높은 것으로 측정되었으며, 이는 작은 필터가있는 깊은 네트가 더 큰 필터가있는 얕은 네트보다 성능이 우수하다는 것을 확인합니다. 마지막으로, 훈련시 스케일 지 터링 (S ∈ [256; 512])은 테스트 시간에 단일 스케일을 사용하더라도 가장 작은 변이 고정 된 이미지 (S = 256 또는 S = 384)에 대한 훈련보다 훨씬 더 나은 결과를 가져옵니다. 이것은 스케일 지 터링에 의한 훈련 세트 증가가 실제로 멀티 스케일 이미지 통계를 캡처하는 데 유용하다는 것을 확인합니다.
4.2 MULTI-SCALE EVALUATION
ConvNet 모델을 단일 스케일로 평가 한 후 이제 테스트 시간에 스케일 지 터링의 효과를 평가합니다. 이는 테스트 이미지의 여러 재조정 된 버전 (Q의 다른 값에 해당)에 대해 모델을 실행 한 다음 결과 클래스 사후를 평균화하는 것으로 구성됩니다. 훈련 및 테스트 척도 간의 큰 불일치가 성능 저하로 이어진다는 점을 고려하여 고정 S로 훈련 된 모델은 훈련 이미지에 가까운 세 가지 테스트 이미지 크기에 대해 평가되었습니다. Q = {S − 32, S, S + 32} . 동시에, 훈련 시간의 스케일 지 터링은 네트워크를 테스트 시간에 더 넓은 범위의 스케일에 적용 할 수있게하므로 변수 S ∈ [Smin; Smax]는 더 큰 범위의 크기 Q = {Smin, 0.5 (Smin + Smax), Smax}에 대해 평가되었습니다. 표 3에 표시된 단일 스케일의 모델). 이전과 마찬가지로 가장 깊은 구성 (D 및 E)이 가장 잘 수행되고 스케일 지 터링은 고정 된 가장 작은면 S로 훈련하는 것보다 낫습니다. 검증 세트에 대한 최상의 단일 네트워크 성능은 24.8 % / 7.5 % top-1 / top입니다. -5 오류 (표 4에서 굵게 강조 표시됨). 테스트 세트에서 구성 E는 7.3 % top-5 오류를 달성합니다.
4.3 MULTI-CROP EVALUATION
표 5에서 고밀도 ConvNet 평가와 다중 작물 평가를 비교합니다 (자세한 내용은 섹션 3.2 참조). 또한 소프트 맥스 출력을 평균화하여 두 평가 기법의 상보성을 평가합니다. 보시다시피, 여러 작물을 사용하는 것은 조밀 한 평가보다 약간 더 나은 성능을 발휘하며 두 가지 방법은 조합이 각각을 능가하기 때문에 실제로 상호 보완 적입니다. 위에서 언급했듯이 우리는 이것이 컨볼 루션 경계 조건의 다른 처리 때문이라고 가정합니다.
4.4 CONVNET FUSION
지금까지 개별 ConvNet 모델의 성능을 평가했습니다. 실험의이 부분에서는 소프트-최대 클래스 사후를 평균화하여 여러 모델의 출력을 결합합니다. 이는 모델의 보 완성으로 인해 성능을 향상시고
2012 년 (Krizhevsky et al., 2012) 및 2013 년 (Zeiler & Fergus, 2013; Sermanet et al., 2014) 상위 ILSVRC 제출에 사용되었습니다. 결과는 표 6에 나와 있습니다. ILSVRC 제출 당시에는 단일 스케일 네트워크와 다중 스케일 모델 D (모든 계층이 아닌 완전히 연결된 계층 만 미세 조정하여) 만 훈련했습니다.
7 개 네트워크의 결과 앙상블에는 7.3 % ILSVRC 테스트 오류가 있습니다.
제출 후, 우리는 가장 성능이 좋은 다중 스케일 모델 (구성 D 및 E) 2 개의 앙상블을 고려하여 고밀도 평가를 사용하여 테스트 오류를 7.0 %로, 고밀도 및 다중 자르기 평가를 결합하여 6.8 %로 줄였습니다. 참고로 가장 성능이 좋은 단일 모델은 7.1 % 오류를 달성합니다 (모델 E, 표 5).
4.5 COMPARISON WITH THE STATE OF THE ART
마지막으로 우리의 결과를 표 7의 최신 기술과 비교합니다. ILSVRC-2014 챌린지 (Russakovsky et al., 2014)의 분류 작업에서 "VGG"팀은 다음과 같이 2 위를 차지했습니다.
7개 모델의 앙상블을 사용한 7.3%의 테스트 오류. 제출 후 2개 모델의 앙상블을 이용해 오류율을 6.8%로 줄였다. 표 7에서 볼 수 있듯이, 우리의 매우 깊은 콘벤트는 ILSVRC-2012 및 ILSVRC-2013 대회에서 최고의 결과를 달성한 이전 세대의 모델을 크게 능가한다. 우리의 결과는 분류 과제 수상자(GugLeNet 6.7% 오류)에 대해서도 경쟁력이 있으며 외부 훈련 데이터로 11.2%, 무상으로 11.7%를 달성한 ILSVRC-2013 우승 제출서 클라리파이를 크게 능가한다. 대부분의 ILSVRC 제출에 사용된 것보다 훨씬 적은 두 가지 모델을 조합함으로써 최상의 결과를 얻을 수 있다는 점을 고려하면 이는 주목할 만하다. 단일 네트워크 성능 측면에서, 우리의 아키텍처는 단일 GugLeNet을 0.9% 능가하는 최고의 결과(7.0% 테스트 오류)를 달성한다. 특히, 우리는 르쿤 외 (1989년)의 고전적인 컨벤넷 건축에서 출발하지 않고,
그 깊이를 실질적으로 높여 개선했다.
5 CONCLUSION
본 논문에서는 대규모 이미지 분류를 위해 매우 깊은 컨볼루션 네트워크(최대 19중량층)를 평가하였다. 표현 깊이가 분류 정확도에 유익하며, ImageNet 챌린지 데이터 세트에서의 최첨단 성능은 크게 증가된 깊이를 가진 기존의 ConvNet 아키텍처 (LeCun et al., 1989; Krizhevsky et al., 2012)를 사용하여 달성할 수 있음을 입증했습니다. 부록에서 우리는 또한 우리의 모델들이 덜 깊은 이미지 표현에 따라 만들어진 더 복잡한 인식 파이프라인을 일치시키거나 능가하면서 광범위한 작업과 데이터 세트를 일반화한다는 것을 보여준다.우리의 결과는 다시 한번 시각적 표현의 중요성을 확인시켜준다.
'ML' 카테고리의 다른 글
로지스틱 회귀(Logistic regression) (0) | 2021.01.15 |
---|---|
SqueezeNet [모델 압축] 논문 리뷰&구현 [Matlab] (0) | 2020.11.17 |
Decoupled Neural Interfaces Using Synthetic Gradients 요약 (0) | 2020.11.06 |
Resnet (0) | 2020.10.09 |
ALEXNET 리뷰&번역 (0) | 2020.09.25 |