빛은 망막의 광수용기 세포에서 수용되어 전기 신호로 변환 된 뒤, 뇌의 시각 피질로 전달된다. ㉠ 후벨과 위젤은 망막에 비춰진 빛에 대해 고양이의 시각 피질 세포가 어떻게 반응하는지 실험하였다. 그들은 이를 통해 시각 피질 세포가 망막의 일정 영역 내 광수용기 세포들과 연결되어 있다는 사실을 알아냈다. 하나의 시각 피질 세포와 연결된 망막상의 일정 영역을 해당 시각 피질 세포의 ‘수용장’이라고 한다.


또한 이 실험을 통해 시각 피질이 하위의 ‘단순 세포’와 상 위의 ‘복잡 세포’의 다층 구조로 구성되어 있다는 점이 밝혀졌다. 단순 세포와 복잡 세포 모두 각각의 수용장에 비친 특정한 각도를 가진 선분 모양의 빛에 활성화된다. 하지만 단순 세포가 수용장 내 특정 위치의 빛에만 활성화되는데 반해, 복잡 세포는 수용장이 단순 세포보다 넓고, 수용장에 비춰진 빛의 위치 변화에 관계없이 활성화된다. 이는 복잡 세포가 다수의 단순 세포들로부터 전기 신호를 전달받아 활성화되기 때문이다.

 

<그림 1>

 

<그림 1>은 이러한 시각 피질 세포들의 전기 신호 전달 과정을 다층 모형으로 나타낸 것이다. 모형의 각 층은 유닛들로 구성되는데, 계층 1의 각 유닛은 망막의 광수용기 세포에, 계층 2의 각 유닛은 단순 세포에, 계층 3의 유닛은 복잡 세포에 대응된다. 이때, 검은색 유닛은 해당 유닛이 활성화되었음을 의미하며, 계층 1의 사각형 영역은 계층 2의 활성화된 유닛의 수용장을 표시한 것이다. (a)와 (b)는 각각의 사선 패턴의 위치에 따른 각 유닛들의 활성화 상태를 나타낸 것이다. 계층 2의 각 유닛은 자신의 수용장 안의 특정한 위치에 특정한 각도의 사선 패턴이 입력되면 활성화된다. 계층 3의 유닛은 계층 2의 유닛 중에 하나라도 활성화되면 활성화된다.


‘합성곱 신경망’은 이미지 인식(image recognition)[각주:1]을 위해 만들어진 인공 신경망으로서, <그림 1>과 같은 다층 구조의 신경망 모형을 수학적으로 구조화한 것이다. 합성곱 신경망은 ‘합성곱층’과 ‘통합층’으로 구성되며, 이들은 각각 합성곱 연산과 통합 연산에 의해 출력된다. 먼저, 합성곱 연산은 특정한 크기의 필터가 이미지 데이터의 왼쪽 상단에서 오른쪽 하단까지 일정 간격으로 이동해 가며 이미지 데이터와 필터의 곱을 합산하는 과정이다. 이때 필터는 이미지 데이터의 국부 영역에 존재하는 특정한 기하학적 패턴을 검출하는 역할을 한다.

 

<그림 2>

 

예를 들어, <그림 2> 와 같이 ‘□’의 형태를 가진 6 × 6 크기의 이미지 데이터로부터 수평 방 향의 패턴을 추출한다고 하자. 이때, 각 유닛의 숫자는 명암을 0부터 10까지의 수치로 나타낸 것이다. 필터의 크기가 3 × 3이고 이동 간격을 1 유닛 단위로 설정했다면, 필터가 왼쪽 상단에서 오른쪽 하단으로 한 칸씩 이동해 가면서 합성곱을 16번 연산하고 4 × 4 크기의 ‘특징 지도’(feature map, FM)가 출력된다. <그림 2>에서 특징 지도 FM₁의 가장 왼쪽 위 유닛 값 ‘6’은 이미지 데이터의 왼쪽 위 3 × 3의 영역과 필터와의 곱의 총합인 ‘0×0 + 0×0 + 0×0 + 0×1 + 3×1 + 3×1 + 0×0 + 3×0 + 0×0’의 연산을 통해 구해진 것이다.


이렇게 필터를 이용해 이미지 데이터에 합성곱 연산을 수행하면 필터의 특성에 맞게 강조된 특징 지도를 얻을 수 있다. <그림 2>는 합성곱 연산 결과 수평 방향의 패턴이 강조되고 데이터 크기는 6 × 6에서 4 × 4로 줄어 출력된 특징 지도를 보여 준다. 이때, 필터의 이동 간격이 크게 설정된다면 출력되는 특징 지도의 크기를 줄여 데이터 처리를 빠르게 할 수 있는 장점이 있지만, 이미지의 특징을 놓칠 가능성이 증가하게 되는 단점이 있다.

 

<그림 3>

 

다음으로, 통합 연산은 합성곱층의 일정 범위 안에 있는 유닛 값들을 정해진 규칙에 따라 하나의 값으로 통합하는 연산이다. 통합 연산 규칙에는 최댓값 통합 규칙, 평균값 통합 규칙 등 여러 종류가 있는데, 이를 통해 새롭게 출력된 특징 지도로 통합층이 구성된다. <그림 3>은 <그림 2>의 FM₁을 2 × 2 범위로 최댓값 통합 규칙에 따라 통합 연산한 것이다. 이때, 통합 연산의 범위를 왼쪽 상단에서 오른쪽 하단까지 1 유닛 단위로 이동하도록 설정하면 3 × 3 크기의 새로운 특징 지도 FM₂가 출력된다.


합성곱 연산을 통해 이미지의 어떤 영역에 어떤 패턴이있는지를 추출할 수 있으며, 다양한 필터를 통해 이를 반복하면 이미지 속 사물을 인식할 수 있다. 하지만 연산을 반복하는 과정에서 패턴의 위치 정보를 계속 유지하게 되는데, 이는 일반적으로 불필요한 정보이다. 왜냐하면, 합성곱 연산을 통해 출력된 특징 지도 내에서 서로 인접한 유닛들은 미세한 위치 정보만 다를 뿐, 거의 비슷한 패턴 정보를 담고 있기 때문이다. 이때, 통합 연산 수행은 합성곱 연산의 결과에서 위치 정보를 줄여주는 역할을 한다. 


합성곱 연산과 통합 연산을 통해 위치 정보는 축약되고 패턴 정보는 강조된 특징 지도가 출력된다. 그리고 이 특징 지도를 인공 지능 네트워크인 ‘전체 연결층’에 입력하여 이미지 인식 결과를 출력할 수 있다. 또한 입력된 이미지가 많아질수록 인공 신경망의 기계 학습을 통해 합성곱 신경망이 스스로 필터의 수치를 갱신함으로써 이미지 인식의 정확성이 높아지게 된다. 하지만 합성곱 연산 및 통합 연산의 횟수, 필터의 크기 및 이동 간격, 통합 연산 규칙 등은 초기 설정 값이 계속 유지되므로 이를 고려하여 합성곱 신경망을 설계해야 한다. 최근 인공 지능 기술이 발전함에 따라 합성곱 신경망은 사진 자동 분류, 필기 인식 등 다양한 영역으로 확장되고 있다.


― 오카타니 타카유키, 「딥러닝, 제대로 시작하기」





  1. 이미지 인식 : 이미지 속 사물이 무엇인지를 알아내는 것. [본문으로]