ⓒ 이코노믹리뷰


매일 쏟아지는 수많은 우편물들은 발송 지역별로 분류되어야 한다. 우편물 분류 작업은 우편번호 숫자를 인식함으로써 자동화될 수 있다. 이때 자동분류기는 환경과의 상호 작용에 기반한 경험적인 데이터로부터 스스로 성능을 향상시킬 수 있 는 학습 능력을 갖춰야 한다. 학습은 상호 작용의 정도에 따라 경험하는 데이터가 달라지고, 이러한 학습 데이터에 따라 자동분류기의 성능이 달라지게 된다. 즉, 자동분류기는 단순히 데이터를 기억하는 것이 아니라, 다양한 경험에서 새로운 정보를 추론하여 스스로 분류할 수 있는 능력을 갖춰야 한다.



우편번호 자동분류기가 학습하기 위해서는, 먼저 우편번호 숫자를 하나씩 분할하고, 0부터 9까지를 잘 구별할 수 있는 입력 특징을 찾아야 한다. 위 그림은 필기체 숫자를 가로, 세로 8등분하여 연필이 지나간 자리를 1, 그렇지 않으면 0의 값을 주 어, 입력 특징을 추출한 것이다.


다음으로, 추출된 특징으로 학습할 때 분류기에 목표치를 제공함으로써 학습을 감독할 수 있다. 즉, 입력 특징에 대한 목 표치가 제시되면 분류기는 데이터를 제시된 목표치로 분류하도록 학습한다. 이렇게 목표치를 이용하는 학습을 감독학습이라 한다. 숫자분류기에 0부터 9까지 각각의 숫자에 대한 목표치가 제공되면, 분류기는 감독학습을 수행한다. 위의 그림에서 분류기는 네 개의 학습 데이터에 대한 입력 특징과 목표치를 통해 학습한다. 이 학습을 통해 두 개의 ‘5’와 두 개의 ‘0’을 각각 같은 숫자로 인식하면서, 동시에 ‘5’와 ‘0’을 서로 다른 숫자로 분류해 내는 함수를 만든다. 감독학습을 통해 올바르게 학습하 였다면, 그림의 실험 데이터는 숫자 ‘5’로 인식된다.


그러면, 목표치를 주는 것이 어려운 경우에는 어떻게 학습할까? 목표치가 없을 때는 학습 데이터로 주어진 입력 특징들의 유사성을 찾아 군집화한다. 이와 같이 목표치가 제시되지 않는 학습을 무감독학습이라고 한다. 예컨대 위 그림에서 네 개의 필기체 숫자에 대한 입력 특징만 주어지면, 무감독학습은 비슷한 입력 특징을 가진 숫자들을 모아 ‘5’  또는 ‘0’에 대해 군 집화하는 함수를 만든다. 무감독학습을 통해 올바르게 학습하였다면, 실험 데이터는 ‘5’의 군집과 유사한 것으로 인식된다.


이렇게 학습된 자동분류기는 실험 데이터를 정확하게 분류하였는지에 따라 그 성능이 평가된다. 이러한 과정을 통해 우편 번호 자동분류기는 우편물을 지역별로 분류할 수 있게 된다.