Photo by Luke Chesser on Unsplash

 

현대 사회는 정보 통신 기술의 발달로 매일 엄청난 양의 자료가 생성ㆍ축적되고 있다. 이러한 많은 양의 자료에서 유용한 정보를 찾아 활용하기 위해 다양한 분석 기법이 쓰이는데, 그 중 정책 수립, 기업 관리, 의학 분야 연구, 마케팅 등에 널리 쓰이는 것이 연관성 분석이다. 마케팅 분야를 예로 든다면, 연관성 분석은 수집한 자료 안에 존재하는 품목 간의 연관 규칙을 발견하는 과정을 말하며, 연관 규칙은 ‘고객이 X를 사면 Y도 산다.’의 형태를 띤다. 이때 ‘고객이 X를 산다.’는 조건이 되고 ‘고객이 Y를 산다.’는 결과가 된다. 연관 규칙은 ‘X → Y’ 와 같이 조건과 결과를 기호로 표현하는 것이 일반적이며, 통계학의 확률을 기반으로 한다. 

 

연관성 분석을 통해 유용한 연관 규칙을 찾기 위해서는 대상 품목들이 어느 정도의 연관성이 있는지를 측정해야 한다. 연관성 측도의 기본은 발생 빈도로, 이와 관련한 주요 측도에는 지지도, 신뢰도, 향상도가 있다. 먼저 지지도는 전체 거래에 대해서 조건과 결과에 있는 품목들이 함께 구매되는 경향을 나타낸다. ‘X → Y’의 지지도는 X와 Y를 모두 구매하는 거래의 수를 전체 거래의 수로 나눈 값으로, 지지도가 높다는 것은 동시 구매가 많이 일어난다는 것을 의미한다. <표>는 다섯 가지의 품목만 취급하는 편의점에서 다섯 명의 고객이 한 번씩만 거래했다고 가정한 것이다. <표>에서 생수와 빵을 모두 산 경우는 다섯 번의 거래 중 두 번이므로, ‘생수 → 빵’의 지지도는 2/5(40%)이다. ‘빵 → 생수’의 지지도도 2/5이므로 ‘X → Y’와 ‘Y → X’의 지지도는 같다. 

 

<표>

 

신뢰도는 조건의 구매가 발생하였을 때 결과의 구매가 일어 날 확률이다. 즉 ‘X → Y’의 신뢰도는 X와 Y를 모두 구매하는 거래의 수를 X를 구매하는 거래의 수로 나눈 값이다. 따라서 신뢰도가 높다는 것은 조건의 구매가 발생한 경우에 결과의 구매가 많이 일어남을 의미한다. <표>에서 생수를 구매한 세 번의 거래 중에서 두 번만 빵을 샀으므로, ‘생수 → 빵’은 2/3 (약 66.7%)의 신뢰도를 갖는다. 그런데 ‘빵 → 생수’의 신뢰도는 2/4 (50%)이다. 이처럼 ‘X → Y’와 ‘Y → X’의 신뢰도는 같지 않을 수 있다.

 

향상도는 어떤 연관 규칙에 대하여 조건 없이 결과가 일어날 확률보다, 조건이 일어났을 때 결과가 일어날 확률이 얼마나 더 향상되는지를 알려주는 측도이다. 향상도는 신뢰도를 기대 신뢰도로 나눈 값이다. 기대 신뢰도란 ‘X → Y’ 에서 Y를 포함하는 거래의 수를 전체 거래의 수로 나눈 값이다. ‘X → Y’에서 향상도가 1이라는 것은 X와 Y의 구매가 서로 독립적이라는 의미이다. 그리고 ‘X → Y’에서 향상 도가 1보다 크다는 것은 X를 구매했을 때 Y를 구매할 확률이, 전체 거래에서 Y를 구매할 확률보다 크다는 것이다. 따라서 이 연관 규칙은 결과를 예측하는 데 있어서 우연적 기회보다 우수하여 마케팅 전략을 ⓐ세우는 데 유용하게 활용된다. 반면에 ‘X → Y’에서 향상도가 1보다 작다는 것은 X를 구매했을 때 Y를 구매할 확률이, 전체 거래에서 Y를 구매할 확률보다 작다는 것이므로 이 연관 규칙을 마케팅 전략에 바로 적용하기는 어렵다. 그래서 향상도가 1보다 작은 경우에는 음의 연관 규칙을 만들어 유용하게 쓰일 수 있도록 하기도 한다. 음의 연관 규칙은 결과에 ‘이다’ 대신에 ‘아니다’를 쓴다는 것을 제외하고는 연관 규칙과 유사하다. 예컨대 ‘X → Y’의 신뢰도가 30%이고, ‘X → Y’의 기대 신뢰도가 40%라고 가정해 보자. 이 경우 ‘X → Y’의 향상도는 3/4으로 1보다 작다. 따라서 이를 음의 연관 규칙, 곧 ‘X를 사면 Y를 사지 않는다.’로 전환하면, 신뢰도는 70%(100% - 30%)가 되고, 기대 신뢰도는 60%(100% 40%)가 되므로 향상도는 7/6로 1보다 커지게 되어 유용하게 쓰일 수 있다.

 

이와 같은 연관성 분석은 결과가 명확하기 때문에 이해하기 쉽고, 유용한 연관 규칙의 형태로 주어지므로 마케팅 전략에 적용하기도 좋다. 그러나 분석하려는 품목의 수가 늘어나면 연관 규칙이 기하급수적으로 늘어난다는 문제가 발생하는데, 이 문제를 해결하기 위한 보편적 방법으로 거래가 충분히 이루어지지 않은 품목을 제거하는 최소지지도 가지치기가 있다. 이는 지지도가 낮은 품목을 분석 대상에서 삭제하거나, 하위 품목을 상위 품목으로 일반화하여 품목들이 분석자가 임의로 설정한 최소지지도를 넘게 하는 것이다.

 

지금까지 살펴본 연관성 분석은 사건들의 발생 순서는 분석의 고려 대상으로 삼지 않았다. 그런데 순차적으로 일어나는 사건들을 나열한 시계열 자료를 분석하여 선후 사건들 사이의 연관성을 추론할 수도 있다. 이를 ㉠시차 연관성 분석이라고 한다. 시간의 흐름에 따라 어떤 사건들이 일어났는지를 분석하여 사건들 간의 연관성을 발견하면, 이러한 연관성을 토대로 미래의 사건을 예측하거나 사건들 사이의 인과 관계를 추론하는 등 다양하게 활용할 수 있다. 이와 같은 시차 연관성 분석을 하기 위해서는 사건이 일어난 시간이나 순서를 알려 주는 정보가 필요하다. 또한 다른 시간대에 일어난 사건이 동일한 분석 대상에서 일어났다는 것을 알려 주는 분석 대상의 식별 정보도 필요하다.

 

 

― (출처) 김병수 외, ‘연관성 분석’
@ 2019학년도 10월 고3 전국연합학력평가, 30~35번.