ⓒ 씨넷코리아


빅 데이터(Big Data)란 기존의 일반적인 기술로는 관리하기 곤란한 대량의 데이터를 가리키는 것으로, 그 특성은 데이터의 방대한 양과 다양성 및 데이터 발생의 높은 빈도로 요약된다. 이전과 달리 특수 학문 분야가 아닌 일상생활과 밀접한 환경에서도 엄청난 분량의 데이터가 만들어지게 되었고, 소프트웨어 기술의 발달로 이전보다 적은 시간과 비용으로 대량의 데이터 분석이 가능해졌다. 또한 이를 분석하여 유용한 규칙이나 패턴을 발견하고 다양한 예측에 활용하는 사례가 늘어나면서 빅 데이터 처리 기술의 중요성이 부각되고 있다.


이러한 빅 데이터의 처리 및 분류와 관계된 기술에는 NoSQL 데이터베이스 시스템에 의한 데이터 처리 기술이 있다. 이를 이해하기 위해서는 기존의 관계형 데이터베이스 관리 시스템(RDBMS)에 대한 이해가 필요하다. RDBMS에서는 특정 기준이 제시된 데이터 테이블을 구성하고 이 기준을 속성으로 갖는 정형적 데이터를 다룬다. 고정성이 중요한 시스템이므로 상호 합의된 데이터 테이블의 기준을 자의적으로 추가, 삭제하거나 변용하는 것이 쉽지 않다. 또한 데이터 간의 일관성과 정합성*이 유지될 것을 요구하므로 데이터의 변동 사항은 즉각적으로 반영되어야 한다. <그림 1>은 RDBMS를 기반으로 은행들 간의 상호 연동되는 데이터를 정리하기 위해 사용하는 데이터 테이블의 가상 사례이다.


<그림 1> RDBMS에 의해 구성된 데이터 테이블의 예


NoSQL 데이터베이스 시스템은 특정 기준을 적용하기 어려운 비정형적 데이터를 효율적으로 처리할 수 있도록 설계되었다. 이 시스템에서는 선형으로 데이터의 특성을 나열하여 정리하는 방식을 통해 데이터의 속성을 모두 반영하여 처리한다. <그림 2>는 NoSQL 데이터베이스 시스템으로 자료를 다루는 방식을 나타낸 것이다.


<그림 2> NoSQL 데이터베이스 시스템에 의한 데이터 처리의 예


<그림 2>에서는 ‘이름=’, ‘나이=’, ‘직업=’과 같이 데이터의 속성을 표시하는 기준을 같은 행 안에 포함시킴으로써 데이터의 다양한 속성을 빠짐없이 기록하고, 처리된 데이터를 쉽게 활용할 수 있도록 하고 있다. 또한 이 시스템은 데이터와 관련된 정보의 변용이 상대적으로 자유로우며, 이러한 변화가 즉각적으로 반영되지 않는다는 특성을 지닌다.


*정합성: 논리적 모순이 없는 성질이나 상태.


― 시로타 마코토, 『빅 데이터의 충격』