본문 바로가기
데이터과학/데이터 분석 실습

맥미니 몽고디비 분산 시스템 (1) - 개요

by 경성현 2013. 7. 20.

구글에서 분산컴퓨팅 플랫폼으로 map-Reduce 방식을 제안하면서부터 빅데이터의 저장 및 처리를 위한 기술이 급격하게 발달하고 있습니다. Map-Reduce는 분할-정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델로, 오픈소스인 Hadoop의 Map-Reduce 프레임워크가 동일한 기능을 제공해 줍니다. MongoDB는 비정형 데이터를 다룰 수 있는 NoSQL 데이터베이스로서, 샤딩Sharding 시스템을 구성함으로써 Map-Reduce 기능을 구현할 수 있습니다.

여러대의 컴퓨터에 데이터를 분할해서 저장하겠다는 큰 포부로 컴퓨터를 여러대 구입하다 보면 예산도 이슈가 되지만, 컴퓨터를 쌓아둘 공간이 있는가? 에 대해서도 고민하지 않을 수 없습니다. OS X 기반의 맥미니를 사용한다면 기존의 40대 랙타입 PC를 설치 할 수 있는 공간에 160대의 맥미니를 설치 할 수 있으니 공간 활용도 측면에서 엄청난 이득을 볼 수 있습니다. MongoDB에서 분산처리를 하기 위해 필요한 샤딩과 리프리카셋ReplicaSet을 구성하여 데이터를 안정적으로 분산 저장하고 복제할 수 있는 방법을 소개해 드리고자 합니다.  

1. 샤딩Sharding

빅데이터 환경은 초당 몇 만 건 이상 되는 수 많은 데이터를 빠른 시간 내에 수집하고 저장해야 하며 때에 따라서 정보를 분산-집계하여 사용자가 원하는 통계 정보로 가공할 수 있어야 합니다. 이러한 시스템 환경을 구축하기 위해서는 효과적인 데이터의 분산 저장 및 처리 기술이 필요한데, MongoDB에서는 이것을 샤딩Sharding 시스템이라고 합니다. 샤딩은 여러 대의 서버를 통해서 데이터를 분산처리 하여 빅데이터를 효율적으로 저장하고 관리하는 기능을 제공해 줍니다.

2. 복제Replica와 복제셋ReplicaSet

초당 몇 만 건 이상의 데이터에 대한 읽기/쓰기 작업이 박생하는 빅데이터 환경에서는 예기치 못한 시스템 장애로 인한 데이텅 유실이 생길 수 있습니다. 하나의 서버에 데이터가 입력/수정/삭제되었을때 동일한 구조를 가진 또 다른 서버에서 자동으로 동일한 데이터의 입력/수정/삭제가 이루어 진다면, 메인 서버에 장애가 발생하더라도 복제 서버를 이용하여 메인 서버를 빠르게 복구할 수 있을 것입니다. 리프리카와 리프리카셋 기능은 데이터의 백업을 통해 안정성을 보장하기 위한 방법입니다.