맥미니 몽고디비 분산 시스템 (1)

구글에서 분산컴퓨팅 플랫폼으로 map-Reduce 방식을 제안하면서부터 빅데이터의 저장 및 처리를 위한 기술이 급격하게 발달하고 있습니다. Map-Reduce는 분할-정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델로, 오픈소스인 Hadoop의 Map-Reduce 프레임워크가 동일한 기능을 제공해 줍니다. MongoDB는 비정형 데이터를 다룰 수 있는 NoSQL 데이터베이스로서, 샤딩Sharding 시스템을 구성함으로써 Map-Reduce 기능을 구현할 수 있습니다.

여러대의 컴퓨터에 데이터를 분할해서 저장하겠다는 큰 포부로 컴퓨터를 여러대 구입하다 보면 예산도 이슈가 되지만, 컴퓨터를 쌓아둘 공간이 있는가? 에 대해서도 고민하지 않을 수 없습니다. OS X 기반의 맥미니를 사용한다면 기존의 40대 랙타입 PC를 설치 할 수 있는 공간에 160대의 맥미니를 설치 할 수 있으니 공간 활용도 측면에서 엄청난 이득을 볼 수 있습니다. MongoDB에서 분산처리를 하기 위해 필요한 샤딩과 리프리카셋ReplicaSet을 구성하여 데이터를 안정적으로 분산 저장하고 복제할 수 있는 방법을 소개해 드리고자 합니다.

1. 샤딩Sharding

빅데이터 환경은 초당 몇 만 건 이상 되는 수 많은 데이터를 빠른 시간 내에 수집하고 저장해야 하며 때에 따라서 정보를 분산-집계하여 사용자가 원하는 통계 정보로 가공할 수 있어야 합니다. 이러한 시스템 환경을 구축하기 위해서는 효과적인 데이터의 분산 저장 및 처리 기술이 필요한데, MongoDB에서는 이것을 샤딩Sharding 시스템이라고 합니다. 샤딩은 여러 대의 서버를 통해서 데이터를 분산처리 하여 빅데이터를 효율적으로 저장하고 관리하는 기능을 제공해 줍니다.

2. 복제Replica와 복제셋ReplicaSet

초당 몇 만 건 이상의 데이터에 대한 읽기/쓰기 작업이 박생하는 빅데이터 환경에서는 예기치 못한 시스템 장애로 인한 데이텅 유실이 생길 수 있습니다. 하나의 서버에 데이터가 입력/수정/삭제되었을때 동일한 구조를 가진 또 다른 서버에서 자동으로 동일한 데이터의 입력/수정/삭제가 이루어 진다면, 메인 서버에 장애가 발생하더라도 복제 서버를 이용하여 메인 서버를 빠르게 복구할 수 있을 것입니다. 리프리카와 리프리카셋 기능은 데이터의 백업을 통해 안정성을 보장하기 위한 방법입니다.

'데이터과학 > 데이터 분석 실습' 카테고리의 다른 글

맥미니 몽고디비 분산 시스템 (5) - Aggregate (0)	2013.07.20
맥미니 몽고디비 분산 시스템 (4) - Replica Set (3)	2013.07.20
맥미니 몽고디비 분산 시스템 (3) - Sharding (1)	2013.07.20
맥미니 몽고디비 분산 시스템 (2) - 클러스터 구축 준비 (0)	2013.07.20
Mac OS X 10.8 (ML)에 OpenCV 2.4.x 설치하기 (1)	2013.05.19

Augmentia

맥미니 몽고디비 분산 시스템 (1) - 개요

'데이터과학 > 데이터 분석 실습' 카테고리의 다른 글

티스토리툴바

맥미니 몽고디비 분산 시스템 (1) - 개요

'데이터과학 > 데이터 분석 실습' 카테고리의 다른 글

관련글

티스토리툴바