하둡 생태계(Hadoop Eco System)

하둡 생태계(Hadoop Eco System)

 

하둡 생태계는 빅데이터 관련 프로그램들을 총칭한다. Flume, HBase, Hive, Pig, Sqoop, Zookeeper, Storm, Kafka 등이 있다.

 

1. 하둡(Hadoop): 분산 처리를 가능하게 해준다(여러 컴퓨터를 연결).

HDFS: 하둡 파일 시스템

 

2. R: 통계 패키지

R 스튜디오(R Studio): GUI 환경에서 R을 사용하게 해줌

 

3. 주키퍼(Zookeeper): “사육사”라는 뜻(따라서 동물 이름을 갖는 프로그램들이 많다). 빅데이터 관련 프로그램들을 관리한다. 설치가 가장 까다롭다.

 

4. 하이브(Hive): “벌떼”라는 뜻. SQL 문장 분석을 한다

5. 피그(Pig): “돼지”라는 뜻. “Pig Latin”이라 불리는 언어를 쓴다.(파이썬 류)

cf) 자바는 맵/리듀스를 쓴다. 하둡 안에도 맵/리듀스(=mapred)가 존재한다.

 

6. 플럼(flume): 비정형화된 데이터를 가져오는 수집기. 플럼은  “수로(waterway), 물미끄럼틀”이라는 뜻이 있다.

7. 스쿱(sqoop): 정형화된 데이터를 가져오는 수집기. sqoop은 뜻이 존재하지 않고, scoop의 경우 아이스크림을 푸는 깊고 둥근 숟가락을 말한다.

 

8. H베이스(HBase): 분산 데이터베이스. 매우 거대한 데이터베이스를 저사양에서 처리할 수 있게 도와줌.

 

9. 몽고DB(mongodb): 비정형 데이터를 저장하는 DB. 몽고DB는 컬렉션으로 이루어져 있음. <-> 오라클(Oracle)은 정형 데이터를 저장.