티스토리 뷰

공부방

[Hadoop] 하둡(Hadoop) 이란?

아이캔두이 2021. 12. 18. 12:26
728x90
반응형

 

요즘 하둡 스터디를 진행하고 있어서 하둡에 관련된 내용을 정리해 보려고 한다.

우리 회사에서는 Ambari를 통해 하둡을 사용하고 있고, 주로 사용하는 Hive와 Zeppelin을 알아야 한다.

특히 이를 통합적으로 관리하는 Zookeeper에 대해 먼저 공부해라..

이런 얘기를 들었는데 도대체 무슨소린지 알수가 없고, 저러한 시스템을 왜 사용하는지 무엇인지를 모르니 막막하기만 하였다.

그래서 기초부터 차근차근 알아보려고 한다.

가장 기본적인 내용인 하둡은 무엇인지 부터 알아 보자.

(하둡 완벽 가이드 라는 책과 https://www.tableau.com 홈페이지를 참고하였다.)

 


 

Hadoop (High-Availability Distributed Object-Oriented Platform) 이란?

 

: 방대한 양의 데이터를 저장하고 구문 분석하는 모든 구성 요소를 처리하기 위한 오픈 소스 프레임워크이다.

 

하둡의 특징과 함께 자세히 살펴보자.

 

옛날부터 지금에 오기까지 데이터를 저장하는 용량은 급격하게 증가해 왔다.

그래서 데이터를 처리하는 속도가 증가하는 데이터의 용량을 따라갈 수 없게 되었다.

이때 등장한 방법이 데이터를 분산시켜 처리하는 방법이다.

데이터 1개를 처리하는데 1초가 걸린다면 100개를 처리하기 위해서는 100초가 필요하다.

하지만 10군데로 분산시켜 처리를 한다면 10초면 가능해진다!

물론 분산시킨 데이터를 한곳으로 모으는 작업 등이 필요하겠지만 말이다.

하둡은 대용량의 데이터를 적은 비용으로 더 빠르게 분석할 수 있도록 도와주는 소프트웨어이다.

빅데이터 처리와 분석을 위한 플랫폼 중 사실상 표준으로 자리잡고 있고 오픈소스라는 최대의 장점을 가지고 있다.

 

 

일반적으로 하둡분산파일시스템(HDFS)과 맵리듀스(MapReduce) 로 시작되었으나, 지금은 하둡 생태계 (Hadoop Ecosystem) 전반을 포함하는 의미로 확장되었다. 

 

출처 https://1004jonghee.tistory.com/

 

 

Hadoop은 여러 시스템으로 쉽게 확장되기 때문에 거의 모든 크기의 데이터 집합을 수용할 수 있고, 데이터를 저장하고 처리하는 방식 덕분에 계속 확장되는 데이터 저장소에 대한 매력적인 엔터프라이즈 솔루션이 된다.

 


Hadoop은 처리기능을 분산할 뿐만 아니라 데이터 저장 및 분석 방식도 바꾼다.

전통적으로 데이터는 '데이터 웨어하우스'에 저장되어 왔다. 

이름에서 알 수 있듯이, 데이터 웨어하우스는 자체 정보에 따라 저장되고 분류된 데이터 집합의 대규모 수집이다. 

분석가는 이렇게 새로 저장된 테이블과 데이터 집합에 접근한다. 

테이블과 데이터 집합은 정형화되고, 데이터는 필요 시 접근할 수 있도록 패키지화된다. 

이 경우, 데이터를 올바르게 보관하고 필요할 때 호출하려면 모든 데이터를 분석해야 한다.

데이터 웨어하우스 시스템에서는 사용자가 특정 테이블에 접근하기 쉬운 반면, 초기 분석과 저장에 시간이 오래 걸리고 리소스가 많이 필요할 수 있다. 

게다가 잘못 사용되는 데이터 웨어하우스는 비효율적일 수 있다. 

즉각 사용되지 않거나 용도가 분명하지 않은 데이터는 잊히거나 분석에서 제외될 수 있기 때문이다. 

저장 비용이 늘어날 수 있기 때문에, 구조적 이점을 활용하려는 분석가와 IT 전문가는 데이터 웨어하우스의 확장 전략을 신중히 세워야 한다.

다른 한편, 데이터 레이크는 이와 정반대이다. 

데이터 웨어하우스가 통제되고 카탈로그화된다면, 데이터 레이크는 모든 데이터가 자유롭게 흐르는 거대한 덤프이다. 

모든 데이터는 분석 또는 사용 여부와 관계없이, 간헐적으로 사용되더라도 저장된다. 

데이터는 원시 형태로 가져오고 필요할 때만 분석된다. 

Hadoop은 하드웨어 측면에서 꽤 경제적이기 때문에 필요 시 손쉽게 확장하여 대량의 데이터를 저장하거나 구문 분석할 수 있다. 

그러나 이는 사전 패키지된 테이블과 승인된 데이터 집합을 언제든지 사용할 수 있게 유지하기(즉, 데이터 웨어하우스의 핵심 이점)가 좀 더 어렵다는 의미이다. 

데이터 레이크 확장은 거버넌스 전략과 교육의 확대를 의미한다.

 

 

Hadoop은 다음 네가지 모듈로 구성된다.

 

  1. Hadoop Common : 대부분의 사용 사례를 지원하는 기본 유틸리티
  2. Hadoop MapReduce : 대규모 집합으로 매핑한 다음 필터링하여 특정 결과를 찾는 방식으로 데이터를 처리
  3. HDFS(Hadoop Distributed file System, 하둡 분산 파일 시스템) : 쉽게 액세스할 수 있는 형식으로 데이터를 저장
  4. Hadoop YARN : 리소스 관리 및 일정 예약

 

각 모듈의 특징은 다음 포스팅에서 알아보도록 하자!

 

 

이상!

 

 

728x90
반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30