Data Lake, Data Warehouse, Data Mart 의 구분

2022. 6. 22. 23:36Architecture

데이터 저장소를 일컫는 다양한 용어들이 존재하는데, 이번 글에서는 Data Lake, Data Warehouse, Data Mart 에 대한 개념을 정리해보고자 한다. 

Beyond "Modern" Data Architecture (source: Snowflake Blog)

 


 

1. Data Lake (데이터 레이크)

1.1. 개념

  • 조직 내에서 생성 및 수집되는 모든 데이터를 원본 형태 그대로 저장하는 곳
  • 구조화된 정형 데이터 뿐만 아니라 로그, 이메일, 이미지, 음성, 영상 등과 같은 비정형 데이터를 포함

1.2. 등장 배경

  • 데이터의 활용 계획이 정해지지 않았지만 향후 활용 가능성을 위해 데이터를 보관하려는 목적으로 활용됨
  • 비슷한 맥락에서 데이터 과학자들은 정제되지 않은 원본 데이터 자체를 이해하고, 분석 목적에 맞게 가공하고 싶은 니즈가 있음 (데이터의 정제 과정에서 정보의 손실이 발생함)

 

2. Data Warehouse (데이터 웨어하우스)

2.1. 개념

  • 조직 내에서 생성 및 수집되는 다양한 데이터를 구조화된 형태로 저장하는 곳
  • 조직 내 다양한 서비스와 목적을 위해 운영 및 관리되는 통합 저장소

2.2. 특징

  • 데이터의 품질을 보장하기 때문에 데이터를 활용하는 분석가는 데이터 정제를 위한 비용을 줄일 수 있음. 반면, 데이터의 수집하고 구조를 설계하는 엔지니어에게 활용 목적에 대한 깊은 분석이 요구되는 단점이 있음
  • 다양한 목적에 부합하는 통합된 데이터를 설계하는 것 자체가 모순적인 부분이 있음 (그 결과 Data Lake가 등장함)

 

3. Data Mart (데이터 마트)

3.1. 개념

  • 조직 내 특정 부서 또는 서비스 단위에서 필요한 데이터를 모아서 저장하는 곳
  • 구조화된 정형 데이터를 취급함

3.2. 특징

  • 일반적으로 데이터 웨어하우스로부터 특정 목적에 해당하는 데이터들을 가져오는 방식으로 빠르게 구성할 수 있음

 


 

데이터 저장소의 규모가 큰 순으로 개념과 특징을 정리해보았다. 데이터 마트는 특정 업무 및 서비스 운영에 활용되는 데이터를 관리하는 저장소이고, 데이터 웨어하우스는 전사적인 관점에서 여러 데이터 마트를 통합 관리하는 상위 개념이라고 할 수 있다. 데이터 레이크는 데이터 웨어하우스의 단점을 보완하는 측면에서 활용되는 저장소로 다양한 형태의 원본 데이터를 저장하는 곳이다. 이러한 특징에 의해 각 저장소의 관리자(엔지니어)와 사용자(분석가)의 업무 범위도 달라질 수 있음을 이해하면 좋을 것 같다. 

 

4. 참고

아래의 링크들은 본 개념을 이해하는데 큰 도움된 글들로 꼭 함께 읽어보면 좋을 것 같다 :) 

[1] https://ehyun0128.github.io/miscellaneous/dm_dw_dl/

[2] https://brunch.co.kr/@pubjinson/52

[3] https://www.holistics.io/blog/data-lake-vs-data-warehouse-vs-data-mart/