Data Lake, Data Warehouse, Data Mart 의 구분
2022. 6. 22. 23:36ㆍArchitecture
데이터 저장소를 일컫는 다양한 용어들이 존재하는데, 이번 글에서는 Data Lake, Data Warehouse, Data Mart 에 대한 개념을 정리해보고자 한다.
1. Data Lake (데이터 레이크)
1.1. 개념
- 조직 내에서 생성 및 수집되는 모든 데이터를 원본 형태 그대로 저장하는 곳
- 구조화된 정형 데이터 뿐만 아니라 로그, 이메일, 이미지, 음성, 영상 등과 같은 비정형 데이터를 포함
1.2. 등장 배경
- 데이터의 활용 계획이 정해지지 않았지만 향후 활용 가능성을 위해 데이터를 보관하려는 목적으로 활용됨
- 비슷한 맥락에서 데이터 과학자들은 정제되지 않은 원본 데이터 자체를 이해하고, 분석 목적에 맞게 가공하고 싶은 니즈가 있음 (데이터의 정제 과정에서 정보의 손실이 발생함)
2. Data Warehouse (데이터 웨어하우스)
2.1. 개념
- 조직 내에서 생성 및 수집되는 다양한 데이터를 구조화된 형태로 저장하는 곳
- 조직 내 다양한 서비스와 목적을 위해 운영 및 관리되는 통합 저장소
2.2. 특징
- 데이터의 품질을 보장하기 때문에 데이터를 활용하는 분석가는 데이터 정제를 위한 비용을 줄일 수 있음. 반면, 데이터의 수집하고 구조를 설계하는 엔지니어에게 활용 목적에 대한 깊은 분석이 요구되는 단점이 있음
- 다양한 목적에 부합하는 통합된 데이터를 설계하는 것 자체가 모순적인 부분이 있음 (그 결과 Data Lake가 등장함)
3. Data Mart (데이터 마트)
3.1. 개념
- 조직 내 특정 부서 또는 서비스 단위에서 필요한 데이터를 모아서 저장하는 곳
- 구조화된 정형 데이터를 취급함
3.2. 특징
- 일반적으로 데이터 웨어하우스로부터 특정 목적에 해당하는 데이터들을 가져오는 방식으로 빠르게 구성할 수 있음
데이터 저장소의 규모가 큰 순으로 개념과 특징을 정리해보았다. 데이터 마트는 특정 업무 및 서비스 운영에 활용되는 데이터를 관리하는 저장소이고, 데이터 웨어하우스는 전사적인 관점에서 여러 데이터 마트를 통합 관리하는 상위 개념이라고 할 수 있다. 데이터 레이크는 데이터 웨어하우스의 단점을 보완하는 측면에서 활용되는 저장소로 다양한 형태의 원본 데이터를 저장하는 곳이다. 이러한 특징에 의해 각 저장소의 관리자(엔지니어)와 사용자(분석가)의 업무 범위도 달라질 수 있음을 이해하면 좋을 것 같다.
4. 참고
아래의 링크들은 본 개념을 이해하는데 큰 도움된 글들로 꼭 함께 읽어보면 좋을 것 같다 :)
[1] https://ehyun0128.github.io/miscellaneous/dm_dw_dl/
[2] https://brunch.co.kr/@pubjinson/52
[3] https://www.holistics.io/blog/data-lake-vs-data-warehouse-vs-data-mart/