[Governance] Data Catalog
데이터 카탈로그 :
데이터 거버넌스, 필요성, 장점, 관련 도구
1. 데이터 거버넌스
데이터 거버넌스와 관련되어 많은 용어가 생겨나고 있다.
용어 | 의미 |
---|---|
데이터 거버넌스 | - 전체 데이터 수명주기 동안 데이터의 품질과 무결성을 보장하기 위해 조직에서 사용하는 일련의 정책 - 데이터가 일관되고 규정을 준수하는 방식으로 적절하게 관리, 보호 및 사용되도록 조직에서 수립하는 일련의 정책, 프로세스 및 표준을 의미 - 데이터 거버넌스 프레임워크 : 데이터 모델링 및 정의, 품질, 계보, 책임, 보안 및 액세스 관리 |
데이터 카탈로그 | - 메타데이터, 액세스 세부정보를 포함한 데이터 자산의 중앙 집중식 인벤토리로 사용자가 자신의 요구 사항을 충족하는 데이터 세트를 찾기 위해 사용 |
데이터 계보 | - 데이터가 시스템과 프로세스를 통해 흐르는 방식을 시각적으로 표현하여 데이터 변환 추적, 잠재적 품질 문제 식별에 사용 |
데이터 품질 | - 데이터의 정확성, 완전성, 일관성, 적시성, 유효성, 고유성 |
데이터 민주화 | - 데이터 전문가뿐만 아니라 조직 내 더 광범위한 사용자가 데이터 및 데이터 도구에 액세스할 수 있도록 하는 관행, 기술적 지식이 없는 사용자가 데이터 기반 의사결정을 내릴 수 있도록 역량을 부여하는 것이 목표 |
2. 데이터 카탈로그
2.1. 필요성
- 방대한 데이터의 이해
- 데이터 레이크, 데이터 웨어하우스 등 다양한 소스에 데이터를 생성하는데 복잡성이 증가하는 데이터 환경을 관리하고 이해하기 위해 중앙 집중식 카탈로그가 필요하다.
- 데이터 검색 지원
- 여러 부서의 사용자가 데이터 엔지니어의 지원 없이도 원하는 데이터를 신속하게 찾고 액세스할 수 있어야 한다.
- 데이터 거버넌스 지원
- 데이터에 대한 액세스를 그룹 별로 관리하여 데이터 보안과 규정 준수를 확보한다.
- 데이터의 품질을 모니터링하고 개선하기 위해 품질 지표, 계보 정보 등을 카탈로그에 포함한다.
2.2. 사용자
데이터 카탈로그는 다양한 사용자의 요구를 만족시킨다.
- 데이터 엔지니어
- 특정 서비스의 스키마 변경사항이 시스템 전체에 어떤 영향을 미치는가?
- A 서비스와 B 서비스의 데이터 구조는 어떻게 다른가?
- 데이터의 수명 주기는 어떤가?
- 데이터 분석가 / 데이터 사이언티스트
- A 서비스의 위치 데이터를 어디서 찾을 수 있는가?
- 데이터 레이크의 데이터에 어떻게 엑세스할 수 있는가?
- 데이터 웨어하우스에 저장된 C 데이터의 품질은 적절한가?
- 최고 데이터 책임자
- 고객의 개인 정보에 접근할 수 있는 사람은 누구인가?
- 모든 데이터에 대해 정의된 보존 정책이 있는가?
2.3. 메타데이터의 종류
- 기술 메타데이터 : 스키마, 테이블, 열, 파일명, 보고서명 등
- 비즈니스 메타데이터 : 태그, 비즈니스 설명, 주석, 분류, 사용 적합성 등
- 태그 : 특정 데이터 항목의 담당자, 개인 식별 정보 포함 여부, 데이터 보관 정책, 데이터 품질평가점수 등이 포함된 사용자 관점의 분류 기준
- 운영 메타데이터 : 업데이트 일자, 액세스한 횟수, 액세스한 사용자 등
2.4. 데이터 카탈로그 플랫폼
(1) 클라우드
데이터 소스가 AWS, BigQuery, Azure 등 특정 클라우드 저장소에 집중되어 있다면, 해당 클라우드가 제공하는 데이터 카탈로그 도구를 사용한다.
- AWS Glue
- 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 변환, 이동 및 통합할 수 있게 해주는 서버리스 데이터 통합 서비스이다.
- 70개 이상의 다양한 데이터 소스를 검색 및 연결하고 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있다.
- 크롤러를 활용하여 Amazon S3, 델타레이크, MySQL, MongoDB 등의 저장소에서 메타데이터를 수집하여 기록
- Dataplex
- 기본적으로 구글은 Data Catalog를 통해 데이터를 검색할 수 있지만, 더불어 중앙 집중식 보안 및 거버넌스를 제공하는 Dataplex도 있다.
- 일관된 제어를 통해 데이터 레이크, 데이터 웨어하우스 및 데이터 마트 전반에서 조직이 데이터를 중앙 집중식으로 관리, 모니터링 및 관리할 수 있도록 지원한다.
- 데이터 이동 없이 여러 데이터 사일로의 데이터 관리를 위한 단일 창을 제공한다.
- 비즈니스 컨텍스트를 기반으로 통합 검색 지원한다.
(2) 데이터 거버넌스 도구
- Collibra
- 데이터 카탈로그화, 데이터 계보, 데이터 품질 관리 등을 포함한 포괄적인 데이터 거버넌스 도구이다.
- 강력한 데이터 계보 기능을 제공하고 변환 프로세스가 다운스트림 프로세스에 어떤 영향을 미치는지 영향 분석을 제공한다.
- 영업, 마케팅 등 여러 부서 별로 커뮤니티를 제공함으로써 부서 별 고객 및 책임을 명확히 정의 가능하다.
- Tableau, Power BI 등 BI 도구와 연동성이 좋다.
- 복잡한 데이터 생태계 및 엄격한 데이터 거버넌스를 가진 대규모 조직에 적합하다.
- 이 외에도 Alation 이 있다.