5 분 소요

데이터 카탈로그 :

데이터 거버넌스, 필요성, 장점, 관련 도구

1. 데이터 거버넌스

데이터 거버넌스와 관련되어 많은 용어가 생겨나고 있다.

용어 의미
데이터 거버넌스 - 전체 데이터 수명주기 동안 데이터의 품질과 무결성을 보장하기 위해 조직에서 사용하는 일련의 정책
- 데이터가 일관되고 규정을 준수하는 방식으로 적절하게 관리, 보호 및 사용되도록 조직에서 수립하는 일련의 정책, 프로세스 및 표준을 의미
- 데이터 거버넌스 프레임워크 : 데이터 모델링 및 정의, 품질, 계보, 책임, 보안 및 액세스 관리
데이터 카탈로그 - 메타데이터, 액세스 세부정보를 포함한 데이터 자산의 중앙 집중식 인벤토리로 사용자가 자신의 요구 사항을 충족하는 데이터 세트를 찾기 위해 사용
데이터 계보 - 데이터가 시스템과 프로세스를 통해 흐르는 방식을 시각적으로 표현하여 데이터 변환 추적, 잠재적 품질 문제 식별에 사용
데이터 품질 - 데이터의 정확성, 완전성, 일관성, 적시성, 유효성, 고유성
데이터 민주화 - 데이터 전문가뿐만 아니라 조직 내 더 광범위한 사용자가 데이터 및 데이터 도구에 액세스할 수 있도록 하는 관행, 기술적 지식이 없는 사용자가 데이터 기반 의사결정을 내릴 수 있도록 역량을 부여하는 것이 목표

2. 데이터 카탈로그

2.1. 필요성

  • 방대한 데이터의 이해
    • 데이터 레이크, 데이터 웨어하우스 등 다양한 소스에 데이터를 생성하는데 복잡성이 증가하는 데이터 환경을 관리하고 이해하기 위해 중앙 집중식 카탈로그가 필요하다.
  • 데이터 검색 지원
    • 여러 부서의 사용자가 데이터 엔지니어의 지원 없이도 원하는 데이터를 신속하게 찾고 액세스할 수 있어야 한다.
  • 데이터 거버넌스 지원
    • 데이터에 대한 액세스를 그룹 별로 관리하여 데이터 보안과 규정 준수를 확보한다.
    • 데이터의 품질을 모니터링하고 개선하기 위해 품질 지표, 계보 정보 등을 카탈로그에 포함한다.

2.2. 사용자

데이터 카탈로그는 다양한 사용자의 요구를 만족시킨다.

  • 데이터 엔지니어
    • 특정 서비스의 스키마 변경사항이 시스템 전체에 어떤 영향을 미치는가?
    • A 서비스와 B 서비스의 데이터 구조는 어떻게 다른가?
    • 데이터의 수명 주기는 어떤가?
  • 데이터 분석가 / 데이터 사이언티스트
    • A 서비스의 위치 데이터를 어디서 찾을 수 있는가?
    • 데이터 레이크의 데이터에 어떻게 엑세스할 수 있는가?
    • 데이터 웨어하우스에 저장된 C 데이터의 품질은 적절한가?
  • 최고 데이터 책임자
    • 고객의 개인 정보에 접근할 수 있는 사람은 누구인가?
    • 모든 데이터에 대해 정의된 보존 정책이 있는가?

2.3. 메타데이터의 종류

  • 기술 메타데이터 : 스키마, 테이블, 열, 파일명, 보고서명 등
  • 비즈니스 메타데이터 : 태그, 비즈니스 설명, 주석, 분류, 사용 적합성 등
    • 태그 : 특정 데이터 항목의 담당자, 개인 식별 정보 포함 여부, 데이터 보관 정책, 데이터 품질평가점수 등이 포함된 사용자 관점의 분류 기준
  • 운영 메타데이터 : 업데이트 일자, 액세스한 횟수, 액세스한 사용자 등

2.4. 데이터 카탈로그 플랫폼

(1) 클라우드

데이터 소스가 AWS, BigQuery, Azure 등 특정 클라우드 저장소에 집중되어 있다면, 해당 클라우드가 제공하는 데이터 카탈로그 도구를 사용한다.

  • AWS Glue
    • 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 변환, 이동 및 통합할 수 있게 해주는 서버리스 데이터 통합 서비스이다.
    • 70개 이상의 다양한 데이터 소스를 검색 및 연결하고 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있다.
    • 크롤러를 활용하여 Amazon S3, 델타레이크, MySQL, MongoDB 등의 저장소에서 메타데이터를 수집하여 기록
  • Dataplex
    • 기본적으로 구글은 Data Catalog를 통해 데이터를 검색할 수 있지만, 더불어 중앙 집중식 보안 및 거버넌스를 제공하는 Dataplex도 있다.
    • 일관된 제어를 통해 데이터 레이크, 데이터 웨어하우스 및 데이터 마트 전반에서 조직이 데이터를 중앙 집중식으로 관리, 모니터링 및 관리할 수 있도록 지원한다.
    • 데이터 이동 없이 여러 데이터 사일로의 데이터 관리를 위한 단일 창을 제공한다.
    • 비즈니스 컨텍스트를 기반으로 통합 검색 지원한다.

(2) 데이터 거버넌스 도구

Collibra

  • Collibra
    • 데이터 카탈로그화, 데이터 계보, 데이터 품질 관리 등을 포함한 포괄적인 데이터 거버넌스 도구이다.
    • 강력한 데이터 계보 기능을 제공하고 변환 프로세스가 다운스트림 프로세스에 어떤 영향을 미치는지 영향 분석을 제공한다.
    • 영업, 마케팅 등 여러 부서 별로 커뮤니티를 제공함으로써 부서 별 고객 및 책임을 명확히 정의 가능하다.
    • Tableau, Power BI 등 BI 도구와 연동성이 좋다.
    • 복잡한 데이터 생태계 및 엄격한 데이터 거버넌스를 가진 대규모 조직에 적합하다.
    • 이 외에도 Alation 이 있다.

REFERENCES