这是indexloc提供的服务,不要输入任何密码

데이터 레이크하우스란?

전 세계 조직에서는 빅데이터의 볼륨, 지연 시간, 복원력, 데이터 액세스 요구사항을 관리할 수 있는 스토리지 솔루션을 찾고 있습니다. 처음에는 기존 기술 스택을 활용하여 데이터 레이크에서 웨어하우스와 동일한 기능을 제공하도록 하거나, 일부 구조화된 대량 데이터를 처리하도록 데이터 웨어하우스를 조정하거나, 데이터 레이크와 웨어하우스 모두에 데이터를 보관하기로 결정했습니다. 

결과적으로 이러한 접근 방식은 비즈니스 전반에서 높은 비용, 사용자 불만족, 데이터 중복으로 이어졌습니다. 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 이점을 모두 제공하는 동시에 두 시스템의 약점을 제거하는 것을 목표로 하는 새로운 하이브리드 데이터 아키텍처로 떠오르고 있습니다. 

Google Cloud는 저비용 스토리지, 서버리스 컴퓨팅 엔진, 강력한 데이터 관리 서비스를 기반으로 확장성이 뛰어나고 안전한 클라우드 네이티브 데이터 레이크하우스 솔루션을 제공합니다. Google Cloud에서 개방형 데이터 레이크하우스를 구축하는 방법을 자세히 알아보세요.

데이터 레이크하우스 정의

데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스를 결합한 데이터 아키텍처입니다. 데이터 레이크하우스는 머신러닝, 비즈니스 인텔리전스, 예측 분석을 지원합니다. 이를 통해 조직은 정형 데이터, 비정형 데이터, 반정형 데이터 등 모든 유형의 데이터에 대해 저렴하고 유연한 스토리지를 활용하는 동시에 데이터 구조 및 데이터 관리 기능을 제공할 수 있습니다.

레이크하우스란?

데이터 레이크하우스는 데이터 레이크의 주요 이점(원본 형태의 원시 데이터가 저장된 대규모 저장소)과 데이터 웨어하우스의 주요 이점(잘 정리된 구조화된 데이터 집합)을 결합하여 단일 플랫폼을 만드는 최신 데이터 아키텍처입니다. 특히 데이터 레이크하우스를 사용하면 조직은 저비용 스토리지를 사용해 많은 양의 원시 데이터를 저장하는 동시에 구조화 및 데이터 관리 기능을 제공할 수 있습니다. 

이전에는 기본 시스템의 과부하와 같은 리소스에 대한 경합을 방지하기 위해 데이터 웨어하우스와 데이터 레이크를 별도의 사일로화된 아키텍처로 구현해야 했습니다. 기업은 데이터 웨어하우스를 사용하여 비즈니스 인텔리전스(BI) 및 보고용 정형 데이터를 저장하고 데이터 레이크를 사용하여 인공지능(AI)머신러닝(ML) 워크로드용 비정형 데이터 및 반정형 데이터를 저장했습니다. 그러나 이 접근 방식에서는 다른 아키텍처의 데이터를 함께 처리해야 할 때 데이터를 두 개의 개별 시스템 간에 정기적으로 이동해야 했기 때문에 복잡성과 비용이 증가하며 데이터 최신 상태, 중복, 일관성 관련 문제가 발생했습니다. 

데이터 레이크하우스의 목표는 이러한 사일로를 허물고 데이터에서 비효율성이 아닌 비즈니스 가치를 창출하는 데 필요한 유연성, 확장성, 민첩성을 제공하는 것입니다.

데이터 레이크하우스, 데이터 레이크, 데이터 웨어하우스 비교

'데이터 레이크하우스'는 데이터 웨어하우스와 데이터 레이크라는 두 가지 유형의 기존 데이터 저장소를 합친 용어입니다. 그렇다면 데이터 레이크하우스, 데이터 레이크, 데이터 웨어하우스의 차이점은 무엇일까요? 

데이터 웨어하우스

데이터 웨어하우스는 의사 결정을 위한 보고서 및 통계를 생성해야 하는 비즈니스 사용자에게 신속한 데이터 액세스 기능 및 SQL 호환성을 제공합니다. 모든 데이터는 ETL(추출, 변환, 로드) 단계를 거쳐야 합니다. 즉, 로드되기 전의 사용 사례를 기반으로 특정 형식이나 스키마에 맞게 최적화되어 고성능 쿼리와 데이터 무결성을 지원합니다. 그러나 이 접근 방법을 이용할 경우 데이터 액세스 유연성이 제한되고 향후 사용을 위해 데이터를 이전해야 하는 경우 추가 비용이 발생합니다. 

데이터 레이크

데이터 레이크는 대량의 구조화된 데이터 및 구조화되지 않은 데이터를 기본 형식으로 저장합니다. 데이터 웨어하우스와 달리 분석 중에 데이터가 처리, 정리, 변환되어 로드 속도가 빨라지므로 빅데이터 처리, 머신러닝 또는 예측 분석에 이상적입니다. 하지만 데이터 과학에 대한 전문 지식을 갖춘 사용자로 데이터 사용 가능 집단이 제한되므로 이러한 인력이 제대로 유지 관리되지 않을 경우 시간이 지남에 따라 데이터 품질이 저하될 수 있습니다. 또한 데이터 레이크를 사용하면 데이터가 처리되지 않기 때문에 실시간 쿼리를 수행하기가 더 어려워지므로 데이터를 사용하기 전에 정리, 처리, 수집, 통합 작업이 필요할 수 있습니다. 

데이터 레이크하우스

데이터 레이크하우스는 이 두 가지 접근 방식을 병합하여 BI부터 데이터 과학, AI, 머신러닝에 이르기까지 다양한 목적으로 데이터에 액세스하고 데이터를 활용할 수 있는 단일 구조를 만듭니다. 즉, 데이터 레이크하우스는 조직의 구조화된 데이터, 구조화되지 않은 데이터, 일부 구조화된 데이터를 모두 캡처하여 저렴한 스토리지에 저장하는 동시에 모든 사용자가 필요에 따라 데이터를 구성하고 탐색할 수 있는 기능을 제공합니다. 

데이터 레이크하우스의 특징

주요 데이터 레이크하우스의 특징은 다음과 같습니다. 

  • 저비용 단일 데이터 스토어로 모든 데이터 유형(구조화된 데이터, 구조화되지 않은 데이터, 일부 구조화된 데이터)에 사용 가능 
  • 데이터 관리 기능을 통해 스키마 적용, 데이터 거버넌스 적용, ETL 프로세스 및 데이터 정리 기능 제공
  • ACID(원자성, 일관성, 격리, 내구성) 속성에 대한 트랜잭션 지원을 통해 여러 사용자의 동시 데이터 읽기 및 쓰기 보장 
  • 여러 소프트웨어 프로그램에서 사용할 수 있는 표준화된 스토리지 형식
  • 엔드 투 엔드 스트리밍을 통해 실시간 데이터 수집 및 통계 생성 지원 
  • 컴퓨팅 및 스토리지 리소스 분리를 통해 다양한 워크로드의 확장성 보장
  • Apache Spark와 같은 오픈소스 엔진과의 상호 운용성 및 BigQuery와 같은 SQL 기반 분석 플랫폼
  • 데이터 전반의 엔드 투 엔드 거버넌스 및 메타데이터 관리
  • 레이크하우스의 소스 데이터에 대한 BI 앱 직접 액세스를 통해 데이터 중복 축소 

데이터 레이크하우스는 어떻게 작동하나요?

데이터 레이크하우스를 사용할 때 달성하고자 하는 바를 고려하는 것이 중요합니다. 데이터 레이크하우스의 목표는 별개의 데이터 소스를 중앙 집중화하고 엔지니어링 작업을 간소화하여 조직의 모든 사용자가 데이터 사용자가 될 수 있도록 하는 것입니다. 

데이터 레이크하우스는 데이터 레이크의 저렴한 클라우드 객체 스토리지를 그대로 사용하여 손쉽게 프로비저닝하고 확장할 수 있는 주문형 스토리지를 제공합니다. 데이터 레이크와 마찬가지로 모든 유형의 대용량 데이터를 원시 형식으로 캡처하고 저장할 수 있습니다. 레이크하우스는 이 저장소에 메타데이터 레이어를 통합하여 구조화된 스키마, ACID 트랜잭션 지원, 데이터 거버넌스, 기타 데이터 관리 및 최적화 기능 등 웨어하우스와 유사한 기능을 제공합니다.

데이터 레이크하우스 사용의 이점

간소화된 아키텍처

데이터 레이크하우스의 경우 별도의 두 플랫폼의 사일로를 제거하므로 단일 데이터 저장소를 관리하고 유지보수하는 데에만 집중하면 됩니다. 또한 도구를 소스 데이터에 직접 연결할 수 있으므로 데이터 웨어하우스에서 사용할 데이터를 추출하거나 준비할 필요가 없습니다. 

데이터 품질 개선

데이터 레이크하우스 아키텍처에서 정형 데이터 스키마와 데이터 무결성을 적용하여 일관성을 보장할 수 있습니다. 또한 레이크하우스는 새로운 데이터를 제공하는 데 걸리는 시간을 줄여 데이터가 최신 상태로 유지되도록 돕습니다.

비용 절감

저렴한 스토리지에 대량의 데이터를 저장할 수 있으며 데이터 웨어하우스와 데이터 레이크를 모두 유지관리할 필요가 없습니다. 데이터 레이크하우스는 ETL 프로세스 및 중복 삭제로 인한 비용을 절감하는 데도 도움이 됩니다. 

안정성 증가

데이터 레이크하우스는 여러 시스템 간 ETL 데이터 전송을 줄여 데이터 이동 시 발생할 수 있는 품질 또는 기술적 문제의 가능성을 줄입니다. 

데이터 거버넌스 개선

데이터와 리소스가 데이터 레이크하우스와 한곳에 통합되므로 거버넌스와 보안 제어를 손쉽게 구현, 테스트, 제공할 수 있습니다. 

데이터 중복 감소

서로 다른 시스템에 데이터 사본이 많이 존재할수록 일관성이 없고 신뢰성이 떨어질 가능성이 높습니다. 데이터 레이크하우스를 사용하면 결정을 내리기 위해 비즈니스 전반에서 공유할 수 있는 단일 데이터 소스를 확보하여 데이터 중복으로 인한 불일치와 추가 스토리지 비용을 방지할 수 있습니다.

다양한 워크로드

여러 도구를 레이크하우스에 직접 연결하여 같은 저장소에서 분석, SQL, 머신러닝, 데이터 과학 워크로드를 지원할 수 있습니다.

높은 확장성

데이터 레이크하우스의 저비용 클라우드 객체 스토리지를 사용하면 컴퓨팅을 스토리지에서 분리하여 무제한에 가까우며 즉각적인 확장성을 제공할 수 있습니다. 비즈니스 니즈에 따라 컴퓨팅 성능과 스토리지를 개별적으로 확장할 수 있습니다.

간소화된 아키텍처

데이터 레이크하우스의 경우 별도의 두 플랫폼의 사일로를 제거하므로 단일 데이터 저장소를 관리하고 유지보수하는 데에만 집중하면 됩니다. 또한 도구를 소스 데이터에 직접 연결할 수 있으므로 데이터 웨어하우스에서 사용할 데이터를 추출하거나 준비할 필요가 없습니다. 

데이터 품질 개선

데이터 레이크하우스 아키텍처에서 정형 데이터 스키마와 데이터 무결성을 적용하여 일관성을 보장할 수 있습니다. 또한 레이크하우스는 새로운 데이터를 제공하는 데 걸리는 시간을 줄여 데이터가 최신 상태로 유지되도록 돕습니다.

비용 절감

저렴한 스토리지에 대량의 데이터를 저장할 수 있으며 데이터 웨어하우스와 데이터 레이크를 모두 유지관리할 필요가 없습니다. 데이터 레이크하우스는 ETL 프로세스 및 중복 삭제로 인한 비용을 절감하는 데도 도움이 됩니다. 

안정성 증가

데이터 레이크하우스는 여러 시스템 간 ETL 데이터 전송을 줄여 데이터 이동 시 발생할 수 있는 품질 또는 기술적 문제의 가능성을 줄입니다. 

데이터 거버넌스 개선

데이터와 리소스가 데이터 레이크하우스와 한곳에 통합되므로 거버넌스와 보안 제어를 손쉽게 구현, 테스트, 제공할 수 있습니다. 

데이터 중복 감소

서로 다른 시스템에 데이터 사본이 많이 존재할수록 일관성이 없고 신뢰성이 떨어질 가능성이 높습니다. 데이터 레이크하우스를 사용하면 결정을 내리기 위해 비즈니스 전반에서 공유할 수 있는 단일 데이터 소스를 확보하여 데이터 중복으로 인한 불일치와 추가 스토리지 비용을 방지할 수 있습니다.

다양한 워크로드

여러 도구를 레이크하우스에 직접 연결하여 같은 저장소에서 분석, SQL, 머신러닝, 데이터 과학 워크로드를 지원할 수 있습니다.

높은 확장성

데이터 레이크하우스의 저비용 클라우드 객체 스토리지를 사용하면 컴퓨팅을 스토리지에서 분리하여 무제한에 가까우며 즉각적인 확장성을 제공할 수 있습니다. 비즈니스 니즈에 따라 컴퓨팅 성능과 스토리지를 개별적으로 확장할 수 있습니다.

데이터 레이크하우스 사용의 문제점

데이터 레이크하우스의 개념은 시간이 지남에 따라 발전해 왔으며, 조직에서는 데이터 스토리지에 대한 최고의 유연성과 데이터 처리 및 분석 엔진에서의 다양한 선택권과 상호 운용성을 원하고 있습니다. 또한 데이터 레이크하우스는 처음부터 빌드하기가 복잡하며 이제는 AI 기능과 긴밀하게 연결되어야 합니다. 대부분의 경우 즉시 사용 가능한 데이터 레이크하우스 솔루션을 선택하거나 개방형 레이크하우스 아키텍처를 지원하는 데 필요한 모든 구성요소를 제공하는 Google Cloud와 같은 플랫폼을 사용해야 합니다.

데이터 레이크하우스 아키텍처의 레이어

데이터 레이크하우스 아키텍처는 다음과 같은 레이어로 구성됩니다. 

  • 스토리지 레이어: 스토리지 레이어는 모든 원시 데이터를 위한 데이터 레이크 레이어로, 일반적으로 구조화된 데이터 세트, 구조화되지 않은 데이터 세트, 일부 구조화된 데이터 세트를 위한 저렴한 객체 스토어입니다. 컴퓨팅 리소스와 분리되어 있으므로 독립적인 컴퓨팅 확장이 가능합니다. 
  • 스테이징 레이어: 스테이징 레이어는 데이터 레이크 레이어 위에 있는 메타데이터 레이어입니다. 스토리지의 모든 데이터 객체에 대한 자세한 카탈로그를 제공하므로 스키마 적용, ACID 속성, 색인 생성, 캐싱, 액세스 제어와 같은 데이터 관리 기능을 적용할 수 있습니다.
  • 시맨틱 레이어: 시맨틱 레이어인 레이크하우스 레이어는 사용할 모든 데이터를 노출합니다. 사용자는 클라이언트 앱과 분석 도구를 사용해 실험 및 비즈니스 인텔리전스 프레젠테이션을 위해 데이터에 액세스하고 데이터를 활용할 수 있습니다. 

데이터 레이크하우스를 혁신하는 Apache Iceberg

Apache Iceberg는 ACID 트랜잭션, 스키마 변경, 시간 이동과 같은 데이터 웨어하우스와 유사한 기능을 객체 스토리지에 저장된 데이터 레이크에 직접 제공하는 개방형 테이블 형식을 제공하여 레이크하우스 아키텍처에 혁신을 가져다주고 있습니다. 이를 통해 기업은 다양한 분석 엔진에서 상호 운용이 가능하고 공급업체 종속을 피할 수 있는 확장성과 성능이 뛰어난 유연한 데이터 플랫폼을 빌드할 수 있습니다. 

Google Cloud의 접근 방식은 기업에 BigLake로 구동되는 개방형 관리형 고성능 데이터 레이크하우스를 제공하는 것입니다. 통합 스토리지 엔진인 BigLake는 Cloud Storage에서 Apache Iceberg에 대한 기본 구현을 제공하므로 Iceberg 데이터에서 선택한 오픈소스 엔진을 직접 활용할 수 있습니다. BigLake Metastore는 데이터 관리를 간소화하고 Dataplex 범용 카탈로그와 통합하여 통합 거버넌스를 지원합니다. 세분화된 액세스 제어를 적용하고 분산된 데이터에서 쿼리 성능을 가속화할 수 있습니다. 

이 접근 방식은 Iceberg로 고급 분석, 스트리밍, AI/ML 워크로드를 지원하는 관리형 고성능 데이터 레이크하우스의 중심에 있는 BigQuery의 스토리지 및 컴퓨팅 성능과 결합됩니다. BigQuery는 Google Cloud 생태계와 통합될 뿐만 아니라 파트너 및 오픈소스 기술을 사용하여 레이크 및 웨어하우스 기능의 장점을 단일 시스템에 통합할 수 있습니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
Google Cloud 영업 전문가에게 고유한 문제에 대해 자세히 논의해 보세요.
Google Cloud