Partout dans le monde, les entreprises recherchent des solutions de stockage capables de gérer le volume, la latence, la résilience et l'accès aux données du big data. Au départ, les entreprises utilisaient leurs piles technologiques existantes pour faire en sorte que leurs lacs de données fournissent les mêmes capacités qu'un entrepôt, pour ajuster leurs entrepôts de données pour traiter d'énormes quantités de données semi-structurées ou choisir de conserver les données dans les deux.
En fin de compte, ces approches ont entraîné des coûts élevés, des utilisateurs mécontents et la duplication des données dans l'ensemble de l'entreprise. Le data lakehouse a émergé comme une nouvelle architecture de données hybride qui vise à offrir tous les avantages des entrepôts et des lacs de données tout en éliminant les faiblesses des deux systèmes.
Google Cloud fournit une solution de data lakehouse cloud native, hautement évolutive et sécurisée, qui s'appuie sur nos solutions de stockage à faible coût, nos moteurs de calcul sans serveur et nos solutions performantes de gestion des données. Découvrez comment créer un data lakehouse ouvert sur Google Cloud.
Un data lakehouse est une architecture de données qui combine un lac de données et un entrepôt de données. Les data lakehouses favorisent le machine learning, l'informatique décisionnelle et l'analyse prédictive. Les entreprises peuvent ainsi bénéficier d'un stockage flexible et peu coûteux pour tous les types de données (structurées, non structurées et semi-structurées). Ils fournissent également des structures et des fonctionnalités de gestion des données.
Un data lakehouse est une architecture de données moderne qui crée une plate-forme unique en combinant les principaux avantages des lacs de données (grands dépôts de données brutes dans leur forme d'origine) et des entrepôts de données (ensembles organisés de données structurées). Plus précisément, ils permettent aux entreprises d'utiliser un espace de stockage à faible coût pour stocker de grandes quantités de données brutes tout en fournissant une structure et des fonctions de gestion des données.
Auparavant, les entrepôts et les lacs de données devaient être implémentés sous la forme d'architectures cloisonnées distinctes pour éviter de surcharger les systèmes sous-jacents et de créer des conflits pour les mêmes ressources. Des entreprises utilisaient des entrepôts de données afin de stocker des données structurées pour l'informatique décisionnelle, ainsi que des rapports et des lacs de données afin de stocker des données non structurées et semi-structurées pour les charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Toutefois, cette approche nécessitait un transfert régulier des données entre les deux systèmes distincts lorsque les données de l'une ou l'autre des architectures devaient être traitées ensemble, ce qui générait de la complexité, des coûts plus élevés et des problèmes d'actualisation, de duplication et de cohérence des données.
L'objectif des data lakehouses est de décloisonner ces silos et d'offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité.
Le terme "data lakehouse" fusionne deux types de dépôts de données existants : l'entrepôt de données et le lac de données. Quelles sont donc exactement les différences entre un data lakehouse, un lac de données ou un entrepôt de données ?
Les entrepôts de données offrent un accès rapide aux données et à la compatibilité SQL pour les utilisateurs professionnels qui ont besoin de générer des rapports et des insights pour prendre des décisions. Toutes les données doivent passer par la phase ETL (extraction, transformation, chargement). Cela signifie qu'elles sont optimisées dans un format ou un schéma spécifique en fonction du cas d'utilisation avant de les charger afin de prendre en charge des requêtes hautes performances et de garantir l'intégrité des données. Cependant, cette approche limite la flexibilité de l'accès aux données et engendre des coûts supplémentaires si des données doivent être déplacées pour une utilisation ultérieure.
Les lacs de données stockent de grandes quantités de données non structurées et structurées dans leur format natif. Contrairement aux entrepôts de données, les données sont traitées, nettoyées et transformées lors de l'analyse pour accélérer le chargement, ce qui les rend idéales pour le traitement de big data, le machine learning ou l'analyse prédictive. Cependant, ils nécessitent une expertise en science des données, ce qui limite le nombre de personnes pouvant utiliser les données, et si elles ne sont pas correctement gérées, la qualité des données peut se dégrader avec le temps. Étant donné que les données ne sont pas traitées, les lacs de données compliquent également l'obtention de requêtes en temps réel. Les données doivent donc encore être nettoyées, traitées, ingérées et intégrées avant de pouvoir être utilisées.
Un data lakehouse fusionne ces deux approches pour créer une structure unique qui vous permet d'accéder aux données et de les exploiter à différentes fins, de l'informatique décisionnelle à la data science en passant par l'IA et le machine learning. En d'autres termes, un data lakehouse capture toutes les données non structurées, structurées et semi-structurées de votre organisation et les stocke dans un espace de stockage à faible coût, tout en offrant à tous les utilisateurs la possibilité d'organiser et d'explorer les données en fonction de leurs besoins.
Voici les principales fonctionnalités du data lakehouse :
Pour faire fonctionner un data lakehouse, il est important de réfléchir à l'objectif visé. Les data lakehouses ont pour but de centraliser des sources de données disparates et de simplifier les efforts d'ingénierie pour que tous les membres de votre entreprise puissent utiliser les données.
Un data lakehouse utilise le même service de stockage d'objets cloud économique que les lacs de données afin de fournir un stockage à la demande pour faciliter le provisionnement et le scaling. Comme un lac de données, il peut capturer et stocker d'importants volumes de tous types de données sous forme brute. Le lakehouse intègre des couches de métadonnées dans ce magasin pour fournir des fonctionnalités de type entrepôt, telles que les schémas structurés, la prise en charge des transactions ACID, la gouvernance des données, ainsi que d'autres fonctionnalités de gestion et d'optimisation des données.
Architecture simplifiée Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données. | Données de meilleure qualité Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes. | Réduction des coûts Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication. |
Fiabilité accrue Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données. | Amélioration de la gouvernance des données Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité. | Réduction de la duplication des données Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données. |
Charges de travail variées Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt. | Évolutivité élevée Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise. |
Architecture simplifiée
Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données.
Données de meilleure qualité
Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes.
Réduction des coûts
Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication.
Fiabilité accrue
Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données.
Amélioration de la gouvernance des données
Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité.
Réduction de la duplication des données
Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données.
Charges de travail variées
Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt.
Évolutivité élevée
Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise.
Le concept de data lakehouse a évolué au fil du temps, les entreprises souhaitant une flexibilité maximale pour le stockage des données, ainsi que plus de choix et d'interopérabilité avec les moteurs d'analyse et de traitement des données. De plus, les data lakehouses sont complexes à construire de A à Z et doivent désormais être étroitement associées aux fonctionnalités d'IA. Dans la plupart des cas, vous devrez opter pour une solution de data lakehouse prête à l'emploi ou utiliser une plate-forme comme Google Cloud, qui offre tous les composants nécessaires à une architecture de lakehouse ouverte.
Une architecture de data lakehouse comprend les couches suivantes :
Apache Iceberg révolutionne les architectures de lakehouse en fournissant un format de table ouvert qui offre des fonctionnalités propres aux entrepôts de données (par exemple, transactions ACID, schémas évolutifs et fonctionnalités temporelles) directement aux lacs de données stockés dans un stockage d'objets. Les entreprises peuvent ainsi créer des plates-formes de données hautement évolutives, performantes et flexibles, qui sont interopérables dans différents moteurs d'analyse et évitent la dépendance vis-à-vis d'un fournisseur.
L'approche de Google Cloud a consisté à fournir aux entreprises un data lakehouse ouvert, géré et hautement performant basé sur BigLake. Ce moteur de stockage unifié offre une implémentation native pour Apache Iceberg sur Cloud Storage, ce qui vous permet d'exploiter le moteur Open Source de votre choix directement sur les données Iceberg. BigLake Metastore permet de simplifier la gestion des données et s'intègre à Dataplex Universal Catalog pour une gouvernance unifiée. Vous pouvez appliquer un contrôle des accès ultraprécis et accélérer les performances des requêtes sur les données distribuées.
Cette approche, combinée au stockage et à la puissance de calcul de BigQuery, place le data lakehouse hautes performances géré au cœur des charges de travail d'analyse avancée, de flux de données et d'IA/de ML avec Iceberg. En plus d'être intégré à l'écosystème Google Cloud, BigQuery vous permet d'utiliser des technologies partenaires et Open Source pour réunir le meilleur des capacités des lacs et des entrepôts dans un seul système.