Apa itu lakehouse data?

Organisasi di mana saja mencari solusi penyimpanan untuk mengelola persyaratan volume, latensi, ketahanan, dan akses data big data. Awalnya, perusahaan memanfaatkan technology stack yang ada agar data lake mereka memiliki kemampuan yang sama dengan warehouse, menyesuaikan data warehouse mereka untuk menangani data semi-terstruktur dalam jumlah besar, atau memilih untuk menyimpan data di kedua sistem tersebut.

Pada akhirnya, pendekatan ini menimbulkan biaya yang tinggi, ketidakpuasan pengguna, dan duplikasi data di seluruh bisnis. Lakehouse data muncul sebagai arsitektur data campuran baru yang bertujuan untuk memberikan semua manfaat terbaik dari data warehouse dan data lake, sekaligus menghilangkan kelemahan dari kedua sistem tersebut.

Google Cloud menyediakan solusi lakehouse data berbasis cloud, sangat skalabel, dan aman berdasarkan penyimpanan berbiaya rendah, mesin komputasi serverless, dan penawaran pengelolaan data kami yang canggih. Pelajari lebih lanjut cara membangun lakehouse data terbuka di Google Cloud.

Definisi lakehouse data

Lakehouse data adalah arsitektur data yang menggabungkan data lake dan data warehouse. Lakehouse data memungkinkan machine learning, business intelligence, dan analisis prediktif, memungkinkan organisasi memanfaatkan penyimpanan yang fleksibel dan hemat biaya untuk semua jenis data — terstruktur, tidak terstruktur, dan semi-terstruktur — sekaligus menyediakan struktur data dan fitur pengelolaan data.

Apa itu lakehouse?

Lakehouse data adalah arsitektur data modern yang menciptakan satu platform dengan menggabungkan manfaat utama data lake (repositori data mentah yang besar dalam bentuk aslinya) dan data warehouse (kumpulan data terstruktur yang terorganisasi). Secara khusus, lakehouse data memungkinkan organisasi menggunakan penyimpanan berbiaya rendah untuk menyimpan data mentah dalam jumlah besar sekaligus menyediakan fungsi pengelolaan data dan struktur.

Selama ini, data warehouse dan data lake harus diimplementasikan sebagai arsitektur terpisah dan silo untuk menghindari kelebihan beban pada sistem yang mendasarinya dan menimbulkan pertentangan untuk resource yang sama. Perusahaan menggunakan data warehouse guna menyimpan data terstruktur untuk business intelligence (BI) dan pelaporan, sementara data lake digunakan untuk menyimpan data tidak terstruktur dan semi-terstruktur untuk workload kecerdasan buatan (AI) dan machine learning (ML). Namun, pendekatan ini mengharuskan data dialihkan secara rutin di antara kedua sistem yang berbeda ketika data dari salah satu arsitektur tersebut perlu diproses bersama-sama, sehingga menimbulkan kompleksitas, biaya yang lebih tinggi, dan masalah terkait keaktualan, duplikasi, dan konsistensi data.

Lakehouse data bertujuan mengurai silo ini dan memberikan fleksibilitas, skalabilitas, serta ketangkasan yang diperlukan guna memastikan data Anda menghasilkan nilai bagi bisnis Anda, bukan inefisiensi.

Lakehouse data versus data lake versus data warehouse

Istilah “lakehouse data” menggabungkan dua jenis repositori data yang ada: data warehouse dan data lake. Jadi, apa sebenarnya perbedaan antara lakehouse data vs. data lake vs. data warehouse?

Data warehouse

Data warehouse menyediakan akses cepat ke data dan kompatibilitas SQL bagi pengguna bisnis yang perlu membuat laporan dan insight untuk pengambilan keputusan. Semua data harus melalui fase ETL (ekstrak, transformasi, pemuatan). Artinya, data dioptimalkan dalam format atau skema tertentu berdasarkan kasus penggunaan sebelum dimuat untuk mendukung kueri berperforma tinggi dan integritas data. Namun, pendekatan ini membatasi fleksibilitas akses ke data dan menimbulkan biaya tambahan jika data perlu dipindahkan untuk penggunaan di masa mendatang.

Data lake

Data lake menyimpan data tak terstruktur dan terstruktur dalam jumlah besar dalam format native-nya. Tidak seperti data warehouse, data diproses, dibersihkan, dan diubah selama analisis untuk memungkinkan kecepatan pemuatan yang lebih cepat, sehingga ideal untuk pemrosesan big data, machine learning, atau analisis prediktif. Namun, data lake membutuhkan keahlian data science, yang membatasi sekelompok orang yang dapat menggunakan data, dan jika tidak dikelola dengan benar, kualitas data dapat menurun dari waktu ke waktu. Data lake juga mempersulit perolehan kueri real-time karena data belum diproses, sehingga data tersebut kemungkinan masih perlu dibersihkan, diproses, diserap, dan diintegrasikan sebelum dapat digunakan.

Lakehouse data

Lakehouse data menggabungkan kedua pendekatan ini untuk membuat satu struktur yang memungkinkan Anda mengakses dan memanfaatkan data untuk berbagai tujuan, dari BI, data science, AI hingga machine learning. Dengan kata lain, lakehouse data menangkap semua data organisasi Anda yang tidak terstruktur, terstruktur, dan semi-terstruktur, lalu menyimpannya di penyimpanan berbiaya rendah sekaligus memberikan kemampuan bagi semua pengguna untuk mengatur dan mengeksplorasi data sesuai kebutuhan mereka.

Fitur lakehouse data

Fitur lakehouse data utama meliputi:

Penyimpanan data tunggal berbiaya rendah untuk semua jenis data (terstruktur, tidak terstruktur, dan semi-terstruktur)
Fitur pengelolaan data untuk menerapkan skema, menerapkan tata kelola data, serta menyediakan proses ETL dan pembersihan data
Dukungan transaksi untuk properti ACID (atomicity, konsistensi, isolasi, dan ketahanan) guna memastikan konsistensi data saat beberapa pengguna membaca dan menulis data secara bersamaan
Format penyimpanan standar yang dapat digunakan di beberapa program software
Streaming end-to-end untuk mendukung penyerapan data dan pembuatan insight secara real-time
Resource komputasi dan penyimpanan terpisah guna memastikan skalabilitas untuk beragam set workload
Interoperabilitas dengan mesin open source seperti Apache Spark dan platform analisis berbasis SQL seperti BigQuery
Tata kelola end-to-end dan pengelolaan metadata di seluruh data Anda
Akses langsung untuk aplikasi BI ke data sumber di lakehouse guna mengurangi duplikasi data

Bagaimana cara kerja lakehouse data?

Saat membuat lakehouse data Anda berfungsi, penting untuk mempertimbangkan apa yang ingin dicapai. Lakehouse data bertujuan untuk memusatkan sumber data yang berbeda dan menyederhanakan upaya engineering sehingga semua orang di organisasi Anda dapat menjadi pengguna data.

Lakehouse data menggunakan penyimpanan objek cloud biaya rendah yang sama dengan data lake untuk menyediakan penyimpanan on-demand agar mudah disediakan dan diskalakan. Seperti data lake, lakehouse data dapat menangkap dan menyimpan semua jenis data dalam jumlah besar dalam bentuk mentah. Lakehouse mengintegrasikan lapisan metadata ke penyimpanan ini untuk menyediakan kemampuan seperti warehouse, seperti skema terstruktur, dukungan untuk transaksi ACID, tata kelola data, serta fitur pengelolaan dan pengoptimalan data lainnya.

Manfaat penggunaan lakehouse data

Arsitektur yang disederhanakan Lakehouse data menghilangkan silo dari dua platform yang terpisah, sehingga Anda hanya perlu fokus pada pengelolaan dan pemeliharaan satu repositori data. Beberapa alat juga dapat dihubungkan langsung ke data sumber sehingga Anda tidak perlu mengekstrak atau menyiapkan data untuk digunakan di data warehouse.	Kualitas data yang lebih baik Anda dapat menerapkan skema untuk data terstruktur dan integritas data dalam arsitektur lakehouse data, sehingga Anda dapat memastikan konsistensinya. Selain itu, lakehouse mengurangi waktu untuk menyediakan data baru sehingga memastikan data lebih aktual.	Biaya yang lebih rendah Simpan data dalam volume besar dengan penyimpanan hemat biaya tanpa perlu mengelola data warehouse dan data lake. Lakehouse data juga membantu mengurangi biaya untuk proses ETL dan penghapusan duplikat.
Keandalan yang lebih baik Lakehouse data mengurangi transfer data ETL antar beberapa sistem, sehingga mengurangi kemungkinan masalah kualitas atau teknis yang dapat terjadi akibat pemindahan data.	Tata kelola data yang lebih baik Data dan resource digabungkan di satu tempat dengan lakehouse data, sehingga mempermudah penerapan, pengujian, dan penyediaan kontrol tata kelola serta keamanan.	Pengurangan duplikasi data Semakin banyak salinan data yang ada di sistem yang berbeda, semakin besar kemungkinan data tersebut tidak konsisten dan kurang dapat dipercaya. Dengan lakehouse data, Anda bisa mendapatkan satu sumber data yang dapat dibagikan ke seluruh bisnis untuk membuat keputusan, sehingga mencegah inkonsistensi dan biaya penyimpanan tambahan yang disebabkan oleh duplikasi data.
Beragam workload Anda dapat menghubungkan beberapa alat langsung ke lakehouse untuk mendukung workload analisis, SQL, machine learning, dan data science dari repositori yang sama.	Skalabilitas tinggi Dengan penyimpanan objek cloud berbiaya rendah di lakehouse data, Anda dapat memisahkan komputasi dari penyimpanan untuk memberikan skalabilitas yang hampir tanpa batas dan seketika. Anda dapat menskalakan daya komputasi dan penyimpanan secara terpisah sesuai dengan kebutuhan bisnis Anda.

Arsitektur yang disederhanakan

Lakehouse data menghilangkan silo dari dua platform yang terpisah, sehingga Anda hanya perlu fokus pada pengelolaan dan pemeliharaan satu repositori data. Beberapa alat juga dapat dihubungkan langsung ke data sumber sehingga Anda tidak perlu mengekstrak atau menyiapkan data untuk digunakan di data warehouse.

Kualitas data yang lebih baik

Anda dapat menerapkan skema untuk data terstruktur dan integritas data dalam arsitektur lakehouse data, sehingga Anda dapat memastikan konsistensinya. Selain itu, lakehouse mengurangi waktu untuk menyediakan data baru sehingga memastikan data lebih aktual.

Biaya yang lebih rendah

Simpan data dalam volume besar dengan penyimpanan hemat biaya tanpa perlu mengelola data warehouse dan data lake. Lakehouse data juga membantu mengurangi biaya untuk proses ETL dan penghapusan duplikat.

Keandalan yang lebih baik

Lakehouse data mengurangi transfer data ETL antar beberapa sistem, sehingga mengurangi kemungkinan masalah kualitas atau teknis yang dapat terjadi akibat pemindahan data.

Tata kelola data yang lebih baik

Data dan resource digabungkan di satu tempat dengan lakehouse data, sehingga mempermudah penerapan, pengujian, dan penyediaan kontrol tata kelola serta keamanan.

Pengurangan duplikasi data

Semakin banyak salinan data yang ada di sistem yang berbeda, semakin besar kemungkinan data tersebut tidak konsisten dan kurang dapat dipercaya. Dengan lakehouse data, Anda bisa mendapatkan satu sumber data yang dapat dibagikan ke seluruh bisnis untuk membuat keputusan, sehingga mencegah inkonsistensi dan biaya penyimpanan tambahan yang disebabkan oleh duplikasi data.

Beragam workload

Anda dapat menghubungkan beberapa alat langsung ke lakehouse untuk mendukung workload analisis, SQL, machine learning, dan data science dari repositori yang sama.

Skalabilitas tinggi

Dengan penyimpanan objek cloud berbiaya rendah di lakehouse data, Anda dapat memisahkan komputasi dari penyimpanan untuk memberikan skalabilitas yang hampir tanpa batas dan seketika. Anda dapat menskalakan daya komputasi dan penyimpanan secara terpisah sesuai dengan kebutuhan bisnis Anda.

Tantangan dalam menggunakan lakehouse data

Konsep lakehouse data telah berkembang seiring waktu, di mana organisasi menginginkan fleksibilitas maksimal dalam penyimpanan data serta lebih banyak pilihan dan interoperabilitas dengan pemrosesan data dan mesin analisis. Selain itu, lakehouse data rumit untuk dibangun dari awal dan kini harus terhubung secara mendalam dengan kemampuan AI. Pada umumnya, Anda harus memilih solusi lakehouse data siap pakai atau menggunakan platform seperti Google Cloud yang menawarkan semua komponen yang diperlukan untuk mendukung arsitektur lakehouse terbuka.

Lapisan arsitektur lakehouse data

Arsitektur lakehouse data terdiri dari lapisan berikut:

Lapisan penyimpanan: Lapisan penyimpanan adalah lapisan data lake untuk semua data mentah Anda, biasanya merupakan penyimpanan objek berbiaya rendah untuk semua set data yang tidak terstruktur, terstruktur, dan semi-terstruktur. Sistem ini dipisahkan dari resource komputasi sehingga komputasi dapat diskalakan secara independen.
Lapisan staging: Lapisan staging adalah lapisan metadata yang berada di atas lapisan data lake Anda. Lapisan staging menyediakan katalog mendetail tentang semua objek data dalam penyimpanan, sehingga Anda dapat menerapkan fitur pengelolaan data, seperti penerapan skema, properti ACID, pengindeksan, penyimpanan dalam cache, dan kontrol akses.
Lapisan semantik: Lapisan semantik, lapisan lakehouse, mengekspos semua data Anda untuk digunakan, tempat pengguna dapat menggunakan aplikasi klien dan alat analisis guna mengakses dan memanfaatkan data untuk presentasi business intelligence dan eksperimen.

Apache Iceberg mengubah lakehouse data

Apache Iceberg merevolusi arsitektur lakehouse dengan menyediakan format tabel terbuka yang menghadirkan kemampuan seperti data warehouse — seperti transaksi ACID, evolusi skema, dan lintas waktu — langsung ke data lake yang disimpan di penyimpanan objek. Dengan demikian, perusahaan dapat membangun platform data yang sangat skalabel, berperforma tinggi, dan fleksibel yang dapat dioperasikan di berbagai mesin analisis dan menghindari ketergantungan pada vendor.

Pendekatan Google Cloud adalah menyediakan data lakehouse yang terbuka, terkelola, dan berperforma tinggi bagi perusahaan yang didukung oleh BigLake, yaitu mesin penyimpanan terpadu yang menawarkan implementasi native untuk Apache Iceberg di Cloud Storage. Di sini, Anda dapat memanfaatkan mesin open source pilihan Anda langsung di data Iceberg. BigLake Metastore membantu menyederhanakan pengelolaan data dan terintegrasi dengan Dataplex Universal Catalog untuk tata kelola terpadu. Anda dapat menerapkan kontrol akses yang terperinci dan mempercepat performa kueri di seluruh data yang terdistribusi.

Pendekatan ini dikombinasikan dengan penyimpanan dan daya komputasi BigQuery sebagai inti dari lakehouse data berperforma tinggi yang terkelola yang mendukung analisis, streaming, dan workload AI/ML tingkat lanjut dengan Iceberg. BigQuery tidak hanya terintegrasi dengan ekosistem Google Cloud, tetapi juga memungkinkan Anda menggunakan teknologi open source dan partner untuk menghadirkan kemampuan terbaik lake dan warehouse secara bersamaan dalam satu sistem.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Hubungi spesialis penjualan Google Cloud untuk membahas tantangan unik Anda secara lebih mendetail.