Apa itu inferensi AI?

Inferensi AI adalah bagian "melakukan" dari kecerdasan buatan. Ini adalah momen ketika model terlatih berhenti belajar dan mulai bekerja, mengubah pengetahuannya menjadi hasil dunia nyata.

Anggap saja seperti ini: jika pelatihan adalah seperti mengajari AI keterampilan baru, inferensi adalah saat AI benar-benar menggunakan keterampilan tersebut untuk melakukan pekerjaan. Model ini menerima data baru (seperti foto atau teks) dan menghasilkan output instan, seperti prediksi, pembuatan foto, atau pengambilan keputusan. Di sinilah AI memberikan nilai bisnis. Bagi siapa pun yang membangun dengan AI, memahami cara membuat inferensi yang cepat, skalabel, dan hemat biaya adalah kunci untuk menciptakan solusi yang sukses.

BLOG

Ask a Techspert: Apa itu inferensi?

'Pelatihan AI' versus 'fine-tuning' versus 'inferensi' versus 'penyajian'

Meskipun siklus proses AI yang lengkap mencakup segala hal mulai dari pengumpulan data hingga pemantauan jangka panjang, perjalanan utama model dari pembuatan hingga eksekusi memiliki tiga tahap penting. Dua yang pertama adalah tentang pembelajaran, sedangkan yang terakhir adalah tentang menerapkan pembelajaran tersebut.

Pelatihan AI adalah fase pembelajaran dasar. Proses ini membutuhkan banyak komputasi, di mana model menganalisis set data besar untuk mempelajari pola dan hubungan. Tujuannya adalah untuk membuat model yang akurat dan berpengetahuan. Hal ini memerlukan akselerator hardware yang canggih (seperti GPU dan TPU) dan dapat memakan waktu berjam-jam hingga berminggu-minggu.
Fine-tuning AI adalah jalan pintas untuk pelatihan. Fine-tuning menggunakan model terlatih yang canggih dan mengadaptasinya ke tugas yang lebih spesifik menggunakan set data yang lebih kecil dan terspesialisasi. Hal ini menghemat waktu dan resource secara signifikan dibandingkan dengan melatih model dari awal.
Inferensi AI adalah fase eksekusi. Inferensi menggunakan model yang telah dilatih dan disesuaikan untuk membuat prediksi cepat pada data baru yang "belum dilihat". Masing-masing prediksi jauh lebih ringan secara komputasi dibandingkan pelatihan, tetapi memberikan jutaan prediksi secara real-time memerlukan infrastruktur yang sangat optimal dan skalabel.
Penyajian AI adalah proses men-deploy dan mengelola model untuk inferensi. Hal ini sering kali melibatkan pengemasan model, penyiapan endpoint API, dan pengelolaan infrastruktur untuk menangani permintaan.

Tabel ini merangkum perbedaan utama:

	Pelatihan AI	Fine-tuning AI	Inferensi AI	Penyajian AI
Tujuan	Membangun model baru dari awal.	Menyesuaikan model terlatih untuk tugas tertentu.	Menggunakan model terlatih untuk membuat prediksi.	Men-deploy dan mengelola model untuk menangani permintaan inferensi.
Proses	Belajar secara berulang dari set data yang besar.	Menyempurnakan model yang ada dengan set data yang lebih kecil.	Satu "perhitungan maju" yang cepat dari data baru.	Mengemas model dan mengeksposnya sebagai API
Data	Set data berlabel yang besar dan historis.	Set data yang lebih kecil dan khusus tugas tertentu.	Data live, dunia nyata, dan tidak berlabel.	T/A
Fokus bisnis	Akurasi dan kemampuan model.	Efisiensi dan penyesuaian.	Kecepatan (latensi), skala, dan efisiensi biaya.	Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.

Pelatihan AI

Fine-tuning AI

Inferensi AI

Penyajian AI

Tujuan

Membangun model baru dari awal.

Menyesuaikan model terlatih untuk tugas tertentu.

Menggunakan model terlatih untuk membuat prediksi.

Men-deploy dan mengelola model untuk menangani permintaan inferensi.

Proses

Belajar secara berulang dari set data yang besar.

Menyempurnakan model yang ada dengan set data yang lebih kecil.

Satu "perhitungan maju" yang cepat dari data baru.

Mengemas model dan mengeksposnya sebagai API

Data

Set data berlabel yang besar dan historis.

Set data yang lebih kecil dan khusus tugas tertentu.

Data live, dunia nyata, dan tidak berlabel.

T/A

Fokus bisnis

Akurasi dan kemampuan model.

Efisiensi dan penyesuaian.

Kecepatan (latensi), skala, dan efisiensi biaya.

Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.

Bagaimana cara kerja inferensi AI?

Pada intinya, inferensi AI melibatkan tiga langkah yang mengubah data baru menjadi output yang berguna.

Mari kita bahas dengan contoh sederhana: model AI yang dibuat untuk mengidentifikasi objek dalam foto.

Persiapan data input: Pertama, data baru disediakan — misalnya, foto yang baru saja Anda kirim. Foto ini langsung disiapkan untuk model, yang mungkin berarti hanya mengubah ukurannya menjadi dimensi yang tepat seperti saat model dilatih.
Eksekusi model: Selanjutnya, model AI menganalisis foto yang telah disiapkan. Model ini mencari pola — seperti warna, bentuk, dan tekstur — yang cocok dengan apa yang dipelajarinya selama pelatihan. Analisis cepat ini disebut "forward pass", yaitu langkah baca-saja di mana model menerapkan pengetahuannya tanpa mempelajari hal baru.
Pembuatan output: Model menghasilkan hasil yang dapat ditindaklanjuti. Untuk analisis foto, hal ini mungkin berupa skor probabilitas (seperti peluang 95% bahwa gambar tersebut berisi "anjing"). Output ini kemudian dikirim ke aplikasi dan ditampilkan kepada pengguna.

Meskipun inferensi tunggal berjalan cepat, melayani jutaan pengguna secara real time akan menambah latensi, biaya, dan memerlukan hardware yang dioptimalkan. Unit Pemrosesan Grafis (GPU) khusus AI dan Unit Pemrosesan Tensor Google dirancang untuk menangani tugas-tugas ini secara efisien bersama dengan orkestrasi dengan Google Kubernetes Engine, sehingga membantu meningkatkan throughput dan menurunkan latensi.

Jenis inferensi AI

Inferensi cloud: Untuk daya dan skala

Ini adalah pendekatan yang paling umum, di mana inferensi berjalan di server jarak jauh yang canggih di pusat data. Cloud menawarkan skalabilitas dan resource komputasi yang sangat besar, sehingga cocok untuk menangani set data besar dan model yang kompleks. Di dalam cloud, biasanya ada dua mode inferensi utama:

Inferensi real-time (online): Memproses permintaan individual secara instan saat permintaan tersebut dibuat, sering kali dalam hitungan milidetik. Hal ini penting untuk aplikasi interaktif yang memerlukan respons cepat.
Inferensi batch (offline): Menangani volume data yang besar sekaligus, biasanya saat respons langsung tidak diperlukan. Metode ini sangat hemat biaya untuk analisis berkala atau tugas terjadwal.

Inferensi edge: Untuk kecepatan dan privasi

Pendekatan ini melakukan inferensi langsung di perangkat tempat data dihasilkan — bisa di smartphone atau sensor industri. Dengan menghindari perjalanan pulang pergi ke cloud, inferensi edge menawarkan keuntungan unik:

Latensi yang lebih rendah: Respons hampir instan, yang sangat penting untuk aplikasi seperti kendaraan otonom atau pemeriksaan manufaktur real-time.
Privasi yang ditingkatkan: Data sensitif (seperti hasil pemindaian medis, foto pribadi, feed video) dapat diproses di perangkat tanpa pernah dikirim ke cloud.
Biaya bandwidth lebih rendah: Memproses data secara lokal akan mengurangi jumlah data yang perlu diupload dan didownload secara signifikan.
Fungsi offline: Aplikasi dapat terus berfungsi meskipun tanpa koneksi internet, sehingga memastikan operasi berkelanjutan di lingkungan terpencil atau terputus.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Perbandingan inferensi AI

Untuk membantu Anda memilih pendekatan terbaik untuk kebutuhan spesifik Anda, berikut perbandingan cepat karakteristik utama dan kasus penggunaan untuk setiap jenis inferensi AI:

Fitur	Inferensi batch	Inferensi real-time	Inferensi edge
Lokasi utama	Cloud (pusat data)	Cloud (pusat data)	Perangkat lokal (seperti ponsel, sensor IoT, robot)
Latensi/responsivitas	Tinggi (prediksi ditampilkan setelah memproses batch)	Sangat rendah (milidetik hingga detik per permintaan)	Sangat rendah (hampir instan, tanpa hop jaringan)
Volume data	Set data besar (seperti terabyte)	Peristiwa/permintaan individual	Peristiwa/permintaan individual (di perangkat)
Aliran data	Data dikirim ke cloud, diproses, hasil dikembalikan	Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan	Data diproses di perangkat, hasil digunakan di perangkat
Kasus penggunaan umum	Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala	Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time	Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri
Manfaat utama	Hemat biaya untuk tugas besar yang tidak mendesak	Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna	Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah

Fitur

Inferensi batch

Inferensi real-time

Inferensi edge

Lokasi utama

Cloud (pusat data)

Perangkat lokal (seperti ponsel, sensor IoT, robot)

Latensi/responsivitas

Tinggi (prediksi ditampilkan setelah memproses batch)

Sangat rendah (milidetik hingga detik per permintaan)

Sangat rendah (hampir instan, tanpa hop jaringan)

Volume data

Set data besar (seperti terabyte)

Peristiwa/permintaan individual

Peristiwa/permintaan individual (di perangkat)

Aliran data

Data dikirim ke cloud, diproses, hasil dikembalikan

Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan

Data diproses di perangkat, hasil digunakan di perangkat

Kasus penggunaan umum

Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala

Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time

Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri

Manfaat utama

Hemat biaya untuk tugas besar yang tidak mendesak

Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna

Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah

Kasus penggunaan untuk developer

Inferensi AI mentransformasi industri dengan memungkinkan tingkat otomatisasi baru, pengambilan keputusan yang lebih cerdas, dan aplikasi inovatif. Bagi developer perusahaan, berikut adalah beberapa area penting yang memberikan nilai bisnis nyata melalui inferensi:

Deteksi risiko dan penipuan secara real-time

Menganalisis transaksi keuangan, perilaku pengguna, atau log sistem secara instan untuk mengidentifikasi dan menandai aktivitas mencurigakan. Hal ini memungkinkan intervensi proaktif untuk mencegah penipuan, pencucian uang, atau pelanggaran keamanan.
Contoh: Perusahaan kartu kredit menggunakan inferensi untuk melakukan otorisasi transaksi dalam milidetik, sehingga dapat langsung memblokir pembelian yang berpotensi menipu.

Mesin pemberi saran dan hiperpersonalisasi

Memberikan pengalaman yang sangat disesuaikan untuk pengguna dengan memprediksi preferensi berdasarkan interaksi sebelumnya dan konteks real-time.
Contoh: Platform e-commerce menggunakan inferensi untuk menyarankan produk kepada pembeli atau layanan streaming merekomendasikan film berdasarkan kebiasaan menonton, sehingga mendorong engagement dan penjualan.

Otomatisasi dan agen yang didukung AI

Deploy model AI untuk mengotomatiskan tugas rutin, memberikan bantuan cerdas, atau berinteraksi dengan pengguna dalam skala besar.
Contoh: Organisasi layanan pelanggan menggunakan agen AI untuk menangani pertanyaan umum, sehingga agen manusia dapat menangani masalah yang kompleks, atau pabrik menggunakan AI untuk inspeksi kualitas otomatis di jalur perakitan.

Pemeliharaan dan operasi prediktif

Menganalisis data sensor dari mesin, infrastruktur, atau sistem IT untuk memperkirakan kegagalan, memprediksi permintaan, atau mengoptimalkan alokasi resource sebelum masalah terjadi.
Contoh: Produsen menggunakan inferensi untuk memprediksi kapan peralatan perlu diservis, sehingga meminimalkan periode nonaktif dan memperpanjang masa pakai aset, atau perusahaan logistik mengoptimalkan rute berdasarkan prediksi lalu lintas real-time.

Pembuatan dan pemahaman konten tingkat lanjut

Manfaatkan AI untuk membuat konten baru (teks, kode, gambar, audio) atau memahami data tidak terstruktur yang ada secara mendalam.
Contoh: Developer menggunakan model pembuatan kode untuk mempercepat pengembangan software, atau tim pemasaran menggunakan AI untuk meringkas dokumen besar dan mempersonalisasi teks iklan.

Masalah apa yang ingin Anda temukan solusinya?

What you'll get:

Panduan langkah demi langkah

Arsitektur referensi

Solusi siap pakai yang tersedia

Layanan ini dibangun dengan Vertex AI. Anda harus berusia 18 tahun ke atas untuk menggunakannya. Jangan memasukkan informasi sensitif, rahasia, atau pribadi.

Cara Google Cloud dapat membantu inferensi AI

Inferensi AI menghadirkan serangkaian tantangan teknis yang berbeda, termasuk mengelola latensi, mengontrol biaya, dan memastikan skalabilitas. Google Cloud menyediakan jalur yang fleksibel untuk inferensi, sehingga Anda dapat memilih alat yang tepat berdasarkan kompleksitas model, kebutuhan performa, dan kapasitas operasional. Anda dapat memulai dengan solusi terkelola sepenuhnya dan secara progresif mengadopsi infrastruktur yang lebih disesuaikan seiring berkembangnya persyaratan Anda.

Gunakan API AI terlatih dan model bawaan untuk deployment cepat

Pendekatan ini ideal bagi developer dengan tingkat keterampilan apa pun, termasuk yang baru mengenal AI, yang ingin mengintegrasikan kemampuan AI yang canggih dengan cepat. Hal ini memerlukan pembuatan panggilan API sederhana tanpa perlu mengelola model atau infrastruktur apa pun.

Vertex AI Model Garden

Gunakan model Gemini Google dan pilihan model open source dengan endpoint API sederhana. Ini menangani kompleksitas hosting dan penskalaan, sehingga Anda dapat berfokus pada aplikasi dan mendapatkan hasil yang optimal untuk tugas AI generatif.

Vertex AI Model Garden

Deploy model kustom pada infrastruktur terkelola

Opsi ini ditujukan bagi developer yang sudah memiliki model kustom. Anda dapat men-deploy-nya ke layanan terkelola Google Cloud, yang berarti Anda tidak perlu menangani penyiapan server atau orkestrasi yang rumit secara manual. Anda dapat berfokus pada model, bukan infrastruktur.

Vertex AI Prediction	Vertex AI Prediction adalah layanan terkelola yang men-deploy model machine learning sebagai endpoint yang skalabel, menggunakan akselerator hardware seperti GPU untuk pemrosesan cepat data real-time dan data batch besar.
Cloud Run	Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan. Ini ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.

Vertex AI Prediction

Vertex AI Prediction adalah layanan terkelola yang men-deploy model machine learning sebagai endpoint yang skalabel, menggunakan akselerator hardware seperti GPU untuk pemrosesan cepat data real-time dan data batch besar.

Cloud Run

Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan. Ini ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.

Bangun platform inferensi kustom untuk kontrol maksimal

Memberi developer dan MLOps kontrol terperinci dan fleksibilitas untuk men-deploy, mengelola, dan menskalakan layanan inferensi kustom dalam container, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid.

Google Kubernetes Engine (GKE)

GKE memberikan kontrol terperinci atas hardware, termasuk CPU, GPU, dan TPU, yang ideal untuk menyesuaikan dan mengoptimalkan performa dan biaya dalam menyajikan model machine learning yang sangat besar atau kompleks.

Google Kubernetes Engine (GKE)

Lakukan inferensi secara langsung di data warehouse Anda menggunakan SQL

Jika Anda bekerja dengan SQL, kini Anda dapat memperoleh prediksi dari model AI langsung di tempat data Anda berada. Dengan demikian, Anda tidak perlu memindahkan data ke platform terpisah, sehingga menyederhanakan alur kerja Anda.

BigQuery ML

Menggunakan BigQuery untuk inferensi memungkinkan Anda menjalankan model machine learning secara langsung pada data Anda dengan perintah SQL sederhana, sehingga menghilangkan kebutuhan untuk memindahkan data serta mengurangi kompleksitas dan latensi. Metode ini sangat efisien untuk tugas batch processing seperti segmentasi pelanggan atau perkiraan permintaan, terutama jika data Anda sudah disimpan di BigQuery.