Inferensi AI adalah bagian "melakukan" dari kecerdasan buatan. Ini adalah momen ketika model terlatih berhenti belajar dan mulai bekerja, mengubah pengetahuannya menjadi hasil dunia nyata.
Anggap saja seperti ini: jika pelatihan adalah seperti mengajari AI keterampilan baru, inferensi adalah saat AI benar-benar menggunakan keterampilan tersebut untuk melakukan pekerjaan. Model ini menerima data baru (seperti foto atau teks) dan menghasilkan output instan, seperti prediksi, pembuatan foto, atau pengambilan keputusan. Di sinilah AI memberikan nilai bisnis. Bagi siapa pun yang membangun dengan AI, memahami cara membuat inferensi yang cepat, skalabel, dan hemat biaya adalah kunci untuk menciptakan solusi yang sukses.
Meskipun siklus proses AI yang lengkap mencakup segala hal mulai dari pengumpulan data hingga pemantauan jangka panjang, perjalanan utama model dari pembuatan hingga eksekusi memiliki tiga tahap penting. Dua yang pertama adalah tentang pembelajaran, sedangkan yang terakhir adalah tentang menerapkan pembelajaran tersebut.
Tabel ini merangkum perbedaan utama:
Pelatihan AI | Fine-tuning AI | Inferensi AI | Penyajian AI | |
Tujuan | Membangun model baru dari awal. | Menyesuaikan model terlatih untuk tugas tertentu. | Menggunakan model terlatih untuk membuat prediksi. | Men-deploy dan mengelola model untuk menangani permintaan inferensi. |
Proses | Belajar secara berulang dari set data yang besar. | Menyempurnakan model yang ada dengan set data yang lebih kecil. | Satu "perhitungan maju" yang cepat dari data baru. | Mengemas model dan mengeksposnya sebagai API |
Data | Set data berlabel yang besar dan historis. | Set data yang lebih kecil dan khusus tugas tertentu. | Data live, dunia nyata, dan tidak berlabel. | T/A |
Fokus bisnis | Akurasi dan kemampuan model. | Efisiensi dan penyesuaian. | Kecepatan (latensi), skala, dan efisiensi biaya. | Keandalan, skalabilitas, dan pengelolaan endpoint inferensi. |
Pelatihan AI
Fine-tuning AI
Inferensi AI
Penyajian AI
Tujuan
Membangun model baru dari awal.
Menyesuaikan model terlatih untuk tugas tertentu.
Menggunakan model terlatih untuk membuat prediksi.
Men-deploy dan mengelola model untuk menangani permintaan inferensi.
Proses
Belajar secara berulang dari set data yang besar.
Menyempurnakan model yang ada dengan set data yang lebih kecil.
Satu "perhitungan maju" yang cepat dari data baru.
Mengemas model dan mengeksposnya sebagai API
Data
Set data berlabel yang besar dan historis.
Set data yang lebih kecil dan khusus tugas tertentu.
Data live, dunia nyata, dan tidak berlabel.
T/A
Fokus bisnis
Akurasi dan kemampuan model.
Efisiensi dan penyesuaian.
Kecepatan (latensi), skala, dan efisiensi biaya.
Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.
Pada intinya, inferensi AI melibatkan tiga langkah yang mengubah data baru menjadi output yang berguna.
Mari kita bahas dengan contoh sederhana: model AI yang dibuat untuk mengidentifikasi objek dalam foto.
Meskipun inferensi tunggal berjalan cepat, melayani jutaan pengguna secara real time akan menambah latensi, biaya, dan memerlukan hardware yang dioptimalkan. Unit Pemrosesan Grafis (GPU) khusus AI dan Unit Pemrosesan Tensor Google dirancang untuk menangani tugas-tugas ini secara efisien bersama dengan orkestrasi dengan Google Kubernetes Engine, sehingga membantu meningkatkan throughput dan menurunkan latensi.
Ini adalah pendekatan yang paling umum, di mana inferensi berjalan di server jarak jauh yang canggih di pusat data. Cloud menawarkan skalabilitas dan resource komputasi yang sangat besar, sehingga cocok untuk menangani set data besar dan model yang kompleks. Di dalam cloud, biasanya ada dua mode inferensi utama:
Pendekatan ini melakukan inferensi langsung di perangkat tempat data dihasilkan — bisa di smartphone atau sensor industri. Dengan menghindari perjalanan pulang pergi ke cloud, inferensi edge menawarkan keuntungan unik:
Untuk membantu Anda memilih pendekatan terbaik untuk kebutuhan spesifik Anda, berikut perbandingan cepat karakteristik utama dan kasus penggunaan untuk setiap jenis inferensi AI:
Fitur | Inferensi batch | Inferensi real-time | Inferensi edge |
Lokasi utama | Cloud (pusat data) | Cloud (pusat data) | Perangkat lokal (seperti ponsel, sensor IoT, robot) |
Latensi/responsivitas | Tinggi (prediksi ditampilkan setelah memproses batch) | Sangat rendah (milidetik hingga detik per permintaan) | Sangat rendah (hampir instan, tanpa hop jaringan) |
Volume data | Set data besar (seperti terabyte) | Peristiwa/permintaan individual | Peristiwa/permintaan individual (di perangkat) |
Aliran data | Data dikirim ke cloud, diproses, hasil dikembalikan | Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan | Data diproses di perangkat, hasil digunakan di perangkat |
Kasus penggunaan umum | Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala | Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time | Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri |
Manfaat utama | Hemat biaya untuk tugas besar yang tidak mendesak | Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna | Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah |
Fitur
Inferensi batch
Inferensi real-time
Inferensi edge
Lokasi utama
Cloud (pusat data)
Cloud (pusat data)
Perangkat lokal (seperti ponsel, sensor IoT, robot)
Latensi/responsivitas
Tinggi (prediksi ditampilkan setelah memproses batch)
Sangat rendah (milidetik hingga detik per permintaan)
Sangat rendah (hampir instan, tanpa hop jaringan)
Volume data
Set data besar (seperti terabyte)
Peristiwa/permintaan individual
Peristiwa/permintaan individual (di perangkat)
Aliran data
Data dikirim ke cloud, diproses, hasil dikembalikan
Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan
Data diproses di perangkat, hasil digunakan di perangkat
Kasus penggunaan umum
Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala
Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time
Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri
Manfaat utama
Hemat biaya untuk tugas besar yang tidak mendesak
Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna
Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah
Inferensi AI mentransformasi industri dengan memungkinkan tingkat otomatisasi baru, pengambilan keputusan yang lebih cerdas, dan aplikasi inovatif. Bagi developer perusahaan, berikut adalah beberapa area penting yang memberikan nilai bisnis nyata melalui inferensi:
Inferensi AI menghadirkan serangkaian tantangan teknis yang berbeda, termasuk mengelola latensi, mengontrol biaya, dan memastikan skalabilitas. Google Cloud menyediakan jalur yang fleksibel untuk inferensi, sehingga Anda dapat memilih alat yang tepat berdasarkan kompleksitas model, kebutuhan performa, dan kapasitas operasional. Anda dapat memulai dengan solusi terkelola sepenuhnya dan secara progresif mengadopsi infrastruktur yang lebih disesuaikan seiring berkembangnya persyaratan Anda.
Pendekatan ini ideal bagi developer dengan tingkat keterampilan apa pun, termasuk yang baru mengenal AI, yang ingin mengintegrasikan kemampuan AI yang canggih dengan cepat. Hal ini memerlukan pembuatan panggilan API sederhana tanpa perlu mengelola model atau infrastruktur apa pun.
Gunakan model Gemini Google dan pilihan model open source dengan endpoint API sederhana. Ini menangani kompleksitas hosting dan penskalaan, sehingga Anda dapat berfokus pada aplikasi dan mendapatkan hasil yang optimal untuk tugas AI generatif. |
Gunakan model Gemini Google dan pilihan model open source dengan endpoint API sederhana. Ini menangani kompleksitas hosting dan penskalaan, sehingga Anda dapat berfokus pada aplikasi dan mendapatkan hasil yang optimal untuk tugas AI generatif.
Opsi ini ditujukan bagi developer yang sudah memiliki model kustom. Anda dapat men-deploy-nya ke layanan terkelola Google Cloud, yang berarti Anda tidak perlu menangani penyiapan server atau orkestrasi yang rumit secara manual. Anda dapat berfokus pada model, bukan infrastruktur.
Vertex AI Prediction adalah layanan terkelola yang men-deploy model machine learning sebagai endpoint yang skalabel, menggunakan akselerator hardware seperti GPU untuk pemrosesan cepat data real-time dan data batch besar. | |
Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan. Ini ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana. |
Vertex AI Prediction adalah layanan terkelola yang men-deploy model machine learning sebagai endpoint yang skalabel, menggunakan akselerator hardware seperti GPU untuk pemrosesan cepat data real-time dan data batch besar.
Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan. Ini ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.
Memberi developer dan MLOps kontrol terperinci dan fleksibilitas untuk men-deploy, mengelola, dan menskalakan layanan inferensi kustom dalam container, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid.
GKE memberikan kontrol terperinci atas hardware, termasuk CPU, GPU, dan TPU, yang ideal untuk menyesuaikan dan mengoptimalkan performa dan biaya dalam menyajikan model machine learning yang sangat besar atau kompleks. |
GKE memberikan kontrol terperinci atas hardware, termasuk CPU, GPU, dan TPU, yang ideal untuk menyesuaikan dan mengoptimalkan performa dan biaya dalam menyajikan model machine learning yang sangat besar atau kompleks.
Jika Anda bekerja dengan SQL, kini Anda dapat memperoleh prediksi dari model AI langsung di tempat data Anda berada. Dengan demikian, Anda tidak perlu memindahkan data ke platform terpisah, sehingga menyederhanakan alur kerja Anda.
Menggunakan BigQuery untuk inferensi memungkinkan Anda menjalankan model machine learning secara langsung pada data Anda dengan perintah SQL sederhana, sehingga menghilangkan kebutuhan untuk memindahkan data serta mengurangi kompleksitas dan latensi. Metode ini sangat efisien untuk tugas batch processing seperti segmentasi pelanggan atau perkiraan permintaan, terutama jika data Anda sudah disimpan di BigQuery. |
Menggunakan BigQuery untuk inferensi memungkinkan Anda menjalankan model machine learning secara langsung pada data Anda dengan perintah SQL sederhana, sehingga menghilangkan kebutuhan untuk memindahkan data serta mengurangi kompleksitas dan latensi. Metode ini sangat efisien untuk tugas batch processing seperti segmentasi pelanggan atau perkiraan permintaan, terutama jika data Anda sudah disimpan di BigQuery.
Siap meningkatkan keterampilan inferensi AI Anda ke level berikutnya? Berikut beberapa referensi berharga untuk membantu Anda mempelajari lebih lanjut dan memulai:
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.