L'inferenza AI è la parte "pratica" dell'intelligenza artificiale. È il momento in cui un modello addestrato smette di apprendere e inizia a lavorare, trasformando le sue conoscenze in risultati concreti.
Pensa in questo modo: se l'addestramento è come insegnare una nuova abilità all'AI, l'inferenza è l'AI che usa effettivamente l'abilità per svolgere un lavoro. Riceve nuovi dati (come una foto o un pezzo di testo) e produce un output istantaneo, come una previsione, genera una foto o prende una decisione. È qui che l'AI offre valore aziendale. Per chiunque crei con l'AI, comprendere come rendere l'inferenza veloce, scalabile ed economicamente vantaggiosa è la chiave per creare soluzioni di successo.
Sebbene il ciclo di vita completo dell'AI comprenda tutto, dalla raccolta dei dati al monitoraggio a lungo termine, il percorso centrale di un modello, dalla creazione all'esecuzione, prevede tre fasi chiave. I primi due riguardano l'apprendimento, mentre l'ultimo riguarda l'applicazione di ciò che si è appreso.
Questa tabella riassume le principali differenze:
Formazione sull'AI | Ottimizzazione dell'AI | Inferenza AI | Distribuzione dell'AI | |
Obiettivo | Crea un nuovo modello da zero. | Adatta un modello preaddestrato per un'attività specifica. | Utilizza un modello addestrato per fare previsioni. | Esegui il deployment e gestisci il modello per gestire le richieste di inferenza. |
Procedura | Apprende in modo iterativo da un set di dati di grandi dimensioni. | Perfeziona un modello esistente con un set di dati più piccolo. | Un singolo e rapido "passaggio in avanti" di nuovi dati. | Crea un pacchetto del modello ed esponilo come API |
Dati | Set di dati di grandi dimensioni, storici ed etichettati. | Set di dati più piccoli e specifici per le attività. | Dati non etichettati, reali e in tempo reale. | N/D |
Focus sull'attività | Accuratezza e capacità del modello. | Efficienza e personalizzazione. | Velocità (latenza), scalabilità ed efficienza in termini di costi. | Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza. |
Formazione sull'AI
Ottimizzazione dell'AI
Inferenza AI
Distribuzione dell'AI
Obiettivo
Crea un nuovo modello da zero.
Adatta un modello preaddestrato per un'attività specifica.
Utilizza un modello addestrato per fare previsioni.
Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.
Procedura
Apprende in modo iterativo da un set di dati di grandi dimensioni.
Perfeziona un modello esistente con un set di dati più piccolo.
Un singolo e rapido "passaggio in avanti" di nuovi dati.
Crea un pacchetto del modello ed esponilo come API
Dati
Set di dati di grandi dimensioni, storici ed etichettati.
Set di dati più piccoli e specifici per le attività.
Dati non etichettati, reali e in tempo reale.
N/D
Focus sull'attività
Accuratezza e capacità del modello.
Efficienza e personalizzazione.
Velocità (latenza), scalabilità ed efficienza in termini di costi.
Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.
L'inferenza AI si basa su 3 passaggi che trasformano i nuovi dati in un output utile.
Vediamo un semplice esempio: un modello di AI creato per identificare gli oggetti nelle foto.
Sebbene una singola inferenza sia rapida, servire milioni di utenti in tempo reale aumenta la latenza, i costi e richiede hardware ottimizzato. Le unità di elaborazione grafica (GPU) specializzate per l'AI e le Tensor Processing Unit di Google sono progettate per gestire queste attività in modo efficiente insieme all'orchestrazione con Google Kubernetes Engine, contribuendo ad aumentare il throughput e a ridurre la latenza.
È l'approccio più comune, in cui l'inferenza viene eseguita su potenti server remoti in un data center. Il cloud offre un'immensa scalabilità e risorse di calcolo, il che lo rende ideale per la gestione di set di dati enormi e modelli complessi. All'interno del cloud, in genere esistono 2 modalità principali di inferenza:
Questo approccio esegue l'inferenza direttamente sul dispositivo in cui vengono generati i dati, che potrebbe essere uno smartphone o un sensore industriale. Evitando un round trip al cloud, l'inferenza Edge offre vantaggi unici come quelli che seguono.
Per aiutarti a scegliere l'approccio migliore per le tue esigenze specifiche, ecco un rapido confronto delle caratteristiche principali e dei casi d'uso per ogni tipo di inferenza AI:
Funzionalità | Inferenza batch | Inferenza in tempo reale | Inferenza Edge |
Località principale | Cloud (data center) | Cloud (data center) | Dispositivo locale (come smartphone, sensore IoT, robot) |
Latenza/reattività | Elevata (previsioni restituite dopo l'elaborazione del batch) | Molto bassa (da millisecondi a secondi per richiesta) | Estremamente bassa (quasi istantanea, nessun hop di rete) |
Volume di dati | Set di dati di grandi dimensioni (ad es. terabyte) | Eventi/richieste individuali | Richieste/eventi singoli (on-device) |
Flusso dei dati | I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti | Ogni richiesta inviata al cloud, elaborata e restituita | Dati elaborati on-device, risultati utilizzati on-device |
Casi d'uso tipici | Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica | Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale | Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale |
Vantaggi principali | Conveniente per attività di grandi dimensioni e non urgenti | Reattività immediata per le app rivolte agli utenti | Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti |
Funzionalità
Inferenza batch
Inferenza in tempo reale
Inferenza Edge
Località principale
Cloud (data center)
Cloud (data center)
Dispositivo locale (come smartphone, sensore IoT, robot)
Latenza/reattività
Elevata (previsioni restituite dopo l'elaborazione del batch)
Molto bassa (da millisecondi a secondi per richiesta)
Estremamente bassa (quasi istantanea, nessun hop di rete)
Volume di dati
Set di dati di grandi dimensioni (ad es. terabyte)
Eventi/richieste individuali
Richieste/eventi singoli (on-device)
Flusso dei dati
I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti
Ogni richiesta inviata al cloud, elaborata e restituita
Dati elaborati on-device, risultati utilizzati on-device
Casi d'uso tipici
Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica
Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale
Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale
Vantaggi principali
Conveniente per attività di grandi dimensioni e non urgenti
Reattività immediata per le app rivolte agli utenti
Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti
L'inferenza AI sta trasformando i settori consentendo nuovi livelli di automazione, un processo decisionale più smart e applicazioni innovative. Per gli sviluppatori aziendali, ecco alcune aree critiche in cui l'inferenza offre un valore aziendale tangibile:
L'inferenza dell'AI presenta una serie distinta di sfide tecniche, tra cui la gestione della latenza, il controllo dei costi e la garanzia della scalabilità. Google Cloud offre un percorso flessibile per l'inferenza, che ti consente di scegliere gli strumenti giusti in base alla complessità del modello, alle esigenze di prestazioni e alla capacità operativa. Puoi iniziare con soluzioni completamente gestite e adottare progressivamente un'infrastruttura più personalizzata man mano che i tuoi requisiti si evolvono.
Questo approccio è ideale per gli sviluppatori di qualsiasi livello di abilità, compresi quelli che si avvicinano all'AI per la prima volta e che vogliono integrare rapidamente potenti funzionalità di AI. Richiede semplici chiamate API senza la necessità di gestire modelli o infrastrutture.
Utilizza i modelli Gemini di Google e una selezione di modelli open source con un semplice endpoint API. Gestisce le complessità dell'hosting e della scalabilità, così puoi concentrarti sulla tua applicazione e ottenere risultati efficaci per le attività di AI generativa. |
Utilizza i modelli Gemini di Google e una selezione di modelli open source con un semplice endpoint API. Gestisce le complessità dell'hosting e della scalabilità, così puoi concentrarti sulla tua applicazione e ottenere risultati efficaci per le attività di AI generativa.
Questa opzione è destinata agli sviluppatori che hanno già creato un modello personalizzato. Puoi eseguirne il deployment nel servizio gestito di Google Cloud, il che significa che non devi occuparti della complessa configurazione del server o dell'orchestrazione. Puoi concentrarti sul modello, non sull'infrastruttura.
Vertex AI Prediction è un servizio gestito che esegue il deployment di modelli di machine learning come endpoint scalabili, utilizzando acceleratori hardware come le GPU per l'elaborazione rapida di dati in tempo reale e in batch di grandi dimensioni. | |
Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web. |
Vertex AI Prediction è un servizio gestito che esegue il deployment di modelli di machine learning come endpoint scalabili, utilizzando acceleratori hardware come le GPU per l'elaborazione rapida di dati in tempo reale e in batch di grandi dimensioni.
Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.
Offre a sviluppatori e MLOps un controllo granulare e la flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi.
GKE offre un controllo granulare sull'hardware, tra cui CPU, GPU e TPU, ideale per personalizzare e ottimizzare le prestazioni e il costo della distribuzione di modelli di machine learning molto grandi o complessi. |
GKE offre un controllo granulare sull'hardware, tra cui CPU, GPU e TPU, ideale per personalizzare e ottimizzare le prestazioni e il costo della distribuzione di modelli di machine learning molto grandi o complessi.
Se lavori con SQL, ora puoi ottenere previsioni dai modelli di AI direttamente dove risiedono già i tuoi dati. In questo modo non è necessario spostare i dati su una piattaforma separata, semplificando il workflow.
L'utilizzo di BigQuery per l'inferenza consente di eseguire modelli di machine learning direttamente sui dati con semplici comandi SQL, eliminando la necessità di spostare i dati e riducendo la complessità e la latenza. È un metodo altamente efficiente per attività di elaborazione batch come la segmentazione dei clienti o la previsione della domanda, soprattutto quando i dati sono già archiviati in BigQuery. |
L'utilizzo di BigQuery per l'inferenza consente di eseguire modelli di machine learning direttamente sui dati con semplici comandi SQL, eliminando la necessità di spostare i dati e riducendo la complessità e la latenza. È un metodo altamente efficiente per attività di elaborazione batch come la segmentazione dei clienti o la previsione della domanda, soprattutto quando i dati sono già archiviati in BigQuery.
Vuoi portare le tue competenze di inferenza AI a un livello superiore? Ecco alcune risorse preziose per aiutarti a scoprire di più e iniziare:
Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.