Che cos'è l'inferenza AI?

L'inferenza AI è la parte "pratica" dell'intelligenza artificiale. È il momento in cui un modello addestrato smette di apprendere e inizia a lavorare, trasformando le sue conoscenze in risultati concreti.

Pensa in questo modo: se l'addestramento è come insegnare una nuova abilità all'AI, l'inferenza è l'AI che usa effettivamente l'abilità per svolgere un lavoro. Riceve nuovi dati (come una foto o un pezzo di testo) e produce un output istantaneo, come una previsione, genera una foto o prende una decisione. È qui che l'AI offre valore aziendale. Per chiunque crei con l'AI, comprendere come rendere l'inferenza veloce, scalabile ed economicamente vantaggiosa è la chiave per creare soluzioni di successo.

BLOG

Chiedi all'esperto: cos'è l'inferenza?

"Addestramento dell'AI" rispetto a "ottimizzazione" rispetto a "inferenza" rispetto a "pubblicazione"

Sebbene il ciclo di vita completo dell'AI comprenda tutto, dalla raccolta dei dati al monitoraggio a lungo termine, il percorso centrale di un modello, dalla creazione all'esecuzione, prevede tre fasi chiave. I primi due riguardano l'apprendimento, mentre l'ultimo riguarda l'applicazione di ciò che si è appreso.

L'addestramento dell'AI è la fase di apprendimento fondamentale. È un processo ad alta intensità di calcolo in cui un modello analizza un set di dati di grandi dimensioni per apprendere pattern e relazioni. L'obiettivo è creare un modello accurato e informato. Ciò richiede potenti acceleratori hardware (come GPU e TPU) e può richiedere da ore a settimane.
L'ottimizzazione dell'AI è una scorciatoia per l'addestramento. Prende un modello preaddestrato potente e lo adatta a un'attività più specifica utilizzando un set di dati più piccolo e specializzato. Ciò consente di risparmiare tempo e risorse significativi rispetto all'addestramento di un modello da zero.
L'inferenza AI è la fase di esecuzione. Utilizza il modello addestrato e ottimizzato per fare previsioni rapide su dati nuovi e "mai visti". Ogni singola previsione richiede molte meno risorse di calcolo rispetto all'addestramento, ma la fornitura di milioni di previsioni in tempo reale richiede un'infrastruttura altamente ottimizzata e scalabile.
La distribuzione dell'AI è il processo di deployment e gestione del modello per l'inferenza. Ciò spesso comporta il packaging del modello, la configurazione di un endpoint API e la gestione dell'infrastruttura per gestire le richieste.

Questa tabella riassume le principali differenze:

	Formazione sull'AI	Ottimizzazione dell'AI	Inferenza AI	Distribuzione dell'AI
Obiettivo	Crea un nuovo modello da zero.	Adatta un modello preaddestrato per un'attività specifica.	Utilizza un modello addestrato per fare previsioni.	Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.
Procedura	Apprende in modo iterativo da un set di dati di grandi dimensioni.	Perfeziona un modello esistente con un set di dati più piccolo.	Un singolo e rapido "passaggio in avanti" di nuovi dati.	Crea un pacchetto del modello ed esponilo come API
Dati	Set di dati di grandi dimensioni, storici ed etichettati.	Set di dati più piccoli e specifici per le attività.	Dati non etichettati, reali e in tempo reale.	N/D
Focus sull'attività	Accuratezza e capacità del modello.	Efficienza e personalizzazione.	Velocità (latenza), scalabilità ed efficienza in termini di costi.	Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.

Formazione sull'AI

Ottimizzazione dell'AI

Inferenza AI

Distribuzione dell'AI

Obiettivo

Crea un nuovo modello da zero.

Adatta un modello preaddestrato per un'attività specifica.

Utilizza un modello addestrato per fare previsioni.

Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.

Procedura

Apprende in modo iterativo da un set di dati di grandi dimensioni.

Perfeziona un modello esistente con un set di dati più piccolo.

Un singolo e rapido "passaggio in avanti" di nuovi dati.

Crea un pacchetto del modello ed esponilo come API

Dati

Set di dati di grandi dimensioni, storici ed etichettati.

Set di dati più piccoli e specifici per le attività.

Dati non etichettati, reali e in tempo reale.

N/D

Focus sull'attività

Accuratezza e capacità del modello.

Efficienza e personalizzazione.

Velocità (latenza), scalabilità ed efficienza in termini di costi.

Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.

Come funziona l'inferenza AI?

L'inferenza AI si basa su 3 passaggi che trasformano i nuovi dati in un output utile.

Vediamo un semplice esempio: un modello di AI creato per identificare gli oggetti nelle foto.

Preparazione dei dati di input: innanzitutto, vengono forniti nuovi dati, ad esempio una foto che hai appena inviato. La foto viene preparata immediatamente per il modello, il che potrebbe significare semplicemente ridimensionarla alle dimensioni esatte su cui è stato addestrato.
Esecuzione del modello: il modello di AI analizza la foto preparata. Cerca pattern, come colori, forme e texture, che corrispondono a ciò che ha appreso durante l'addestramento. Questa rapida analisi è chiamata "forward pass", un passaggio di sola lettura in cui il modello applica le sue conoscenze senza apprendere nulla di nuovo.
Generazione dell'output: il modello produce un risultato fruibile. Per l'analisi delle foto, potrebbe trattarsi di un punteggio di probabilità (ad esempio, una probabilità del 95% che l'immagine contenga un "cane"). Questo output viene quindi inviato all'applicazione e mostrato all'utente.

Sebbene una singola inferenza sia rapida, servire milioni di utenti in tempo reale aumenta la latenza, i costi e richiede hardware ottimizzato. Le unità di elaborazione grafica (GPU) specializzate per l'AI e le Tensor Processing Unit di Google sono progettate per gestire queste attività in modo efficiente insieme all'orchestrazione con Google Kubernetes Engine, contribuendo ad aumentare il throughput e a ridurre la latenza.

Tipi di inferenza AI

Inferenza nel cloud: per potenza e scalabilità

È l'approccio più comune, in cui l'inferenza viene eseguita su potenti server remoti in un data center. Il cloud offre un'immensa scalabilità e risorse di calcolo, il che lo rende ideale per la gestione di set di dati enormi e modelli complessi. All'interno del cloud, in genere esistono 2 modalità principali di inferenza:

Inferenza in tempo reale (online): elabora le singole richieste istantaneamente quando arrivano, spesso in pochi millisecondi. Questo è fondamentale per le applicazioni interattive che richiedono un feedback immediato.
Inferenza batch (offline): gestisce grandi volumi di dati tutti in una volta, in genere quando non sono richieste risposte immediate. È un metodo molto conveniente per analisi periodiche o attività pianificate.

Inferenza edge: per velocità e privacy

Questo approccio esegue l'inferenza direttamente sul dispositivo in cui vengono generati i dati, che potrebbe essere uno smartphone o un sensore industriale. Evitando un round trip al cloud, l'inferenza Edge offre vantaggi unici come quelli che seguono.

Latenza ridotta: le risposte sono quasi istantanee, il che è fondamentale per applicazioni come i veicoli autonomi o i controlli di produzione in tempo reale.
Privacy migliorata: i dati sensibili (come scansioni mediche, foto personali, feed video) possono essere elaborati sul dispositivo senza mai essere inviati al cloud.
Costi di larghezza di banda inferiori: l'elaborazione dei dati a livello locale riduce in modo significativo la quantità di dati che devono essere caricati e scaricati.
Funzionalità offline: l'applicazione può continuare a funzionare anche senza una connessione a internet, garantendo un funzionamento continuo in ambienti remoti o disconnessi.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Confronto dell'inferenza AI

Per aiutarti a scegliere l'approccio migliore per le tue esigenze specifiche, ecco un rapido confronto delle caratteristiche principali e dei casi d'uso per ogni tipo di inferenza AI:

Funzionalità	Inferenza batch	Inferenza in tempo reale	Inferenza Edge
Località principale	Cloud (data center)	Cloud (data center)	Dispositivo locale (come smartphone, sensore IoT, robot)
Latenza/reattività	Elevata (previsioni restituite dopo l'elaborazione del batch)	Molto bassa (da millisecondi a secondi per richiesta)	Estremamente bassa (quasi istantanea, nessun hop di rete)
Volume di dati	Set di dati di grandi dimensioni (ad es. terabyte)	Eventi/richieste individuali	Richieste/eventi singoli (on-device)
Flusso dei dati	I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti	Ogni richiesta inviata al cloud, elaborata e restituita	Dati elaborati on-device, risultati utilizzati on-device
Casi d'uso tipici	Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica	Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale	Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale
Vantaggi principali	Conveniente per attività di grandi dimensioni e non urgenti	Reattività immediata per le app rivolte agli utenti	Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti

Funzionalità

Inferenza batch

Inferenza in tempo reale

Inferenza Edge

Località principale

Cloud (data center)

Dispositivo locale (come smartphone, sensore IoT, robot)

Latenza/reattività

Elevata (previsioni restituite dopo l'elaborazione del batch)

Molto bassa (da millisecondi a secondi per richiesta)

Estremamente bassa (quasi istantanea, nessun hop di rete)

Volume di dati

Set di dati di grandi dimensioni (ad es. terabyte)

Eventi/richieste individuali

Richieste/eventi singoli (on-device)

Flusso dei dati

I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti

Ogni richiesta inviata al cloud, elaborata e restituita

Dati elaborati on-device, risultati utilizzati on-device

Casi d'uso tipici

Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica

Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale

Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale

Vantaggi principali

Conveniente per attività di grandi dimensioni e non urgenti

Reattività immediata per le app rivolte agli utenti

Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti

Casi d'uso per gli sviluppatori

L'inferenza AI sta trasformando i settori consentendo nuovi livelli di automazione, un processo decisionale più smart e applicazioni innovative. Per gli sviluppatori aziendali, ecco alcune aree critiche in cui l'inferenza offre un valore aziendale tangibile:

Rilevamento di rischi e frodi in tempo reale

Analizza istantaneamente le transazioni finanziarie, il comportamento degli utenti o i log di sistema per identificare e segnalare le attività sospette. Ciò consente un intervento proattivo per prevenire attività fraudolente, riciclaggio di denaro o violazioni della sicurezza.
Esempio: una società di carte di credito utilizza l'inferenza per autorizzare le transazioni in millisecondi, bloccando immediatamente gli acquisti potenzialmente fraudolenti.

Ultra-personalizzazione e motori di consigli

Offri esperienze altamente personalizzate agli utenti prevedendo le loro preferenze in base alle interazioni passate e al contesto in tempo reale.
Esempio: le piattaforme di e-commerce utilizzano l'inferenza per suggerire prodotti agli acquirenti o i servizi di streaming consigliano film in base alle abitudini di visione, aumentando il coinvolgimento e le vendite.

Automazione e agenti basati sull'AI

Esegui il deployment di modelli di AI per automatizzare le attività di routine, fornire assistenza intelligente o interagire con gli utenti su larga scala.
Esempio: le organizzazioni di assistenza clienti utilizzano agenti AI per gestire le richieste comuni, liberando gli agenti umani per i problemi complessi, oppure le fabbriche utilizzano l'AI per l'ispezione automatizzata della qualità sulle catene di montaggio.

Manutenzione e operazioni predittive

Analizza i dati dei sensori di macchinari, infrastrutture o sistemi IT per prevedere i guasti, la domanda o ottimizzare l'allocazione delle risorse prima che si verifichino problemi.
Esempio: i produttori utilizzano l'inferenza per prevedere quando le apparecchiature necessitano di assistenza, riducendo al minimo i tempi di inattività e prolungando la durata degli asset, oppure le società di logistica ottimizzano i percorsi in base alle previsioni del traffico in tempo reale.

Generazione e comprensione avanzate dei contenuti

Sfrutta l'AI per creare nuovi contenuti (testo, codice, immagini, audio) o comprendere a fondo i dati non strutturati esistenti.
Esempio: gli sviluppatori utilizzano modelli di generazione di codice per accelerare lo sviluppo di software, mentre i team di marketing usano l'AI per riassumere documenti di grandi dimensioni e personalizzare il testo pubblicitario.

Che tipo di problema stai cercando di risolvere?

What you'll get:

Guida passo passo

Architettura di riferimento

Soluzioni predefinite disponibili

Questo servizio è stato creato con Vertex AI. Devi avere almeno 18 anni per utilizzarlo. Non inserire informazioni sensibili, riservate o personali.

In che modo Google Cloud può aiutare con l'inferenza dell'AI

L'inferenza dell'AI presenta una serie distinta di sfide tecniche, tra cui la gestione della latenza, il controllo dei costi e la garanzia della scalabilità. Google Cloud offre un percorso flessibile per l'inferenza, che ti consente di scegliere gli strumenti giusti in base alla complessità del modello, alle esigenze di prestazioni e alla capacità operativa. Puoi iniziare con soluzioni completamente gestite e adottare progressivamente un'infrastruttura più personalizzata man mano che i tuoi requisiti si evolvono.

Utilizza API di AI preaddestrate e modelli predefiniti per un deployment rapido

Questo approccio è ideale per gli sviluppatori di qualsiasi livello di abilità, compresi quelli che si avvicinano all'AI per la prima volta e che vogliono integrare rapidamente potenti funzionalità di AI. Richiede semplici chiamate API senza la necessità di gestire modelli o infrastrutture.

Model Garden di Vertex AI

Utilizza i modelli Gemini di Google e una selezione di modelli open source con un semplice endpoint API. Gestisce le complessità dell'hosting e della scalabilità, così puoi concentrarti sulla tua applicazione e ottenere risultati efficaci per le attività di AI generativa.

Model Garden di Vertex AI

Esegui il deployment di modelli personalizzati su un'infrastruttura gestita

Questa opzione è destinata agli sviluppatori che hanno già creato un modello personalizzato. Puoi eseguirne il deployment nel servizio gestito di Google Cloud, il che significa che non devi occuparti della complessa configurazione del server o dell'orchestrazione. Puoi concentrarti sul modello, non sull'infrastruttura.

Vertex AI Prediction	Vertex AI Prediction è un servizio gestito che esegue il deployment di modelli di machine learning come endpoint scalabili, utilizzando acceleratori hardware come le GPU per l'elaborazione rapida di dati in tempo reale e in batch di grandi dimensioni.
Cloud Run	Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.

Vertex AI Prediction

Vertex AI Prediction è un servizio gestito che esegue il deployment di modelli di machine learning come endpoint scalabili, utilizzando acceleratori hardware come le GPU per l'elaborazione rapida di dati in tempo reale e in batch di grandi dimensioni.

Cloud Run

Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.

Crea una piattaforma di distribuzione personalizzata per il massimo controllo

Offre a sviluppatori e MLOps un controllo granulare e la flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi.

Google Kubernetes Engine (GKE)

GKE offre un controllo granulare sull'hardware, tra cui CPU, GPU e TPU, ideale per personalizzare e ottimizzare le prestazioni e il costo della distribuzione di modelli di machine learning molto grandi o complessi.

Google Kubernetes Engine (GKE)

Esegui l'inferenza direttamente nel tuo data warehouse utilizzando SQL

Se lavori con SQL, ora puoi ottenere previsioni dai modelli di AI direttamente dove risiedono già i tuoi dati. In questo modo non è necessario spostare i dati su una piattaforma separata, semplificando il workflow.

BigQuery ML

L'utilizzo di BigQuery per l'inferenza consente di eseguire modelli di machine learning direttamente sui dati con semplici comandi SQL, eliminando la necessità di spostare i dati e riducendo la complessità e la latenza. È un metodo altamente efficiente per attività di elaborazione batch come la segmentazione dei clienti o la previsione della domanda, soprattutto quando i dati sono già archiviati in BigQuery.