Condividi

11 DIC 2024

Gemini potenzia l'esperienza di "Natural Language Computing" di tldraw

Vishal Dharmadhikari

Product Solutions Engineer

Steve Ruiz

Tldraw

Tldraw showcase hero

Sfruttare le interazioni in linguaggio naturale con l'API Gemini

L'API Gemini consente agli sviluppatori di integrare facilmente funzionalità di AI avanzate nelle loro applicazioni, aprendo nuove possibilità per l'esperienza utente e la funzionalità. Questo post evidenzia come tldraw sfrutta Gemini per creare un'esperienza rivoluzionaria di "natural language computing" all'interno del suo nuovo progetto, computer. Ciò dimostra la velocità e la facilità con cui le startup possono integrare una potente AI utilizzando l'API Gemini e l'SDK canvas di tldraw. Il team di tldraw lancerà presto computer con Gemini 1.5 Flash (unisciti alla lista di attesa) e sta attualmente prototipando con Gemini 2.0 Flash per le iterazioni future.

tldraw utilizza l'API Gemini per portare la potenza dell'AI conversazionale nella programmazione visiva, consentendo agli utenti di generare contenuti ed elaborare informazioni utilizzando il linguaggio naturale. Ciò apre opportunità entusiasmanti per un'esperienza utente più intuitiva ed efficiente con l'AI, superando i limiti della comunicazione visiva.

La visione artificiale

tldraw, che si impegna a rendere la creazione di diagrammi accessibile e intuitiva, ha immaginato un modo più naturale per gli utenti di interagire con il canvas. Il fondatore Steve Ruiz ha cercato di sfruttare la potenza dell'SDK per la tela infinita di tldraw per creare un ambiente dinamico per lavorare con l'AI generativa. Questa visione ha portato allo sviluppo di computer, un'applicazione sperimentale in cui gli utenti creano flussi di lavoro da blocchi di testo, immagini e istruzioni. Quando vengono eseguiti, le informazioni scorrono da un componente all'altro e l'output di ogni generazione funge da input per la successiva, creando processi potenti che si ramificano, si ripetono e iterano per produrre output.

Building with Gemini 2.0: A Deep Dive into Computer

Il computer di tldraw è basato su una rete di "componenti" interconnessi che rappresentano gli elementi sul canvas (caselle di testo, immagini, clip audio e così via). Questi componenti sono collegati da frecce, che visualizzano il flusso di dati e le trasformazioni. Ogni componente ha associate "procedure", ovvero insiemi di istruzioni eseguite in base agli input dei componenti connessi. Un componente può accettare dati da un numero qualsiasi di altri componenti e passare i dati di output a molti altri componenti, incluso se stesso. Questa architettura basata su componenti, combinata con la potenza e la velocità di Gemini 2.0 Flash, consente di creare un sistema veloce e flessibile in grado di gestire diverse attività.

tldraw computer's AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model

Ecco come la prototipazione di Gemini 2.0 Flash ha migliorato l'esperienza:


  • Esecuzione di procedure fulminea: Gemini 2.0 Flash esegue le procedure rapidamente. Ad esempio, un componente "Istruzione" potrebbe contenere "Scrivi un breve spot pubblicitario". Pochi istanti dopo l'attivazione, il componente avrà generato un copione riutilizzabile di passaggi che possono trasformare qualsiasi combinazione di input in un copione commerciale. Il componente utilizzerà quindi questo script, insieme ai suoi input attuali (ad es. un componente "Testo" con "Nuovi guanti intelligenti con AI per gatti"), per creare un secondo prompt per il modello per l'output finale. Questo output può essere passato a un altro componente "Testo" collegato per la visualizzazione, nonché ad altri componenti connessi, come "Voce" per la sintesi vocale, "Immagine" per la generazione visiva o altri componenti "Istruzione" per un'ulteriore trasformazione.

  • Molto contesto, molte modalità:l'approccio massimalista del computer di tldraw richiedeva velocità, capacità e funzionalità. Con più componenti che forniscono dati per ogni generazione, l'ampia finestra contestuale di Gemini 2.0 Flash è stata fondamentale per produrre output che tenessero conto di tutti gli input, così come il supporto di immagini e file insieme ai prompt scritti.

  • Dati strutturati:il flusso di dati tra i componenti non sarebbe possibile senza l'adesione a un unico schema. L'output JSON strutturato di Gemini 2.0 Flash garantisce che ogni componente di un flusso di lavoro possa riconoscere dati di qualsiasi tipo e produrre i propri output nella stessa struttura, evitando blocchi, semplificando l'esecuzione e garantendo che anche i flussi di lavoro di grandi dimensioni vengano completati in modo affidabile.

  • Generazione dinamica di procedure:oltre a eseguire procedure predefinite, Gemini 2.0 Flash può generare procedure in modo dinamico. Un utente potrebbe inserire "crea una campagna di marketing basata su questa descrizione del prodotto" e Gemini 2.0 Flash genererebbe i passaggi (procedure) e i componenti necessari, creando un flusso di lavoro nel canvas in base alla richiesta di alto livello dell'utente. Questa generazione dinamica offre un potenziale enorme per esperienze utente innovative e flussi di lavoro semplificati.

Un risultato rapido per l'innovazione

La rapida implementazione di tldraw delle funzionalità di visione artificiale sottolinea la proposta di valore di Gemini per le startup: prototipazione rapida, esperienza utente migliorata grazie a interfacce intuitive in linguaggio naturale ed efficiente gestione dei dati strutturati grazie a modelli come Gemini 2.0 Flash. Questa combinazione consente ai piccoli team di creare funzionalità innovative basate sull'AI in modo rapido ed economico.

"Vogliamo dimostrare che qualsiasi team può realizzare progetti ambiziosi con l'SDK canvas di tldraw. Gemini Flash era il motore perfetto per uno strumento di workflow veloce, multimodale e basato su canvas. Con Gemini 2.0 e magari un nome migliore, sono abbastanza sicuro che domani potremmo proporre il computer come startup a sé stante".

- Steve Ruiz, fondatore di tldraw

Migliorare la tua applicazione con l'API Gemini

Ispirato dal successo di tldraw? L'API Gemini offre modelli potenti come Gemini 1.5 Pro, Gemini 1.5 Flash e ora Gemini 2.0 Flash come modello di anteprima sperimentale per integrare funzionalità di AI innovative nella tua applicazione. Esplora la documentazione dell'API Gemini e offri ai tuoi utenti la potenza dell'AI.

Per professionisti della creatività, sviluppatori e team di ogni tipo, tldraw offre una piattaforma unica e potente per dare vita alle idee. Iscriviti alla lista d'attesa per computer. Prova oggi stesso il futuro della collaborazione visiva.