Fecha de publicación: 22 de mayo de 2025
La IA está transformando la forma en que los desarrolladores web crean sitios web y aplicaciones web. En Google I/O 2025, compartimos en qué estuvimos trabajando durante el año pasado, demostramos cómo nuestros socios usan la IA en la Web y anunciamos nuevas APIs de IA integradas.
¿Te perdiste el evento? Tenemos buenas noticias: ahora puedes mirar las charlas on demand.
IA integrada práctica con Gemini Nano en Chrome
Nuestra misión principal es hacer que Chrome y la Web sean más inteligentes para todos los desarrolladores y usuarios. En esta charla, Thomas Steiner comparte actualizaciones sobre la IA integrada, casos de uso prácticos y una mirada a nuestro futuro.
La IA integrada ejecuta modelos del cliente en el navegador, lo que tiene varias ventajas:
- Privados: Los datos sensibles del usuario permanecen en el dispositivo y nunca salen del navegador.
- Sin conexión: Las aplicaciones pueden acceder a las funciones de IA, incluso sin conexión a Internet.
- Rendimiento: Gracias a la aceleración de hardware, estas APIs ofrecen un rendimiento excelente.
Consulta las muestras de código de cada una de las APIs de IA integradas, obtén una actualización sobre su estado y descubre qué empresas implementan esta tecnología.
APIs multimodales
Estamos trabajando en APIs multimodales nuevas. Esto significa que puedes preguntarle a Gemini Nano qué "ve" en el contenido visual o "escucha" en el contenido de audio. Por ejemplo, obtener sugerencias de texto alternativo en las imágenes subidas a una plataforma de blog que los usuarios puedan definir mejor y ajustar. También puedes pedirle a Gemini Nano que escriba descripciones o transcripciones de podcasts.
Hybrid AI
Un desafío que enfrentan los desarrolladores con la IA del cliente es que no todas las plataformas y navegadores cumplen con los requisitos de hardware para ejecutar un modelo en el dispositivo. Gemini y Firebase se asociaron para compilar el SDK web de Firebase de modo que, cuando las implementaciones del cliente no estén disponibles, puedas usar Gemini Nano en un servidor como alternativa.
Cómo trabajar contigo
Nos complace haber trabajado con tantos desarrolladores en las APIs de IA integradas. Sin ti, nuestros esfuerzos no serían posibles.
- Programa de Versión preliminar temprana: Más de 16,000 desarrolladores se unieron al EPP, probaron nuevas APIs, descubrieron nuevos casos de uso y proporcionaron comentarios para crear una mejor IA para la Web.
- Hackathons: Organizamos dos hackathons y creaste sitios web y extensiones increíbles.
Tu trabajo no ha terminado. Sigue compartiendo tus comentarios, probando las nuevas APIs integradas y nosotros seguiremos iterando. Incluso puedes ayudar a estandarizar estas APIs uniéndote al grupo comunitario de aprendizaje automático web del W3C.
El futuro de las extensiones de Chrome con Gemini en tu navegador
La cantidad de extensiones potenciadas por IA se duplicó en los últimos dos años. De hecho, el 10% de todas las extensiones instaladas desde Chrome Web Store usan IA. En esta charla, Sebastian Benz ofrece ejemplos prácticos de por qué las extensiones de Chrome y Gemini son una combinación tan potente.
Los ejemplos van desde cómo puedes hacer que el navegador sea más útil extrayendo y procesando datos de sitios web en el cliente con la API de prompt recientemente lanzada de Chrome.
Demostró el potencial de las nuevas capacidades multimodales de la API de instrucciones de Chrome en las extensiones de Chrome para que el audio y las imágenes sean más accesibles para los usuarios.
Para echar un vistazo al futuro de la navegación, explica cómo el Project Mariner de Google DeepMind usa las extensiones de Chrome y las APIs de Gemini Cloud más recientes para compilar un agente de navegador completo.
Explora el potencial de usar Gemini en la nube o en el navegador en Extensiones de Chrome para crear nuevas experiencias de navegación y hacer que el navegador sea más útil.
Casos de uso y estrategias de IA web en el mundo real
Yuriko Hirota y Swetha Gopalakrishnan destacaron ejemplos del mundo real de empresas que usan la IA en la Web para mejorar su negocio y la experiencia del usuario.Ya sea que su solución use modelos del cliente, del servidor o una solución híbrida, lo que importa son las funciones y las características nuevas y emocionantes que pones a disposición de tus usuarios en este momento.
BILIBILI hizo que sus transmisiones de video fueran más atractivas con una nueva función: los comentarios con viñetas. Ofrecen comentarios de los usuarios en tiempo real en el video, que se renderizan detrás del orador. Para ello, usan la segmentación de imágenes, un concepto de aprendizaje automático bien conocido. Como resultado, la duración de la sesión aumentó un 30%. Tokopedia redujo los inconvenientes en su proceso de verificación de vendedores con un modelo de detección de rostros para evaluar la calidad de las fotos subidas. Como resultado, redujeron las aprobaciones manuales en casi un 70%.
Vision Nanny, una plataforma web para niños con discapacidad visual cerebral (CVI), providece actividades de estimulación visual potenciadas por IA. Usan varias bibliotecas de MediaPipe, incluido el modelo de detección de puntos de referencia de la mano, que localiza los puntos clave de las manos en una imagen, un video o en tiempo real. Una prueba piloto con 50 niños demostró que Vision Nanny proporcionó respuestas 5 veces más rápido que las actividades de estimulación visual manual. Los terapeutas informaron que ahorraron un promedio de tres horas por sesión quitando la configuración manual.
Google Meet tiene varias funciones habilitadas por IA, desde la mejora de la iluminación hasta la reducción de videos desenfocados y borrosos. El mayor desafío es que estas funciones deben funcionar en tiempo real. Ahí es donde entra WebAssembly (Wasm) para aprovechar toda la potencia de la CPU de una computadora y habilitar el procesamiento de video en tiempo real.
Estos son solo algunos ejemplos del mundo real de la IA en la Web. Varias otras empresas experimentaron con las APIs de IA integradas, algunas de las cuales compartieron su trabajo en casos de éxito.
Agentes de IA web del cliente para crear experiencias del usuario más inteligentes en el futuro
Jason Mayes habló sobre el futuro de Internet: los agentes de IA web. La Web tiene un futuro agente, que lleva las capacidades de la IA directamente al navegador para realizar tareas útiles en tu nombre, más allá de las capacidades de los modelos de lenguaje grandes (LLM).
Con un enfoque del cliente, se mejora la privacidad, se reduce la latencia y se pueden obtener ahorros significativos en los costos. Los agentes te permiten actualizar tu sitio web existente, realizar tareas de forma autónoma para un usuario, seleccionar y usar de forma dinámica las herramientas expuestas, posiblemente en un bucle, lo que permite que el agente complete tareas potencialmente complejas o de varios pasos.
Los agentes pueden hacer lo siguiente:
- Planifica y divide las subtareas, y controla problemas más complejos a través de una planificación de varios pasos para desglosar la tarea en pasos lógicos y completarla.
- Selecciona las mejores herramientas, ya sean funciones, uso de la API o acceso al almacén de datos al conocimiento base del modelo de lenguaje aumentado y, luego, realiza acciones en el mundo exterior.
- Retener la memoria basada en el contexto, según los resultados anteriores del agente o las herramientas externas La memoria a corto plazo actúa como un búfer FIFO del historial de contexto hasta el tamaño de la ventana de contexto del modelo, en comparación con la memoria a largo plazo, en la que se puede usar una base de datos de vectores para almacenar información que se recuperará según sea necesario desde sesiones de conversación anteriores o de otras fuentes de datos por completo.
Los agentes de IA web están diseñados para integrarse en las tecnologías web existentes en JavaScript. En última instancia, es importante que sigamos acelerando nuestro hardware para ejecutar mejor los modelos en el navegador. En el futuro, las tecnologías como WebNN desempeñarán un papel clave en la optimización de la ejecución de modelos en CPUs, GPUs y NPU. Con la tendencia hacia LLM más pequeños y el avance continuo, esto solo se volverá más potente en el futuro.
Considera usar un enfoque híbrido que combine el procesamiento integrado en el dispositivo con llamadas a la nube estratégicas para que puedas crear experiencias del usuario inteligentes, responsivas y personalizadas en el navegador ahora mismo. Pronto, el retorno de tu inversión en el enfoque de IA web debería dar sus frutos a medida que los dispositivos sean más capaces de ejecutar LLM.
Ponte al día con Google I/O 2025
Lanzamos todas las charlas de Google I/O 2025, con una playlist dedicada a los desarrolladores web. Mira aún más contenido en io.google/2025.