Publicado em 22 de maio de 2025
A IA está transformando a forma como os desenvolvedores da Web estão criando sites e apps da Web. No Google I/O 2025, compartilhamos o que fizemos no último ano, demonstramos como nossos parceiros estão usando a IA na Web e anunciamos novas APIs de IA integradas.
Perdeu o evento? Temos boas notícias: agora você pode assistir às palestras on demand.
IA integrada prática com o Gemini Nano no Chrome
Nossa missão principal é tornar o Chrome e a Web mais inteligentes para todos os desenvolvedores e usuários. Nesta palestra, Thomas Steiner compartilha atualizações sobre IA integrada, casos de uso práticos e uma visão do futuro.
A IA integrada executa modelos do lado do cliente no navegador, o que tem várias vantagens:
- Privado: os dados sensíveis do usuário permanecem no dispositivo, sem precisar sair do navegador.
- Off-line: os aplicativos podem acessar os recursos de IA mesmo sem uma conexão de Internet.
- Rendimento: graças à aceleração de hardware, essas APIs oferecem excelente performance.
Confira exemplos de código para cada uma das APIs de IA integradas, confira o status delas e veja quais empresas estão implementando essa tecnologia.
APIs multimodais
Estamos trabalhando em novas APIs multimodais. Isso significa que você pode perguntar ao Gemini Nano sobre o que ele "vê" em conteúdo visual ou "ouve" em conteúdo de áudio. Por exemplo, receber sugestões de texto alternativo para imagens enviadas em uma plataforma de blog, que os usuários podem refinar e ajustar. Ou você pode pedir ao Gemini Nano para escrever descrições ou transcrições de podcasts.
IA híbrida
Um dos desafios que os desenvolvedores enfrentam com a IA do lado do cliente é que nem todas as plataformas e navegadores atendem aos requisitos de hardware para executar um modelo no dispositivo. O Gemini e o Firebase fizeram uma parceria para criar o SDK da Web do Firebase. Assim, quando as implementações do lado do cliente não estiverem disponíveis, você poderá usar o Gemini Nano em um servidor.
Como trabalhamos com você
Foi um prazer trabalhar com tantos desenvolvedores em APIs de IA integradas. Nossos esforços não seriam possíveis sem você.
- Programa de prévia antecipada: mais de 16.000 desenvolvedores se juntaram ao EPP, testando novas APIs, descobrindo novos casos de uso e enviando feedback para criar uma IA melhor para a Web.
- Hackathons: realizamos duas hackathons e vocês criaram sites e extensões incríveis.
Seu trabalho não acabou. Continue compartilhando seu feedback, testando as novas APIs integradas e vamos continuar iterando. Você pode até ajudar a padronizar essas APIs participando do Grupo da comunidade de aprendizado de máquina da Web do W3C.
O futuro das extensões do Chrome com o Gemini no seu navegador
O número de extensões com tecnologia de IA dobrou nos últimos dois anos. Na verdade, 10% de todas as extensões instaladas na Chrome Web Store usam IA. Nesta palestra, Sebastian Benz dá exemplos práticos de por que as extensões do Chrome e o Gemini são uma combinação tão poderosa.
Os exemplos variam de como tornar o navegador mais útil extraindo e processando dados de sites no cliente usando a API de comandos recém-lançada do Chrome.
Demonstração do potencial de novos recursos multimodais da API de solicitação do Chrome em extensões do Chrome para tornar áudios e imagens mais acessíveis aos usuários.
Para conhecer o futuro da navegação, explicamos como o Project Mariner do Google DeepMind usa as extensões do Chrome e as APIs Gemini Cloud mais recentes para criar um agente de navegação completo.
Descubra o potencial de usar o Gemini na nuvem ou no navegador nas Extensões do Chrome para criar novas experiências de navegação e tornar o navegador mais útil.
Casos de uso e estratégias de IA da Web no mundo real
Yuriko Hirota e Swetha Gopalakrishnan destacaram exemplos reais de empresas que usam a IA na Web para melhorar a experiência de negócios e dos usuários.Não importa se a solução usa modelos do lado do cliente, do lado do servidor ou uma solução híbrida, o que importa são as novas funções e recursos que você disponibiliza para os usuários agora.
A BILIBILI tornou as transmissões de vídeo mais envolventes com um novo recurso: comentários de tela de bala. Eles oferecem comentários de usuários em tempo real no vídeo, renderizados atrás do orador. Para fazer isso, eles usam a segmentação de imagens, um conceito de aprendizado de máquina bem conhecido. Como resultado, a duração da sessão aumentou 30%. A Tokopedia reduziu a fricção no processo de verificação do vendedor usando um modelo de detecção de rosto para avaliar a qualidade das fotos enviadas. Como resultado, as aprovações manuais foram reduzidas em quase 70%.
A Vision Nanny, uma plataforma da Web para crianças com deficiência visual cerebral (CVI, na sigla em inglês), oferece atividades de estimulação visual com tecnologia de IA. Eles usam várias bibliotecas do MediaPipe, incluindo o modelo de detecção de pontos de referência das mãos, que localiza pontos-chave das mãos em uma imagem, vídeo ou em tempo real. Um piloto com 50 crianças demonstrou que a Vision Nanny forneceu respostas cinco vezes mais rápidas do que atividades de estimulação visual manual. Os terapeutas relataram uma economia média de três horas por sessão com a remoção da configuração manual.
O Google Meet tem vários recursos ativados pela IA, desde a melhoria da iluminação até a redução de vídeos desfocados e borrados. O maior desafio é que esses recursos precisam funcionar em tempo real. É aí que entra a WebAssembly (Wasm), para aproveitar todo o poder da CPU de um computador e permitir o processamento de vídeo em tempo real.
Esses são apenas alguns exemplos reais de IA na Web. Várias outras empresas experimentaram as APIs de IA integradas, e algumas delas compartilharam o trabalho em estudos de caso.
Agentes de IA da Web do lado do cliente para criar experiências de usuário mais inteligentes no futuro
Jason Mayes falou sobre o futuro da Internet: agentes de IA da Web. A Web tem um futuro agente, trazendo recursos de IA diretamente para o navegador, para realizar trabalhos úteis em seu nome, além dos recursos de modelos de linguagem grandes (LLMs).
Com uma abordagem do lado do cliente, há maior privacidade, latência reduzida e possíveis economias significativas. Os agentes permitem que você atualize seu site atual, realize tarefas de forma autônoma para um usuário, selecionando e usando dinamicamente as ferramentas expostas, possivelmente em um loop, permitindo que o agente conclua tarefas potencialmente complexas ou com várias etapas.
Os agentes podem:
- Planeje e divida as subtarefas, lidando com problemas mais complexos com um planejamento de várias etapas para dividir a tarefa em etapas lógicas para conclusão.
- Selecione as melhores ferramentas, sejam funções, uso de API ou acesso ao repositório de dados ao conhecimento básico do modelo de linguagem aumentada e realize ações no mundo externo.
- Manter a memória baseada no contexto, com base em saídas anteriores do agente ou ferramentas externas. A memória de curto prazo funciona como um buffer FIFO do histórico de contexto até o tamanho da janela de contexto do modelo, em comparação com a memória de longo prazo, em que um banco de dados vetorial pode ser usado para armazenar informações para recuperação conforme necessário de sessões de conversa anteriores ou outras fontes de dados.
Os agentes de IA da Web foram projetados para se integrar às tecnologias da Web em JavaScript. É importante continuar acelerando nosso hardware para executar melhor os modelos no navegador. No futuro, tecnologias como o WebNN vão ter um papel fundamental na otimização da execução de modelos em CPUs, GPUs e NPUs. Com a tendência de LLMs menores e o avanço contínuo, isso só vai aumentar e se tornar mais poderoso no futuro.
Considere usar uma abordagem híbrida, combinando o processamento no dispositivo com chamadas estratégicas na nuvem para criar experiências de usuário inteligentes, responsivas e personalizadas no navegador agora mesmo. Em breve, o retorno do investimento na abordagem da IA da Web vai valer a pena à medida que os dispositivos se tornarem mais capazes de executar LLMs.
Fique por dentro do Google I/O 2025
Lançamos todas as palestras do Google I/O 2025, com uma playlist dedicada a desenvolvedores da Web. Confira mais em io.google/2025.