Veröffentlicht: 22. Mai 2025
KI verändert die Art und Weise, wie Webentwickler Websites und Webanwendungen erstellen. Auf der Google I/O 2025 haben wir vorgestellt, woran wir im letzten Jahr gearbeitet haben, gezeigt, wie unsere Partner KI im Web einsetzen, und neue integrierte KI-APIs angekündigt.
Haben Sie die Veranstaltung verpasst? Die gute Nachricht: Sie können sich die Vorträge jetzt on demand ansehen.
Praktische integrierte KI mit Gemini Nano in Chrome
Unser Ziel ist es, Chrome und das Web für alle Entwickler und Nutzer intelligenter zu machen. In dieser Präsentation gibt Thomas Steiner Updates zu eingebauter KI, praktischen Anwendungsfällen und einen Ausblick in die Zukunft.
Die integrierte KI führt clientseitige Modelle im Browser aus. Das hat mehrere Vorteile:
- Privat: Sensible Nutzerdaten bleiben auf dem Gerät und verlassen den Browser nie.
- Offline: Anwendungen können auch ohne Internetverbindung auf KI-Funktionen zugreifen.
- Leistungsstark: Dank Hardwarebeschleunigung bieten diese APIs eine hervorragende Leistung.
Sehen Sie sich Codebeispiele für jede der eingebauten KI-APIs an, informieren Sie sich über ihren Status und sehen Sie sich an, welche Unternehmen diese Technologie implementieren.
Multimodale APIs
Wir arbeiten an brandneuen multimodalen APIs. Sie können Gemini Nano also fragen, was es in visuellen Inhalten „sieht“ oder in Audioinhalten „hört“. So können Nutzer beispielsweise Vorschläge für alternativen Text für hochgeladene Bilder auf einer Blogplattform erhalten, die sie verfeinern und anpassen können. Sie können Gemini Nano auch bitten, Beschreibungen oder Transkripte für Podcasts zu erstellen.
Hybrid-KI
Eine Herausforderung für Entwickler bei der clientseitigen KI besteht darin, dass nicht alle Plattformen und Browser die Hardwareanforderungen erfüllen, um ein Modell auf dem Gerät auszuführen. Gemini und Firebase haben gemeinsam das Firebase Web SDK entwickelt, damit Sie bei nicht verfügbaren clientseitigen Implementierungen auf Gemini Nano auf einem Server zurückgreifen können.
Zusammenarbeit mit Ihnen
Wir freuen uns, dass wir mit so vielen Entwicklern an integrierten KI-APIs zusammenarbeiten konnten. Ohne euch wäre das nicht möglich.
- Early Preview Program: Mehr als 16.000 Entwickler haben am EPP teilgenommen, neue APIs getestet, neue Anwendungsfälle entdeckt und Feedback gegeben, um eine bessere KI für das Web zu entwickeln.
- Hackathons: Wir haben zwei Hackathons veranstaltet und ihr habt unglaubliche Websites und Erweiterungen erstellt.
Ihre Arbeit ist noch nicht getan. Geben Sie uns weiterhin Feedback und testen Sie die neuen integrierten APIs. Wir werden sie kontinuierlich weiterentwickeln. Sie können sogar dazu beitragen, diese APIs zu standardisieren, indem Sie der Web Machine Learning Community Group des W3C beitreten.
Die Zukunft von Chrome-Erweiterungen mit Gemini in Ihrem Browser
Die Anzahl der KI-gestützten Erweiterungen hat sich in den letzten zwei Jahren verdoppelt. Tatsächlich nutzen 10% aller Erweiterungen, die aus dem Chrome Web Store installiert wurden, KI. In diesem Vortrag zeigt Sebastian Benz anhand praktischer Beispiele, warum Chrome-Erweiterungen und Gemini eine so leistungsstarke Kombination sind.
Beispiele reichen von der Möglichkeit, den Browser hilfreicher zu machen, indem Daten von Websites auf dem Client mithilfe der neuen Prompt API von Chrome extrahiert und verarbeitet werden, bis hin zur Verbesserung der Nutzerfreundlichkeit von Chrome.
Er hat das Potenzial der neuen multimodalen Funktionen der Prompting API von Chrome in Chrome-Erweiterungen demonstriert, um Audio und Bilder für Nutzer barrierefreier zu machen.
Wir werfen einen Blick in die Zukunft des Surfens und erklären, wie Project Mariner von Google DeepMind Chrome-Erweiterungen und die neuesten Gemini Cloud APIs verwendet, um einen vollwertigen Browser-Agenten zu erstellen.
In Chrome-Erweiterungen können Sie Gemini in der Cloud oder im Browser nutzen, um neue Funktionen zu entwickeln und den Browser nützlicher zu machen.
Anwendungsfälle und Strategien für Web-KI in der Praxis
Yuriko Hirota und Swetha Gopalakrishnan haben reale Beispiele für Unternehmen vorgestellt, die KI im Web nutzen, um ihr Geschäft und die Nutzerfreundlichkeit zu verbessern.Unabhängig davon, ob ihre Lösung clientseitige, serverseitige oder eine hybride Lösung verwendet, sind die spannenden neuen Funktionen, die Sie Ihren Nutzern jetzt zur Verfügung stellen, entscheidend.
BILIBILI hat seine Videostreams mit einer neuen Funktion noch interaktiver gemacht: Bullet-Screen-Kommentare. Sie bieten Echtzeitkommentare von Nutzern im Video, die hinter dem Sprecher gerendert werden. Dazu wird die Bildsegmentierung verwendet, ein gut bekanntes Konzept des maschinellen Lernens. Die Sitzungsdauer stieg dadurch um 30 %. Tokopedia hat mithilfe eines Gesichtserkennungsmodells die Abläufe bei der Verkäuferüberprüfung optimiert, um die Qualität der hochgeladenen Fotos zu bewerten. So konnte die Anzahl der manuellen Genehmigungen um fast 70 % reduziert werden.
Vision Nanny ist eine Webplattform für Kinder mit zerebraler Sehbehinderung (CVI), die KI-gestützte Aktivitäten zur visuellen Stimulation bietet. Dabei werden mehrere MediaPipe-Bibliotheken verwendet, darunter das Modell zur Erkennung von Handmarkierungen, mit dem wichtige Punkte der Hände in einem Bild, Video oder in Echtzeit ermittelt werden. Ein Pilotprojekt mit 50 Kindern hat gezeigt, dass Vision Nanny die Antworten fünfmal schneller liefert als manuelle visuelle Stimulationsaktivitäten. Therapeuten berichten, dass sie durch die Abschaffung der manuellen Einrichtung durchschnittlich drei Stunden pro Sitzung sparen.
Google Meet bietet mehrere KI-gestützte Funktionen, von der Verbesserung der Beleuchtung bis hin zur Reduzierung von Unschärfe und Unklarheit bei Videos. Die größte Herausforderung besteht darin, dass diese Funktionen in Echtzeit funktionieren müssen. Hier kommt WebAssembly (Wasm) ins Spiel, um die volle Leistung der CPU eines Computers zu nutzen und die Echtzeit-Videoverarbeitung zu ermöglichen.
Das sind nur einige Beispiele für KI-Anwendungen im Web. Mehrere andere Unternehmen haben mit den integrierten KI-APIs experimentiert. Einige von ihnen haben ihre Arbeit in Fallstudien geteilt.
Clientseitige Web-KI-Agenten für eine intelligentere Nutzererfahrung in Zukunft
Jason Mayes hat die Zukunft des Internets vorgestellt: Web-KI-Agenten. Das Web hat eine KI-gestützte Zukunft, die KI-Funktionen direkt in den Browser bringt, um nützliche Aufgaben in Ihrem Namen auszuführen, die über die Fähigkeiten von Large Language Models (LLMs) hinausgehen.
Ein clientseitiger Ansatz bietet mehr Datenschutz, eine geringere Latenz und potenziell erhebliche Kosteneinsparungen. Mithilfe von Bots können Sie Ihre vorhandene Website aktualisieren, um Aufgaben autonom für einen Nutzer auszuführen. Dabei werden die angezeigten Tools dynamisch ausgewählt und verwendet, möglicherweise in einer Schleife, sodass der Bot potenziell komplexe oder mehrstufige Aufgaben erledigen kann.
Kundenservicemitarbeiter können:
- Planen und unterteilen Sie Teilaufgaben, um komplexere Probleme durch mehrstufige Planung zu bewältigen und die Aufgabe in logische Schritte aufzuteilen.
- Wählen Sie die besten Tools aus, z. B. Funktionen, API-Nutzung oder Datenspeicherzugriff auf das Basiswissen des erweiterten Sprachmodells, und führen Sie dann Aktionen in der Außenwelt aus.
- Kontextbasiertes Gedächtnis beibehalten, basierend auf früheren Ausgaben des Kundenservicemitarbeiters oder externer Tools. Das Kurzzeitgedächtnis funktioniert wie ein FIFO-Puffer des Kontextverlaufs bis zur Größe des Kontextfensters des Modells. Im Gegensatz dazu kann im Langzeitgedächtnis eine Vektordatenbank verwendet werden, um Informationen zu speichern, die bei Bedarf aus früheren Unterhaltungen oder anderen Datenquellen abgerufen werden können.
Web-KI-Agenten sind für die Einbindung in bestehende Webtechnologien in JavaScript konzipiert. Letztendlich ist es wichtig, dass wir unsere Hardware weiter beschleunigen, um Modelle im Browser optimal ausführen zu können. In Zukunft werden Technologien wie WebNN eine wichtige Rolle bei der Optimierung der Modellausführung auf CPUs, GPUs und NPUs spielen. Aufgrund des Trends zu kleineren LLMs und der kontinuierlichen Weiterentwicklung werden sie in Zukunft immer leistungsfähiger.
Sie können einen hybriden Ansatz verwenden, bei dem die Verarbeitung auf dem Gerät mit strategischen Cloud-Aufrufen kombiniert wird. So können Sie jetzt intelligente, responsive und personalisierte Nutzererfahrungen im Browser schaffen. Bald sollte sich die Investition in Web-KI auszahlen, da Geräte immer besser in der Lage sind, LLMs auszuführen.
Highlights der Google I/O 2025
Wir haben alle Vorträge der Google I/O 2025 veröffentlicht. Es gibt auch eine Playlist speziell für Webentwickler. Weitere Informationen finden Sie unter io.google/2025.