DolphinGemma: Wie Google KI dabei hilft, die Kommunikation von Delfinen zu entschlüsseln
Seit Jahrzehnten ist das Verständnis der Klicke, Pfiffe und Burst-Impulse von Delfinen eine wissenschaftliche Herausforderung. Was wäre, wenn wir Delfinen nicht nur zuhören könnten, sondern auch die Muster ihrer komplexen Kommunikation gut genug verstehen könnten, um realistische “Antworten” hervorzurufen?
Heute kündigt Google in Zusammenarbeit mit Forschenden der Georgia Tech und der Feldforschung des Wild Dolphin Project (WDP) Fortschritte bei DolphinGemma an: einem grundlegenden KI-Modell, das darauf trainiert ist, die Struktur der Lautäußerungen von Delfinen zu erlernen und neuartige delfinähnliche Klangsequenzen zu erzeugen. Dieser Ansatz auf der Suche nach Kommunikation zwischen den Arten verschiebt die Grenzen der KI und unserer möglichen Verbindung mit der Meereswelt.
Seit Jahrzehnten die Delfine erforschen
Um eine Spezie zu verstehen, ist ein umfassender Kontext erforderlich, und das ist eines der vielen Dinge, die das WDP bietet. Seit 1985 führt WDP das am längsten laufende Unterwasser-Delfinforschungsprojekt der Welt durch und untersucht dabei eine bestimmte Gemeinschaft wild lebender Zügeldelfine (Stenella frontalis) auf den Bahamas über Generationen hinweg. Dieser nicht-invasive Ansatz „In ihrer Welt, zu ihren Bedingungen“ liefert einen reichhaltigen, einzigartigen Datensatz: jahrzehntelange Unterwasservideos und -audios, die sorgfältig mit den Identitäten, Lebensgeschichten und beobachteten Verhaltensweisen einzelner Delfine gepaart sind.
Eine Gruppe Zügeldelfine, Stenella frontalis
Ein Hauptaugenmerk von WDP liegt auf der Beobachtung und Analyse der natürlichen Kommunikation und sozialen Interaktionen der Delfine. Die Arbeit unter Wasser ermöglicht es Forschenden, Geräusche direkt mit bestimmten Verhaltensweisen zu verknüpfen, was so bei der Beobachtung an der Oberfläche nicht möglich ist. Seit Jahrzehnten korrelieren sie Geräuschtypen mit Verhaltenskontexten. Hier einige Beispiele:
- Signaturpfiffe, die von Müttern und Kälbern zur Wiedervereinigung verwendet werden können
- Burst-Puls-„Quietschgeräusche“, die oft bei Kämpfen zu sehen sind
- Klickendes „Summen“, das häufig beim Balzen oder Jagen von Haien verwendet wird
Für eine genaue Interpretation ist es entscheidend, die einzelnen beteiligten Delfine zu kennen. Das ultimative Ziel dieser Beobachtungsarbeit besteht darin, die Struktur und mögliche Bedeutung dieser natürlichen Klangsequenzen zu verstehen – auf der Suche nach Mustern und Regeln, die auf Sprache hinweisen könnten. Diese Langzeitanalyse der natürlichen Kommunikation bildet das Fundament der WDP-Forschung und liefert den wesentlichen Kontext für jede KI-Analyse.
Links: Eine Mutter eines Zügeldelfins beobachtet ihr Kalb bei der Nahrungssuche. Sie wird ihre einzigartigen Pfiffe verwenden, um das Kalb zurückzurufen, wenn es fertig ist. Rechts: Spektrogramm zur Visualisierung der Pfiffe.
Wir stellen vor: DolphinGemma
Die Analyse der natürlichen, komplexen Kommunikation von Delfinen ist eine monumentale Aufgabe, und der umfangreiche, gekennzeichnete Datensatz von WDP bietet eine einzigartige Gelegenheit für modernste KI.
Und hier kommt DolphinGemma ins Spiel. Dieses von Google entwickelte KI-Modell nutzt spezifische Google-Audiotechnologien: Der SoundStream-Tokenizer stellt Delfingeräusche effizient dar, die dann von einer Modellarchitektur verarbeitet werden, die für komplexe Sequenzen geeignet ist. Dieses ca. 400 Millionen Parametermodell hat die optimale Größe, um direkt auf den Pixel Smartphones ausgeführt zu werden, die WDP im Feld verwendet.
Pfiffe (links) und Burst-Impulse (rechts), die während der frühen Tests von DolphinGemma erzeugt wurden.
Dieses Modell baut auf Erkenntnissen von Gemma auf, Googles Sammlung leichter, hochmoderner offener Modelle, die auf der gleichen Forschung und Technologie basieren wie unsere Gemini-Modelle. DolphinGemma wurde umfassend auf der akustischen Datenbank wild lebender Zügeldelfine von WDP trainiert und fungiert als Audio-In- und Audio-Out-Modell. Es verarbeitet Sequenzen natürlicher Delfingeräusche, um Muster zu identifizieren, zu strukturieren und letztendlich die wahrscheinlichen nachfolgenden Geräusche in einer Sequenz vorherzusagen, ähnlich wie große Sprachmodelle für die menschliche Sprache das nächste Wort oder Zeichen in einem Satz vorhersagen.
WDP beginnt mit dem Einsatz von DolphinGemma, was unmittelbare Vorteile mit sich bringt. Durch die Identifizierung wiederkehrender Klangmuster, Cluster und verlässlicher Sequenzen kann das Modell Forschenden dabei helfen, verborgene Strukturen und mögliche Bedeutungen in der natürlichen Kommunikation der Delfine aufzudecken – eine Aufgabe, die bisher immense menschliche Anstrengungen erforderte. Letztendlich könnten diese Muster - ergänzt durch synthetische Geräusche, die von den Forschenden erstellt wurden, um auf Objekte zu verweisen, mit denen die Delfine gerne spielen - ein gemeinsames Vokabular mit den Delfinen für die interaktive Kommunikation etablieren.
Verwenden von Pixel Smartphones zum Hören und Analysieren von Delfingeräuschen
Neben der Analyse natürlicher Kommunikation verfolgt WDP auch einen eigenen, parallelen Weg: die Erforschung möglicher wechselseitiger Interaktionen mithilfe von Technologie im Ozean. Diese Bemühungen führten zur Entwicklung des CHAT (Cetacean Hearing Augmentation Telemetry)-System in Zusammenarbeit mit dem Georgia Institute of Technology. CHAT ist ein Unterwassercomputer, der nicht dazu dient, die komplexe natürliche Sprache der Delfine direkt zu entschlüsseln, sondern einen einfacheren, gemeinsamen Wortschatz aufzubauen.
Das Konzept basiert zunächst auf der Verknüpfung neuartiger, synthetischer Pfiffe (von CHAT erstellt, die sich von natürlichen Delfingeräuschen unterscheiden) mit bestimmten Objekten, die die Delfine genießen, wie Sargassum (Braunalge) oder Seegras, die die Forschenden verwenden. Durch die Demonstration des Systems zwischen Menschen hoffen die Forschenden, dass die von Natur aus neugierigen Delfine lernen, die Pfiffe nachzuahmen, um diese Gegenstände anzufordern. Wenn schließlich mehr natürliche Geräusche der Delfine verstanden werden, können diese auch dem System hinzugefügt werden.
Um eine wechselseitige Interaktion zu ermöglichen, muss das CHAT-System zunächst Folgendes tun:
- Die Nachahmung akkurat inmitten des Meeresrauschens zu hören.
- In Echtzeit identifizieren, welcher Pfiff nachgeahmt wurde.
- Die Forschenden informieren (über knochenleitende Kopfhörer, die unter Wasser funktionieren), welches Objekt der Delfin „angefordert“ hat.
- Den Forschenden eine schnelle Reaktion ermöglichen, indem das richtige Objekt angeboten und so die Verbindung gestärkt wird.
Ein Google Pixel 6 übernahm die High-Fidelity-Analyse der Delfingeräusche in Echtzeit. Die kommende Generation, die sich um ein Google Pixel 9 dreht (Forschung für Sommer 2025 geplant), baut auf diesen Bemühungen auf, indem sie Lautsprecher-/Mikrofonfunktionen integriert und die fortschrittliche Verarbeitung des Smartphones nutzt, um sowohl Deep-Learning-Modelle als auch Template-Matching-Algorithmen gleichzeitig auszuführen.
Links: Dr. Denise Herzing trägt „Chat Senior, 2012“, rechts: Charles Ramey, Doktorand an der Georgia Tech, trägt „Chat Junior, 2025“
Der Einsatz von Pixel-Smartphones reduziert den Bedarf an kundenspezifischer Hardware erheblich, verbessert die Wartbarkeit des Systems, senkt den Stromverbrauch und verringert die Kosten und Größe des Geräts – entscheidende Vorteile für die Feldforschung im offenen Ozean. In der Zwischenzeit kann die Vorhersagekraft von DolphinGemma CHAT dabei helfen, potenzielle Nachahmer früher in der Lautäußerungssequenz zu antizipieren und zu identifizieren, wodurch die Geschwindigkeit, mit der Forschende auf die Delfine reagieren können, erhöht wird und die Interaktionen flüssiger und verstärkender werden.
Ein Google Pixel 9 in der neuesten CHAT-System-Hardware.
DolphinGemma mit der Forschungsgemeinschaft teilen
Da wir den Wert der Zusammenarbeit bei der wissenschaftlichen Entdeckung erkennen, planen wir, DolphinGemma diesen Sommer als offenes Modell zu veröffentlichen. Während wir uns auf die Geräusche von Zügeldelfinen konzentrieren, gehen wir davon aus, dass sie für Forschende, die andere Walarten wie Große Tümmler oder Spinnerdelfine untersuchen, von potenziellem Nutzen sein werden. Für die Lautäußerungen verschiedener Arten kann eine Feinabstimmung erforderlich sein, und die Offenheit des Modells erleichtert diese Anpassung.
Durch die Bereitstellung von Tools wie DolphinGemma hoffen wir, Forschenden weltweit die Werkzeuge an die Hand zu geben, mit denen sie ihre eigenen akustischen Datensätze analysieren, die Suche nach Mustern beschleunigen und gemeinsam unser Verständnis dieser intelligenten Meeressäugetiere vertiefen können.
Der Weg zum Verständnis der Delfinkommunikation ist lang, aber die Kombination aus engagierter Feldforschung von WDP, technischer Expertise von Georgia Tech und der Leistungsfähigkeit der Google-Technologie eröffnet aufregende neue Möglichkeiten. Wir hören nicht mehr nur zu. Wir fangen an, die Muster innerhalb der Geräusche zu verstehen und ebnen den Weg für eine Zukunft, in der die Kluft zwischen der Kommunikation zwischen Menschen und Delfinen möglicherweise etwas kleiner wird.
Erfahrt mehr über das Wild Dolphin Project auf ihrer Website.