Ein APK-Teardown der Google-Gemini-App für Android hat Hinweise auf eine neue Funktion entdeckt. Google scheint daran zu arbeiten, künftig das Anhängen von Audiodateien wie MP3s zu ermöglichen. Darüber hinaus deutet der Code darauf hin, dass Nutzer*innen in Zukunft direkt über die hochgeladene Audiodatei sprechen oder interagieren können.
Google Gemini mit „Live darüber zu sprechen“-Funktion!
In der aktuellen Beta-Version der Gemini-App für Android zeichnen sich erste Schritte in Richtung Audiounterstützung ab. Ein Teardown der Version 16.30.59, durchgeführt von Android Authority, zeigt, dass in der Chat-Oberfläche bereits Elemente zur Verarbeitung von Audiodateien eingebunden wurden. So erscheint beim Hochladen einer MP3-Datei ein Button mit der Aufschrift „Talk live about this“. Zwar ist diese Schaltfläche sichtbar, doch die Funktion dahinter ist bislang nicht aktiv. Derzeit bleibt der Upload folgenlos oder führt zu nicht nachvollziehbaren Ergebnissen.
▌► Auch interessant: Das Google Pixel 8a im Hands-On auf Mallorca!
Technisch ist Google jedoch bereits auf diese Erweiterung vorbereitet. Die zugrunde liegende Gemini-API unterstützt seit einiger Zeit Audiodateien in verschiedenen Formaten wie MP3, WAV und FLAC. Damit kann die Software nicht nur Sprache erkennen und transkribieren, sondern auch bestimmte Inhalte zeitlich zuordnen. Das System ist also in der Lage, akustische Informationen präzise zu analysieren und daraus strukturierte Daten zu gewinnen. Die Infrastruktur für diese Form der Verarbeitung ist funktionsfähig und offenbar bereit für die Integration in den aktiven Betrieb.

Google entwickelt Gemini stetig weiter
Die geplante Unterstützung von Audiodateien folgt auf die bereits erfolgte Integration von Bildern in die Gemini-App. Damit entwickelt Google seine Plattform in Richtung einer umfassend multimodalen Nutzererfahrung weiter. Die Kombination aus gesprochener Sprache, Text und Kontext eröffnet neue Möglichkeiten, etwa für interaktive Besprechungen von Audioinhalten oder spontane Analysen von Sprachaufnahmen. Besonders für journalistische, kreative oder bildungsnahe Anwendungen bietet diese Erweiterung Potenzial.
Ein genauer Termin für die Einführung dieser Audiofunktion ist bislang nicht bekannt. Die im Code gefundenen Hinweise deuten aber darauf hin, dass die Integration bereits aktiv vorbereitet wird. Sobald die Funktion einsatzbereit ist, dürfte sie die Art und Weise, wie Nutzer mit Gemini kommunizieren, grundlegend verändern. Gespräche mit der KI könnten dann in Echtzeit über gesprochene Inhalte geführt werden – ein Schritt, der die Flexibilität der Anwendung deutlich erhöht.
Google Pixel 8a im Hands-On: Dieses Smartphone sollte jeder haben!




















Leave a Reply