Ein APK-Teardown der Google-Gemini-App für Android hat Hinweise auf eine neue Funktion entdeckt. Google scheint daran zu arbeiten, künftig das Anhängen von Audiodateien wie MP3s zu ermöglichen. Darüber hinaus deutet der Code darauf hin, dass Nutzer*innen in Zukunft direkt über die hochgeladene Audiodatei sprechen oder interagieren können.
In der aktuellen Beta-Version der Gemini-App für Android zeichnen sich erste Schritte in Richtung Audiounterstützung ab. Ein Teardown der Version 16.30.59, durchgeführt von Android Authority, zeigt, dass in der Chat-Oberfläche bereits Elemente zur Verarbeitung von Audiodateien eingebunden wurden. So erscheint beim Hochladen einer MP3-Datei ein Button mit der Aufschrift „Talk live about this“. Zwar ist diese Schaltfläche sichtbar, doch die Funktion dahinter ist bislang nicht aktiv. Derzeit bleibt der Upload folgenlos oder führt zu nicht nachvollziehbaren Ergebnissen.
▌► Auch interessant: Das Google Pixel 8a im Hands-On auf Mallorca!
Technisch ist Google jedoch bereits auf diese Erweiterung vorbereitet. Die zugrunde liegende Gemini-API unterstützt seit einiger Zeit Audiodateien in verschiedenen Formaten wie MP3, WAV und FLAC. Damit kann die Software nicht nur Sprache erkennen und transkribieren, sondern auch bestimmte Inhalte zeitlich zuordnen. Das System ist also in der Lage, akustische Informationen präzise zu analysieren und daraus strukturierte Daten zu gewinnen. Die Infrastruktur für diese Form der Verarbeitung ist funktionsfähig und offenbar bereit für die Integration in den aktiven Betrieb.
Die geplante Unterstützung von Audiodateien folgt auf die bereits erfolgte Integration von Bildern in die Gemini-App. Damit entwickelt Google seine Plattform in Richtung einer umfassend multimodalen Nutzererfahrung weiter. Die Kombination aus gesprochener Sprache, Text und Kontext eröffnet neue Möglichkeiten, etwa für interaktive Besprechungen von Audioinhalten oder spontane Analysen von Sprachaufnahmen. Besonders für journalistische, kreative oder bildungsnahe Anwendungen bietet diese Erweiterung Potenzial.
Ein genauer Termin für die Einführung dieser Audiofunktion ist bislang nicht bekannt. Die im Code gefundenen Hinweise deuten aber darauf hin, dass die Integration bereits aktiv vorbereitet wird. Sobald die Funktion einsatzbereit ist, dürfte sie die Art und Weise, wie Nutzer mit Gemini kommunizieren, grundlegend verändern. Gespräche mit der KI könnten dann in Echtzeit über gesprochene Inhalte geführt werden – ein Schritt, der die Flexibilität der Anwendung deutlich erhöht.
Samsung hat nun auf seinem Galaxy-Oktober-Event in Südkorea und den USA das Galaxy XR-Headset offiziell…
Anfang der Woche hat Vivo im Heimatland das als preiswert zu bezeichnende iQOO 15 präsentiert.…
Manch einer von Euch wird vermutlich schmunzeln, wenn wir wieder einmal über das Apple iPad…
Neben dem Realme GT 8 Pro, das mit austauschbaren Kamera-Arrays in runder und eckiger Form…
Noch vor dem OnePlus 15 und OnePlus Ace 6 hat nun das Schwester-Unternehmen heute das…
Bislang war der Exynos-Prozessor von Samsung eher ein Chip, welchen die werte Kundschaft gemieden hat.…
Diese Seite verwendet cookies.