Quelle: KI-Bild von J. Scriba / Dall-E
Hallo,
eigentlich habe ich gar keine Zeit, aber ein Pfingst-Update muss sein. Schließlich haben die beiden Schwergewichte der KI-Branche letzte Woche alle Register gezogen, um der Welt mitzuteilen, dass das maschinelle Denken einen neuen Meilenstein erreicht habe.
Dabei hat OpenAI mit einem Tag Vorsprung und ausgeklügelten Show-Effekten den Erzkonkurrenten von Google ziemlich die Show gestohlen, aber im Prinzip sind die Rivalen auf sehr ähnlichen Wegen: Aus den KI-Systemen sollen Assistenten werden, mit denen man in sehr persönlichen Dialog treten kann. Statt Befehle als schriftliche Prompts oder Sprachanweisungen zu formulieren und auf das Ergebnis zu warten, entsteht die Dienstleistung im Gespräch.
In der über 2-stündigen Keynote wurde ausgiebig die neue Bilderzeugungs-Engine „Imagine 3“ und der Videogenerator „Veo“ vorgeführt, aber auch demonstriert, wie sich Job-BewerberInnen im Dialog mit der KI „Gemini“ auf ein Einstellungsgespräch vorbereiten können.
Das Gesamtereignis gibt es hier zu sehen:
https://www.youtube.com/watch?v=5k_l5VoRC60
Hier eine 10-minütige Zusammenfassung
Quelle: Google
Eine große Rolle spielt das Assistententum natürlich da, wo Chatbots das Kerngeschäft von Google bedrohen. So könnte man versucht sein, in Zukunft seine Fragen bei ChatGPT oder ähnlichen Bots einzugeben, statt mühsam in Links von Suchmaschinen zu stöbern. Und so stellt Google die Zukunft der Websuche als maßgeschneiderte Zusammenfassung, generiert von Google KI-Kumpel dar. Warum ich das nach den Erfahrungen mit dem Wirsing-Effekt und Bard-Halluzinationen für gruselig halte, muss hier nicht wieder ausgebreitet werden.
Deutlich interessanter ist der Blick ins Google-Labor, wo die Engine hinter der KI-Assistenten unter dem Projektnamen „Astra“ gebastelt wird. Hier führt eine Entwicklerin vor, wie sie mit dem Handy durch das Labor geht und sich von der „Gemini“ KI erklären lässt, welches Chassis von der Lautsprecherbox im Blickfeld Hochtöner genannt wird, und was wohl das Programmcode-Fragment auf dem Monitor einer Kollegin tut. Die virtuelle Assistentin erkennt den Stadtteil Londons beim Blick aus dem Fenster und „erinnert“ sich, wo sie zuletzt die Brille der Fragenden gesehen hat.
Quelle: Google
Das sind unterm Strich doch recht nerdige Themen. OpenAI hat dagegen voll auf Sozialkompetenz der KI-GefährtInnen gesetzt und führte sein neues Model „GPT-4o“ vor, indem es seinen Nutzern Atem-Übungen empfiehlt oder Gutenachtgeschichten erfindet. Das „o“ im Namen steht für „omni“ und steht quasi für die nächste Stufe der Multimodalität. Unter der Haube soll das Modell eben allumfassend mit jeder Art von Inhalt arbeiten. Ein Sprachprompt wird demnach nicht erst per Spracherkennung in Text umgewandelt, dann verarbeitet und in synthetischer Sprache ausgegeben, sondern eingehende Sprache wird direkt in ausgehende Sprache verdaut.
Dementsprechend natürlich scheint die Interaktion mit dem Modell vonstatten zu gehen. Der Bot (oder heißen Bots mit weblicher Persönlichkeit Bottin?) lässt sich unterbrechen, nimmt den Gesprächsfaden wieder auf und sprüht dabei vor guter Laune und singt glucksend das gewünschte Schlaflied über Kartoffeln vor.
„Was geht ab“, begrüßt Sam Altman die KI-Gefährtin und lässt sie „raten“, was er denn wohl gerade in diesem Videostudio mache. Die weibliche „Sky“-Stimme kichert und gibt sich ganz aufgeregt, was es denn wohl zu verkünden gebe. Und als sie erfährt, dass es um sie gehe, scherzt sie, dass es sie kaum auf dem Stuhl hielte, wenn sie denn eine Sitzgelegenheit benötigen würde.
Quelle: OpenAI, X
Die Video-Kollektion gibt es hier zu sehen:
https://x.com/OpenAI/status/1790072174117613963
Wer unter den LeserInnen ist im passenden Jahrgang und nerdig genug, um sich dabei an die legendäre TV-Serie „Per Anhalter durch die Galaxis“ erinnert zu fühlen? Dort waren in einem Raumschiff sogar die Automatiktüren mit KI ausgestattet, stöhnten beim Durchschreiten wohlig und säuselten „Vielen Dank, Sie haben eine einfache Tür sehr glücklich gemacht“? Mal sehen, vielleicht bietet OpenAI ja dereinst auch eine Assistenz-Persönlichkeit an, die dem depressiven Androiden Marvin nachempfunden ist, der die interagierenden Menschen stets wissen ließ, wie wenig Spaß es ihm machte, ihren Wünschen nachzukommen, da sie seinen Intellekt so niederschmetternd unterfordern.
Die Message der GPT-4o-Demo ist jedenfalls klar: KIs verstehen, was um sie herum vorgeht, und werden uns künftig quasi auf der Schulter sitzen und in lockerem Geplauder die Welt erklären.
In den Tagen nach der gelungenen Show braute sich jedoch Unheil über OpenAI zusammen, dessen Folgen vielleicht neuen Schwung in die Debatte um Trainingsmaterial und Urheberrechte bringen könnte.
Nicht wenige Zuschauende bemerkten eine starke Ähnlichkeit der offensiv flirtenden KI-Stimme Sky mit jener von Schauspielstar Scarlett Johansson. Altman selbst hatte die Fährte gelegt, als er bei der GPT-4o-Vorstellung Anspielungen an den Film „Her“ machte, in dem Johansson einer damals noch komplett fiktiven KI die Stimme geliehen hatte. Im Film wird der sprechende Computer zum Ersatzpartner des Hauptdarstellers.
Die Ähnlichkeit der Stimme sei reiner Zufall, behauptete OpenAI zunächst. Dann machte Johansson öffentlich, dass die KI-Firma schon vor längerem versucht habe, Sie dazu zu bewegen, als Stimm-Modell anzuheuern. Das habe sie aber abgelehnt, und sei nun recht erbost, dass die Firma anscheinend ihre Stimme trotzdem geklont habe.
https://www.washingtonpost.com/technology/2024/05/20/openai-scarlett-johansson-chatgpt-ai-voice/
Oha…
Die „Sky“-Stimme wurde vorerst deaktiviert. Schau’n wir mal, was daraus noch so wird.
Bis demnächst
Jürgen