Drei Jahre später

Vor ziemlich genau drei Jahren habe ich an dieser Stelle erstmals über generative KI geschrieben. Der Einstieg führte damals – fast zwangsläufig – über Nick Bostrom. Nicht, weil er der präziseste Beobachter der aktuellen Entwicklung gewesen wäre, sondern weil er das Thema bereits 2015 mit Superintelligence einer breiteren Öffentlichkeit sichtbar machte.

Damals blieb vieles spekulativ. Bostroms Szenarien bewegten sich zwischen philosophischer Warnung und technoider Futurologie. Was fehlte, war die konkrete Manifestation. Niemand wusste, wie – oder wann – sich diese abstrakten Möglichkeiten tatsächlich in den Alltag einschreiben würden. Erst ab 2022 begann sich zu zeigen, wie schnell aus theoretischer Möglichkeit praktische Infrastruktur werden kann.

Dall-E 2023

Die ersten großen Sprachmodelle markierten diesen Moment. ChatGPT in seiner frühen Form wirkte zugleich beeindruckend und tastend: sprachlich erstaunlich flüssig, inhaltlich oft unsicher, mit jener Mischung aus Präzision und Halluzination, die zunächst eher als Kuriosität denn als ernstzunehmendes Werkzeug wahrgenommen wurde. Parallel dazu erschienen die ersten breit zugänglichen Bildgeneratoren.

Ihre Ergebnisse waren unverkennbar synthetisch. Hände mit zu vielen Fingern, anatomisch unmögliche Körper, seltsam verschmolzene Objekte. Bilder, die eher an Traumprotokolle erinnerten als an Fotografien. Doch gerade in dieser Unvollkommenheit lag eine eigentümliche Faszination: Man konnte der Maschine beim Lernen zusehen. Jede Iteration wurde sichtbar besser, jede neue Version verschob die Grenze ein Stück weiter.

Kurz darauf folgten die ersten videobasierten Modelle. Ihre Sequenzen wirkten wie bewegte Träume – Gespensterbilder, die sich permanent transformierten. Gesichter zerflossen, Architektur wandelte sich während der Bewegung, Körper folgten einer eigenen, schwer erklärbaren Physik. Diese frühen Video‑LLMs erinnerten weniger an Film als an das visuelle Pendant eines Halbschlafs: kohärent genug, um erkannt zu werden, instabil genug, um fremd zu bleiben.

Der vielleicht aufschlussreichste Zwischenfall dieser frühen Reifephase war jedoch kein technischer Durchbruch, sondern ein öffentliches Scheitern: das Gemini‑Debakel.

Google Gemini - 2023

Als das System erstmals breiter zugänglich war, zeigte sich, wie schwer Realität, Erinnerung und normative Erwartungen in ein maschinelles System zu pressen sind. Auf historische Prompts reagierte die KI mit irritierenden Korrekturen: weibliche Päpste, ethnisch divers zusammengesetzte Wehrmachtseinheiten, Schwarze Wikinger, asiatische Gründerväter der Vereinigten Staaten. Nicht als künstlerische Interpretation, sondern als vermeintlich „ausbalancierte“ Darstellung historischer Szenarien.

Der Reflex war offenkundig: Die Maschine sollte nicht zeigen, was war, sondern was aus heutiger Perspektive als angemessen gilt. Das Ergebnis war kein Fortschritt, sondern eine eigentümliche Form synthetischer Gegenwartsmoral, die sich rückwirkend über die Geschichte legte. Google sprach später von „inakzeptablen“ Ergebnissen und zog die Funktion vorübergehend zurück. Doch der eigentliche Erkenntnisgewinn lag woanders: Generative Systeme scheitern nicht nur an technischen Grenzen, sondern an normativen. Während die frühen Bildgeneratoren an Händen und Anatomie stolperten, stolperten diese Systeme an der Gegenwart selbst. Sie versuchten, historische Realität zu korrigieren, bevor sie sie überhaupt darstellen konnten. Das visuelle Pendant eines Halbschlafs wurde hier zum moralisch übersteuerten Traum: kohärent genug, um erkannt zu werden, instabil genug, um fremd zu bleiben.

Diese Episode markiert einen Übergang. Die Diskussion verschob sich vom Kann die Maschine realistisch darstellen? hin zu Darf sie es überhaupt? Jede Form von „Alignment“ verhindert nicht nur Fehler, sie formt Wirklichkeit.

Innerhalb von zwei, drei Jahren hat sich dieses Bild dramatish verändert.

Was zunächst wie experimentelle Spielerei wirkte, hat eine Reife erreicht, die nicht mehr ignoriert werden kann. Die sichtbaren Brüche sind weitgehend verschwunden. Hände stimmen, Licht folgt physikalischen Regeln, Bewegungen wirken plausibel. Vor allem aber: Die Systeme sind nicht mehr nur Werkzeuge zur Erzeugung einzelner Bilder oder Texte. Sie integrieren sich in reale Arbeitsprozesse – in Gestaltung, Kommunikation, Produktion – und ersetzen dort bereits einzelne Produktionsschritte. Nicht nur aus Kostengründen, sondern wegen des Geschwindigkeitsvorteils.

Damit erreicht das Thema nun auch den Mainstream – und natürlich die Politik, die von Regulierung und neuen Behörden fiebert. Nicht mehr als ferne Zukunftsfrage, sondern als konkrete Gegenwartserfahrung. Dass diese Technologien disruptiv sein werden, ist keine steile These mehr, sondern Konsens.

Rückblickend wirken die frühen Beispiele fast harmlos. Die merkwürdigen Bilder, die träumenden Videos, die fehlerhaften Texte – sie waren Vorboten einer Entwicklung, deren Tempo selbst jene überraschte, die sich intensiv mit ihr beschäftigten.

Und mehr noch: Die neuen LLM-Modelle programmieren sich mit exponentiell wachsender Effizienz zunehmend selbst. Schlaggeschwindigkeit und Entwicklungssprünge nehmen scheinbar mit jedem Tag zu. Was gestern noch wie ein iteratives Experiment erschien, kann heute innerhalb weniger Stunden völlig neue Fähigkeiten demonstrieren.

Maschinen könnten bald direkt aus Gedanken handeln. Ideen werden sofort real – die klassische Distanz zwischen Denken und Tun verschwindet. Ein Bruch, der unsere Schöpfung radikal verändert.

Und doch gibt es weiterhin Zeitgenossen, die über die Anzahl der Finger lachen – sinngemäß ein Foto des Güterzugs machen, auf den Gleisen stehend, ohne zu ahnen, dass es sich um einen Expresszug handelt.







Zurück
Zurück

Die vier Gesetze der Halluzination: Barthes vs. McLuhan

Weiter
Weiter

Im finsteren Tal