Capa in der Normandie: Die Hygiene der maschinellen Ästhetik

Wir führen endlose Debatten darüber, wie Künstliche Intelligenz Bilder erschafft. Die Angst vor dem Prompt, der nicht nur den Fotografen, sondern den Texter, den Illustrator und den Coder ersetzt, ist allgegenwärtig. Es ist eine berechtigte Sorge um die Entwertung menschlicher Arbeit, doch in diesem Lärm überhören wir oft eine viel subtilere, aber ebenso prägende Entwicklung: Wir sprechen kaum darüber, wie die Maschine Bilder sieht.

Dieser „Machine Gaze“ ist längst keine Zukunftsmusik mehr, sondern der stille Kurator unserer visuellen Kultur. Software entscheidet auf Social Media Plattformen, was wir fühlen sollen, und Kameras entscheiden im „Intelligent Auto Mode“ bereits vor dem Auslösen, was technisch „korrekt“ ist. Doch was sieht die Maschine wirklich, wenn sie auf ein Foto blickt? Sie sieht keine Melancholie. Sie sieht keine Geschichte. Sie sieht keine Zeit, die – wie Susan Sontag es ausdrückte – im Bild stillsteht. Sie sieht Wahrscheinlichkeiten.

Wenn ich eine Software bitte, ein Bild zu bewerten, greift sie nicht auf Geschmack oder kulturelles Wissen zurück, sondern unterzieht das Mysterium der Fotografie einer technokratischen Musterung anhand berechenbarer Kriterien.

Zunächst sucht das System nach Hygiene. Es scannt Pixelcluster auf Rauschen, chromatische Aberrationen und Dynamikumfang. Ein „gutes“ Bild ist hier vor allem ein sauberes Bild, frei von ausgebrannten Lichtern oder absaufenden Schatten. Das Problem dabei ist offensichtlich: Robert Capas berühmte Aufnahmen vom D-Day, The Magnificent Eleven, sind verwackelt, unscharf und körnig. Für die Software sind das Fehlercodes – „Motion Blur“ und „Heavy Grain“. Für uns sind es genau diese Unzulänglichkeiten, die die nackte Angst, das Chaos und das Vibrieren der Geschichte transportieren. Die Maschine will Sauberkeit, wo die Dokumentation den Schmutz braucht.

Hinzu kommt eine rigide Vorliebe für kompositionelle Mathematik. Das neuronale Netz wurde mit Milliarden von Bildern gefüttert und hat gelernt, dass der menschliche Durchschnitt bestimmte Muster – wie die Drittel-Regel oder klare Führungslinien – als „angenehm“ empfindet. Es legt also ein mathematisches Gitter über das Foto und prüft die Balance. Doch das Drama starker Bilder lebt oft vom bewussten Bruch dieser Regeln. Die beklemmende Leere in einem Bild von Edward Hopper oder die verstörend isolierte Positionierung der Gliedmaßen bei Guy Bourdin sind mathematisch „falsch“, emotional aber wahrhaftig. Das System bevorzugt hier den gefälligen Mittelwert; es agiert wie ein Spießer unter den Kunstkritikern.

Noch problematischer wird es, wenn Modelle versuchen zu verstehen, was auf dem Bild eigentlich passiert. Sie identifizieren Objekte – „Frau, Hut, Strand, Lächeln“ – und prüfen, ob diese semantisch kohärent zusammenpassen. Hier offenbart sich die totale Kontext-Blindheit. Ein weinender Mensch auf einer Hochzeit ist für die Logik der Daten ein Widerspruch, da das Label „Hochzeit“ statistisch mit „Fröhlichkeit“ verknüpft ist. Die Ironie, der Witz (man denke an Elliott Erwitt) oder die Tragik einer Situation bleiben unsichtbar. Es werden lediglich Pixel-Cluster erkannt und beschriftet, ohne zu verstehen, warum sie uns berühren.

Verschärft wird dies durch den sogenannten „Aesthetics Score“, den viele Modelle nutzen. Dieser basiert auf Trainingsdaten von Plattformen wie Flickr oder 500px und bewertet ein Bild nach der statistischen Wahrscheinlichkeit, dass die Masse es mit einem „Like“ versehen würde. Das führt zu einer technologischen Bevorzugung von Kitsch: Sonnenuntergänge, übersättigte Farben und dramatische HDR-Effekte erhalten hohe Bewertungen, während spröde, leise oder avantgardistische Fotografie abgestraft wird. Die Maschine hat einen Geschmack – und es ist der Geschmack des kleinsten gemeinsamen Nenners.

Was der künstlichen Intelligenz fundamental fehlt, ist das, was Roland Barthes in Die helle Kammer das Punctum nannte. Jenes zufällige, stechende Detail, das uns berührt, ohne dass wir es erklären können. Der schmutzige Fingernagel, der traurige Blick eines Hundes am Bildrand, die Unschärfe einer Hand. Das System sieht das Studium – das kulturelle Setup, das Arrangement –, aber es ist blind für das Punctum. Es kann Ästhetik simulieren, aber keine Resonanz spüren.

Wenn wir unsere Arbeit der Kritik einer solchen Instanz überlassen – oder uns beim Erschaffen bereits unbewusst nach ihren Regeln richten –, erhalten wir technisch makellose, kompositionell ausgewogene und massentaugliche Ergebnisse. Wir bekommen Bilder und Texte, die niemandem wehtun. Aber Kunst, die etwas bedeuten soll, muss manchmal wehtun. Sie muss unscharf sein, dunkel sein, falsch sein. Nutzen wir die Technik als Werkzeug, um unsere handwerkliche Präzision zu prüfen. Aber vertrauen wir ihr niemals unser Urteilsvermögen an. Denn für den Rechner ist ein Foto nur eine Matrix aus Zahlen. Für uns ist es der Beweis, dass wir da waren.

Weiter
Weiter

Die Höhle ohne Feuer – Sontag, Fotografie und die Schatten, die sich selbst erzeugen